• Aucun résultat trouvé

Analyse élémentaire des résultats des mesures

Une fois collectées, les mesures peuvent être très simplement exploitées en considérant individuellement chaque variable. Les techniques statistiques et/ou graphiques correspondantes sont élémentaires, dans la mesure où elles sont unidimensionnelles et souvent empiriques. En ce sens, elles font plutôt référence à des modèles simples (distributions unidimensionnelles, famille limitée de lois statistiques) et à des procédés de visualisation aisés à mettre en œuvre. Les objectifs sous-jacents à ces traitements élémentaires peuvent être variés: prise de contact avec les résultats, contrôle sommaire de 1a validité des mesures, description élémentaire des résultats des mesures, résumés statistiques et/ou graphiques d'une campagne de mesures. Les outils correspondants sont multiples et complémentaires.

- Editions claires de tout ou partie des valeurs observées;

- Visualisation des distributions de divers sous-échantillons;

- Ajustement de lois statistiques et intervalles de confiance;

- Tracé de certains profils chronologiques;

- Cartographie des valeurs observées ou de leurs résumés statistiques, etc ...

Outre qu'elles soient en général simples à mettre en œuvre, ces techniques présentent le caractère commun suivant: elles résument peu l’information et ne peuvent être valablement interprétées qu'au prix d'une bonne connaissance des phénomènes et d'une certaine intuition.

Il serait donc hasardeux de vouloir décrire ou critiquer les résultats d'une campagne de mesures ou de prétendre rationaliser un réseau en se limitant à ces seuls premiers outils. De telles approches offrent cependant un support irremplaçable et constituent une première étape lorsqu'on met en œuvre des méthodes plus rigoureuses (contenu en information, tests, etc.), plus analytiques (analyse multidimensionnelle) ou plus synthétique (classification automatique). On précise et illustre ici quelques-unes de ces techniques de base.

15.3.1 Edition des valeurs observées ou de comptage

Le premier stade de l'exploitation d'une campagne de mesures consiste à rassembler, pour une variable donnée, l'ensemble des résultats observés. n s'agit tout d'abord de construire des états où sont imprimés en clair les valeurs observées, leurs conditions de mesure (seuil de sensibilité de la méthode utilisée, numéro du prélèvement), etc ... La présentation adoptée doit viser à indiquer la chronologie (lignes successives) des mesures et leur localisation (colonnes ou pages successives). C'est à partir de tels états que l'on peut tenter certains contrôles de vraisemblance ou effectuer certaines comparaisons.

Exemple 15.7 : Présentation des valeurs de conductivité (μmhos/cm) observées en 2 stations A et B à différentes dates

Le tableau 15.1 regroupe ces données. Les tirets (-) indiquent une absence de données et les astérisques (*) des valeurs hétérogènes difficilement comparables aux autres.

Dans certains cas, il y a lieu de n'imprimer que les valeurs supérieures à un seuil : par exemple celles supérieures à 400 μmhos/cm. Le tableau 15.1 prend la forme du tableau partiel 15.2.

Aux états de valeurs brutes, il est souvent utile d'adjoindre des tableaux de comptage.

Pour cela, on définit des modalités de valeurs pour la variable considérée. Par exemple :

C1 pour x < 150 C2 pour 150 ≤ x < 200 C3 pour 200 ≤ x < 300 C4 pour 300 ≤ x < 400 C5 pour x ≥ 400

C- pour x non mesurée ou douteuse

En comptant le nombre de valeurs respectivement associées à chaque modalité et à chaque station, on est conduit au tableau 15.3: Ce tableau, bien que très réduit, renseigne sur la répartition des valeurs de la conductivité dans les deux stations considérées.

15.3.2 Visualisation des distributions de divers échantillons

C'est à partir de comptages tels que ceux qui apparaissent dans le tableau 15.3 que l'on peut visualiser la distribution de la variable x pour divers échantillons. Deux cas peuvent se produire:

- La variable x est discrète : par exemple, si x représente des numéros de tournées ou des comptages;

- La variable x est continue (ou assimilée continue) : par exemple les valeurs de conductivité (éventuellement arrondies).

On considère (k-1) classes, d'extrémités e1, e2, … , ek ; la classe j a pour bornes ej et ej+1 et un effectif nj. La fréquence relative de la classe j est fi=nj/n et la fréquence cumulée est Fj (proportion de valeur pour lesquelles x < ej ) telle que:

Fj= ∑ fj

J

j=1

j = 1, k − 1

Exemple 15.8: Pour les 20 valeurs de conductivité observées à la station A de l'exemple 15.7 (tableau 15.1), on est conduit au tableau statistique 15.4 :

La représentation graphique associée aux données du tableau 15.4 s'appelle un

"diagramme en bâton" dans le cas des variables discrètes et un "histogramme" dans le cas des variables continues. La figure 15.4 visualise l'histogramme correspondant au tableau 15.4. Il est d'usage de choisir des classes d'amplitudes égales. Lorsque ce n'est pas le cas, il convient

de donner au rectangle représentatif de chaque classe, une surface proportionnelle à sa fréquence. La forme de l'histogramme peut, dans certains cas, dépendre du choix des classes.

Aussi, il importe en pratique de faire ce choix qui soit un compromis entre la précision (classes étroites) et la stabilité (classes larges) de l'histogramme. Certains auteurs (Calot, 1975) suggèrent de choisir le nombre de classes en fonction de l'effectif n de l'échantillon et de soigner particulièrement le choix des classes marginales.

Figure 15.4 : Histogramme des valeurs de conductivité (x) à la station A.

Il importe cependant de noter, que si l'on veut comparer les distributions de plusieurs sous-échantillons, il est nécessaire de faire ce choix judicieusement et une fois pour toutes.

15.3.3 Ajustement de lois statistiques et intervalles de confiance

Les calculs élémentaires précédents sont très empiriques par nature. Pour comparer numériquement plusieurs distributions ou pour profiter de certaines informations liées aux distributions, on fait appel aux moments empiriques des distributions et, lorsque c'est possible, à des lois statistiques.

Les statistiques les plus utilisées sont dans l'ordre:

- La moyenne (ou paramètre de centrage) : 𝑥̅ = ∑𝑛𝑖=1𝑝𝑖𝑥𝑖

- La variance (ou paramètre de dispersion) : 𝑣𝑎𝑟(𝑥) = ∑𝑛𝑖=1𝑝𝑖(𝑥𝑖 − 𝑥̅)2 - Le coefficient d'asymétrie : 𝐶𝑠(𝑥) = 1

[𝑣𝑎𝑟(𝑥)]3/2𝑛𝑖=1𝑝𝑖(𝑥𝑖 − 𝑥̅)3

où xi et pi sont respectivement la valeur de la variable x et le poids relatif de 1'observation i (i=1,n) en pratique on prend pour un échantillon pi = 1/N. Pour plus de détails sur le sens et l'utilisation de ces indicateurs de distribution, on peut se reporter à Calot (1975].

Lorsque l'on veut passer de ces indicateurs statistiques à de véritables lois statistiques, il faut que les h observations soient statistiquement indépendantes et extraites d'une population homogène. Pour l'indépendance, on applique en général le test d'Anderson (1941) qui est brièvement décrit en 15.5.1. L'homogénéité peut en particulier être examinée à 1'aide du test de Mann-Whitney (fiche A). Pour l'ajuste ment proprement dit, on choisit quelques modèles de lois dépendant de deux ou trois paramètres. L'estimation des paramètres étant réalisée sur chaque modèle (fiche C), un examen graphique ou des tests d'adéquation permettent d'identifier les ajustements satisfaisants. Pour chaque loi retenue pour représenter l'échantillon considéré, on peut en déduire des intervalles de confiance au niveau (1- α) pour telle ou telle caractéristique statistique: moyenne, variance, quantiles, etc.

d'indépendance est positif (paragraphe 15.5.1) et qu'en conséquence on peut effectuer un ajustement par une distribution. Pour les deux types de loi retenus, on obtient en appliquant la méthode du maximum de vraisemblance (fiche C):

Loi normale μ = 290,6 σ = 86,2

Loi Gamma α = 0,0384 λ = 11,1476

La figure 15.5 permet d'apprécier graphiquement la meilleure qualité d'ajustement de la loi Gamma. Bien que la loi normale soit encore acceptable, la loi Gamma est ici préférable car elle est distribuée sur (0, +∞). Le figure 15.5 résume l'ensemble des caractéristiques de la distribution et les intervalles de confiance aux niveaux 50%, 80% et 95% pour 17 probabilités au dépassement. Ce type de renseignement peut être un outil pour rationaliser le réseau d'observation que l'on étudie [Montgomery et Hart, 1971, 1974].

15.3.4 Profils chronologiques et cartographie

Les techniques de représentation qui consistent à tracer des profils chronologiques ou à cartographier des valeurs ont pour but de visualiser la dépendance temporelle ou spatiale des observations recueillies.

On appelle profil chronologique d'une grandeur x mesurée à divers instants, la représentation de x en fonction du temps. La figure 15.6 en fournit un exemple. Un tel graphique permet de juger de l'évolution de x au cours du temps, de détecter d'éventuelles anomalies, d'appréhender des corrélations temporelles, etc . . . [Le Foll et al., 1979].

En pratique, on peut représenter ainsi non seulement des mesures brutes, mais encore des moyennes spatiales, des combinaisons linéaires de variables, etc ...

Pour juger de la répartition spatiale de la grandeur x, on a souvent recours aux représentations cartographiques. Si x est discrète, il suffit d'adopter une codification visuelle (par exemple des signes distinctifs, cf. [LeFoll et al., 1977 j]) pour chaque valeur de x. La figure 15.7 montre la cartographie des mesures d'ammonium en 271 points du bassin Seine-Normandie. En chaque site, on place des cercles dont la surface est approximativement proportionnelle à la moyenne locale observée en 1976. Ces cercles sont de plus hachurés quand la moyenne dépasse 2 mg/l.

15.4 Caractérisation des données et incidence sur la rationalisation