• Aucun résultat trouvé

1 Chapitre 15 - RESEAUX DE MESURES ET ANALYSE DE DONNEES

N/A
N/A
Protected

Academic year: 2022

Partager "1 Chapitre 15 - RESEAUX DE MESURES ET ANALYSE DE DONNEES"

Copied!
45
0
0

Texte intégral

(1)

Chapitre 15 - RESEAUX DE MESURES ET ANALYSE DE DONNEES

15.0 Introduction

15.1 Principes d'acquisition rationnelle de l'information 15.1.1 Nécessité de la rationalisation

15.1.2 Schéma de rationalisation

15.1.3 Les caractéristiques du plan d'échantillonnage

15.2 Techniques contribuant à l’élaboration d‘un plan d’échantillonnage 15.2.1 Echantillonnage aléatoire simple d'une variable

15.2.2 Détermination de la taille d'un échantillon dans un échantillonnage aléatoire simple 15.2.3 Estimation de la moyenne et de la somme des éléments d'une population par échantillonnage aléatoire stratifié

15.2.4 Etude d'un cas-type: élaboration d'un plan par échantillonnage stratifié 15.2.4 Intérêt de la stratification

15.2.5 Localisation des stations de mesure

15.3 Analyse élémentaire des résultats des mesures

15.3.1 Edition des valeurs observées ou de comptage 15.3.2 Visualisation des distributions de divers échantillons 15.3.3 Ajustement de lois statistiques et intervalles de confiance 15.3.4 Profils chronologiques et cartographie

15.4 Caractérisation des données et incidence sur la rationalisation 15.4.1 Influence de la dépendance des observations

15.4.2 Contenu en information 15.4.3 Homogénéité des observations

15.5 Analyse multidimensionnelle des résultats des mesures 15.5.1 Choix d’un objectif d’analyse

15.5.2 Constitution du tableau de données à analyser 15.5.3 Etude des corrélations linéaires entre variables 15.5.4 Etude des liaisons non linéaires entre variables 15.5.5 Etude des variabilités temporelle et spatiale

15.6 Synthèse des résultats par classification automatique 15.6.1 Nature des résultats en classification automatique 15.6.2 Regroupement des variables homogènes

15.6.3 Regroupement et caractérisation des sites homogènes 15.6.4 Regroupement des instants d’observation

15.7 Traitement d’un cas-type : Délimitation de zones homogènes de qualité dans le fleuve St- Laurent

15.7.1 Objectifs

15.7.2 Analyse des données 15.7.3 Conclusion de l'étude de cas 15.8 Conclusion

Bibliographie

(2)

15.0 Introduction

Pour répondre aux divers problèmes posés en hydrologie, on est amené à recueillir des données; dans de nombreux cas, il s'agit d'établir des réseaux de stations permettant d'acquérir l’information recherchée de manière rationnelle. Les variables mesurées étant de nature stochastique, leur échantillonnage à certaines périodes et en un nombre limité de points conduit à une erreur d'échantillonnage; celle-ci tend à décroître lorsque l'on augmente le nombre de points de mesure et la fréquence d'échantillonnage. Les budgets accordés à l'acquisition des données étant limités, il en résulte une incertitude dans la connaissance que l'on peut acquérir de la variabilité spatio-temporelle d'une variable ou d'un groupe de variables présentant de l’intérêt; c'est pourquoi on doit chercher à tirer le meilleur parti des budgets disponibles de la meilleure manière possible en élaborant des plans d'échantillonnage adéquats et des réseaux de mesure rationnels; on améliore ainsi comme l'indique Dawdy [1979], la valeur de chaque information recueillie.

Bien qu‘i1 n'existe aucune approche universelle ni aucune méthode systématiquement efficace, on tente ici de:

-dégager certains principes concernant la conception de réseaux rationnels de mesure (15.2);

-décrire certaines techniques de base relatives à l'élaboration de plan d'échantillonnage (15.3).

-caractériser par des méthodes descriptives et générales les données recueillies (15.4 et 15.5) ;

-montrer comment les méthodes multivariées permettent de décrire de grands tableaux de données et constituent une première étape vers la modélisation des phénomènes (15.6 et 15.7). Un cas type précise l'utilisation pratique de ces méthodes (15.8).

Ces divers aspects ne peuvent cependant prétendre répondre à toutes les questions concernant les réseaux d'acquisition de données; on vise seulement ici à donner une perception globale et des méthodes générales permettant un premier examen des données. Il ne saurait en être autrement, étant donné la diversité des réseaux que l'on peut élaborer pour la mesure de variables météorologiques, hydrogéologiques, hydrologiques, physico-chimiques et biologiques.

La conception des réseaux de qualité de l'eau est particulièrement complexe puisqu'à la variabilité spatio-temporelle caractéristique de chaque variable, on doit ajouter la multiplicité des variables à considérer pour résoudre un problème donné; de manière générale, à chaque objectif d'étude, on peut associer un type de réseau; en qualité de l'eau particulièrement, les scientifiques caractérisent ainsi les divers types de réseau: connaissance générale, tendance, planification et aménagement, dépassement des normes, etc.; Ward [1973]

identifie par exemple 17 objectifs dans le cas d'un réseau de surveillance. Comme le souligne Moss [1979], "l'usage actuel du terme réseau d'acquisition de données réfère à un amalgame d'activités de collecte d'information qui contribuent à un but souvent vague".

On a de plus été conduit, en raison du caractère nécessairement limité de ce chapitre, à ignorer certaines approches et techniques particulières; parmi celles qui peuvent être d'une grande utilité pour la conception et la caractérisation de certains réseaux, citons par exemple:

l'étude des relations entre variables par méthodes régressives (cette modélisation permet de réduire dans certains cas le nombre de variables à mesurer), le transfert d’information d'un site à un autre en utilisant les corre1ations inter-stations, l'analyse en série de temps d'une

(3)

variable donnée et l'étude de la variabilité spatiale par krigeage.

Ces méthodes ont cependant été considérées dans d'autres chapitres en raison de leur intérêt pour la solution de problèmes particuliers.

Certains aspects tels que l'intégration des réseaux, la rationalisation dynamique sont encore du domaine de la recherche. Mais en raison de leur intérêt croissant ils seront brièvement abordés en conclusion.

15.1 Principes d'acquisition rationnelle de l'information 15.1.1 Nécessité de la rationalisation

Les campagnes de mesures sont coûteuses en personnel et conduisent particulièrement pour l'acquisition de variables de qualité de l'eau à des coûts élevés de transport, d'analyse en laboratoire, de stockage et de traitement des données. Malheureusement, on constate souvent que les données acquises ne permettent pas de répondre aux questions que l'on se pose. Les circonstances les plus typiques sont les suivantes:

-les variables pertinentes n'ont pas été mesurées, alors que l'on peut disposer de variables dont la connaissance est peu utile;

-la fréquence de mesure est inadéquate, compte tenu de la variabilité temporelle de 1a variable étudiée;

-la densité des stations ne permet pas d'appréhender la variab1lité spatiale avec une précision suffisante.

Dans d'autres cas, par contre, on peut disposer d'un ensemble de données inutiles ou conduisant à une précision trop grande pour les objectifs visés.

Toutes ces lacunes ont pour cause commune le manque de souci de rationalisation dans l'élaboration du plan d'échantillonnage et l'utilisation souvent insuffisante de l’information déjà disponible.

Le manque de planification qui accompagne certaines campagnes de mesure est dû à l'absence de définition claire des buts qu'un réseau doit atteindre ou à une définition trop vague de ses objectifs par exemple "l'étude générale de la qualité générale de l'eau", comme le signale Wilson [1974].

Si ces considérations sont particulièrement vraies pour les réseaux de qualité, elles s'appliquent souvent aussi aux divers types de réseaux hydrologiques moins complexes en raison d'une meilleure connaissance a priori de la variabilité spatio-temporelle des caractéristiques hydrologiques et en raison du plus petit nombre de variables généralement considérées.

De manière synthétique, on peut dire que la rationalisation d'un réseau de mesure consiste en son implantation et en son exploitation adéquate de façon à atteindre au moindre coût et avec le maximum d’efficacité les objectifs qui ont présidé à sa mise en place.

15.1.2 Schéma de rationalisation

La définition précise de l’objectif du réseau de mesure est la partie essentielle du

(4)

composantes du plan d’échanti1lonnage qui sont: les variables (Quoi mesurer ?), la densité et la localisation des stations (Où mesurer ?), la fréquence et les dates de mesure (Quand mesurer ?), la durée d’opération du réseau (Combien de temps mesurer ?).

L’objectif de la connaissance du débit moyen annuel dans une région ne conduira pas, par exemple, au même plan d’échanti1lonnage que celui permettant 1’estimation des crues ou encore des étiages.

La réalisation du plan d’échantillonnage dépend par ailleurs de facteurs tels que:

- l’existence et la pertinence d’information disponible a priori pour permettre une première évaluation de la variabilité spatiale et temporelle des variables à mesurer; c’est en effet un paradoxe de la conception des réseaux souligné par Moss [1979] que « les paramètres statistiques [variance, par exemple] qui contrôlent 1’optimalité du réseau sont fréquemment des inconnues que le réseau a pour but d’estimer ». C‘est pourquoi, i1 est nécessaire d’effectuer une estimation, a priori, résultant d’un transfert d’information ou d’un pré- échantillonnage;

- les contraintes logistiques et analytiques: On doit, en particulier, tenir compte des ressources humaines et du matériel disponibles pour la mesure sur le terrain et au laboratoire, afin de planifier adéquatement l’acquisition de l’information. Les contraintes logistiques et analytiques ne doivent cependant pas être les facteurs prédominants, lors de 1’élaboration du plan d’échantillonnage comme cela était trop souvent le cas lors de l’implantation des premiers réseaux de qualité de 1’eau: on avait en effet tendance à mesurer ce qui était le plus facile avec une fréquence reliée davantage aux disponibilités des laboratoires qu’à la variab1lité temporelle des variables considérées;

- le choix des méthodes de traitement des données qui ont des implications parfois importantes sur 1’acquisition de l’information. La comparaison de données à 2 ou plusieurs stations par des méthodes régressives ou multivariées implique, dans certains cas, une concomitance des prélèvements pour permettre une analyse logique. On doit également chercher à minimiser le taux de données manquantes, ce qui est une condition pour l ‘application adéquate de nombreuses méthodes. En pratique, on doit avant d’acquérir les données, planifier 1’analyse que 1’on en fera afin de bien identifier les principales contraintes reliées au traitement.

- 1’identification des divers types d’erreurs; les erreurs interviennent à plusieurs niveaux:

• Erreur d’échantillonnage due au fait que 1’on ne dispose que d’un échantillon tiré d’une population et qu’il en résulte une connaissance imprécise; la variance d’échantillonnage quantifie cette incertitude;

• Erreur de mesure sur le terrain ou au laboratoire dans le cas de la mesure de variables physico-chimiques ou biologiques.

Une identification aussi précise que possible de ces diverses erreurs est importante, tant pour mesurer l'accomplissement des objectifs du réseau (par exemple, connaissance du débit moyen annuel avec une précision de 10%) que pour l'usage ultérieur qui peut être fait des données dans des études de modélisation.

La figure 15.1, qui montre le schéma d'élaboration d'un réseau, fait ressortir les relations entre les caractéristiques du plan d'échantillonnage et les facteurs susceptibles de l'influencer.

(5)

15.1.3 Les caractéristiques du plan d'échantillonnage a) Variables mesurées

En relation avec l'objectif visé, on doit préciser les variables que l'on souhaite connaître. Si cette étape est relativement simple pour les réseaux hydrométriques et météorologiques, il n'en est pas de même pour les réseaux de mesure de la qualité de l'eau où le choix des paramètres peut être délicat. Pour ce type de réseau, on a observé une tendance à introduire la mesure de variables faciles à mesurer, mais non essentielles en supposant que ces données pourront devenir un jour utiles. Cette approche, en plus des coûts prohibitifs qu'elle peut impliquer, conduit à l'acquisition de données dont la pertinence n'est pas justifiée en fonction d'objectifs clairs et qui sont peu-utilisées par la suite. Le choix des variables de qualité doit également être effectué sans ambiguïté [Wilson, 1974]. Ainsi pour les substances qui se présentent sous diverses formes physiques (particulaires ou solubles) ou chimiques (précipitées ou complexées), on doit bien préciser quelle est la forme à retenir.

Dans certains cas, le nombre de variables présentant de l’intérêt peut être élevé et i1 devient important, tant pour l'acquisition que pour le traitement ultérieur des données, de hiérarchiser ces variables en fonction de leur relation avec l'objectif visé.

b) Choix des caractéristiques statistiques et des précisions requises

Selon l'objectif visé par le réseau (mesure de tendance, connaissance générale, surveillance), on peut s'intéresser à diverses caractéristiques de la ou des variables retenues.

Citons par exemple la moyenne sur une période donnée (saison ou année), la valeur extrême de probabilité au dépassement fixée et la moyenne régionale.

Cette traduction des objectifs du réseau en termes statistiques a une implication sur les diverses composantes du plan d'échantillonnage (fréquence, densité, durée d'opération) et également sur le choix des techniques d'analyse des données. Ces caractéristiques seront connues avec une certaine erreur d'échantillonnage due au fait que l'on ne dispose que d'un échantillon pour décrire un phénomène qui évolue dans le temps et l'espace. La théorie statistique permet de quantifier cette incertitude (paragraphe 15.3); si par exemple, on s‘intéresse à la moyenne d'une variable sur une certaine période et que l'on dispose d'un échantillon de données représentatives et indépendantes, on pourra, pour un niveau de confiance donné, déterminer avec quelle précision cette moyenne est atteinte.

Réciproquement, on peut également estimer le nombre de mesures indépendantes nécessaires pour connaître une caractéristique statistique avec une précision donnée pour un certain niveau de confiance; on peut ainsi relier certaines caractéristiques du plan d’échantillonnage (fréquence, densité) à la variabilité (temporelle ou spatiale) du phénomène considéré. Les techniques utilisées à cette fin seront décrites au paragraphe 15.3, mais il est déjà possible de voir comment la traduction des objectifs du ré seau en termes plus concrets (caractéristiques statistiques, précision visée) permet de définir plus adéquatement les composantes du plan d’échantillonnage.

c) La fréquence d’échantillonnage

La détermination de la fréquence d’échanti1lonnage est liée à la variabilité temporelle des phénomènes étudiés. En effet, le but visé lors de l’échantillonnage d’une variable

(6)

valeur extrême, par exemple). Cependant, puisque la variable considérée est soumise à des variations temporelles et que sa mesure à chaque instant est impossible, 1’estimation de la vraie valeur de cette variable à partir de données est entachée d’une erreur d’échanti1lonnage.

La définition de la fréquence d1échantillonnage requise doit donc viser à permettre 1’estimation de la caractéristique désirée avec une erreur compatible avec les objectifs qui ont été établis et qui justifient l’acquisition des données. Si 1’on dispose de connaissances a priori suffisantes (données ou études théoriques), il est en général possible d’effectuer 1’estimation de la fréquence souhaitable à 1’aide de méthodes statistiques.

Dans le cas le plus simple, où la variable mesurée est uniquement soumise à une variation aléatoire dans le temps, le temps d’échantillonnage n’a pas d’importance; par contre, lorsqu’une partie déterministe (cycle, tendance, pic régulier), superposée à la partie aléatoire, contribue à la valeur de la variable, le temps d’échantillonnage doit être pris en considération pour éviter des biais d’estimation.

Si, par exemple, on veut déterminer la valeur moyenne d’une variable caractérisant la toxicité de l’eau rejetée par une industrie avec d’importantes variations journalières, l’échantillonnage doit en tenir compte en assurant une représentation homogène à chacun des jours. Donc, pour un objectif visé (détermination d’une valeur moyenne, d’une valeur extrême, etc.), il est important de distinguer les contributions aléatoires et déterministes des valeurs mesurées, si 1’on veut effectuer une détermination adéquate de la fréquence et du temps d’échantillonnage. Le calcul de la fréquence permettant d’effectuer la détermination de la caractéristique (moyenne, médiane, percentile, etc.) de la variable avec une précision fixée pour atteindre l’objectif visé peut être effectué à 1’aide de méthodes statistiques (basées en particulier sur la notion d’intervalle de confiance) (fiche A et paragraphe 15.3).

d) La densité et la localisation des points de prélèvement

La nature ponctuelle ou diffuse d’un problème spécifique est un facteur discriminant, en ce qui concerne la localisation et la densité des points de prélèvement.

Dans le cas d’un échantillonnage relatif à un problème qui se pose de manière locale (rejet d’industrie, par exemple), la localisation précise des points de mesure peut, en général, être déduite de la nature même du problème. Le choix du nombre de stations dépend également de la formulation précise des questions auxquelles l’échantillonnage doit répondre.

Dans le cas d’un réseau qui a pour but de mesurer des variables qui varient à l’échelle régionale, la détermination de la densité et de la localisation des points de mesure est fonction de la variabilité spatiale de la variable considérée et du niveau de précision que 1’on veut atteindre dans la connaissance de cette variabilité. Si 1’on dispose de connaissances a priori soit à partir de données directes ou transposées, soit encore à partir de résultats théoriques, 1’estimation de la densité de stations permettant de déterminer des caractéristiques (moyenne, écart-type, percentile, etc.) régionales d’une variable avec un niveau de précision donné peut être envisagée sur une base statistique. Dans le cas où 1’on ne dispose d’aucune connaissance a priori, un pré-échantlllonnage est nécessaire pour caractériser de manière sommaire la variabilité spatiale et en déduire ensuite la densité appropriée. En ce qui concerne la localisation des stations de mesure pour l’étude d’un problème qui ne se pose pas de manière locale et ponctuelle, elle doit répondre à la nécessité d’obtenir des données représentatives.

On doit en effet s’assurer que la répartition des stations est représentative de la variabilité que 1’on veut étudier. Il peut en particulier être nécessaire d’avoir une densité plus élevée dans les

(7)

zones de plus forte variabilité.

Dans de nombreux cas, il est important de séparer les effets spatiaux des effets temporels pour que 1’analyse de la variabilité spatiale ne soit pas biaisée. L’échantillonnage doit alors être planifié pour isoler les effets spatiaux, par exemple en considérant des mesures effectuées de manière concomitante aux divers sites et en effectuant 1’élimination des effets temporels (paragraphes 13.4.3 et 15.6)

C’est donc la nature du problème considéré et la connaissance des facteurs essentiels pouvant affecter la variabilité spatiale qui guident le choix des sites d’échantillonnage et la détermination de la densité requise de stations. Il importe donc de traduire 1e problème étudié en questions précises et quantifiées, (par exemple, estimation d’une moyenne régionale avec une précision de 10% et un intervalle de confiance de 90%) et d’exploiter au maximum les connaissances a priori disponibles.

e) La durée de 1’échantillonnage

Lorsque 1’on sait quoi mesurer (variable), quand le mesurer (fréquence), où la mesure doit être effectuée (localisation, densité), il faut répondre à la question: pendant combien de temps la mesure doit-elle se poursuivre? La réponse à cette question résulte de l'examen périodique de l’information acquise. En effet, les données sont obtenues pour répondre à des objectifs précis associés à la solution d’un problème donné et une analyse périodique permet de savoir si les objectifs visés sont ou non atteints. Il importe dans cette estimation de tenir compte des divers types d’erreurs (erreurs de mesure sur le terrain et éventuellement au laboratoire, erreurs d’échantillonnage).

15.2 Techniques contribuant à l’élaboration d‘un plan d’échantillonnage

Certaines techniques simples permettent d’estimer des caractéristiques d’une population (moyenne, par exemple) à partir de la mesure d’éléments de cette population.

Certaines techniques simples permettent d’estimer des caractéristiques d’une population et de déterminer la taille d’un échantillon constitué d’observations permettant d’atteindre une précision fixée a priori dans 1’estimation d’une caractéristique donnée de la population.

Dans ce qui suit, nous indiquerons et appliquerons sur quelques exemples les principaux résultats de la théorie de l'échantillonnage aléatoire simple et stratifié.

15.2.1 Echantillonnage aléatoire simple d'une variable a) Estimation de la moyenne d'une population

On considère une population de N unités (N pouvant être infini) d'où l'on tire de manière aléatoire un échantillon de taille n (chaque élément de l'échantillon a la même probabilité d'être tiré). Si Y1,…Yi, …YN sont les éléments de la population et y1,…yi,… yn

sont les éléments de l’échantillon. La moyenne Y de la population est estimée par la moyenne de 1’échantillon y telle que:

𝑦̅ = 1 𝑛 ∑ 𝑦𝑖

𝑛

𝑖=1

(8)

L'écart-type déduit de la variance de la population est donné par:

𝜎 = √Σ(𝑌𝑖 − 𝑌)2 𝑁

et on peut montrer que l'écart-type de la moyenne y de l'échantillon est :

𝜎𝑦̅ = 𝜎

√𝑛 √(1 − 𝑛 𝑁)

En pratique:

• Si la fraction d'échantillonnage est petite (n/N <10%) ou si N est infini, on peut négliger la correction due à la tai1le finie de la population, on a alors

√1 −𝑛 𝑁 ~ 1

• σ n'est pas connu en général, mais on peut calculer la variance non biaisée de l'échantillon s2 (qui est une estimation de σ2), on a:

𝑠2 = ∑ (𝑦𝑛1 𝑖− 𝑦̅𝑛)2

𝑛−1

L'écart-type de la moyenne de l'échantillon est donné par:

𝑠𝑦̅ = 𝑠

√𝑛 √1 − 𝑛 𝑁

Il est possible de déterminer les intervalles de confiance à un niveau donné de la moyenne de la population puisque:

• si σ est connu 𝑦̅−𝑌̅

𝜎𝑦̅ suit une loi normale .

• si σ est inconnu 𝑦̅− 𝑌̅

𝑠𝑦̅ suit une loi de Student à (n- 1) degrés de liberté .

Exemple 15.1

On considère N=676 prélèvements d'eau dont on veut étudier la toxicité. Chacune contient au départ 42 organismes vivants (daphnies). On compte les organismes vivants dans un échantillon aléatoire de n=50 prélèvements, après un temps donné. On obtient les résultats suivants où fi est le nombre de prélèvements où l'on trouve un nombre yi donné d'organismes.

(9)

Nombre d'organismes vivants= (yi) Nombre de prélèvements= (fi), Σ fi= 50

yi 42 41 36 32 29 27 23 19 16

fl 23 4 1 1 1 2 1 1 2

yi 15 14 11 10 9 7 6 5 4 3

fi 2 1 1 1 1 1 3 2 1 1

f varie de 1 à 19.

On veut estimer le nombre moyen d'organismes vivants dans l'ensemble des prélèvements ainsi que les limites de l’intervalle de confiance à 80% de cette moyenne.

Dans le cas de cet exemple, chaque valeur yi peut être observée dans fi cas (fi > 1), on peut alors montrer que:

𝒚̅ = ∑𝒑𝒇=𝟏𝒇𝒊 𝒚𝒊

𝒑𝒊=𝟏𝒇𝒊

𝑠2 = 1

𝑛 − 1 ∑ 𝑓𝑖

𝑝

𝑖=1

(𝑦𝑖− 𝑦̅)2 = 1

𝑛 − 1 [∑ 𝑓𝑖

𝑝

𝑖=1

𝑦𝑖2− 𝑛𝑦̅2]

Si fi = 1 quel que soit i, on retrouve les formules usuelles. Avec les données du tableau, on a :

𝑛 = ∑ 𝑓𝑖 = 50 ; ∑ 𝑓𝑖 𝑦𝑖 = 1471 ;

19

𝑖=1 19

𝑖=1

∑ 𝑓𝑖 𝑦𝑖2 = 54497

19

𝑖=1

0n en déduit:

𝑦̅ = ∑ 𝑓𝑖 𝑦𝑖

∑ 𝑓𝑖 = 1471

50 = 29,42

𝑠2 = 1

𝑛 − 1 ∑ 𝑓𝑖 (𝑦𝑖− 𝑦)2 = 1

𝑛 − 1 ⌊∑ 𝑓𝑖 𝑦𝑖2 − 𝑦2 ∑ 𝑓𝑖 ⌋ s2 = 229,0 d'où s = 15,13

La valeur de la variable de Student t correspondant à n-1=49 degré s de liberté pour un intervalle de confiance de 80% est t = 1,3.

Les limites Y1 et Y2 de l’intervalle de confiance à 80% de la moyenne Y sont donc:

𝑌1 = 𝑦̅ ± 𝑡 𝑠

√𝑛 √1 − 𝑛 𝑁 𝑠 𝑦

= 29,42 ± 1,3 × 15,13

√50 × (1 − 50 676) d'où:

(10)

b) Estimation de la somme des éléments de la population

Souvent on cherche à estimer la somme plutôt que la moyenne des éléments de la population.

Si Y est la somme des éléments de la population de taille N, cette valeur peut être estimée par 𝑌̂ = 𝑁 𝑦̅ et l’on a:

𝜎𝑌̂ = 𝑁𝜎

√𝑛 √1 − 𝑁𝑛 (puisque 𝜎

𝑌̂̂̂ = 𝑁 𝜎𝑦̅ )

Lorsque σ est inconnu (ce qui est le cas le plus fréquent) σy est estimé par:

𝑠𝑌̂ = 𝑁𝑠

√𝑛 √1 − 𝑛

𝑁 = 𝑁 𝑠𝑦̅

et 𝑡 = 𝑌̂− 𝑌

𝑠𝑌̂ suit une loi de Student à (n-1) degrés de liberté.

Exemple 15.2

On reprend l'exemple 15.1. On veut déterminer une estimation du nombre total d'organismes vivants dans l'ensemble des prélèvements, et les limites de l’intervalle de confiance à 80% de cette estimation.

La somme des éléments de l'échantillon est:

𝑦 = ∑19𝑖=1𝑦𝑖 𝑓𝑖 d’où y = 1471 Le total de la population est estimé par:

𝑌̂ = 𝑁𝑦̅ = 𝑁

𝑛 𝑦 d’où 𝑌 = 676

50

̂ × 1471 = 19,888

La variance de l'échantillon est:

𝑠2 = 1

(𝑛−1) ∑ (𝑦𝑖− 𝑦̅)2 𝑓𝑖 d’où s2 = 229,0

La valeur de la variable de Student correspondant à une probabilité au dépassement de 10%, pour 49 degrés de liberté est:

t = 1,30

Les limites de l’intervalle de confiance à 80% de la somme des éléments de la population sont données par:

𝑌1 𝑜𝑢 𝑌2 = 𝑌̂ ± 𝑡 𝑠𝑌̂ = 19,888 ± 1,3 676 √229

√50 √1 − 50 676

(11)

donc 18,078 < Y < 21,698

Le nombre total d'organismes vivants dans l'ensemble des 676 prélèvements est compris entre les limites précédentes avec une probabilité de 80%.

Remarque: On aurait aussi pu directement multiplier les limites de l’intervalle de confiance trouvées dans l'exemple 15.1 par N, en effet, on a:

𝑣𝑎𝑟 𝑦̅ = 1

𝑁2 𝑣𝑎𝑟 𝑌̂

c) Estimation de proportions et de pourcentages

Dans certains cas, il est possible de séparer les éléments d'une population donnée en deux classes exclusives suivant qu'ils possèdent ou non un caractère donné (par exemple, jours secs ou pluvieux dans une séquence météorologique).

De manière générale, soient C et C' les deux classes; N et n sont la taille de la population et de l'échantillon, A et a sont le nombre d'éléments de la population et de l'échantillon qui appartiennent à la classe C; (N-A} et (n-a) sont alors les éléments de la population et de l'échantillon qui appartiennent à la classe C’.

La proportion de la population qui est dans la classe C est P = A/N, qui peut être estimée par p = a/n.

Il est aisé de montrer que:

𝑣𝑎𝑟 (𝑝) = 𝑁 − 𝑛

𝑁(𝑛 − 1) 𝑝 (1 − 𝑝) ⌊𝑞 = 1 − 𝑝 ; 𝑜𝑛 𝑎 𝑣𝑎𝑟(𝑝) = 𝑣𝑎𝑟 (1 − 𝑝)⌋

𝑣𝑎𝑟(𝑝) = (1 − 𝑛 𝑁) 1

𝑛 − 1 𝑝(1 − 𝑝) Si 𝑛

𝑁 est très petit: 𝑣𝑎𝑟 (𝑝) ~ 𝑝 (1−𝑝)

𝑛−1 le nombre total d'éléments de la population A=

NP appartenant à la classe C peut être estimé par 𝐴̃ = 𝑁 𝑝 et l'on a:

𝑉𝑎𝑟 (𝐴̃) = 𝑁(𝑁−𝑛)

𝑛−1 𝑝 (1 − 𝑝) puisque 𝑣𝑎𝑟 (𝐴̃) = 𝑁2 𝑣𝑎𝑟(𝑝) 𝑉𝑎𝑟 (𝐴̃) = 𝑁2 (1 − 𝑛

𝑁) 𝑝(1 − 𝑝) 𝑛 − 1

Intervalles de confiance.

Si np est suffisamment grand, on peut admettre que 𝑝−𝑃

√𝑣𝑎𝑟(𝑝) suit une loi normale. La table ci-dessous donne les valeurs minimums admissibles de np pour p donné, si l'on veut appliquer l'approximation normale.

(12)

P 0,5 0,4 0,3 0,2 0,1 0,05

np 15 20 25 40 60 70

pour p > 0,5, la table est symétrique.

Si np est trop petit, il faut utiliser des tables plus précises basées sur la loi binominale.

Les limites de l'intervalle de confiance de P au niveau (1 - α) sont telles que:

𝑝 − (𝑈𝛼

2 √𝑣𝑎𝑟 (𝑝) + 1

2𝑛) < 𝑝 < 𝑝 + (𝑈𝛼

2 √𝑣𝑎𝑟 (𝑝) + 1 2𝑛)

𝑈𝛼/2 est la variate normale de probabilité au dépassement α/2. Le terme 1/2n correspond à une correction de continuité et améliore légèrement la précision du calcul.

Il est également possible (Clopper et Pearson, 1934) d'utiliser des abaques qui donnent directement l’intervalle de confiance de P connaissant l'estimation p déduite d'un échantillon de taille n.

---

On a :

𝛼 = 𝑃2 ⌊𝑃1 < 𝑃 < 𝑃2

Pour le niveau de confiance a on trace (figure 15.2) la verticale parallèle à l'axe des y pour un abaque p et on en déduit P1 et P2 .

La figure 15.3 donne l'abaque correspondant à diverses valeurs de p et n pour un niveau de confiance de 95 %.

Exemple 15.3

On veut connaître à une station hydrométrique la proportion de débits de crue dépassant un niveau Q0 fixé. On dispose de N = 1000 données consécutives; on tire au hasard n = 50 éléments et l'on observe 10 crues supérieures à Q0

- La proportion de crues telles que Q > Q0 est estimée par p et est telle que : 𝑝 = 10

50= 0,2 𝑎𝑣𝑒𝑐 𝑉𝑎𝑟 𝑝 = (1 − 50

1000) (0,2)(0,8) 1

49= 3,102 10−3 𝑠𝑝 = √𝑣𝑎𝑟 (𝑝) = 0,0557

- L’intervalle de confiance au niveau 90% de la valeur P de la population est avec u5%= 1,645:

0,0984 ≤ p ≤ 0,3016

- L'intervalle de confiance au niveau 90% du nombre total A de crues telles que Q > Q0 est

(13)

obtenu en multipliant les limites de l’intervalle de confiance de P par N, d'où:

98 ≤ A ≤ 302 d) Estimation du quantile d'une distribution

Soit f la fonction densité de probabilité d'une variable aléatoire X. La fonction de distribution (ou probabilité au non dépassement) est telle que:

𝐹(𝑥0) = ∫ 𝑓(𝑥)

𝑥0

−∞

𝑑𝑥

Le quantile X est la valeur dépassée (1- p) % de fois. Donc la probabilité au non- dépassement de Xp est p et l'on a:

F(xp ) = p

En pratique, Xp est estimé à partir d'un échantillon de taille n par xp et l'on peut montrer que xp, qui est une variable aléatoire, est distribuée approximativement suivant une loi normale de :

- moyenne: Xp

- variance: var (xp) = 𝑝(𝑝−1)

𝑛 ⌊𝑓(𝑋𝑝)⌋2

Il existe pour chaque loi et chaque méthode d'ajustement considérée, une formule plus précise donnant var (xp), mais la formule précédente a l'avantage d'être générale et conduit à des estimations satisfaisantes.

D'après le résultat précédent, quand N est suffisamment grand, la quantité

𝑈 = 𝑥𝑝− 𝑋𝑝

√𝑣𝑎𝑟 (𝑥𝑝)

suit une loi normale centrée réduite et l'on peut en déduire l’intervalle de confiance au niveau (1 - α) de la vraie valeur Xp qui est inconnue; on a :

𝑥𝑝− 𝑈𝛼

2

1

𝑓(𝑋𝑝) √𝑝(1 − 𝑝)

𝑛 ≤ 𝑋𝑝 ≤ 𝑥𝑝+ 𝑈𝛼

2

1

𝑓(𝑋𝑝) √𝑝(1 − 𝑝) 𝑛

Dans cette relation f(Xp) est estimée par f(xp) et il est seulement nécessaire de connaître la fonction densité de probabilité de la loi considérée.

La précision relative atteinte sur le quantile Xp avec un niveau de confiance (1 - α) est définie par:

(14)

𝜀 = |𝑋𝑝− 𝑥𝑝|

𝑥𝑝 = 𝑈𝛼/2 1

𝑥𝑝 𝑓(𝑥𝑝) √𝑝(1 − 𝑝) 𝑛

Exemple 15.4

On considère un échantillon de taille n = 50 que l'on suppose tiré d'une distribution normale. L'ajustement de la loi normale conduit aux valeurs estimées des paramètres :

𝜇̂ = 10 𝑒𝑡 𝜎̂ = 3

On veut déterminer l'intervalle de confiance à 95% du quantile 90 (90% de probabilité au non-dépassement).

La valeur estimée du quantile X90 est x90 telle que : 𝑥90 = 𝜇̂ + 𝑧90 𝜎̂

z90 représente la variate normale centrée réduite de probabilité au non-dépassement 90%, on a z90 = 1,2817 d'où :

𝑥90 = 10 + (1,2817 ∗ 3) = 13,8451

Pour déterminer l'intervalle de confiance à 95%, on a Uα/2 = 1,96 et l'on doit déterminer f(x90) où f est la fonction densité de la distribution normale:

𝑓(𝑥90) = 1

𝜎 √2 𝜋 𝑒(𝑥90− 𝜇)

2 2∗9

𝑓(𝑥90) = 1

3 √2𝜋 = 𝑒(13,8451−10)2 2∗9

f (x90) = 0,0585

Note : On peut également déduire f(x90) de tables donnant les valeurs de la fonction densité g(z) de la variate normale centrée réduite; on a en effet:

Ici g(z90) = 0,175465 donc f(x90) = 0,175465/3 = 0,0585

Les limites de l'intervalle de confiance à 95% du quantile X90 sont telles que:

13,8451 − 1,96

0,0585 √0,9 ∗ 0,1

50 ≤ 𝑋90 ≤ 13,8451 + 1,96

0,0585 √0,9 ∗ 0,1 50 12,4236 ≤ X90 ≤ 15,2666

La précision relative atteinte sur le quantile X90 avec un niveau de confiance de 95%

est

(15)

𝜀 = 1,96

0,0585 ∗ 13,8451 √0,9 ∗ 0,1

50 = 0,1027 ( ~ 10%)

15.2.2 Détermination de la tai1le d'un échantil1on dans un échantillonnage aléatoire simple

On a montré précédemment comment, à partir de données existantes il est possible d'estimer certaines quantités (moyenne, proportion, quantile) et les intervalles de confiance qui leur sont associés. Ces mêmes résultats peuvent être utilisés pour déterminer quelle doit être la taille d'un échanti1lon constitué d'observations indépendantes, afin de pouvoir estimer certaines quantités avec une précision fixée a priori. Une détermination précise de cette taille est souvent difficile si l'on ne dispose pas d'information a priori sur la population. De manière générale, on désire avoir un échantillon assez grand pour donner une estimation suffisamment précise, et pas trop grand car alors les coûts impliqués seraient trop élevés. Il faut donc rechercher un compromis entre le coût et la précision désirée. Pour déterminer la valeur approximative de la taille n d'un échantillon tiré de manière aléatoire d'une population, on utilise la notion d'intervalle de confiance.

En pratique, on veut estimer la valeur X de la population, l'échantillon donne l'estimation x de X avec l'écart-type σx et on admet en première approximation que

𝑈 = 𝑥 − 𝑋 𝜎𝑥 suit une loi normale centrée réduite N(0,1).

L'intervalle de confiance au niveau (1 - α) est tel que

𝑃𝑟𝑜𝑏 ||𝑥 − 𝑋|

𝜎𝑥 | ≤ 𝑈𝛼

2 = 1 − 𝛼 𝑈𝛼

2 étant la variate normale centrée réduite de probabilité au dépassement α/2.

On a donc au niveau de confiance (1 - α) :

𝑥 − 𝜎𝑥 𝑈𝛼

2 ≤ 𝑋 ≤ 𝑥 + 𝜎𝑥 𝑈𝛼

2 ou |𝑥 − 𝑋| ≤ 𝑥 + 𝜎𝑥 𝑈𝛼

2

En pratique, on fixe 𝐿 = |𝑥 − 𝑋| 𝑜𝑢 𝜀 = 𝐿/𝑋

L et ε sont respectivement l'erreur absolue et relative admissibles. Puisque 𝜎𝑥 dépend de n, i1 est possible de déterminer la taille minimum que doit avoir l'échantillon pour que la précision L (ou ε) soit atteinte dans (1 - α) % des cas.

a) Application à l'estimation de la moyenne et de la somme des éléments d'une population

Si on fixe l'erreur admissible 𝐿 = |𝑦̅ − 𝑌̅| et le niveau de confiance (1-α), on peut

(16)

𝑛 = 𝑛0 1 + 𝑛0

𝑁

𝑎𝑣𝑒𝑐 𝑛0 = [𝜎 𝑈𝛼/2

𝐿 ]

2

Si n0/N << 1 (ce qui est le cas pour une population de taille infinie), on a alors n = n0. En pratique, on calcule n0 et on en déduit n ; σ n'est souvent pas connu précisément mais peut être estimé soit par un pré-échantillonnage soit par transposition à partir d'un problème similaire; une estimation même grossière de σ permet de déterminer l'ordre de grandeur de n.

La somme Y = N y des éléments de la population est estimée par 𝑌̂ = 𝑁 𝑦̂, on a donc;

𝐿= 𝑁|𝑌 − 𝑌̅| = 𝑁 |𝑌̅ − 𝑦̅| = 𝑁𝐿 Si l'on fixe L' on peut en déduire L et déterminer n0 et n.

Remarque

Lorsque l'écart-type de la population n’est pas connu et que 1’on dispose d’un pré- échantillon dont l'écart-type est s, on peut déterminer, de manière plus précise, pour le cas d'une population infinie, la taille n de l'échantillon en tenant compte du fait que:

𝑡 = (𝑦̅− 𝑌̅)

𝑠/√𝑛 suit une loi de Student à (n - 1) degrés de liberté On a alors :

𝑛 = [𝑠 𝑡𝛼/2 𝐿 ]

2

où 𝑡𝛼/2 est la variable de Student à (n - 1) degrés de liberté de probabilité au dépassement α/2.

Exemple 15.5

Dans le cas des données de l'exemple 15.2, on veut déterminer la taille de l'échantillon pour que l'erreur L' sur le nombre total d'organismes vivants soit inférieure à 1000 avec 1 chance sur 20 (5%) d'être dépassée; on suppose σ2 = 230. On a:

L' = 1000 α = 0,05 N = 676 U α/2 = 1,96 On en déduit:

𝐿 = 1000

676 𝑛0 = 1,96 ∗ √230

1000/676 = 404 Puisque n0/N est élevé, on a:

𝑛 = 404 1 + 404

676

= 253

(17)

On doit donc échantillonner environ 250 prélèvements si l'on veut estimer le nombre total d'organismes vivants avec une erreur inférieure à 1000 poissons, en ayant au plus 5% de chances de se tromper.

b) Application à l'estimation d'une proportion

En utilisant les notations de 15.3.lc, on a encore:

𝐿 = |𝑝 = 𝑃| et 𝑛 = 𝑛0

1+ 𝑛0 𝑁

avec

𝑛0 = 𝑝 (1 − 𝑝) 𝐿2 𝑈𝛼/22

Pour une population de taille infinie, on a n = n0. Ici encore, si L= |𝐴̃ − 𝐴| est l'erreur admissible sur le nombre total d'éléments de la classe C, on a:

L' = NL c) Application à l'estimation d'un quantile

On a vu en 15.3.ld que l'erreur relative ε = L / xp pour un niveau (1- α) est définie par:

𝜀 = 𝑈𝛼/2 1

𝑥𝑝 𝑓(𝑥𝑝) √𝑝(1 − 𝑝) 𝑛

On en déduit que le nombre n d'observations indépendantes permettant d'atteindre la précision relative ε est tel que:

𝑛 = [1 𝜀

𝑈𝛼/2 𝑥𝑝 𝑓(𝑥𝑝)]

2

𝑝 (1 − 𝑝)

Exemple 15.6

On reprend les données de l'exemple 15.4 et l'on veut connaître la taille minimale de l'échantillon permettant d'atteindre une précision de 15% sur le quantile x90 à un niveau de confiance de 95%. On a:

𝑈𝛼/2= 1,96 𝜀 = 0,15 𝑥90 = 13,85 𝑓(𝑥90) = 0,0585

𝑛 = [ 1 0,15

1,96 13,85 ∗ 0,0585]

2

(0,1 ∗ 0,9) = 23

En pratique, la précision ε ou L augmente avec la taille de l'échantillon et il est donc possible d'établir une courbe ε (n) pour un niveau de confiance désiré sur une caractéristique fixée.

(18)

L'échantillon doit être constitué d'observations indépendantes; cette contrainte implique que la fréquence de mesure ne doit pas être trop élevée, afin de ne pas introduire une dépendance entre les observations successives. L’indépendance peut être examinée au moyen des tests statistiques (paragraphe 15.5) et dépend naturellement du type de données considérées.

Sanders (1974], Ward et al. (1976], Montgomery et Hart [1974), Sherwani et Moreau (1975] et Cazaillet (1977] ont en particulier examiné ce problème dans le cas de variables de qualité de l'eau et ont étudié la fréquence nécessaire pour assurer l'indépendance des observations de l'échantillon; dans le cas où les observations sont indépendantes, ces auteurs ont également examiné la représentation des données par des lois statistiques.

15.2.3 Estimation de la moyenne et de la somme des éléments d'une population par échantillonnage aléatoire stratifié

Dans l'échantillonnage stratifié, la population de taille N est divisée en L strates représentant des sous-populations de tailles respectives N1, N2, … , NL, ces sous-populations sont disjointes et l 'on a N1 + N2 + … + NL = N. Dans chaque strate, on tire des échantillons de manière indépendante, dont les tailles sont n1, n2, … , nL. Si l'échantillonnage de chaque strate est aléatoire, on a un échantillon stratifié aléatoire.

La stratification est souvent utile:

- Si l'on désire des informations précises sur les sous-populations;

- Lorsque les unités de la population peuvent être classées;

- Pour produire un gain de précision dans l'estimation de certaines caractéristiques de la population globale.

De manière générale, la stratification est intéressante si l'on peut rapidement identifier des strates homogènes, qui se différencient entre elles.

Les notations utilisées sont les suivantes:

Pour la strate h:

Nh taille de 1a strate h (population) nh taille de l'échantillon tiré de la strate h yhi élément i de la strate h

𝑌̅ = ∑ 𝑦 ℎ𝑖

𝑁

𝑖=1

1

𝑁 moyenne de la strate

𝑦

̅̅̅ = 1

𝑛 ∑ 𝑦ℎ𝑖

𝑛

𝑖=1

moyenne de l ′échantillon tiré de la strate h

𝜎2 = ∑ (𝑦𝑁1 ℎ𝑖 − 𝑌̅)2

𝑁 variance de la strate h (Population)

Ici nous distinguons deux types d'échanti1lonnage stratifié: l'échantillonnage stratifié

(19)

proportionnel et l'échantillonnage stratifié optimum.

a) Echantillonnage stratifié proportionnel

Dans chaque strate l’échantillon est proportionnel à la taille de la strate et l'on a:

𝑛1 𝑁1 = 𝑛2

𝑁2 = ⋯ = 𝑛

𝑁 = ⋯ = 𝑛𝐿 𝑁𝐿 = 𝑛

𝑁

Si n, N, Nh sont connus, on en déduit nh, quel que soit h variant de 1 à L.

La moyenne de la population 𝑌̅ donnée par 𝑌̅ = ∑ 𝑁𝐿1 𝑌

𝑁 est estimée par:

𝑦̅𝑠𝑡 = 1

𝑁 ∑ 𝑁 𝑦̅

𝐿

ℎ=1

avec

𝑣𝑎𝑟(𝑦̅𝑠𝑡) = (1 − 𝑛 𝑁) 1

𝑛 𝑁 ∑ 𝑁 𝑠2

𝐿

ℎ=1

𝑠2 = ∑𝑛𝑖=1(𝑦ℎ𝑖− 𝑦̅)2 𝑛 − 1

s2 est la variance non biaisée de l'échantillon tiré de la strate h.

Si 𝑌̂𝑠𝑡 = 𝑁 𝑦̅𝑠𝑡 est l'estimation du total Y de la population, on a :

𝑣𝑎𝑟 (𝑌̂𝑠𝑡) = 𝑁2 𝑣𝑎𝑟 (𝑦̅𝑠𝑡) Donc :

𝑣𝑎𝑟 (𝑌𝑠𝑡) = (1 − 𝑛 𝑁) 𝑁

𝑛 ∑ 𝑁 𝑠2

𝐿

𝑛=1

b) Echantillonnage stratifié à répartition optimum

On suppose que le "coût total" d'échantillonnage C est de la forme:

𝐶 = 𝐶0+ ∑ 𝑛 𝑐 (les coûts peuvent être des temps)

𝐿

ℎ=1

ch étant le coût d'échantillonnage d'une unité de la strate h.

Pour un coût donné, on veut minimiser var (yst), on peut alors montrer que dans cette

(20)

𝑛 = 𝑛 𝑁 𝜎

√𝑐 ∑ [(𝑁𝜎)

√𝑐

⁄ ]

ℎ=𝐿ℎ=1

𝜎2 est la variance de la sous-population de la strate h, avec :

𝑛 = ∑ 𝑛

𝐿

ℎ=1

= (𝐶 − 𝐶0) ∑𝐿ℎ=1(𝑁𝜎/√𝑐)

𝐿ℎ=1(𝑁𝜎√𝑐)

La variance minimum de 𝑦̅𝑠𝑡 peut être obtenue en reportant les valeurs de nh dans l'expression de 𝑣𝑎𝑟 (𝑦̅𝑠𝑡); on a:

[𝑣𝑎𝑟 (𝑦̅𝑠𝑡)]𝑚𝑖𝑛 = ∑ (𝑁 𝑁)

ℎ=𝐿 2

ℎ=1

𝜎2

𝑛 (1 − 𝑛 𝑁)

Un cas particulier important est celui où les coûts d'échantillonnage des différentes strates sont égaux:

c1 = … = ch = … = cL =k

on a alors 𝐶 = 𝐶0+ 𝑘𝑛 et 𝑛 = 𝑛 𝑁𝜎

𝑁𝜎 ℎ=𝐿ℎ=1

Si l'on veut estimer Y somme totale des éléments de la population, on a l'estimation Y telle que:

𝑌̂ = 𝑁 𝑦̅𝑠𝑡 avec 𝑣𝑎𝑟 (𝑌̂) = 𝑁2 𝑣𝑎𝑟 (𝑦̅𝑠𝑡)

Lorsque l'on considère simultanément plusieurs variables la répartition optimale pour une variable pour les différentes strates n'est généralement pas optimale pour une autre variable. En pratique, on essaie de réduire le nombre de variables de manière à n'en conserver qu'un nombre réduit. Le calcul de la répartition optimale pour chaque variable est ensuite effectué séparément et l'on tente de trouver un compromis entre les tailles d'échantillons de chaque strate relative à chacune des variables. Lorsque les variables sont correlées, les répartitions optimales peuvent différer assez peu. Un compromis peut en général être trouvé en faisant la moyenne des tailles d'échantillonnage à prélever dans chaque strate pour chacune des variables; les tailles d'échantillons obtenues ne sont alors optimales pour aucune variable mais sont en général satisfaisantes et assez voisines de l'optimum.

15.2.4 Etude d'un cas-type: élaboration d'un plan par échantillonnage stratifié

Dans le but d'effectuer un calcul de débit massique et de bilan massique, on veut connaître la valeur moyenne de 3 variables physico-chimiques Pl, P2 et P3 dans une section du St-Laurent. On peut décomposer cette section en 5 zones (strates) de caractéristiques hydrodynamiques différentes, de surfaces respectives S1, … , S5 ; la surface de la section totale étant S.

(21)

On connaît pour chaque strate h (h1, ... , h5) une estimation de l'écart-type des 3 variables, cette estimation provient d'un inventaire précédent. On veut prélever n = 100 bouteilles dans l'ensemble de la section. On veut déterminer les tai11es d'échantillons pour chaque strate et la variance de l'estimation de la moyenne de concentration de chacune de variables dans le cas d'un échantillonnage proportionnel (a), d'un échantillonnage à répartition optimale (b) et d'un compromis entre les résultats des échantillonnages à répartition optimale (c).

On a les données suivantes:

Strate Sh/S σh (P1) σh (P2) σh (P3)

1 0,197 4,6 11,7 332

2 0,191 3,4 9,8 357

3 0,219 3,3 7,0 246

4 0,184 2,8 6,5 173

5 0,208 3,7 9,8 279

On suppose que les fractions d'échantillonnage sont petites devant 1. On peut admettre, de plus, que (Sh/S) est équivalent à (Nh/N); en effet, plus la section (Sh) d'une strate est grande, plus son effectif (Nh) est élevé. Le calcul de (Sh/S) peut être effectué par planimétrage.

a) Echantillonnage aléatoire stratifié proportionnel

On a : 𝑛

𝑛 = 𝑁

𝑁

d'où n1=20, n2=19, n3=22, n4=18, n5=21

La variance d'estimation de la moyenne de chaque variable, en supposant les fractions d'échantillonnage faibles est:

[𝑣𝑎𝑟 (𝑃̅𝑖)𝑠𝑡]𝑝 ~ 1

𝑛 ∑𝑁

𝑁 . 𝜎2(𝑃𝑖)

5

ℎ=1

On a:

[𝑣𝑎𝑟 (𝑃̅𝑖)𝑠𝑡]𝑝= 1

100 [(0,197 ∗ 4,62) + (0,191 ∗ 3,42) + (0,219 ∗ 3,32) + (0,184 ∗ 2,82) + (0,208 ∗ 3,72)]

[𝑣𝑎𝑟(𝑃̅2)]𝑝𝑟𝑜𝑝= 1

100 [(0,197 ∗ 11,72) + (0,191 ∗ 9,82) + (0,219 ∗ 7,02) + (0,184 ∗ 6,52) + (0,208 ∗ 9,82)]

[𝑣𝑎𝑟(𝑃̅3)]𝑝𝑟𝑜𝑝= 1

100 [(0,197 ∗ 3322) + (0,191 ∗ 3572) + (0,219 ∗ 2452) + (0,184 ∗ 1732) + (0,208 ∗ 2792)]

[𝑣𝑎𝑟(𝑃̅1)]𝑝𝑟𝑜𝑝 = 0,131 [𝑣𝑎𝑟(𝑃2)]𝑝𝑟𝑜𝑝 = 0,837[𝑣𝑎𝑟(𝑃̅3)]𝑝𝑟𝑜𝑝 = 810 b) Echantillonnage aléatoire stratifié à répartition optimum

(22)

𝑛 = 𝑛 𝑁𝜎

∑ 𝑁𝜎 = (𝑁 𝑁 ) 𝜎

∑ (𝑁 𝑁 ) 𝜎

[𝑣𝑎𝑟(𝑃̅𝑖)]𝑜𝑝𝑡 = ∑ (𝑁 𝑁)

5 2

ℎ=1

𝜎2(𝑃𝑖) 𝑁

Pour P1, on a :

𝑛1 = 100 0,197∗4,6

(0,197∗4,6)+(0,191∗3,4)+(0,219∗3,4)+(0,184∗2,8)+(0,208∗3,7)= 100∗0,91

3,56 = 25 n2 =18 n3 = 20 n4 = 15 n5 = 22

Pour P2 :

n1 = 26 n2 =21 n3 = 17 n4 = 13 n5 = 23

Pour P3 :

n1 = 24 n2 =25 n3 = 19 n4 = 11 n5 = 21

Le calcul des variances donne :

[𝑣𝑎𝑟(𝑃̅1)]0= (0,1972∗ 4,62

25 ) + (0,1912∗ 3,42

18 ) + (0,2192∗ 3,32

20 ) + (0,1842∗ 2,82

15 ) + (0,2082∗ 3,72

22 )

[𝑣𝑎𝑟(𝑃̅1)]0 = 0,127 [𝑣𝑎𝑟(𝑃̅2)]0 = 0,80 [𝑣𝑎𝑟(𝑃̅3)]0 = 760 c) Recherche d'un compromis

Pour l'ensemble des 3 variables, on cherche un compromis; en effet, on ne veut faire le prélèvement des bouteilles qu'une seule fois et ensuite mesurer pour chaque bouteille les 3 paramètres. Si l'on ne faisait pas de compromis, il faudrait faire 3 tournées d'échantillonnage.

Pour effectuer le compromis, on calcule pour chaque strate, la moyenne des tailles d'échantillons obtenues pour chacun des 3 paramètres. On a :

𝑛1 = 𝑛1 (𝑃1) + 𝑛1 (𝑃2) + 𝑛1 (𝑃3)

3 = 25 + 26 + 24

3 = 25

𝑛2 = 21 𝑛3 = 19 𝑛4 = 13 𝑛5 = 22

La somme des effectifs est égale à 100. On peut ensuite calculer la variance d'estimation de la moyenne de chaque variable. Ce calcul est effectué en supposant que l'on se trouve dans le cas d'un échantillonnage à répartition optimale avec les tailles 𝑛 𝑖. On a donc :

(23)

[𝑣𝑎𝑟(𝑃̅𝑖)]𝑐 = ∑ [𝑁 𝑁]

2 𝜎2 (𝑃𝑖) 𝑛

5

ℎ=1

Les 𝑛 sont les mêmes pour les 3 variables

[𝑣𝑎𝑟(𝑃̅1)]𝑐 = (0,197 ∗ 4,6)2

25 +(0,191 ∗ 3,4)2

21 +(0,219 ∗ 3,3)2

15 +(0,184 ∗ 2,8)2

13 +(0,208 ∗ 3,7)2 22 On a finalement:

[𝑣𝑎𝑟(𝑃̅1)]𝑐 = 0,128 ; [𝑣𝑎𝑟(𝑃̅2)]𝑐 = 0,802 ; [𝑣𝑎𝑟(𝑃̅3)]𝑐 = 776 ; d) Comparaison des types d'échantillonnage

On peut construire un tableau donnant les variances d'estimation des moyennes des 3 variables, selon les différents types d'échantillonnage.

Type d’échantillonnage Var(P1) Var(P2) Var(P3)

Optimum 0,127 0,800 769

Compromis 0,128 0,802 776

Proportionnel 0,131 0,837 810

L'échantillonnage proportionnel et l'échantillonnage compromis sont 3 fois moins coûteux que l'échanti1lonnage optimum, puisque l'on fait une seule tournée (au lieu de 3 pour l'échantillonnage optimum); en effet, la taille d'échati1lon de chaque strate est indépendante de la variable considérée, alors que dans le cas de l' échantillonnage à répartition optimale, on doit effectuer une tournée pour chaque variable.

Le compromis conduit à des variances très voisines de celles que l'on obtiendrait dans le cas optimal, alors que l'échantillonnage proportionnel conduit à une moins bonne précision, il résulte de ces considérations que dans le cas considéré, le compromis effectué (en prenant la moyenne des tai11es d'échantillons obtenues pour chaque variable dans le cas optimal) conduit aux meilleures estimations compte tenu des coûts impliqués .

15.2.4 Intérêt de la stratification

La stratification bien uti1isée conduit en général à une variance plus petite que celle que l'on obtiendrait avec un échanti1lonnage aléatoire simple. Cependant, si les valeurs de nh

sont éloignées de l'optimum, l'échantillonnage stratifié peut conduire à une variance élevée.

On peut démontrer qu'en général:

(𝑣𝑎𝑟)𝑜 ≤ (𝑣𝑎𝑟)𝑝 ≤ (𝑣𝑎𝑟)𝑎

Idéalement, la stratification donne des gains de précision appréciables si elle est effectuée par rapport à la variable mesurée. En pratique, on peut se rapprocher de cette situation idéale lorsqu'il y a une bonne corrélation entre la variable que l'on veut mesurer et la variable qui permet la classification des strates, car il y a alors une assez bonne homogénéité à

Références

Documents relatifs

f) Encourager les réseaux d'information féminins, y compris ceux qui font appel à l'électronique et aux autres techniques nouvelles de communication, et reconnaître leur valeur

Voir avec le vétérinaire l’utilité de séances d’ostéo + si ok pour essayer Phyto-Souplesse à la place de l’anti- inflammatoire pharma. Massage 1x/semaine avec acupressure

Une identification aussi précise que possible de ces diverses erreurs est importante, tant pour mesurer l'accomplissement des objectifs du réseau (par exemple,

- permet de prédire la forme d’une loi physique afin de trouver la solution à certains problèmes sans avoir à résoudre d’équation : on peut pour de nombreux phénomènes

- Couche de liaison de données : Elle organise la détection des erreurs et la mise en « cartons » des données pour leur transmission et le contrôle des accès à un média

Une première évaluation formative suivie d'une analyse des erreurs et de la mise en place des activités de remédiation et une seconde évaluation sommative prenant en compte

• Évaluer, à l’aide d’une formule fournie, l’incertitude d’une mesure obtenue lors de la réalisation d’un protocole dans lequel interviennent plusieurs sources

 Exprimer le résultat d’une opération de mesure par une valeur issue éventuellement d’une moyenne et une incertitude de mesure associée à un niveau de confiance.. 