• Aucun résultat trouvé

Les statistiques 1. Notion de population et d'échantillon:

N/A
N/A
Protected

Academic year: 2022

Partager "Les statistiques 1. Notion de population et d'échantillon:"

Copied!
49
0
0

Texte intégral

(1)

Les statistiques

1. Notion de population et d'échantillon:

En statistiques, la volonté principale est de pouvoir décrire et d'analyser des données relatives à des phénomènes qui vont être caractérisés par des données.

Le problème de l'utilisation ultérieure de ces caractéristiques, sera de savoir si elle sont bien transférables et généralisables à un groupe plus élargi, alors qu'elles sont issues en fait la plupart du temps, d'un sous ensemble réduit de ce groupe.

Cela renvoie à une notion essentielle en statistique: la population et l'échantillon.

1.1. Populations:

La population réfère à l'intégralité des individus ou organisations répondant à un certain nombre de caractères communs (hommes âgés entre 30 et 40 ans, p.e.).

Une population peut être de faible effectif (hommes ayant mis le pied sur la lune), ou au contraire (la plupart du temps) de grand effectif (sujets sportifs de niveau international). Dès lors, il est impossible physiquement de les réunir dans une étude unique, aussi ambitieuse soit-elle. Il faut donc procéder à un découpage de cette population, c'est-à-dire à la définition d'un échantillon.

1.2. Echantillon issu d'une population:

Un échantillon sera défini comme étant un sous-ensemble (à priori représentatif) d'une population. Les caractéristiques devront être les mêmes pour que celle de la population dont l'échantillon sera issu.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 1

(2)

La plupart du temps un échantillon type n'existe pas et l'expérimentateur devra alors opérer des choix difficiles et délicats afin que l'échantillon soit représentatif de la population.

Dans le cas inverse, les conclusions des descriptions ne pourront être considérées valides que pour l'échantillon, c'est-à- dire que toute généralisation devient impossible donc l'étude perd toute sa raison d'être (p.e. enquête d'opinion). Dans certains cas, des principes peuvent être édictés (code INSEE), sinon l'expérimentateur aura recours à un échantillon tiré au hasard (random sample).

1.3. Echantillon tiré au hasard:

S'il existe un grand nombre de moyens de soustraire un échantillon, la validité de la généralisation dépend des choix méthodologiques. Dans un tirage au sort, la règle de base consiste à respecter deux conditions:

a)chaque membre de la population à une égalité de chance d'être choisi

b)chaque choix est indépendant des autres

En pratique, ces conditions ne peuvent être respectées que s'il est possible d'attribuer un nombre à chaque sujet, puis d'opérer un tirage au sort, ou par l'utilisation de tables de tirage au sort . Il est très souvent impossible d'opérer strictement à de tels tirages au sort. Il convient alors de connaître et de définir des règles de sélection sur des critères les plus objectifs possibles et en tout état de cause basés sur des connaissances précises permettant de caractériser l'échantillon et de répartir les sujets testés dans des groupes distincts (le cas échéant) après tirage au sort. Toutes les possibilités de biais

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 2

(3)

pouvant rendre une sélection non indépendante doivent donc être soigneusement examinées.

Quand le tri au hasard est possible : il s’agit de randomisation SINON on peut recourir à des techniques comme l’appariement (sur un certain nombre de variables).

2. Les statistiques descriptives

2.1. Notions de paramètres et de statistiques:

Lorsque l'on cherche à réduire une information pour mieux la comprendre, on est amené à utiliser deux notions fondamentales: la mesure de la tendance centrale (moyenne ou médiane) et la dispersion autour de cette tendance centrale (range, écart-type…). Ces deux notions sont appelées paramètres.

Une statistique renvoie plus globalement à toute estimation d'un ou plusieurs paramètres concernant une population et a été proposé pour la première fois par Fisher en 1925. Par extrapolation, on a appelé les statistiques toutes les procédures permettant d'exprimer des paramètres ou d'en étudier leur comportement dans des situations spécifiques.

Comme nous l'avons vu plus haut, la sélection d'un échantillon idéal n'existe que très rarement. C'est pourquoi, il faut admettre que les paramètres issus de plusieurs échantillons d'une même population peuvent présenter des variations (taille des étudiants de la moitié d'un amphi, p.e.). Cela renvoie à la notion d'intervalle de confiance d'un paramètre statistique et appelle quelques remarques:

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 3

(4)

* la nécessité de recruter autant de sujets possibles afin de minimiser les sous-estimations et les sur-estimations par l'obtention d'une moyenne stable sur le long terme

* si un paramètre est obtenu sur un échantillon réduit, sa représentativité devra être discutée au regard de valeurs de références (si celles-ci existent)

* un paramètre statistique sera d'autant plus consistent et fiable que l'échantillon sera suffisamment grand.

En statistique, par convention, les lettres grecques sont utilisées pour exprimer des paramètres sur des populations, et les lettres romaines pour les paramètres d'échantillons.

Ex:

N

N Xi

i

= =1

µ représente le calcul de la moyenne d'une population de N sujets

n Xi X

n i

= =1

représente le calcul de la moyenne d'un échantillon de n sujets

2.2. Les méthodes de mesure de la tendance centrale:

2.2.1. Moyennes:

La valeur centrale qui résume au mieux une distribution de données de scores est la moyenne arithmétique:

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 4

(5)

n Xi X

n i

= =1

ou plus simplement: N X = ∑x

La moyenne a une propriété fondamentale: la somme des écarts à la moyenne est nulle:

(XiX) = 0

Autres expressions de moyennes:

- la moyenne géométrique, définie comme la racine nième du produit des n valeurs, ces dernières étant toutes strictement positives,

n n i

n X X X Xn Xi

g

X

=

=

=

1 3

2

1 ....

Cette moyenne est utilisée :

a)quand on veut calculer la tendance centrale de ratios et qu'il est souhaité leur donner le même poids

b)quand on veut moyenner des changements exprimés en pourcentage

- la moyenne harmonique, définie comme l'inverse de la moyenne arithmétique des inverses des n valeurs, ces dernières étant toutes strictement positives.

=

=

Xi n Xi

n XH

1 1

1 1

Cette moyenne est utilisée quand on veut moyenner des taux (rare).

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 5

(6)

Lorsque l'on souhaite calculer une moyenne arithmétique plus rapidement, il est possible de passer par un tableau de fréquences et la moyenne est calculée ainsi:

n fiXi X i

=

=

k 1

où k = nombre de classes différentes.

2.2.2. Médiane.

Le concept de moyenne n'a de sens que pour échelles d'intervalles, proportionnelles et de rapport.

La tendance centrale d'une distribution de variables ordinales est représentée par la médiane. La médiane est définie comme la valeur de la variable telle que 50% des observations lui soient inférieures et 50% lui soient supérieures, en d'autres termes, la valeur étant au milieu d'une série de données ordonnées.

Lorsque ne nombre total d'observation est impair, le définition de la médiane ne pose pas de problème: le rang médian est égal à :

M=X(n+1)/2

Dans le cas d'effectif pair, la médiane est définie par la valeur à mi-chemin entre les valeurs des deux rangs concernés. Par exemple, si n=10, X(n+1)/2=X5.5 . On prend donc les valeurs du 5°

et du 6° rang, puis on en fait la moyenne.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 6

(7)

Comment traiter le problème des rangs ex-æquo?

Principe:

• additionner les rangs des ex-æquo

• diviser par le nombre d'ex-æquo

• affecter ce résultat aux ex-æquo

Xi Rang sans

traitement des ex- æquo

Rang avec traitement des ex-

æquo

12 1 1 14 2 2

16 3 (3+4+5)/3=4

16 4 4 16 5 4 18 6 6 19 7 7

25 8 (8+9)/2=8.5

25 9 8.5 32 10 10 Vérification: le dernier rang est toujours égal à n (sauf si ex-

æquo présents au dernier rang).

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 7

(8)

UNITE : l’unité de la médiane est la même que celle des données de base

INCONVENIENT DE LA MEDIANE : elle donne moins d’informations que la moyenne, car elle ne prend pas en compte la valeur des variables, mais leur rang.

AVANTAGE DE LA MEDIANE :

1. des mesures extrêmes (hautes ou basses) affecteront peu la médiane, alors que leur influence sur la moyenne serait très importante. La médiane est qualifiée de statistique résistante

2. lors de répartitions éloignées de la normale, la médiane est une statistique de tendance centrale méthodologiquement plus juste et plus pertinente.

2.2.3. Le mode.

En ce qui concerne les échelles nominales, c'est-à-dire les données de numération, ni la moyenne ni la médiane ne sont accessibles.

Le mode est défini comme la catégorie pour laquelle l'effectif est le plus grand (ou comme la valeur la plus fréquemment attribuée).

Le mode n'a vraiment de sens que si une catégorie présente un effectif nettement supérieur aux autres.

On peut noter enfin que le mode est lié à la conception des classes: il suffit par fois de subdiviser la classe modale en deux sous-classes pour que le mode ne se trouve plus dans l'une d'entre elles.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 8

(9)

Exercice exemple E3: Mode= 4; remarque: ici le calcul du mode est peu pertinent (cf observation précédente)

2.2.4. Positions relatives du mode, de la médiane et de la moyenne:

La compréhension des différences entre ces valeurs est importante car leur position respectives vont dépendre de la répartition des effectifs.

Si l'on considère les 3 cas suivants:

En haut, la distribution est unimodale et symétrique.

Moyenne, médiane et mode sont confondus.

Dans le cas a), la distribution est décalée vers la droite (la plupart des sujets ont des valeurs basses). La médiane et le mode ne peuvent pas coïncider car lorsqu'on se trouve sur le mode, il reste trop d'observations à droite du sommet (le mode) pour que celui-ci divise la population en deux effectifs égaux. La médiane est donc nettement à droite du mode.

Position de la moyenne (point d'équilibre de la distribution): si on considère que le point d'équilibre de la répartition se situe sur la médiane, on fait une erreur, car les valeurs se trouvant sur la partie droite de la distribution sont plus éloignées de la médiane que celles situées à gauche. Elles vont donc exercer une force plus importante du coté droit. La moyenne est donc située à droite de la médiane [partie b) de la figure].

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 9

(10)

POURQUOI? La médiane intègre seulement des effectifs (50% d'un coté, 50% de l'autre), la moyenne intègre la valeur de chaque variable, donc son poids relatif au point d'équilibre.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 10

(11)

2.2.5. Comment choisir l'expression la plus appropriée de la tendance centrale?

Il n'existe pas vraiment de loi absolue. Tout dépend des

Voir la figure suivante.

distributions étudiées.

Le mode se situe proche du 0: donc il existe une très forte dans une fourchette proportion d'individus ayant aucun revenu.

La plus grosse masse de revenus se situe

de 2000 à 20 000 $. Cette information n'est donc pas perceptible à travers le mode. Il est fort probable que cette seule information ne permettrait pas de rendre compte de l'évolution du revenu des américains entre deux périodes, pour peu que l'effectif le plus fort soit toujours proche de zéro.

Le mode n'a ici aucune utilité

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 11

(12)

La médiane est proche de 8000$. Son utilité est immédiatement plus perceptible: 50% des américains gagnent plus et autant gagnent moins. Elle permet donc de dégager un profil "type" de l'américain moyen. Elle a en outre un autre avantage, c'est sa stabilité. En effet, si les revenus les plus élevés augmentaient fortement, comme ils sont aussi les moins nombreux, ils ne modifieront pratiquement pas la médiane.

La moyenne est proche des 10000$. Chaque dollar gagné par

de calculer très

t: moins pertinente pour mesurer le revenu

EN RESUME: cet exemple montre bien que le mode est la

données

la représentation de l’histogramme des distribution est toujours riche d’informations.

un riche ou un pauvre comptera de façon égale dans le calcul de la moyenne et pèsera d'un poids égal. C'est à la fois l'avantage et l'inconvénient de la moyenne:

Avantage: elle permet notamment

rapidement la richesse totale (valeur moyenne fois nombre d'individus)

Inconvénien

"type" car la moyenne sera fortement influencée par de fortes variations des faibles ou très hauts revenus (alors que la "classe moyenne" ne verra pas ses revenus être modifiés). Elle manque donc de stabilité

valeur centrale la plus simple à calculer, mais aussi la plus mauvaise. La médiane fournit l'indication la plus typique de la majorité des individus. La moyenne est la seule à tenir compte de la totalité des observations et de leur poids relatif. C'est la raison pour laquelle elle est si souvent utilisée, mais

L'objectif poursuivi dans l'analyse descriptive des

reste un élément déterminant de choix entre moyenne et médiane.

De plus,

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 12

(13)

ENFIN: ne pas oublier que certaines variables ne permettent pas le calcul pertinent d'une moyenne (variables qualitatives

2.3. Les mesures de dispersion et de diversité :

La seule mesure de la tendance centrale est insuffisante pour ndre compte de façon synthétique d'une distribution de

qui donne une indication précise de la nature des

r de la

2.3.1. Intervalle de variation (Range)

Il s'agit de la différence entre la plus petite et la plus grande valeu

ce, s'il donne un ordre d'idée sur l'écart maximal, n'est pas capable de rendre c ersion réelle des notes issues d'échelles ordinales)

re

données.

Il faut donc ajouter la notion de dispersion ou mesure de la variabilité,

variations des données autour de la tendance centrale.

C'est une valeur qui préciser utilement la perception des données (groupe homogène = petite dispersion autou

tendance centrale; groupe hétérogène = grande dispersion autour de la tendance centrale)

Ici encore, plusieurs expressions existent mais ne fournissent pas les mêmes indications

r.

Range = Xn-X1 Cet indi

ompte de la disp autour de la tendance centrale.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 13

(14)

2.3.2. Variance, écart type et erreur standard de la moyenne

Une des façons les plus démonstratives de calculer la dispersion est d'inclure dans une formule une expression des écarts à la moyenne.

Comme par définition la somme des écarts à la moyenne est nulle, il est communément utilisé en statistique une valeur au carré de ces écarts, appelée Somme de carré des écarts (SCE)

Pour raisonner sur un seul groupe, cette estimation serait suffisante.

Par contre, la comparaison de groupes d'effectifs différents poserait problème, car la SCE serait probablement plus grande, mais uniquement à cause d'un effectif plus élevé.

C'est pourquoi on a alors recours au calcul de la variance, qui est en fait la SCE normalisée par rapport à l'effectif du groupe (variance d'une population = sigma minuscule ou ²,

variance d'un échantillon = s²)

σ X

Xi

(

= N

σ²

Cette formule présente l'inconvénient majeur de procéder à une exponentiation d'erreurs dues aux arrondis successifs des écarts à la moyenne. Pour supprimer ce biais, on utilise une autre expression, sachant que:

²)

² ( )²

(XiX = ∑ XiXiX + X

2

En développant les X comme étant la somme des Xi/N, en factorisant et en simplifiant, on en arrive à l'expression suivante:

= (X X

SCE i

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 14

(15)

N XiXi

²(

On a donc une expression plus simple et plus juste de la variance:

N N Xi Xi

=

² )

² ( σ²

Une variance calculée sur un échantillon n'est qu'une stimation de la variance d'une population parente. Les e

statisticiens ont pu démontrer que la meilleure estimation de la variance pour un échantillon d'effectif n peut être obtenue ainsi:

Xi²(Xi)²

−1

= n

² n s

n-1 représente le nombre de degrés de liberté de la variable, c'est-à-dire qu'il suffit que n-1 valeurs soient connues pour la détermination de la nième valeur.

En pratique, l'écart type ( s² ou dans les calculs de probabilités.

D'autre part, l'écart type a l'avantage d'être une mesure de distance (ou d'intervalle, cf. P1),

s) est souvent beaucoup plus tilisé que la variance car il possède de meilleures qualités

alors que la variance est une u

mesure d'intervalle au carré. Une grandeur peut donc être comparée à son écart type, mais pas à sa variance.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 15

(16)

Par définition, l'écart type :

* P1: Prendra la même unité que la variable mesurée

* P2: Ne peut être que positif

* P3: Sera nul si toutes les valeurs individuelles sont les mêmes

* P4: Sera d'autant plus grand que les valeurs s'écartent souvent de la moyenne et de façon importante

Une autre propriété importante à connaître est que :

si une distribution est normale (Gaussienne), 95% des éléments de l'échantillon sont compris dans un intervalle

de 2 déviations standards autour de la moyenne.

Une variante de l'écart type (ou déviation standard, DS ou SD) est représenté par l'erreur standard de la moyenne (ou SEM).

Son calcul est très simple:

n SEM = s

Son intérêt est de compenser l'effet d'un effectif sur la valeur de l'écart type.

En effet, plus n est grand plus s tend à augmenter. Si l'on veut comparer des groupes de tailles très différentes, on a alors intérêt à utiliser le SEM.

2.3.3. Coefficient de variation:

Aussi appelé coefficient de variabilité, il correspond à l'expression de l'écart type ramené à la moyenne.

X CV = s

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 16

(17)

Puisque s et X ont la même unité, CV n'aura aucune unité. Par commodité, il est souvent multiplié par 100 pour être exprimé sous forme d'un pourcentage.

L'intérêt majeur de cette expression est de s'affranchir de l'unité de la variabilité pour se centrer sur son importance relative (la variabilité de la taille est-elle aussi importante que la variabilité du poids?).

Par exemple, un s=100 sur une moyenne de 10000 exprimera la même variabilité relative qu'un s=1 sur une moyenne de 100, soit 1%.

Sa compréhension est immédiate, c'est-à-dire que la valeur de l'écart type représente 1% de la moyenne.

ATTENTION: il n'est pas possible de calculer un CV sur des données issues d'échelles d'intervalle.

Ex: avec échantillon B de exercice E2, calculer le CV. Réponse:

CV=0.089 ou 8,9%

2.3.4. La dispersion mesurée avec les quantiles :

Avec les variables ordinales, il est impossible d'exprimer la dispersion des données autour de la tendance centrale avec le calcul de l'écart type.

De plus, l'utilisation des quantiles peut permettre une expression très synthétique des résultats.

Les quantiles sont des valeurs cibles qui jalonnent une distribution.

Si on divise une distribution en 10 intervalles, on parle de déciles.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 17

(18)

Si on divise une distribution en 4 intervalles, on parle de quartiles, …etc.

Cela signifie que 10% de l'effectif est compris dans chaque décile, et que 25% de l'effectif est compris dans chaque quartile.

Les quartiles sont très souvent utilisés car ils résument assez bien une distribution de données en quatre intervalles regroupant chacun 25% de l'échantillon. On distingue alors par définition:

- le premier quartile (Q1) ou quartile inférieur - le second quartile (Q2, en fait = la médiane) - le troisième quartile (Q3) ou quartile supérieur

Plus concrètement, les quartiles sont calculés comme suit:

Q

1

=X

(n+1)/4

Q

2

=médiane soit X

(n+1)/2

Q

3

=X

n+1-(indice de X pour Q1)

Pour simplifier, si l'indice du quantile n'est pas un entier, il est systématiquement arrondi à l'entier supérieur.

A partir de là, on peut calculer l'étendue interquartile ou dispersion centrale interquartile (interquartile range) par la formule:

EIQ = Q3-Q1

ou encore la déviation quartile = (Q3-Q1)/2

L'utilisation des quartiles, déciles ou percentiles est extrêmement répandue dans la standardisation des tests, car elle permet notamment de situer très rapidement un sujet au sein d'une population parente: par exemple, une personne pesant 80 kg et mesurant 1,80 m est-elle plus grande que

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 18

(19)

lourde ou plus lourde que grande (par rapport à une population donnée)?

D'autres utilisations sont aussi très répandues, comme en pharmacologie (dose létale 50=deuxième quartile ou 50°

percentile = dose pour laquelle une drogue tue 50% des

L'utilisation des q animaux testés).

uartiles a donné également naissance à une technique graphique très synthétique: le "box-plot" ou "boîte à moustaches", qui donne, à la fois, une excellente idée de la tendance centrale, de la dispersion et des valeurs extrêmes.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 19

(20)

2.3.5. Indices de diversité:

Dans le cas d'échelles nominales, il est impossible d'utiliser des valeurs comme moyenne ou médiane, écart type ou quantiles.

La notion de dispersion sera donc remplacée par celle de diversité, c'est-à-dire, la distribution des observations dans les différentes catégories.

Les calculs d'indices de diversité sont basés sur la théorie de l'information, à partir du principe suivant:

quand il existe une forte diversité, la notion de synonyme est incertaine.

en d'autres termes,

la précision d'une prédiction sera inversement proportionnelle à la diversité rencontrée.

Dans un ensemble de données issues d'une échelle nominale, considéré comme étant un échantillon randomisé, l'expression de la diversité est obtenue par le calcul de l'index de Shannon :

n

f fi n

n H

k i

=

= 1

i log log

' où,

k = nombre de catégories différentes

fi = nombre d'observations dans la catégorie i n = nombre total d'observations

H' sera d'autant plus petit que la diversité est grande.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 20

(21)

Quand les nombres de catégories sont égaux, il n'y a pas de problème concernant l'utilisation de l'index de Shannon.

Cependant, la valeur de H' est affectée non seulement par la distribution des données mais aussi par le nombre total de catégories.

C'est pourquoi il est préférable d'utiliser dans ces cas là une expression de H' ramenée à sa valeur maximale (quand il n'existe aucune diversité), soit un indice de diversité relative :

H max

' H' J =

' avec H'max = log k

rappel: k étant le nombre de catégories différentes J' prend donc la valeur d'un pourcentage, avec : si J'=1 ⇔ aucune diversité

si J' Ô ⇔ diversité Ò

J' est appelé indice de régularité (evenness) et renvoie à la notion d'homogénéité.

A l'inverse, l'hétérogénéité est appréciée par la grandeur 1-J'.

3. Distribution des échantillons :

On appelle distribution, la répartition des effectifs sur chacun des niveaux de la mesure.

Dans le cas des données de scores, on répartit les effectifs sur des intervalles de mesures. On représente graphiquement les distributions par des courbes de fréquences. Ces distributions peuvent être symétriques, modérément dissymétriques, biaisées à gauche ou à droite, en J ou en L, ou bi modales (cf chapitre précédent).

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 21

(22)

Couramment, les statisticiens modélisent leurs distributions en fonctions binomiales ou normales.

Le modèle binomial et le modèle normal renvoient à peu près à la même réalité (distributions symétriques autour de la moyenne), mais différence principale :

modèle binomial : concerne des variations discrètes modèle normal : concerne des variations continues.

Intérêt de ces modèles: ces distributions possèdent des propriétés mathématiques puissantes qui sous-tendent les tests statistiques.

3.1. La distribution binomiale :

L'exemple classique d'une variable binomiale est :

NOMBRE DE FACES OBTENUES EN PLUSIEURS JETS D'1 PIECE.

En fait, ces variables sont très nombreuses. Les variables binomiales répondent aux hypothèses de base suivantes:

1. on suppose n épreuves (jets de pièces, tirages au sort…)

2. à chaque épreuve un événement (désiré) se produit ou non. S'il survient, on parle de succès, sinon d'échec. Leurs probabilités ne changent pas d'une épreuve à l'autre

3. on suppose que les épreuves sont statistiquement indépendantes.

Donc S (nombre de succès en n épreuves) est appelé variable binomiale.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 22

(23)

Exemples de variables binomiales

Epreuve Succès Echec n S Jet d'une pièce

équilibrée

face pile nombre de jets nombre total de

"face"

naissance d'un enfant dans une famille

fille garçon nombre d'enfants nombre total de fille dans la famille

choix d'une réponse parmi 4 proposées

vrai faux nombre de

questions posées

nombre de réponses

correctes tirage au sort de

boules de couleur

noire blanche nombre de tirages nombre de boules noires tirées

le nombre de succès peut prendre n+1 valeurs, comprises entre 0 et n.

Quand il existe des effectifs inégaux à l'intérieur des sous- ensembles, la nature de la distribution peut varier.

Par exemple, si on tire au sort des boules blanches et noires de proportions respectives p et q, la distribution binomiale :

- sera symétrique si p=q=1/2

- se rapprochera de la symétrie si n est suffisamment grand

- La moyenne de la distribution sera donnée par:

m = n q×

- La variance de la distribution sera donnée par:

s = n×p×q

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 23

(24)

Lorsque la loi binomiale peut être appliquée, il est aisé de calculer la probabilité d'un événement particulier [p(s)] en utilisant la formule:

s n

s



 

=  ( )

)

( π 1 π

s s n

p

avec le coefficient binomial ! !

! ) (n s s

n

= −



 

 s n

et π = probabilité de succès à chaque épreuve et n = nombre d'épreuves

3.2. La distribution normale :

Appelée aussi loi ou courbe de Gauss (mathématicien Allemand de la fin du XVIII° siècle).

C'est une des lois les plus répandues et les plus utiles, car beaucoup de variables aléatoires, comme les erreurs de

C'est une distribution symétrique, centrée su mesure, se répartissent selon la loi normale.

r sa moyenne et présentant deux points d'inflexion symétriques. L'allure de cette distribution ressemble à une cloche.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 24

(25)

Comme ce schéma l'indique, cette distribution est totalement définie par sa moyenne et son écart type.

Une variable sera dite "normale" si elle se distribue de telle sorte que les fréquences d'apparition des différents scores possibles suivent une loi normale.

3.2.1. Les tests de normalité :

La solution la plus simple consiste à calculer un indice d'asymétrie (coefficient de skewness) et d'aplatissement (coefficient de kurtosis)

Coefficient de skewness:

23/2 1 3

m g = m

, avec =

n ) Xi

m2 ( X 2

et =

n ) Xi

m3 ( X 3

Quand la distribution est normale, g1≈0.

Coefficient de Kurtosis:

−3

= 2

2 2 4

m g m

, avec =

n ) Xi

m4 ( X 4

Quand la distribution est normale, g2≈0.

On peut aussi, si un doute persiste, utiliser le test de Kolmogorov-Smirnov.

Son principe est basé sur la comparaison des fréquences cumulées observées aux fréquences cumulées théoriques, calculées à partir de la table de la loi normale.

Principe de réalisation:

- on ordonne les données

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 25

(26)

- on calcule les fréquences correspondant à chaque niveau de score

- on calcule les fréquences cumulées correspondant à chaque niveau de score

- on calcule les scores Z correspondant à chaque score, sachant que

s Z = Xi − X

- on reporte pour chaque niveau (en fonction de la valeur absolue de Z) la fréquence cumulée théorique en utilisant la table de la loi normale.

Attention: quand le signe du z change, la fréquence lue dans la table doit être déterminée par symétrie par rapport à 1, c'est-à-dire que la valeur lue dans la table est soustraite de 1.

- on calcule les différences entre fréquences cumulées observées et théoriques

- la valeur du coefficient de Komogorov-Smirnov correspond à la différence absolue maximale entre fréquence cumulée théorique et observée.

La table de Kolmogorov-Smirnov donne la différence maximale théorique acceptable, en fonction de l'effectif de l'échantillon.

Tant que la différence maximale observée est inférieure à la valeur critique de la table (DiffTh, pour α=0,05) la normalité de la distribution est considérée comme VRAIE.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 26

(27)

exemple :

Score Effectifs Fréquence Fréquence cumulée

z Fréquence cumulée

théorique

Différence

valeur absolue

0 1 2 3 4 5

2 2 0 1 2 3

0,2 0,2 0,0 0,1 0,2 0,3

0,2 0,4 0,4 0,5 0,7 1,0

-1,33 -0,86 -0,38 0,10 0,57 1,05

0,092 0,195 0,352 0,54 0,716 0,853

0,108 0,205 0,048 0,04 0,016 0,147

X=2,8 s=2,1

ici, la différence maximale (Diffmax)=0,205;

pour n=10 et α=0,05, Diffth=0,409

comme ici Diffmax<Diffth, cette distribution peut donc être considérée comme normale.

3.3. La loi normale centrée réduite :

Si l'on transforme une distribution en retranchant sa moyenne et en divisant par son écart-type, on obtiendra une nouvelle distribution, de moyenne 0 et d'écart-type 1: c'est une distribution centrée réduite.

s X z = Xi−

Une telle transformation permet par exemple de comparer des distributions en s'affranchissant des unités de mesure.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 27

(28)

La loi normale réduite a des propriétés très importantes.

En effet, sa distribution permet d'établir des correspondances entre les abscisses (les différentes valeurs de z) et les aires délimitées par ces abscisses.

La table fait correspondre à chaque valeur de z l'aire extérieure à z ⇔ pourcentage de la distribution située au delà de cette valeur ⇔ probabilité de trouver une valeur supérieure à z.

Exemples:

- z=1,50 la table indique p=0,134 La table IV est unilatérale, donc :

- si l’on souhaite connaître le % de la distribution située à l’extérieur de –z et +z ⇒ les probabilités doivent être multipliées par 2; pour z=1,5 cette valeur est 0,067x2=0,134

- si l’on souhaite connaître le % de la distribution compris entre –z et +z ⇒ 1 – (2 x valeur lue dans la table), pour z=1,5 cette valeur est 1 – 0,134 = 0,866.

Ceci signifie que 13,4% de la distribution des z est située en dehors de l'intervalle (-1,5;1,5). Ou encore : 100-13,4=86,6%

de la distribution sont situés entre -1,5 et 1,5. Ou encore : (86,6)/2= 43,3% de la distribution des z est situé entre 0 et 1,5.

La table peut être utilisée à l'inverse:

Quelle est la valeur z pour que 10% de la distribution soit supérieure à z, ou inférieure à –z ?

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 28

(29)

Pour p=0,10 (attention, 0,05 si table unilatérale), la table indique z=1,65.

INTERET: la table normale réduite est à la base de la plupart des procédures statistiques.

Quelques valeurs remarquables de z:

% (in) p' (out) z

90 .10 1.65 95 .05 1.96 99 .01 2.56

4. Limites de confiance de la moyenne d'un échantillon:

Un échantillon est toujours considéré comme extrait d'une population parente.

Il n'en est pas l'image parfaite. Il existe une erreur due à l'échantillonnage.

Tous les paramètres calculés (i.e. moyenne, écart-type) ne sont que des estimations de ceux de la population parente.

D'où la question: quelle confiance accorder à la valeur d'un paramètre calculé sur un échantillon ?

4.1. Population parente à paramètres connus:

Soit une population parente de moyenne µ=49,5 et σ=14,3.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 29

(30)

De cette population on extrait au hasard des échantillons de taille N.

Les différentes moyennes obtenues constituent un échantillon de moyenne, d'une population parente des échantillons de 25 mesures, de moyenne m=M, et d'écart-type E. E est appelé erreur-type.

On montre que E N

= σ

E est d'autant plus petit que N est élevé:

N E 16 3.57 25 2.86 100 1.43

4.2. Population parente à paramètres inconnus:

On ne connaît que les paramètres de l'échantillon. Quelle confiance accorder à cette estimation?

Les limites de confiance de la moyenne de l'échantillon sont L1=X-t(s/√N) et L2=X+t(s/√N)

t est le t de Student, donné par une table spécifique. t dépend du seuil de probabilité choisi, et du nombre de degrés de liberté de l'échantillon

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 30

(31)

dans ce cas, ddl=N-1 Exemples:

N=25 et α=0,05 t=2,064

N=40 et α=0,01 t=2,708

5. Intervalle de confiance d'une proportion :

Les intervalles de confiance pour les proportions est assez semblable à celui des moyennes.

Pour les calculer, on utilise la formule appropriée de l'approximation normale pour les proportions, qui définit que l'écart type de l'échantillonnage est :

n / ) ( π π 1−

où π est la proportion dans la population parente.

Par conséquent, l'intervalle de confiance à 95% d'une proportion P obtenue sur un échantillon donné de taille n sera compris entre deux valeurs

π

1 et

π

2 :

π

1 = P - 1,96 π(1−π )/ n

π

2 = P + 1,96 π(1−π )/ n

Le problème est que la valeur π est par définition inconnue.

Il faut donc substituer à π la valeur P de l'échantillon. Cette procédure introduit évidemment une source d'erreur, mais il est démontrable mathématiquement que celle-ci tend vers 0 quand n augmente.

C'est pourquoi cette formule ne peut être utilisée que pour des effectifs importants

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 31

(32)

Par conséquent, l'intervalle de confiance à 95% d'une proportion P est:

n P P

1,96

(1− )/

Nota: le même calcul est possible au risque de 99% en remplaçant 1,96 (z pour un risque 0,05) par 2,56 (z pour un risque à 0,01; cf paragraphe 3.3) ou toute autre valeur correspondante de z au risque désiré.

6. Statistiques inférentielles ou explicatives : 6.1. inférence, risques statistiques :

Notion d’inférence statistique : un des buts majeurs des statistiques est de réaliser des inférences, c’est-à-dire tirer des conclusions sur des populations, à partir de l’examem d’un échantillon de cette population. En d’autres termes, cela revient à généraliser un résultat.

Lors des chapitres précédents, le principe de l’inférence statistique a déjà été utilisé (p.e. confrontation d’une moyenne obtenue par rapport à une moyenne prévue)

Méthode :

• on pose d’abord une hypothèse nulle (notée H0) qui exprime l’absence de toute différence ou de tout effet expérimental (selon les cas)

• on calcule une valeur statistique dépendant du type de question posée (différence entre 2 moyennes, entre n moyennes, liaisons entre variables, tester des répartitions entre variables…etc.), de la nature des variables à analyser (variables dépendantes ou VD), de leur distribution

• cette valeur calculée est ensuite comparée à une valeur critique pour savoir si H0 doit être rejetée ou non.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 32

(33)

• la valeur critique dépend toujours :

o de la taille de l’échantillon (qui détermine le nombre de degrés de liberté),

o du risque d’erreur acceptable en cas de rejet de H0. Ce risque est noté risque α ou risque de première espèce ou encore risque de type I. Par convention, le risque maximal acceptable en sciences expérimentales est de 5% soit 0,05. Cela signifie qu’il existe 5 chances sur 100 d’avoir rejeté H0 à tort. Par conséquent, plus le risque α est petit, plus le rejet d’H0 est « sûr »

• il existe cependant un risque lorsque H0 n’est pas rejetée.

En effet, H0 peut ne pas être rejetée alors qu’elle est fausse. Ce risque est appelé risque β (risque de deuxième espèce ou risque de type II). Ce risque présente les caractéristiques suivantes :

o pour un effectif n donné, la valeur d’α a tendance à être inversement proportionnelle à β

o la seule façon de réduire simultanément ces 2 risques est d’augmenter n

• souvent la lourdeur du calcul du risque β fait qu’il n’est jamais pris en compte, cependant quand H0 n’est pas rejetée, elle n’est pas forcément vraie. La prudence impose donc :

o de travailler sur des effectifs suffisamment importants o d’éviter des conclusions hâtives quand α est petit

mais supérieur à 0,05 (zone pour laquelle β est souvent très élevé)

synthèse des risques statistiques encourus :

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 33

(34)

si H0 est vraie si H0 est fausse

si H0 est rejetée risque α pas d’erreur si H0 n’est pas rejetée pas d’erreur risque β

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 34

(35)

6.2. Comparaison de 2 moyennes

Problème général : déterminer si 2 moyennes sont différentes ou non.

Tests réalisés : dépend de la nature des variables dépendantes, de leur distribution et de la nature des moyennes

si VD métriques :

• 2 moyennes sur 2 groupes indépendants, avec chaque distribution étant normale : t de Student pour échantillons indépendants

• 2 moyennes issues du même groupe (mesures répétées) avec distribution des différences normale : t de Student pour séries appariées

si VD non métriques ou métriques et non normales (tests non paramétriques utilisant par conséquent la notion de rangs)

• 2 moyennes sur 2 groupes indépendants : test de Mann-Whitney

• 2 moyennes issues du même groupe (mesures répétées) : test des rangs signés de Wilcoxon 6.2.1. t de Student pour échantillons indépendants

soient 2 groupes A et B d’effectifs nA et nB pouvant être différents.

H0 : XA = XB

Le problème est donc de comparer les moyennes de deux échantillons indépendants. L'hypothèse est que les deux moyennes sont égales, donc que leur différence est voisine de zéro.

Il serait possible de calculer les intervalles de confiance de chaque moyenne, et de voir si les deux intervalles ont une

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 35

(36)

intersection non nulle. En pratique, il est plus simple de réaliser un calcul statistique plus généralisable : le t de Student (pour échantillons indépendants).

étapes de calcul de la statistique t :

1. calcul de la variance commune aux deux populations définie comme étant la somme du carré des écarts des 2 échantillons divisée par la somme de leurs degrés de liberté:

B A

B A

p SCE SCE

s2 = ν ++ν

où SCEA=somme du carré des écarts à la moyenne, soit [∑(XiA XA]

et νA = ddlA = nA-1 2. calcul du t :

B p A

p B A

n n

X t X

s s2 + 2

= −

La statistique t représente en fait le rapport entre la variance véritable (différence véritable entre les moyennes) et la variance d'erreur (c'est-à-dire la variation autour de la moyenne). S'il n'existe pas de différence réelle entre les groupes, alors la variance véritable et la variance d'erreur sont équivalentes. le rapport sera alors proche de 1.

Lorsque t est significatif, on en déduit que la variance véritable est supérieure à la variance d'erreur (à un risque α d’autant plus petit que t est grand)

Pratiquement, le t est significatif (rejet de H0) quand le t calculé est supérieur au t critique lu dans la table.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 36

(37)

6.2.2. t de Student pour échantillons appariés

Dans ce cas, les deux séries de mesures ne sont plus issues de 2 groupes indépendants, mais du même échantillon statistique testé dans des conditions différentes.

Le principe de ce test ne sera plus de comparer des différences de moyennes, mais des moyennes de différences.

H0 : d = 0

Etapes de calcul du t :

1. calcul des différences ligne à ligne

2. calcul de la moyenne des différences (d) 3. calcul de la valeur de t :

SEMd

t = d

où SEM représente l’erreur standard de la moyenne des d différences, soit :

d d

n s

4. décision : si le t calculé est supérieur au t lu dans la table pour un ddl=nd-1, H0 est rejetée.

6.2.3. U de Mann-Whitney :

Position du problème: même principe que t de Student pour échantillons indépendants lorsque :

- soit les variables sont de nature non métrique (éch.

ordinale)

- soit leur distribution n’est pas normale Etapes du test :

1. soient 2 groupes 1 et 2 , d’effectifs respectifs n1 et n2

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 37

(38)

On ordonne les données des deux groupes, pour les classer ensuite en fonction de leur rang :

ex : groupe 1 : 9 11 15

groupe 2 : 6 8 10 13

Score : 6 8 9 10 11 13 15

Groupe : 2 2 1 2 1 2 1

Rang : 1 2 3 4 5 6 7

2. La somme des rangs de chaque groupe est ensuite calculée (notée R) :

R1 = 3 + 5 + 7 = 15 R2 = 1 + 2 + 4 + 6 = 13

3. Calcul des statistiques U1 et U2

1 1 2 1

1

1 R

2 1 n n n

n

U = + ( + )

. et 2

2 2 2

1

2 R

2 1 n n n

n

U = + ( + ).

dans notre exemple : U1 = 12 + 6 - 15 = 3 U2 = 12 + 10 - 13 = 9

4. La plus grande des 2 valeurs U1 et U2 est appelée U de Mann et Whitney et sera utilisée pour lire la table. Cette table suppose que n1 est l’effectif du plus petit groupe. Pour un risque α à 0,05 si le plus grand U calculé est supérieur ou égal au Ucritique , alors H0 est rejetée.

Dans notre exemple : toute valeur supérieure ou égale à 12 entraînera un rejet de H0.

Ici Umax=9 ⇒ H0 n’est pas rejetée, on ne pas dire que ces deux groupes sont significativement différents.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 38

(39)

6.2.4. Test des rangs signés de Wilcoxon :

Position du problème : même objectif que t de Student pour échantillons appariés, pour variables ordinales ou métriques mais quand la distribution des différences est non normale.

Procédure :

1. calcul des différences

2. classement des valeurs absolues de différences 3. affectation des rangs (sur les valeurs absolues) 4. application du signe du rang

5. calcul de la somme des rangs positifs (T+) et négatifs (T-) 6. H0 est rejetée si la plus petite des 2 valeurs T+ ou T- est inférieure ou égale à la valeur critique de la table pour n=nombre de différences non nulles et au risque α=0,05.

6.3. Test du chi² :

But : spécifier si deux groupes indépendants sont différents sur des caractéristiques particulières, en se basant sur les fréquences observées de celles-ci.

Avantage : le fait de raisonner sur des fréquences permet de travailler sur des données obtenues sur des échelles de mesure peu structurées telles que les échelles nominales.

H0 : il n’y a aucune différence entre les deux groupes, quant à la répartition des effectifs observés dans chaque catégorie.

Description de la procédure :

1. construction d’une table de contingence. Les groupes sont représentés en colonne, les catégories prises par la variable dépendante en lignes.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 39

(40)

principe de notation : chaque effectif observé de la ième catégorie (de la VD) et du jème groupe est noté nij

Groupe

variable 1 2 total ligne

modalité 1 n11 n12 L1

modalité 2 n21 n22 L2

modalité 3 n31 n32 L3

Total colonne C1 C2 N

N = effectif total soit la somme de tous les nij

avec les effectifs totaux de la ième ligne étant :

=

= c

j ij

Li

1

n

avec c=nbre de colonnes et les effectifs totaux de la jème colonne étant :

=

= l

i ij

Cj

1

n avec l=nbre de lignes par exemple, dans notre table :

L1=n11 + n12

et C1=n11 + n21 + n31

2. calcul des effectifs théoriques si H0 est vraie (identité de répartition dans l’ensemble de la table de contingence)

N C Eij = Li j

Par exemple, dans notre tableau, E11 = N

C L1× 1

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 40

(41)

3. calcul de la statistique Χ²

∑ ∑

= =

= −

Χ l

i c

j ij

ij ij

E E n

1 1

² (

Il s’agit en fait de confronter les effectifs théoriques (Eij) et observés (nij).

4. Prise de décision :

pour un nombre de ddl = (l-1).(c-1) on lit le Χ²critique dans la table, au risque α=0,05.

Si Χ²calculé est supérieur ou égal au Χ²critique, H0 est rejetée

6.4. L'ajustement linéaire :

Il est parfois intéressant d'étudier l'évolution d'une variable en fonction d'une autre, pour voir si la première est liée à la seconde ou évolue indépendamment de la seconde. C'est ce que les statisticiens appellent la régression.

Un des cas simples de ces études est représenté par une liaison de type linéaire, c'est-à-dire obéissant à l'équation:

bX a

Yˆ = +

où Yˆ correspond à une estimation calculée de Y, en fonction d'une valeur de X.

a est appelée ordonnée à l'origine (valeur prise par Yˆ quand X=0)

b est appelée pente de la relation (si b<0, la pente est descendante, et plus la valeur absolue de b est grande, plus la pente est raide). Elle représente la variation de Yˆ qui accompagne la variation d'une unité de X.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 41

(42)

La question qui se pose est de calculer la meilleure droite de régression, c'est-à-dire calculer les valeurs de a et de b.

Comme Yˆ est une valeur estimée à partir de l'équation de régression, il existe pour tout X un écart entre Y (valeur réelle) et Yˆ (valeur calculée), soit:

d = Y - Yˆ

Tout le problème consistera donc à trouver l'équation qui minimisera les écarts obtenus entre toutes les valeurs Y et s obtenus entre toutes les valeurs Y et Yˆ .

Il apparaît évident de vouloir donc minimiser la somme des écarts. Toutefois, comme certains écarts seront positifs et d'autres négatifs (la droite passera parfois au dessus ou au dessous d'un point). Pour contourner ce problème, il est convenu de prendre le carré de chaque écart, puis de minimiser la somme des carrés des écarts, soit:

minimiser

d² =

(Y Yˆ

C'est cette méthode qui est utilisée pour calculer une droite unique, optimisée. Elle porte le nom de méthode des moindres carrés.

A partir de cette méthode, on peut démontrer que :

= −

(

) )(

(

X X

Y Y X b X

ayant calculé b, on peut trouver a par la formule:

X b Y a = −

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 42

(43)

Lorsque l'on a pu déterminer une droite de régression (calcul de a et b), il est possible de déterminer pour toute valeur de X0 une valeur estimée de Yˆ 0 en remplaçant X0 par sa valeur dans l'équation.

Cependant, il faut être conscient que cette valeur calculée n'étant qu'une estimation, elle est possède un écart type permettant de définir un intervalle de confiance à 95%, calculé comme suit :

X 1 X

X X n

s 1 t bX a

Y +

− + −

± +

=

(

) (

( , 0

05 0 0

0

attention: ici la valeur du t au risque 0,05 doit être lu pour un nombre de ddl=n-2

Remarque : si l'intervalle de confiance doit être défini à une valeur différente de 95%, le t doit être remplacé par sa valeur correspondante:

par exemple, pour 99%, on prend t0,01

pour 90%, on prend t0,10 …etc.

Avant de calculer cet intervalle de confiance, il faut pouvoir calculer s nommé l'écart type résiduel :

− 2

=

− n

Y s (Y ˆ

² puis s = s²

LIMITE DES CALCULS DE Yˆ :

Lorsque l'on estime une valeur de Y0 en utilisant des valeurs observées de X0 (dans notre exemple entre 100 et 700) on réalise une INTERPOLATION.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 43

(44)

Par contre, si on utilise une valeur X0 non observée (dans notre exemple une dose d'engrais <100 ou >700) la procédure porte le nom d'EXTRAPOLATION.

Il faut savoir que plus on s'écarte des valeurs observées de X, plus le risque lié à l'extrapolation est grand. En pratique il faut s'abstenir de toute extrapolation.

6.5. L'analyse de variance à un facteur étudié:

Lorsque plus de 2 échantillons sont à comparer, il n'est plus possible d'utiliser les t de Student. Il faut alors recourir à l'analyse de variance ou ANOVA.

La principe de l'ANOVA consiste à comparer les sources de variations (les variances) dues au traitement expérimental (variance entre les groupes) et dues à des termes d'erreurs (variances à l'intérieur de chaque groupe pour tous les groupes).

Le F de Fisher est en fait le rapport du carré moyen des écarts entre les groupes (dû au traitement expérimental) sur le carré moyen des erreurs (obtenues dans les groupes, donc non dues au traitement expérimental).

L'ANOVA teste une H0 qui stipule l'égalité de toutes les moyennes entre elles, soit X1=X2=X3=...=Xn.

L'H0 sera rejetée dès que l'une au moins des moyennes sera différente des autres. C'est pourquoi il convient (si H0 rejetée) de réaliser ensuite des test de comparaisons multiples afin de déterminer quelles sont les moyennes différentes et celles qui ne le sont pas.

Donc, démarche en 2 temps:

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 44

(45)

- calcul du F pour déterminer si au moins une moyenne est différente des autres (c'est à dire que le facteur étudié [variable indépendante] a un effet sur la variable mesurée [variable dépendante])

- tests multiples destinés à déterminer les moyennes homogènes et différentes.

REMARQUE:

l'ANOVA n'est pas une analyse, mais une famille d'analyse qui dépend de la complexité du plan expérimental. Ici seule l'ANOVA à un facteur étudié est abordée.

EXEMPLE:

5 groupes de sujets sont soumis à un apprentissage différent (A1=démonstration, A2=explication et analyse, A3=réalisation d'un exercice et correction personnalisée). A l'issue de cet apprentissage, le nombre d'erreurs sur une tâche donnée est mesuré.

- VI ou facteur étudié= modalité d'apprentissage, - VD= nombre d'erreurs (E)

- H0=la modalité d'apprentissage ne joue aucun rôle sur le nombre d'erreurs obtenues sur la tâche motrice soit

3 2

1 A A

A E E

E = =

PROCEDURE:

On considère que :

k=nombre de groupes expérimentaux i=numéro du groupe concerné d'effectif ni

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 45

(46)

j=numéro d'une donnée dans un groupe i donné, Xij= jème valeur du ième groupe

N=nombre total de sujets, soit la somme de tous les ni

Il n'est pas nécessaire que tous les ni soient égaux, mais l'analyse est plus puissance quand les ni sont très proches. De plus, les comparaisons multiples sont plus simples quand les ni

sont identiques.

Les formules théoriques (non utilisées) sont les suivantes:

SCE totaux =

∑∑

= =

k i

n

j i

X

ij

X

1 1

( )²

avec ddltotaux=N-1

SCE entre les groupes (SCE groupes) =

=

k

i

n

i

X

i

X

1

( )²

avec ddlgroupes=k-1 et enfin:

SCE intra groupes (SCE des erreurs) =

∑ ∑

= =

 

 −

k i

n

j i

X

ij

X

i 1 1

( )²

avec ddl des erreurs = N-k

En fait en pratique, pour éviter les erreurs d'arrondis successives (cf chapitre sur calcul des variances) les formules suivantes seront utilisées:

Etapes de calcul:

ETAPE 1: calcul d'un terme d'erreur C puis des SCE :

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 46

(47)

C=

2 1 1

N

k

X

i n j i ij



 

 ∑∑

= =

SCEtotaux = k X C

i n j ij

i −

 

∑∑

= =1 1

2

avec ddltotaux=N-1

SCEgroupes=

C

n

k

X

i i

n j i ij

 −

 

=

=

)

1

2

(

1

avec ddlgroupes=k-1

Comme la SCEtotaux=SCEgroupes+SCEerreurs SCEerreurs= SCEtotaux -SCEgroupes avec ddlerreurs= ddltotaux -ddlgroupes

ETAPE 2: calcul des carrés moyens (CM) : CMgroupes=

roupes groupes

SCEdd lg

et CMerreurs=

erreurs erreurs

SCEddl ETAPE 3: calcul du F :

F= erreurs groupes

CMCM ETAPE 4: décision

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 47

(48)

l'hypothèse nulle, postule l'égalité de toutes les moyennes entre elles, soit:

H0: X1=X2=X3=...=Xi

Le F calculé est comparé au F critique de la table du F de Fisher.

La valeur critique sera trouvée en croisant :

la colonne ν1 correspondant aux ddlgroupes (k-1) la ligne ν2 correspondant aux ddlerreurs (N-k) la valeur pour le risque alpha=0,05 sera choisie.

Ex: si on compare 4 groupes d'un effectif total de 20 sujets, la valeur de la table est lue dans la colonne 3 et à la ligne 16 (soit Fcritique=3,24).

Si le Fcalculé est supérieur ou égal au Fcritique, H0 est rejetée.

Classiquement, les résultats de l'ANOVA sont représentés ainsi:

Source de variance SCE ddl CM

Totale 2437,57 29

Groupes 2193,4 4 548,36

Erreurs 244,13 25 9,76

F = 56,2; p<0,05

COMPARAISONS MULTIPLES:

Un des tests de comparaisons multiples les plus utilisés est celui de Tukey:

Principe de calcul:

Pour k groupes, il est possible de faire en tout k.(k-1)/2 comparaisons 2 à 2 différentes.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 48

Références

Documents relatifs

Propriété On admet que si on a un échantillon de taille n d’une population, dont un caractère a la probabilité p d’être présent et tel que n ≥ 25 et 0.2 ≤ p ≤ 0.8, alors

En utilisant l'inégalité de Tche- bychev, trouver la valeur de &#34; telle que la probabilité pour X de s'écarter de son espérance mathématique d'une grandeur au plus égale à

Nous nous en servirons pour détecter des valeurs atypiques dans le cadre d’un modèle posé a priori.. Plus précisément, nous chercherons ici à faciliter la mise

Dans le second développement nous décrivons une procédure de calcul des primes d’assurance, fondée sur le cumul des réclamations formulées par les assurés et, de

Alors, pour une statistique d’ordre donnée des valeurs des composantes, la distribution &#34;échantillonnée&#34; doit être à peu près la même. pour toutes ces

Pour c = 0 et c = 1 les tailles d’échantillon né- cessaires sont très petites et la probabilité d’acceptation décrolt si lentement , lorsque la qualité diminue, que

De plus, la dispersion de la variable aléatoire moyenne diminue au fur et à mesure que la taille de

Les résultats obtenus à partir de l’échantillon sont ensuite extrapolés à la population en se basant sur la distribution des estimateurs induite par le plan