• Aucun résultat trouvé

Rappels et compléments sur les concepts statistiques

N/A
N/A
Protected

Academic year: 2022

Partager "Rappels et compléments sur les concepts statistiques"

Copied!
18
0
0

Texte intégral

(1)

Rappels et compléments sur les concepts statistiques

Les statistiques sont une science qui permet d’étudier le monde réel à l’aide de données, que ce soit en économie, sociologie, médecine, ou dans d’autres domaines. Les outils statistiques nous permettent de répondre à des questions sur les propriétés inconnues de la dis- tribution d’une caractéristique de la population d’étude.

Par exemple, si on s’intéresse à la discrimination salariale entre les sexes, on peut chercher à savoir si les salaires moyens sont différents entre les hommes et les femmes, et si oui, de combien. Une manière de répondre à cette question serait de recenser exhaustivement la population des salariés, en mesurant les revenus de chacun, afin de déterminer la distribution des salaires. Cependant, ce type de recen- sement serait très coûteux et nécessiterait un processus complexe et lourd. L’apport fondamental des statistiques est d’éviter un tel re- censement, car elles permettent d’obtenir des connaissances sur une population d’étude à l’aide d’un échantillon aléatoire tiré dans cette population.

Trois types de méthodes statistiques sont utilisés dans tous les champs de l’économétrie : l’estimation, les tests d’hypothèse et les intervalles de confiance. L’estimation consiste à calculer, à partir d’un échan- tillon de données, la valeur numérique « la plus proche » de la valeur numérique réelle (ou « théorique ») d’une caractéristique inconnue de la distribution d’une variable, telle que sa moyenne. Les tests d’hypo- thèse consistent à formuler des hypothèses spécifiques concernant la population d’étude, puis de vérifier leur validité à partir des données.

Les intervalles de confiances utilisent les données pour estimer une gamme de valeurs associée à une caractéristique de la population.

(2)

Ces trois concepts statistiques sont étudiés longuement dans les cha- pitres 1 à 4 de ce livre. Dans cette annexe, nous rappelons les fon- dements théoriques des deux premiers concepts (estimation et tests d’hypothèse) ainsi que leurs applications.

B.1 Estimation : définition et propriétés

L’estimateur de la valeur moyenne deY,µY (par exemple, le salaire moyen des femmes récemment diplômées de l’université), constituera notre point d’ancrage pour présenter les propriétés statistiques d’un estimateur. La manière la plus simple d’estimerµY est de calculer, à partir d’un échantillon denobservations Y1,Y2, . . . ,Ynidentiquement et indépendamment distribuées (i.i.d.), la moyenne empirique ¯Y. Cette section présente les propriétés de cet estimateur deµY.

B.1.1 Les estimateurs et leurs propriétés

La moyenne empirique ¯Y est un estimateur naturel deµY, mais ce n’est pas le seul possible. Par exemple, on pourrait utiliser la première observation, Y1. Choisir entre tous les estimateurs possibles de la moyenne nécessite le recours à des critères statistiques permettant de sélectionner le meilleur. Sur quelle base préférer un estimateur à un autre ? On peut reformuler cette question ainsi : quelles sont les caractéristiques désirables de la distribution d’échantillonnage d’un estimateur ? Dans le cas général, on demande à un estimateur qu’il soit le plus proche possible de la vraie valeur du paramètre recherché. Cette exigence conduit à définir trois caractéristiques désirables d’un estimateur : absence de biais , consistance et efficacité.

Absence de biais

Supposons qu’on se propose d’évaluer un estimateur plusieurs fois, à partir d’un tirage aléatoire et répétitif d’échantillons. Si, à l’issue de ces réplications, la moyenne de la distribution d’échantillonnage de l’estimateur est égale àµY, alors l’estimateur est sans biais.

Mathématiquement, notons ˆµY l’estimateur de µY. ˆµY est sans biais si on a E(ˆµY) =µY, oùE(ˆµY) est la moyenne de la distribution d’échantillonnage de ˆ

µY.

Consistance

Une autre propriété désirable de l’estimateur ˆµY est que, pour un échantillon comportant un nombre d’observations nsuffisamment grand, l’incertitude sur la valeur de µY, issue de l’aspect aléatoire de l’échantillonnage, devienne très faible. Autrement dit, on demande que la probabilité que ˆµY soit très proche deµY tende vers 1 quandntend vers l’infini. En d’autres termes, ˆµY doit être

(3)

un estimateur consistant de µY (voir concept-clé A.6 de l’annexe A). Cette propriété se traduit mathématiquement par ˆµY −→p µY.

Variance et efficacité

Supposons qu’on envisage deux estimateurs pour la moyenne, ˆµY et µeY, tous deux sans biais. Comment peut-on choisir entre ces deux estimateurs ? Une manière de le faire est de retenir l’estimateur dont la variance est la plus petite.

Si ˆµY a une plus faible variance queeµY, on dit qu’il est plus efficace.

Concept-clé B.1 Biais, consistance et efficacité Soit ˆµY un estimateur deµY. Alors :

– Le biais de ˆµY estE(ˆµY)−µY.

– ˆµY est un estimateur sans biais deµY siE(ˆµY) =µY. – ˆµY est un estimateur consistant deµY si ˆµY −→p µY.

– Soit eµY un autre estimateur de µY. Supposons que ˆµY et µeY sont tous deux sans biais. L’estimateur ˆµY est dit plus efficace que µeY si var(ˆµY)< var(µeY).

B.1.2 Propriétés de Y ¯

Y¯ est-il un bon estimateur deµY, du point de vue des trois critères précédents : biais, consistance, efficacité ?

Biais, consistance et efficacité deY¯

Nous avons pu montrer, dans les sections A.5 et A.6 de l’annexe A, que ¯Y est un estimateur sans biais deµY. Nous avons aussi vu (voir concept-clé A.5) que, d’après la loi des grands nombres, ¯Y −→p µY, donc que ¯Y est un estimateur consistant.

Pour déterminer si ¯Y est efficace, calculons tout d’abord sa variance. Dans la sections A.5, nous avons pu montrer que var( ¯Y) = σ2Y/n; ainsi, dès que n ≥ 2, la variance de ¯Y est inférieure par exemple à la variance de l’autre estimateur potentiel évoqué en début de section,Y1, dont la variance estσY2. En conséquence et suivant le critère d’efficacité, ¯Y est plus efficace queY1; il sera ainsi préféré àY1. Cette comparaison peut s’étendre à d’autres estimateurs sans biais de µY : ¯Y demeure le meilleur estimateur linéaire sans biais [dans la littérature économétrique,Best Linear Unbiaised Estimator (BLUE) est le terme utilisé] c’est-à-dire l’estimateur le plus efficace (le meilleur) parmi tous les estimateurs sans biais qui sont fonction linéaire desY1,Y2, . . . ,Yn.

(4)

Y¯ est l’estimateur des moindres carrés deµY

La moyenne empirique ¯Y fournit le meilleur ajustement aux données d’après le critère des moindres carrés. Ce critère correspond à la minimisation de la somme des carrés des différences entre les observationsYi et la valeur estimée.

Mathématiquement, ce critère revient à trouver la valeurmqui minimise

n

X

i=1

(Yim)2, (B.1)

Yi−mpeut être vue comme l’erreur de prédiction. La somme des carrés des écarts, donnée par B.1, peut donc être considérée comme la somme des carrés des erreurs de prédiction.

L’estimateurmqui minimise la somme des carrés des écartsYi−mde l’expres- sion B.1 est appeléestimateur des moindres carrés. Pour minimiser cette expression, il suffit de trouver la racine de sa dérivée en posant :

d dm

n

X

i=1

(Yim)2=−2

n

X

i=1

(Yim) =−2

n

X

i=1

Yi+ 2mn= 0 (B.2) La résolution de cette équation fournit m = ¯Y. ¯Y est donc l’estimateur des moindres carrés deµY.

B.2 Tests d’hypothèse

De nombreuses hypothèses au sujet du monde qui nous entoure, peuvent être ex- primées en termes de questions dont la réponse est en oui ou non. Par exemple, au sujet des salaires, on peut se demander : de récents diplômés de l’université gagnent-ils environ 20e/heure ? Ou encore : oui ou non, les femmes gagnent- elles moins que les hommes ? Les tests d’hypothèse permettent de traiter ce type de problème décisionnel (l’hypothèse est-elle vraie ou non) en se basant sur des données. Dans cette section, nous décrivons les tests d’hypothèse en partant de l’exemple du salaire horaire moyen des hommes et des femmes titulaires d’un diplôme universitaire.

B.2.1 Hypothèses nulle et alternative

Le point de départ de la procédure d’un test d’hypothèse est de spécifier l’hypo- thèse à tester, appelée l’hypothèse nulleet notéeH0, qui sera « confrontée » à unehypothèse alternative, notéeH1.

Par exemple, considérons l’hypothèse nulle suivante : « la moyenne théorique E(Y) prend une valeur spécifique µY,0». Cette hypothèse nulle s’écrit sous la forme

H0:E(Y) =µY,0. (B.3)

Dans le cadre destests bilatéraux, l’hypothèse alternative est donnée par H1:E(Y)6=µY,0 alternative bilatérale. (B.4)

(5)

Comme nous l’avons signalé, le test d’hypothèse nulle est un problème déci- sionnel qui consiste à rejeter ou ne pas rejeter l’hypothèse nulle en faveur de l’hypothèse alternative.

B.2.2 La probabilité marginale de rejet (valeur p)

Pour un échantillon donné, la moyenne empirique ¯Y est rarement exactement égale à la valeurµY,0 de l’hypothèse nulle. La différence entre la valeur estimée Y¯ et la valeurµY,0 peut être due à deux raison : la vraie moyenne n’est pasµY,0 (l’hypothèse nulle est fausse) ; la vraie moyenne est bienµY,0 (l’hypothèse nulle est vraie), mais il y une différence en raison de l’aspect aléatoire de l’échan- tillonnage. Il est impossible de déterminer avec certitude laquelle de ces deux possibilités est vraie. Par contre, le recours à un calcul probabiliste permet de tester l’hypothèse nulle en tenant compte de l’incertitude d’échantillonnage. Ce calcul concerne la probabilité marginale de rejet de l’hypothèse nulle.

Laprobabilité marginale de rejet(ouvaleur p) est la probabilité de tirer une valeur au moins aussi éloignée de la vraie valeur que la valeur estimée à partir de l’échantillon,quand on suppose que l’hypothèse est nulle. Plus concrè- tement, dans le contexte de l’hypothèse H0 sur la moyenne, elle est calculée ainsi : on suppose que l’hypothèse nulle est vraie, et on calcule la probabilité pde trouver, par un tirage aléatoire, une valeur au moins aussi éloignée de la vraie moyenne que la valeur ¯Y (la valeur estimée à partir de l’échantillon). Par exemple, supposons que pour un échantillon de nouveaux diplômés de l’uni- versité, le salaire horaire moyen soit de 22,64e, et que la moyenne théorique sous l’hypothèse nulle,µY,0, soit 20e. La probabilité marginale de rejetpest la probabilité d’observer une valeur de ¯Y au moins aussi éloignée de la moyenne théorique (20e) que 22,64e lorsque l’hypothèse nulle H0 est vraie. Si cette valeur est faible, par exemple égale à 0,5 %, il sera raisonnable de conclure au rejet de l’hypothèse nulle. Par contre, si cette valeur est élevée, par exemple 40 %, la valeur observée est compatible avec l’hypothèse nulle (car la proba- bilité de tirer une telle valeur, si l’hypothèse nulle est vraie, est forte), donc l’hypothèse nulle n’est pas rejetée.

Pour définir mathématiquement la probabilité marginale de rejetp, posons ¯Yobs la valeur de la moyenne empirique effectivement calculée à partir des données, etPH0 la probabilité calculée sous l’hypothèse nulle (c’est-à-dire calculée sous l’hypothèse queE(Yi) =µY,0).La probabilité marginale de rejet pest donnée par

valeur p=PH0 |Y¯ −µY,0|>|Y¯obsµY,0|

. (B.5)

D’après cette expression, la probabilité marginale de rejetpest l’aire sous la courbe de la distribution de ¯Y sous l’hypothèse nulle, en ne prenant que la partie qui se trouve au niveau des queues, au-delà de|Y¯obsµY,0|. Si la probabilité marginale de rejet est élevée, alors la valeur observée ¯Yobs est compatible avec l’hypothèse nulle ; elle ne l’est pas pour une faible probabilité marginale de rejet.

(6)

Pour calculer la probabilité marginale de rejetp, il est nécessaire de connaître, sous l’hypothèse nulle, la distribution d’échantillonnage de ¯Y. Cependant, lors- que la taille de l’échantillon est suffisamment grande, on peut recourir au théo- rème central limite : la distribution normale est une bonne approximation de la distribution de ¯Y. Sous l’hypothèse nulle, ¯Y est alors distribuée suivant une loiN(µY,0Y¯), oùσY¯ =σY/n.

B.2.3 Calcul de la probabilité marginale de rejet quand σ

Y¯

est connue

Le calcul de la probabilité marginale de rejetpquandσY¯ est connue est résumé dans la figure B.1. Sous l’hypothèse nulle, pour un échantillon de grande taille, la distribution d’échantillonnage de ¯Y est normale,N(µY,0Y¯), oùσY¯ =σY2/n.

La version centrée réduite de ¯Y, ( ¯YµY,0)/σY¯, admet donc une distribution normale centrée réduite. La probabilité marginale de rejetpest la probabilité d’obtenir une valeur de ¯Y telle que, sous l’hypothèse nulle, ( ¯YµY,0)/σY¯ soit supérieur à ( ¯Yobs−µY,0)/σY¯ en valeur absolue. Cette probabilité correspond à la surface grisée de la figure B.1. Mathématiquement, cette aire grisée des queues de la distribution de la loi normale centrée réduite (c’est-à-dire la probabilité marginale de rejet) s’écrit

valeur p=PH0(|

Y¯ −µY,0 σY¯

|>|

Y¯obsµY,0 σY¯

|) = 2Φ(−|

Y¯obsµY,0 σY¯

|), (B.6) où Φ est la fonction de répartition de la loi normale centrée réduite. Ainsi, la probabilité marginale de rejet p est la surface des queues de la distribution normale centrée réduite en dehors de±( ¯YobsµY,0)/σY¯.

L’expression (B.6) indique que la probabilité marginale de rejet pdépend de la variance de la distribution d’échantillonnage, σY2. Dans la pratique, cette variance est généralement inconnue et nécessite d’être calculée. Il existe une exception importante : quand Yi est binaire, elle admet une distribution de Bernoulli ; dans ce cas sa variance peut-être déterminée sous l’hypothèse nulle [voir équation (A.7)].

B.2.4 Variance empirique, écart-type empirique et erreur-type

Variance empirique et écart-type

Lavariance empirique,s2Y, s’écrit s2Y = 1

n−1

n

X

i=1

(YiY¯)2. (B.7)

L’écart-type empirique,sY, est la racine carrée de la variance empirique.

Il existe deux différences entre les expressions de la variance empirique et la variance théorique (E(Y −µY)2). La raison de la première différence (µY est

(7)

remplacée par ¯Y), est que la valeur deµY étant inconnue, elle doit être estimée ; l’estimateur naturel est ¯Y. La raison de la deuxième différence (la division par n−1 au lieu den) est due au fait qu’estimerµY par ¯Y introduit un léger biais vers le bas de (YiY¯)2. Plus particulièrement, on peut facilement montrer queE[(YiY¯)2] = [(n−1)/n]σ2Y. Ainsi,EPn

i=1(YiY¯)2=nE[(YiY¯)2] = (n−1)σ2Y. La division de l’équation (B.7) par n−1 au lieu de n permet de corriger le biais et le résultat est ques2Y est sans biais.

Le fait de diviser l’équation (B.7) parn−1 plutôt quenest appelé correction par ledegré de liberté.

Yact – μY,0 z σY

Yact – μY,0

σY 0

La partie grisée représente la probabilité marginale.

N(0, 1)

Figure B.1 Calcul de la probabilité marginale de rejet p

La probabilité marginale de rejet p est la probabilité de tirer, sous l’hypo- thèse nulle, une valeur ¯Y qui diffère au moins autant deµY,0 que ¯Yobs. Pour un échantillon de grande taille, ¯Y est distribuée, sous l’hypothèse nulle, sui- vant N(µY,0Y2¯) ; ainsi, ( ¯YµY,0)/σY¯ est distribuée suivant N(0,1). En conséquence, la probabilité marginale de rejet correspond aux queues gri- sées de la distribution de la loi normale centrée réduite (représentée sur la figure), c’est-à-dire à la zone qui se trouve en dehors de la zone délimitée par

|( ¯YobsµY,0Y¯)|.

Consistance de la variance empirique

La variance empirique est un estimateur consistant de la variance théorique :

s2Y −→σ2Y. (B.8)

Cette relation signifie que, pour un échantillon de grande taille, la variance empirique converge vers la variance théorique avec une probabilité proche de un.

(8)

La variance empirique est un estimateur consistant : démonstration Pour démontrer que la variance empirique est un estimateur consistant de la variance théorique, on utilise la loi des grands nombres, avec l’hypothèse que Y1, . . . ,Yn sont i.i.d. et queE(Yi4)<∞.

On part de l’expression de la variance empirique, puis on opère quelques ma- nipulations algébriques :

s2Y = 1 n−1

n

X

i=1

(YiY¯)2

= 1

n−1

n

X

i=1

(YiµY)2− 2 n−1

n

X

i=1

(YiµY)( ¯YµY)+ 1 n−1

n

X

i=1

( ¯YiµY)2

= ( n n−1)[1

n

n

X

i=1

(YiµY)2]−( n

n−1)( ¯YµY)2. (B.9) On peut maintenant appliquer la loi des grands nombres aux deux termes de la dernière ligne de l’équation (B.9). Posons Wi = (YiµY)2. Par définition, E(Wi) =σY2. Puisque les variablesY1, . . . ,Ynsont i.i.d., les variables aléatoires W1, . . . ,Wn sont i.i.d. De plus, puisque E(Yi4) < ∞, alors on a E(Wi2) = E[(YiµY)4] < ∞. Ainsi, W1, . . . ,Wn sont i.i.d. et var(Wi) < ∞, donc ¯W satisfait les conditions d’application de la loi des grands nombres du concept- clé A.6 et ¯W −→p E(Wi). Puisque ¯W = (1/n)Pn

i=1(YiµY)2 etE(Wi) =σ2Y, alors (1/n)Pn

i=1(YiµY)2 −→p σY2. De plus n/(n−1) −→1, donc le premier terme de la dernière ligne de l’équation B.9 converge en probabilité versσ2Y. Le second terme de cette ligne converge vers zéro car ¯Y −→p µY et (YiµY)2−→p 0.

La combinaison de ces résultats fournits2Y −→σ2Y. Erreur-type deY¯

Puisque l’expression de l’écart-type de la distribution d’échantillonnage de ¯Y estσY¯ =σY/

n, l’équation (B.9) justifie d’utilisersY/

ncomme un estima- teur deσY¯. Cet estimateur appeléerreur-type de Y¯ et il est notéSE( ¯Y) ou ˆ

σY¯.

Si Y1, . . . ,Yn sont i.i.d. suivant une loi de Bernoulli avec une probabilité p, l’expression de la variance de ¯Y se réduit àp(p−1)/n. L’expression de l’erreur- type est aussi une expression simple, qui ne dépend que de ¯Y etn :SE( ¯Y) = qY¯(1−Y¯)/n.

B.2.5 Calcul de la probabilité marginale de rejet quand σ

Y

est inconnue

Puisques2Y est un estimateur consistant deσ2Y, on peut calculer la probabilité marginale de rejetpen remplaçant, dans l’équation (B.6),σY¯ parSE( ¯Y) = ˆσY¯. En d’autres termes, quand σY est inconnue et que Y1, . . . ,Yn sont i.i.d., la

(9)

probabilité marginale de rejet (valeur p) est calculée à partir de l’expression suivante :

valeur p= 2Φ(−|Y¯obsµY,0

SE( ¯Y) |. (B.10)

B.2.6 La statistique t

La moyenne empirique centrée réduite (Y −µY,0)/SE( ¯Y) joue un rôle central dans les tests d’hypothèse, elle est appelée lastatistique t:

t=( ¯YµY,0)

SE( ¯Y) . (B.11)

De façon générale, une statistique de test est une statistique utilisée pour réali- ser un test d’hypothèse. La statistiquetest un exemple important de statistique de test.

Distribution asymptotique de la statistiquet

Pour un échantillon de grande taille,s2Y est très proche de σY2 avec une forte probabilité. Ainsi, pour un échantillon de grande taille, la distribution de la sta- tistiquetest approximativement la même que la distribution de ( ¯YµY,0)/σY¯, qui à son tour peut être approchée par une distribution normale centrée réduite, d’après le théorème central limite. En conséquence, sous l’hypothèse nulle,

pour une grande valeur den,la statistiquet

est approximativement distribuée suivant une loiN(0,1). (B.12) La probabilité marginale de rejetppeut être réécrite en fonction de la statis- tiquet. Notonstobs la valeur de la statistique t calculée à partir d’un échan- tillon :

tobs=

Y¯obsµY,0

SE( ¯Y) . (B.13)

Sinest grand, la valeur marginale de rejetppeut se calculer ainsi :

valeur p= 2Φ(−|tobs|). (B.14)

Comme exemple, considérons un échantillon den= 200 observations portant sur les salaires des jeunes diplômés de l’université. Testons l’hypothèse nulle que le salaire horaire moyen, E(Y), est de 20e. La moyenne empirique des salaires est ¯Yobs = 22,64eet l’écart-type empirique est sY = 18,14e. Ainsi, l’erreur-type de ¯Y estsY/

n= 18,14/√

200 = 1,28.La valeur de la statistique testtobs= (22,64−20)/1,28 = 2,06. D’après la table 1 de la loi normale centrée réduite du site en ligne, la probabilité marginale de rejet est 2Φ(−2,06) = 0,039, ou 3,9 %. En d’autres termes, si l’hypothèse nulle est vraie, la probabilité d’obtenir une moyenne empirique au moins aussi différente de la valeur de l’hypothèse (20e) vaut 3,9 %.

(10)

B.2.7 Tester une hypothèse avec seuil de signification préspécifié

Quand on effectue un test d’hypothèse, on peut faire deux types d’erreur : on peut rejeter l’hypothèse nulle à tort (alors qu’elle est vraie), c’est l’erreur de première espèce ; on peut ne pas rejeter l’hypothèse nulle, à tort (alors qu’elle est fausse), c’est l’erreur de deuxième espèce. Les tests d’hypothèse peuvent être effectués sans calculer de valeur marginalep, si on préfère préciser à l’avance quelle est la probabilité d’erreur de première espèce qu’on accepte de faire. Si on préspécifie cette probabilité de rejeter à tort l’hypothèse nulle (par exemple 5 %), l’hypothèse nulle est rejetée si et seulement si la probabilité marginale de rejet est inférieure à 5 %.

Test d’hypothèse utilisant un seuil de signification fixé

Supposons qu’on ait décidé que l’hypothèse nulle sera rejetée si la probabilité marginale de rejet est inférieure à 5 % (c’est ce qu’on appelle la règle de déci- sion). Puisque l’aire sous la courbe de la distribution normale centrée réduite vaut 5 % pour la zone des queues se trouvant à l’extérieur de±1,96, la règle de décision est

Rejet deH0 si|tobs|>1,96. (B.15) En d’autres termes, l’hypothèse nulle est rejetée si la statistique t calculée à partir de l’échantillon est supérieure, en valeur absolue, à 1,96. Pour un échantillon de grande taille, la statistiquet admet, sous l’hypothèse nulle, une loi N(0,1). Ainsi, le risque d’erreur de type I (la probabilité que l’hypothèse soit rejetée à tort) est de 5 %.

Cette manière de procéder pour les tests d’hypothèse est décrite par une ter- minologie particulière, résumée dans le concept-clé B.2. Dans le cadre de l’ex- pression (B.15), le niveau de signification est 5 % ; la valeur critique du test bilatéral est 1,96 ; la région de rejet correspond à la valeur de la statistiqueten dehors de ±1,96. Si le test rejette l’hypothèseH0au seuil de 5 %, la moyenne de la population µY est dite (statistiquement) significativement différente de µY,0 au seuil de 5 %.

Quand on a précisé a priori un seuil de signification désiré, tester l’hypo- thèse nulle ne nécessite pas le calcul de la probabilité marginale de rejet. Dans l’exemple précédent portant sur l’hypothèse que le salaire horaire moyen des jeunes diplômés de l’université est de 20e, la statistique t est égale à 2,06.

Cette valeur, supérieure à 1,96, conduit au rejet de l’hypothèse nulle au seuil de 5 %. Bien qu’il soit aisé de tester une hypothèse en se basant sur un seuil de signification, indiquer uniquement si l’hypothèse nulle est rejetée ou non à un seuil préétabli fournit moins d’information que d’indiquer la probabilité marginale de rejetp.

Le choix d’un seuil de signification est un compromis. S’il est trop élevé, le risque de première espèce est élevé, s’il est trop faible, on risque d’avoir beaucoup de

(11)

mal à rejeter l’hypothèse nulle. En général on choisit une solution intermédiaire, c’est-à-dire 5 %.

Concept-clé B.2 Terminologie des tests d’hypothèse

Un test d’hypothèse est un problème décisionnel qui consiste à décider si on peut ou pas rejeter une hypothèse nulleH0confrontée à une hypothèse alternative H1. En prenant la décision, on peut commettre deux types d’erreur. L’erreur de première espècecorrespond au fait de rejeter à tort l’hypothèse nulle (alors qu’elle est vraie). L’erreur de deuxième espèce correspond au fait de ne pas rejeter, à tort, l’hypothèse nulle (alors qu’elle est fausse).

La probabilité de commettre une erreur de première espèce (rejeter à tort H0), s’appelle la probabilité de signification ou la taille du test. Elle permet de déterminer une région d’acceptation et une région critique.

La probabilité de deuxième espèce, qui dépend de la vraie valeur du paramètre sous l’hypothèse nulle, est lapuissance du test.

La probabilité marginale de rejetpest la probabilité d’obtenir une statis- tique de test par tirage aléatoire, en supposant que l’hypothèse nulle est vraie, au moins aussi adverse à l’hypothèse nulle que la statistique réel- lement observée. Autrement dit, la valeur pest le seuil de signification le plus petit auquel on peut rejeter l’hypothèse nulle pour les données observées.

B.3 Estimations des effets causaux par la

différence des moyennes, à partir de données expérimentale

B.3.1 Effets causaux et expériences idéalement contrôlées

Rappelons qu’une expérience aléatoire contrôlée est une expérience qui sélec- tionne des sujets (des individus, ou plus généralement des entités) à partir d’une population d’intérêt, puis les assigne aléatoirement à un groupe de traitement (qui reçoit le traitement expérimental) ou à un groupe de contrôle (qui ne reçoit pas le traitement). La différence entre les moyennes du groupe de traitement et de contrôle est un estimateur de l’effet causal du traitement.

Par exemple, le traitement peut être de mettre plus de fertilisants dans des champs de tomates pour augmenter la production. Mesurer la causalité dans ce cas signifie mesurer si le traitement (l’application d’un fertilisant) a une conséquence ou un effet mesurable sur la production de tomates.

B.3.2 Estimation des effets causaux

Comment peut-on quantifier l’effet sur la production de tomates de l’application de 100 grammes de fertilisant par mètre carré ?

(12)

Une manière de procéder est de conduire une expérience sur plusieurs parcelles de tomates identiques, mais où seule une partie des parcelles reçoit le trai- tement (la fertilisation). La répartition du traitement parmi les parcelles est effectuée aléatoirement par ordinateur. À la fin de l’expérience, la différence de production moyenne entre les parcelles traitées et non traitées sera une mesure de l’effet du traitement (la fertilisation) sur la production de tomates,.

C’est un exemple d’expérience aléatoire et contrôlée. Elle estcontrôlée au sens où il existe ungroupe de contrôlequi ne reçoit aucun traitement et ungroupe de traitement qui reçoit le traitement (100g/m2 de fertilisant).

Cette expérience estaléatoirecar le traitement est assigné aléatoirement aux différentes parcelles. Cette assignation aléatoire permet d’éviter les biais qui pourraient affecter le lien direct entre l’action et le résultat. Par exemple, si on fertilisait exclusivement, ou préférentiellement, les parcelles idéalement en- soleillées, le résultat pourrait être biaisé vers le haut si l’ensoleillement favorise la production de tomates.

Dans ce livre, l’effet causal est défini comme le résultat d’une action (ou traitement), mesuré à partir d’une expérience aléatoire idéalement contrôlée.

Dans une telle expérience idéale, la différence de résultats entre les groupes de traitement et de contrôle est due uniquement au traitement.

Le concept d’expérience aléatoire et idéalement contrôlée est important, car il offre la possibilité de définir l’effet causal. Cependant, dans la pratique, il est souvent difficile, voire impossible, de conduire une telle expérience. En économé- trie, les vraies expériences sont rares car elles sont très coûteuses. Néanmoins, le concept d’expérience aléatoire et idéalement contrôlée fournit une référence théorique essentielle pour les analyses économétriques des effets causaux utili- sant des données réelles.

B.3.3 Effet causal et différence des espérances conditionnelles

L’effet causal d’un traitement est l’effet attendu du traitement sur la variable- résultat qui nous intéresse, mesuré dans le cadre d’une expérience aléatoire idéalement contrôlée. Cet effet peut être exprimé comme la différence entre deux espérances conditionnelles. Plus particulièrement, l’effet causal, surY, d’un traitement de niveau x, est la différence entre les espérances conditionnelles E(Y|X =x)E(Y|X= 0), oùE(Y|X =x) est la valeur attendue deY pour le groupe de traitement etE(Y|X = 0) la valeur attendue deY pour le groupe de contrôle. Dans le contexte d’une expérience, l’effet causal est aussi appelé l’effet du traitement. S’il y a seulement deux niveaux de traitement (c’est- à-dire, si le traitement est binaire), on peut désigner parX = 0 le groupe de contrôle et parX= 1 le groupe de traitement. Dans ce cas, dans le cadre d’une expérience aléatoire idéalement contrôlée, l’effet causal ou l’effet de traitement est égal àE(Y|X = 1)−E(Y|X = 0).

(13)

Encadré B.1 Estimation des effets causaux : discrimination de salaire entre les deux sexes

Comme nous venons de le préciser, dans une expérience aléatoire idéalement contrôlée, si le traitement est binaire, l’effet causal peut être estimé par la dif- férence entre les moyennes empiriques des résultats des groupes de traitement et de contrôle. L’hypothèse que le traitement n’est pas efficace correspond à la nullité de cette différence, c’est-à-dire à l’égalité des deux moyennes empiriques.

Cette hypothèse peut être testée par la statistiquet.

En économétrie, la conduite d’une expérience aléatoire idéalement contrôlée peut être coûteuse, difficile à mettre en place et, dans certains cas, éthique- ment inacceptable. Pour ces raisons, les économètres se tournent plutôt vers des « expériences naturelles », appelées aussi « quasi-expériences », où un évène- ment extérieur, non lié au traitement ni aux caractéristiques du sujet, a comme effet d’assigner aléatoirement le traitement à différents sujets « comme si » ils faisaient partie d’une réelle expérience idéalement contrôlée. Nous présentons dans la suite de cette section un exemple d’une telle quasi-expérience.

Nous avons pu montrer dans l’annexe A qu’en moyenne, aux États-Unis, les hommes diplômés de l’université sont mieux rémunérés que les femmes titu- laires du même diplôme. Cependant, depuis quelques années, les normes so- ciales et les textes juridiques sur la discrimination sexuelle ont été modifiés.

L’étude suivante cherche à répondre à la question : ces initiatives ont-elles réussi à réduire les discriminations salariales entre hommes et femmes titu- laires d’un diplôme universitaire ?

Le tableau B.1 fournit les estimations des salaires horaires moyens des tra- vailleurs à plein temps, titulaires d’un diplôme universitaire et âgés de 25 à 34 ans. Les salaires considérés dans cette étude ont été déflatés par l’in- dice du prix à la consommation (IPC). En 2008, le salaire horaire moyen des 1838 hommes recensés était de 24,98 $, avec un écart-type de 11,78 $.

Pour les 1871 femmes recensées, le salaire horaire moyen était de 20,87 $, avec un écart-type de 9,66 $. Ainsi, en 2008, l’écart entre les salaires moyens des deux sexes était de 4,11 $ (=24,98 $- 20,87 $), avec un écart-type de 0,35 $ (=p

11,782/1838 + 9,662/1871).

Les résultats du tableau B.1 suggèrent quatre conclusions. Premièrement, l’écart des salaires est élevé. Un écart horaire de 4,11 $ peut paraître rela- tivement faible, mais sur une année, en considérant une semaine avec 40h de travail et 50 semaines payées par an, cela revient à 8220 $. Deuxièmement, entre 1992 et 2008, l’écart entre les salaires horaires réels des deux sexes a connu une hausse de 0,87 $ (4,11 $ - 3,22 $). Cependant, cette hausse n’est pas statistiquement significative au seuil de 5 %. Troisièmement, cet écart est élevé en termes de pourcentage : les estimations du tableau B.1 indiquent qu’en 2008, les femmes ont gagné, en terme de salaire horaire moyen, 16 % de moins que les hommes (4,11 $ / 24,98 $), ce qui est légèrement plus élevé que l’écart observé en 1992 (3,22 $ / 23,27 $).

Cette analyse empirique ne fournit aucune information supplémentaire sur les réelles sources de cette discrimination salariale entre les deux sexes. Est-elle le reflet de différences de compétences, d’expérience ou d’éducation entre les hommes et les femmes ? Est-elle le reflet de choix professionnels ? Ou bien existe-t-il d’autres causes ? Ces questions sont traitées dans les chapitres du livre.

(14)

Tableau B.1 Tendances des salaires horaires pour les jeunes salariés diplômés de l’université, âgés de 25 à 34 ans

hommes femmes hommes -

femmes IC à 95 % Année Y¯m sm nm Y¯w sw nw Y¯mY¯w SE( ¯YmY¯n) pour d

1992 23,27 10,17 1594 20,05 7,87 1368 3,22∗∗ 0,33 2,85-3,88 1996 22,48 10,10 1379 18,98 7,95 1230 3,50∗∗ 0,35 2,80-4,19 2000 24,88 11,60 1303 20,74 9,36 1181 4,14∗∗ 0,42 3,32-4,97 2004 25,12 12,01 1894 21,02 9,36 1735 4,10∗∗ 0,36 3,40-4,80 2008 24,98 11,78 1838 20,87 9,66 1871 4,11∗∗ 0,35 3,41-4,80

Les différences sont significativement différentes de zéro au seuil de 1 % (∗∗)

B.4 Nuages de points, covariance et corrélation empirique

Quelle est la nature de la relation entre l’âge et le salaire ? Cette question, comme beaucoup d’autres, relie une variable X (l’âge) à une autre variableY (le salaire). Cette section décrit trois méthodes pour résumer la relation entre des variables : les nuages de points, la variance empirique et le coefficient de corrélation empirique.

B.4.1 Les nuages de points

Unnuage de pointsest la représentation graphique denobservations surXi

et Yi, où chaque observation est représentée par un couple de points (Xi,Yi).

Par exemple, la figure B.2 représente le nuage de points de l’âge (X) et des salaires horaires (Y) pour un échantillon de 200 salariés. Chaque point de cette figure correspond à une combinaison (Xi,Yi) pour l’une des observations. Ce nuage de points indique l’existence d’une relation positive entre l’âge et le salaire horaires : les salariés expérimentés ont tendance à être mieux rémunérés que les jeunes salariés. Cependant, cette relation n’est pas parfaite : les salaires ne peuvent pas être parfaitement prédits par la seule variable âge.

B.4.2 Covariance et corrélation empiriques

La covariance et la corrélation ont été introduites dans la section A.3 comme deux propriétés de la distribution de probabilité conjointe des variables X et Y. Ces deux mesures statistiques sont, dans la pratique, inconnues. On peut cependant les estimer à partir d’un échantillon aléatoire de n membres de la population, en collectant les données (Xi,Yi), i= 1, . . . , n.

(15)

Salaire horaire moyen

Âge

20 25 30 35 40 45 50 55 60 65

0 10 20 30 40 50 60 70 80 90 100

Figure B.2 Nuage de points du salaire horaire et de l’âge

Chaque point de la figure représente la combinaison de valeurs de l’âge et du salaire pour l’un des 200 salariés de l’échantillon. Le point plus clair correspond à un travailleur de 40 ans gagnant 35,78 $. Ces données concernent des responsables informatiques en mars 2009 aux États-Unis.

La covariance et la corrélation empiriques sont des estimateurs de la covariance et de la corrélation théorique. Ces deux mesures sont calculées en remplaçant la moyenne théorique par la moyenne empirique. Lacovariance empirique, notéesXY, s’écrit

sXY = 1 n−1

n

X

i=1

(XiX¯)(YiY¯). (B.16) De même que pour la variance empirique, le numérateur est ajusté parn−1 au lieu den, afin d’éviter le biais généré par l’estimation deµX par ¯X et µY par ¯Y. Cependant, pour un échantillon de grande taille, il y a peu de différence entre diviser parnoun−1.

Le coefficient de corrélation empirique est noté rXY et correspond au rapport entre la covariance empirique et les écarts-types empiriques :

rXY = sXY

. (B.17)

(16)

La corrélation empirique mesure, pour un échantillon de n observations, la force de l’association linéaire entreX etY. Comme la corrélation théorique, la corrélation empirique est comprise entre - 1 et 1 :|rXY| ≤1.

La corrélation empirique est égale à 1 si, pour tout i = 1, . . . , n, Xi =Yi et -1 si, pour tout i = 1, . . . , n, Xi = −Yi. De manière générale, la corrélation est ±1 si le nuage de points est presque aligné sur une droite. Si cette droite est de pente négative (respectivement positive), la relation reliant X à Y est négative (respectivement positive) et le coefficient de corrélation est égale -1 (respectivement à 1). Un coefficient de corrélation proche de 1 en valeur absolue ne signifie pas que la pente est raide mais que le nuage de points est très proche d’une droite.

Consistance de la covariance et de la corrélation empiriques

De même que la variance empirique, la covariance empirique est consistante, c’est-à-dire que

sXY

−→p σXY. (B.18)

La démonstration de ce résultat est similaire à celle effectuée en section B.2 pour la consistance de la variance. Pour un échantillon de grande taille, la covariance empirique converge avec une probabilité proche de 1 vers la cova- riance théorique. Puisque la variance et la covariance théorique sont consis- tantes, le coefficient de corrélation empirique est consistant, c’est-à-dire que rXY

−→p corr(Xi,Yi).

Exemple

Reprenons notre exemple portant sur l’âge et le salaire horaire de 200 tra- vailleurs à plein temps. L’écart-type empirique de l’âge vautsA= 9,07 années et celui du salaire horaire vautsE= 14,37 $ l’heure. La covariance entre l’âge et le salaire horaire est sAE = 33,16 (les unités sont les années×dollars par heure, ce qui est difficilement interprétable). Ainsi, le coefficient de corrélation est rAE = 33,16/(9,07×14,37) = 0,25 = 25 %. La corrélation de 0,25 signi- fie qu’il existe une relation positive entre âge et salaire. Cependant, comme l’illustre le nuage de points, cette relation est loin d’être parfaite.

Pour vérifier que la corrélation ne dépend d’aucune unité de mesure, supposons que les salaires sont exprimés en cents. L’écart-type des salaires vaut alors 1437 cents l’heure et la covariance entre ces deux variables vaut 3316 (les unités sont les années×cents l’heure). La corrélation est donc égale à 33,16/(9,07×14,37) = 0,25 = 25 %.

La figure B.3 fournit des exemples supplémentaires de nuages de points et de corrélations. La figure B.3a montre une nette relation linéaire positive entre deux variables, confirmée par la forte valeur de la corrélation, égale à 0,90.

La figure B.3b indique une forte relation négative entre les variables, avec une valeur de corrélation de−0,8. La figure B.3c correspond à l’absence de relation entre les variable, avec une valeur de la corrélation égale à zéro. Le nuage de

(17)

points représenté sur la figure B.3d est plus difficilement interprétable : il semble exister une relation évidente entre les variables, mais la valeur de corrélation est nulle. La raison en est qu’il existe bien une relation entre les variables, mais de nature non linéaire : de petites valeurs de Y sont associées à la fois à de fortes et de faibles valeurs deX.

y

x y

x (a) Corrélation = +0,9 (b) Corrélation = –0,8

(c) Corrélation = 0,0 (d) Corrélation = 0,0 (quadratique)

y y

x x

0 10 20 30 40 50 60 70

10 20 30 40 50 60 70

0

10 20 30 40 50 60 70

0

10 20 30 40 50 60 70

0

70 80 90 100 110 120 130 70 80 90 100 110 120 130

70 80 90 100 110 120 130 70 80 90 100 110 120 130

Figure B.3 Nuages de points pour quatre ensembles de données hypothétiques

Les nuages de points des figures B.3a et B.3b correspondent à une forte relation linéaire respectivement positive et négative entre X etY. Dans la figure B.3c,Xest indépendante deY et les deux variables sont non corrélées.

Dans la figure B.3d, les variables sont également non corrélées, bien qu’elles soient reliées de manière non linéaire.

(18)

B.5 Résumé

1. La moyenne empirique ¯Y est un estimateur de la moyenne théoriqueµY. QuandY1, . . . ,Yn sont i.i.d.,

(a) la distribution d’échantillonnage de ¯Y admet comme moyenneµY et comme varianceσY¯ =σY/n;

(b) ¯Y est sans biais ;

(c) d’après la loi des grands nombres, ¯Y est consistante ;

(d) pour un échantillon de grande taille, d’après le théorème central limite, ¯Y admet approximativement comme distribution d’échan- tillonnage la distribution normale centrée réduite.

2. La statistiquet est utilisée pour tester l’hypothèse nulle que la moyenne empirique prend une valeur particulière. Pour un échantillon comportant un nombre d’observations nsuffisamment grand, la statistique tadmet, sous l’hypothèse nulle, une distribution d’échantillonnage normale.

3. Le coefficient de corrélation empirique est un estimateur du coefficient de corrélation théorique et constitue une mesure statistique de l’association linéaire entre deux variables, c’est-à-dire de la qualité d’ajustement du nuage des points par une droite.

B.6 Questions et exercices

Révision des concepts

B.1 Expliquez la différence entre la moyenne empirique ¯Y et la moyenne théo- rique.

B.2 Expliquez la différence entre un estimateur et une estimation. Donnez un exemple pour chaque concept.

B.3 Une distribution d’échantillonnage admet une moyenne de 10 et une va- riance de 16. Déterminez, à partir d’un échantillon i.i.d., la moyenne et la variance de ¯Y pour (a)n= 10 ; (b)n= 100 ; (c)n= 1 000. Expliquez vos résultats en vous basant sur la loi des grands nombres.

B.4 Quel est le rôle joué par le théorème central limite dans les tests d’hypo- thèse ?

B.5 Expliquez pourquoi, dans le cadre d’une expérience aléatoire et idéalement contrôlée, l’estimateur des différences des moyennes est un estimateur de l’effet du traitement.

B.6 Représentez des nuages de points hypothétiques pour un échantillon de taille 10, pour deux variables aléatoires ayant une corrélation égale à (a) 1,0 ; (b)−1,0 ; (c) 0,9 ; (d)−0,5 ; (e) 0,0.

Références

Documents relatifs

Elle consiste à étudier la série de Dirichlet de la fonction multiplicative et, en ce sens, est plus proche de la méthode analytique de DELANGE [4].. TOME 109 - 1981 -

[r]

Il s’agit souvent d’erreurs dues à l’imprécision des appareils qui reste constante quelque soit la mesure ou bien d’erreur de mé- thode telle qu’une erreur de procédure,

1- Variation de la courbe en fonction de l’essence (lumière et ombre) Une essence de lumière (pin d’Alep par exemple) a une distribution des tiges plus concentrée autour du

2) Utiliser la classification périodique pour déterminer le symbole du noyau de césium 137. Quelle est sa composition ? Ce type de noyau est instable : il peut se désintégrer

– À ce stade, c’est l’expertise scientifi que qui prend le relais avec une diffi culté fondamentale : dans le fonctionnement classique de la science disciplinaire, c’est

Un filtre coupe-bande idéal aurait une fonction de transfert nulle pour les fréquences comprises dans sa bande interdite et une fonction de transfert égale à 1 pour les

[r]