Les méthodes aléatoires - Différentes méthodes empiriques

Comment mesurer l’influence causale de la fécondité sur l’activité des mères ?

3.2 Différentes méthodes empiriques

3.2.2 Les méthodes aléatoires

3.2.2.1 La méthode par échantillonnage aléatoire

Par rapport aux méthodes précédentes, les évaluations par échantillonnage aléatoire semblent plus transparentes, fiables et précises. En particulier, cette méthode permet de résoudre le problème de biais de sélection lié aux caractéristiques inobservables. Elle est souvent utilisée pour évaluer l’effet des politiques publiques.

L’idée est de répartir l’échantillon en deux sous groupes : le groupe traité et le groupe de contrôle. Le groupe traité serait celui des femmes ayant eu un enfant supplémentaire, le groupe de contrôle celui des femmes n’ayant pas eu cet enfant supplémentaire. Mais à la différence des méthodes précédentes, ici, avoir un enfant supplémentaire ne résulterait pas d’un choix : les femmes « traitées » seraient tirées au hasard dans l’échantillon initial. Choisir les femmes « traitées » au hasard permet de construire deux sous-populations exactement identiques en termes de caractéristiques observables et inobservables : avec cette méthode, on trouverait autant de femmes de 30 ans, ayant un bac +2, une certaine idée du rôle de la femme… parmi les femmes « traitées » et parmi les femmes « non traitées ». La seule différence entre ces deux sous-populations serait donc que certaines ont eu un enfant supplémentaire et d’autres non. L’effet des différences de composition de population est totalement annulé de cette manière.

Les expérimentations contrôlées conduisent donc à créer une situation dans laquelle E(x’ε) = 0 (équation 3.1), c’est-à-dire dans laquelle l’estimateur par les moindres carrés ordinaires est convergent. La variable xi est une indicatrice égale à 1 si la femme appartient au

groupe de traitement, et 0 si elle appartient au groupe de contrôle. Mesurer l’effet de la fécondité consiste alors simplement à comparer la situation des deux sous-populations sur le marché du travail après le choc de fécondité, ce qui résout également le problème du biais de

simultanéité. Si le taux d’activité est inférieur parmi les femmes « traitées », on peut conclure que la fécondité affecte négativement l’activité des femmes.

Bien entendu, dans le cas qui nous occupe ici, l’introduction d’un aléa direct pour sélectionner les femmes ayant un enfant supplémentaire est impossible. On ne peut pas faire défiler les femmes les unes après les autres et leur distribuer des enfants au hasard.

3.2.2.2 La méthode par variable instrumentale

La méthode dite des variables instrumentales permet de se rapprocher de la méthode expérimentale susmentionnée. L’idée est de répartir aléatoirement les femmes de notre échantillon entre deux sous-groupes. Le premier groupe aura une incitation plus forte à faire un enfant supplémentaire. L’autre groupe n’aura aucune incitation particulière. En tout état de cause, la décision d’avoir des enfants reste un choix individuel : une femme du premier groupe peut ne pas avoir d’enfant supplémentaire ; de même, une femme du deuxième groupe peut en avoir un. L’objectif est que la proportion de femmes qui décident d’avoir un enfant supplémentaire soit plus élevée dans le groupe ayant eu une incitation forte que dans l’autre groupe. L’incitation étant distribuée aléatoirement, cette différence dans la proportion de femmes ayant un enfant supplémentaire est censée être exogène, c’est-à-dire indépendante des caractéristiques individuelles, même inobservables. C’est précisément cette différence de proportion qui sert alors à identifier l’impact de la fécondité : l’effet est négatif si, en moyenne, les femmes du groupe ayant eu l’incitation forte (qui ont, en moyenne, plus souvent un enfant supplémentaire) sont plus souvent inactives que celles du groupe n’ayant eu aucune incitation particulière. Par exemple, les changements institutionnels, tels qu’une modification de la législation sur l’avortement, modifient les décisions de fécondité. Cela permet de distinguer un groupe de traitement (après la réforme) qui ne se distingue du groupe de contrôle (avant la réforme) que par le fait d’avoir subi ce choc exogène. Dans ce cas, on parle d’expérience naturelle.

Cette méthode permet en outre d’éliminer le biais de simultanéité. En effet, l’incitation est choisie de telle sorte qu’elle produise un choc exogène sur la fécondité mais n’ait pas d’effet direct sur les décisions d’activité. Les différences de taux d’activité entre les deux groupes résultent donc directement des décisions d’avoir des enfants.

La méthode des variables instrumentales permet donc de corriger les estimations des biais présents dans les estimations par les moindres carrés ordinaires lorsque la variable explicative

x est endogène, c'est-à-dire lorsque dans l’équation : y = α + βx + ε, la variable explicative x et l’erreur ε sont corrélées (E(x’ε) ≠ 0). Dans ce cas, le β estimé par les moindres carrés ordinaires ne peut s’interpréter comme l’effet direct de x sur y. On utilise pour cela une (ou des) variable annexe z, appelée instrument, non corrélée avec la perturbation (E(z’ε) = 0) mais corrélée avec la variable explicative endogène. L’objectif est alors de conserver dans l’estimation de y sur x uniquement ce qui relève de l’influence de x sur y, et d’extraire tout le reste. Autrement dit, cette technique permet de mesurer l’effet réel de x sur y sans que cette mesure ne soit polluée par les influences extérieures de y sur x ou encore d’une troisième variable sur x et y. Cette méthode permet de filtrer l’information en ne conservant de la variabilité de la variable explicative endogène que la partie non corrélée avec la perturbation20.

Théoriquement, cette méthode consiste à mobiliser une variable extérieure au modèle qui possède la particularité de n’être pas corrélée avec le résidu de l’équation structurelle et qui est néanmoins corrélée avec la variable explicative endogène. Dans ce cas, l’impact de la variable instrumentale sur la variable dépendante ne fait que refléter l’effet de la variable explicative endogène sur la variable dépendante. Autrement dit, la variable instrumentale affecte la variable dépendante et la variable explicative endogène, et tout l’effet sur la variable dépendante transite par son effet sur la variable explicative endogène. Il faut donc trouver une source de variation exogène et aléatoire de la fécondité (la variable explicative endogène) qui n’a pas d’effet sur l’activité autrement qu’indirectement, via son effet sur la décision d’avoir un enfant supplémentaire.

On appelle instrument l’indicatrice de l’incitation (égale à 1 si la femme a une incitation forte à faire un enfant supplémentaire, 0 sinon), notée zi. La variable explicative endogène qui

caractérise la décision de la femme d’avoir ou non un enfant supplémentaire (égale à 1 si elle en a un, 0 sinon) est notée xi.

Dans le modèle économétrique, on remplace la variable explicative endogène par la projection orthogonale de l’instrument sur elle. On a alors une méthode en deux étapes : on régresse l’explicative endogène sur la variable instrumentale, puis la variable expliquée sur la variable explicative prédite. Lorsqu’on a une variable instrumentale pour une variable explicative endogène, le modèle est juste identifié et les moindres carrés indirects sont équivalents aux doubles moindres carrés. L’estimateur par les moindres carrés indirects est tel que :

20_{Pour une revue de littérature sur la technique des variables instrumentales, voir Angrist et Krueger (1995) et}

Y Z X Z VI ( ' ) ' ˆ ₌ −1 β _(3.4) avec : X = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 1 1 . 1 1 I x x , Z = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ 1 1 . 1 1 I z z et Y = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ I y y . 1 .

De plus, lorsque l’instrument est une indicatrice, l’estimateur par variable instrumentale correspond à ‘l’estimateur de Wald’. L’expression du coefficient estimé est simplifiée :

0 1 0 1 ˆ x x y y VI ₋ − = β _(3.5)

où ⎯y1 est la moyenne des yi pour lesquels zi = 121. C’est donc la proportion de femmes actives

parmi celles qui ont eu une incitation forte à faire un enfant supplémentaire. Les autres termes sont définis de façon identique. βˆVI donne l’effet moyen de xi sur yi pour les femmes dont les

décisions de maternité ont été affectées par le traitement. Cet estimateur est convergent dans la mesure où E(z’ε) = 0 entraîne E(βˆVI)=β.

Néanmoins, il existe certaines conditions pour que l’application de cette méthode soit efficace et améliore réellement les résultats. Bound, Jaeger et Baker (1995) mettent en évidence deux problèmes associés à l’utilisation des variables instrumentales. Premièrement, recourir à des instruments z qui expliquent peu la variable explicative endogène x pose problème s’il existe une relation, même faible, entre les instruments et l’erreur de l’équation structurelle. Pour que l’estimation par variable instrumentale soit consistante, il faut que la variable explicative endogène et la variable instrumentale soient suffisamment corrélées ; et que la variable instrumentale ne soit pas corrélée avec l’erreur de l’équation structurelle : c’est-à-dire qu’il n’y ait pas de lien direct entre la variable instrumentale et la variable expliquée. Toute l’influence de l’instrument sur y doit passer par x. Si la corrélation entre l’instrument et l’endogène est faible, même une petite corrélation entre l’instrument et l’erreur peut biaiser l’estimateur par variable instrumentale encore davantage que l’estimateur par les moindres carrés ordinaires22. Deuxièmement, dans les échantillons finis (donc en pratique

21_{Les calculs correspondants sont explicités en annexe 3.1.} 22_{Dans le cas où l’instrument est dichotomique, on a :}

) lim( ) lim( ˆ lim 0 1 0 1 x x p p p IV − − = −β ε ε β _.

L’estimation par variable instrumentale est inconsistante dès lors que cette quantité est non nulle. L’inconsistance sera d’autant plus grande que :

- le numérateur est élevé :⎯y1 et⎯y0 diffèrent pour des raisons autres que la différence entre⎯x1 et⎯x0, c’est-à-dire

dans tous les cas), les estimations par variable instrumentale sont biaisées dans la même direction que les moindres carrés ordinaires. Ce biais étant d’autant plus important que l’échantillon est réduit et que la corrélation entre les instruments et la variable explicative endogène est faible.

Lorsque la corrélation entre l’explicative endogène et l’instrument est trop faible, on parle d’instrument faible. Cela peut accroître le problème d’inconsistance s’il existe et les biais sur les échantillons finis. Bound, Jaeger et Baker (1995) suggèrent donc de vérifier, dans l’équation de première étape (régression de l’explicative endogène sur l’instrument), que le coefficient de corrélation entre les instruments et l’explicative endogène ainsi que la statistique de Fisher (nullité globale des instruments) sont suffisamment importants. Le critère standard ayant émergé dans la littérature est que la statistique de Fisher de première étape soit supérieure à 8 ou 10.

Malgré ces faiblesses, la méthode par variable instrumentale est plus appropriée pour mesurer l’effet causal de la fécondité sur l’activité car elle élimine les biais dus aux variables omises et à la simultanéité. Lorsque la variable explicative endogène est une indicatrice, une autre solution consiste à utiliser des équations simultanées en recourant à un modèle probit en première étape (Heckman, 1978). Mais selon Heckman (1978), lorsque des instruments sont disponibles, “Since the linear probability procedure is the simplest one to use, it is recommended”. Aussi l’utilisation des variables instrumentales dans le cadre d’un modèle de probabilité linéaire est préférable dans la mesure où il n’est alors pas nécessaire de faire d’hypothèse sur la loi des résidus. Selon Heckman et Macurdy (1985), l’utilisation d’un modèle de probabilité linéaire est justifiée lorsque l’instrument, l’explicative endogène et la variable dépendante sont des indicatrices.

- le dénominateur est faible : la différence entre⎯x1 et⎯x0 est faible : la variable instrumentale explique peu la

variable explicative endogène.

Un petit effet direct de z sur y peut rendre l’estimateur très inconsistant dès lors que x et z ne sont pas assez corrélés.

3.3 Mesurer l’impact de la fécondité sur l’activité des mères par

Dans le document Fécondité, offre de travail féminin et politiques familiales (Page 57-62)