• Aucun résultat trouvé

De 3 à 5 km

4.2.1. Les étapes de l’appariement par les scores de propension

Caliendo et Kopeining (2008), puis Abadie et Imbens (2015), ont décrit la procédure pour appliquer la méthode de l’appariement par les scores de propension. Nous la décrivons en cinq étapes. Les quatre premières peuvent être conduites sans recours au vecteur de résultats noté 𝑌.

15 Le reste peut être utilisé l’année suivante comme semence certifiée si la multiplication n’a pas encore atteint le niveau R2.

a). L’estimation des scores de propension

Dans cette première étape du processus, deux choix doivent être faits. Le premier porte sur le modèle à utiliser pour estimer les probabilités. Généralement, c’est le probit ou le logit.

Asymptotiquement, les deux modèles se valent ; cependant, dans les échantillons de taille finie, le logit est plus adapté si la distribution de la variable de traitement est concentrée autour de 0 ou 1. Le deuxième choix porte sur les variables à inclure dans le modèle. Elles doivent déterminer à la fois le traitement et la variable résultat (Smith et Todd, 2005). Les variables ne doivent être ni affectées par le traitement ni par son anticipation. Comme le soulignent Caliendo et Kopeining (2008), elles doivent être soit fixées dans le temps, soit mesurées avant le traitement. Il est aussi important de ne pas inclure des variables dont certaines valeurs prédisent parfaitement le succès (𝐷 = 1) ou l’échec (𝐷 = 0) (Heckman et al., 1998).

b). Les techniques d’appariement

Asymptotiquement, toutes les techniques d’appariement doivent aboutir au même résultat.

Mais dans les échantillons de taille finie, le choix d’une technique spécifique peut être décisif, dépendant des caractéristiques des données. Les principales techniques d’appariement sont décrites ci-dessous.

— La méthode du plus proche voisin

C’est l’algorithme le plus populaire et relativement le plus simple. Chaque individu du groupe de contrôle est choisi comme partenaire de l’individu traité le plus proche en termes de score de propension (Caliendo et Kopeinig, 2008). Cette méthode est caractérisée par quelques spécificités. Par exemple, elle peut se faire sans ou avec remplacement. Dans le premier cas, un individu du groupe de contrôle ne peut être utilisé qu’une seule fois comme partenaire d’un individu traité. Dans le second cas, il peut être utilisé plusieurs fois. Le choix entre ces deux techniques résulte d’un arbitrage entre biais et variance (Smith et Todd, 2005, Imbens et Wooldridge, 2009). L’appariement sans remplacement, du fait qu’il utilise un plus grand nombre d’observations, réduit la variance de l’estimateur ; par contre il peut augmenter le biais car des observations avec des scores de propension très différents peuvent être appariées.

Quant à l’appariement avec remplacement, il réduit le biais car uniquement les observations du groupe contrôle qui ont des probabilités proches de celles du groupe témoin sont utilisées.

Mais il augmente la variance car, dans certains cas, seul un petit nombre d’observations du groupe contrôle sera utilisé. Cette situation survient quand il y a peu de non traités

comparables aux traités. Toutefois, selon Abadie et Imbens (2006), la méthode avec remplacement produit un appariement de meilleure qualité car il augmente l’ensemble des partenaires possibles. En outre, il accroît les possibilités d’apparier toutes les observations, traités et contrôles, de telle sorte que l’estimateur obtenu se rapproche de l’ETM (Effet de Traitement Moyen).

— La méthode du « compas » et du « rayon »

Un des risques de la méthode du plus proche voisin est la possibilité d’un mauvais appariement si le plus proche voisin est éloigné de l’individu traité. Pour éviter cela, il est possible d’imposer une distance maximale entre de potentiels individus à apparier. C’est exactement ce que fait la méthode du « compas »16. La difficulté est que le choix de la distance demeure arbitraire. Dehajia et Wahba (2002) ont proposé une transformation de cette méthode appelée l’appariement par « rayon »17. La méthode proposée consiste à utiliser non pas une seule observation du groupe de contrôle qui satisfait la distance, mais toutes les observations qui sont dans le rayon. En augmentant le nombre de partenaires potentiels, cette méthode contribue à réduire le biais.

— Stratification et appariement

Cette méthode consiste à subdiviser les observations en strates dans lesquelles les moyennes des scores de propension des traités et des non traités ne sont pas significativement différentes (Rosenbaum et Rubin, 1984 ; Abadie et Imbens, 2015). L’effet du traitement est estimé dans chaque strate et l’estimateur est obtenu en faisant la moyenne de ces effets spécifiques aux strates, pondérée par la distribution des scores de propension dans chaque strate. Il n’y a pas d’indication sur le nombre de strates ; l’essentiel est de subdiviser autant que possible pour avoir une homogénéité des probabilités dans chacune d’elles.

— La méthode kernel et l’appariement linéaire local

Contrairement aux méthodes précédentes qui utilisent uniquement un certain nombre d’individus parmi les non traités pour construire le groupe de comparaison. La méthode kernel et l’appariement linéaire local sont des estimateurs non paramétriques utilisant une moyenne pondérée de tous (ou presque) les individus du groupe contrôle. Un avantage de cette méthode est la réduction de la variance résultant de l’utilisation d’un plus grand nombre d’observations. Son inconvénient est la possibilité de voir le biais augmenter du fait de

16 Caliper matching

17 Radius matching

mauvais appariements. La méthode kernel peut être comprise comme une régression de 𝑌𝑖0 sur une constante, avec des poids de kernel dépendant de la distance entre chaque observation du groupe de contrôle et l’observation du groupe de traitement pour lequel le contrefactuel est en train d’être construit. La constante estimée donne une estimation de la moyenne du contrefactuel. L’appariement linéaire local se différencie de la méthode kernel dans la mesure où, en plus de la constante, elle inclut une transformation linéaire des scores de propension (Smith et Todd, 2005). Heckman et al. (1998) ont dérivé les propriétés asymptotiques de ces deux méthodes.

c). Le support commun et la qualité de l’appariement

L’appariement doit être fait sur le support commun ; c’est-à-dire l’intervalle des probabilités estimées commune au groupe de traitement et de contrôle. Les observations qui ont des valeurs extrêmes comme scores de propension doivent tout simplement être éliminées (Abadie et Imbens, 2015).

La méthode des scores de propension produit naturellement un estimateur biaisé du fait justement que les données ne proviennent pas d’une expérience randomisée. Pour limiter ce biais, il est nécessaire de faire un appariement de qualité ; autrement dit de comparer des observations comparables. Quatre critères permettent généralement de juger la qualité de l’appariement :

— Le biais standardisé moyen

Pour chaque variable, le biais standardisé moyen est la différence des moyennes d’échantillon du groupe de traitement et de contrôle, divisée par la racine carrée de la somme des variances de la variable explicatives dans chaque groupe. Un bon appariement doit avoir un biais standardisé moyen inférieur à 5% sur toutes les variables (Rubin, 2002).

— Le test de significativité

C’est le test classique de la qualité de l’appariement. Il s’agit de comparer les moyennes des variables explicatives entre le groupe traité et le groupe contrôle. Après appariement, ces différences ne doivent pas être significatives.

— Significativité jointe et pseudo-R2

Cette étape consiste à estimer une seconde fois les scores de propension sur l’échantillon des observations appariées et de comparer ensuite les pseudo-R2 avant et après appariement. Le dernier doit être faible car le traitement est supposé aléatoire conditionnellement à 𝑋 (Sianesi, 2004). Un autre moyen de juger de la qualité de l’appariement consiste à faire un test de ratio

de vraisemblance sur la significativité jointe de toutes les variables dépendantes, avant et après appariement. Ce test ne doit pas être rejeté avant appariement mais il doit l’être après.

— Le test de stratification

Il s’agit de diviser les observations en strates, dépendant des scores de propension. L’objectif est que dans chaque strate, la moyenne des scores de propension du groupe de traitement, ne soit pas significativement différente de la moyenne des scores de propension du groupe de contrôle. Cette stratification permet aussi de tester l’hétérogénéité de l’impact en calculant l’ETT pour chaque strate.

d). Robustesse des résultats

La méthode de l’appariement par les scores de propension repose sur une hypothèse principale qui est l’indépendance conditionnelle du traitement. Malheureusement, il n’existe aucun test pour vérifier cette hypothèse. Il y a juste quelques méthodes qui sont proposées pour rendre les résultats plus crédibles s’ils restent invariants à d’autres spécifications du modèle. Par exemple, Abadie et Imbens (2015) suggèrent de subdiviser le vecteur 𝑋 en deux parties : un vecteur 𝑋𝑝 de pseudo-résultats et un vecteur 𝑋𝑟 contenant les variables explicatives restantes. Ensuite, il faudra estimer l’effet du traitement sur ce vecteur de pseudo-résultats, avec comme variables explicatives le vecteur 𝑋𝑟. Si l’indépendance conditionnelle est valide, l’effet du traitement doit être a priori nul. Dans le cas contraire, il y aurait des doutes sur la validité de cette hypothèse, et donc du modèle de manière générale.

e). Estimation de l’impact

La dernière étape de la procédure consiste à utiliser le vecteur 𝑌, qui a été absent des étapes précédentes, pour calculer l’effet du traitement sur l’échantillon d’observations appariées, partageant le support commun. En pratique, l’estimateur non paramétrique du PSM est calculé comme suit :

𝛼𝐴𝑃𝑆𝑃 = 𝐸 [(𝑌𝑖1⃓𝐷𝑖 = 1, 𝑝(𝑋𝑖)) − ∑𝑗∈{𝐷𝑗=0}𝑤(𝑖, 𝑗)(𝑌𝑗0⃓𝐷𝑗 = 0, 𝑝(𝑋𝑗))] (4.1) Où 𝑤(𝑖, 𝑗) est la pondération attribuée au j-ème individu non traité. Le poids devrait être d’autant plus grand que l’individu j et l’individu i sont le plus proches en termes de scores de propension. L’effet moyen estimé est une différence de moyennes pondérées entre le groupe des traités et le groupe des non traités.

Cette étape comprend aussi le calcul de la variance de l’effet du traitement. Ce calcul est souvent fait sans prendre en compte le fait que les scores de propension ne sont pas observés

mais estimés. Ainsi, Abadie et Imbens (2006) ont proposé une méthode de calcul de cette variance tenant compte de l’estimation des scores de propension. Ils ont souligné le fait que la méthode du bootstrap n’est généralement pas valide dans l’appariement par les scores de propension, notamment quand la méthode du plus proche voisin est utilisée.