• Aucun résultat trouvé

Amélioration de la méthode DD par le matching (appariement)

CHAPITRE II : METHODES D’IDENTIFICATION ET RESULTATS

2. Cadre conceptuel et choix méthodologiques

2.2. Description des approches d’estimation

2.2.4. Amélioration de la méthode DD par le matching (appariement)

Notons que l’estimateur 𝛽1 est simplement celui de triple différence. Il correspond à la différence des différences respectives des groupes A et B par rapport au groupe C. Et l’impact moyen du programme sur l’ensemble de l’échantillon est ainsi déterminé comme une somme pondérée de 𝛽2 et 𝛿 (Voir Cotton,1988).

𝛽̅ =𝑛𝐴𝛽2+ 𝑛𝐵𝛿 𝑛𝐴+ 𝑛𝐵 =

𝑛𝐴𝛽1

𝑛𝐴+ 𝑛𝐵+ 𝛿⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.5)

Où 𝛽̅ est l’impact moyen du programme, 𝑛𝐴 et 𝑛𝐵 représentent respectivement le nombre d’observations dans le groupe A et B.

2.2.4. Amélioration de la méthode DD par le matching (appariement)

Lorsque la condition de parallèle trend entre les deux groupes n’est pas satisfaite, une estimation par la simple double-différence donne un estimateur biaisé de l’impact. Ainsi avant toute estimation, il convient de tester l’hypothèse de tendance parallèle.

Mais étant donné que la crédibilité de ce test dépend fortement de la disponibilité d’informations (au moins deux périodes d’observation avant la mise en place du programme), nous adoptons ici une méthode alternative consistant à faire de l’appariement à la phase initiale du programme afin de tenter d’obtenir deux groupes quasi-similaires sur lesquels sera calculé l’impact. Ce qui nous conduit à utiliser la méthode mixte de Difference-in-Difference

Matching (Heckman, Ichimura et Todd ,1997 et 1998). Cette méthode consiste à adopter des

techniques d’appariement (matching) pour trouver deux groupes identiques sur la base des caractéristiques à la période initiale. La démarche présente un certain nombre d’avantages dont celui de limiter de biais de non parallélisme de tendance et aussi de pouvoir s’assurer de la condition d’ignorabilité37 du programme. Cette condition est traduite par les expressions

suivantes :

𝐸(𝑌𝑡=1− 𝑌𝑡=0|𝑝(𝑋), 𝑇 = 1) = 𝐸(𝑌𝑡=1− 𝑌𝑡=0|𝑝(𝑋), 𝑇 = 0)⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(𝑐1) 0 < Pr(𝑇 = 1⁡|𝑋) < 1⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(𝑐2) Où 𝑌𝑡=1− 𝑌𝑡=0 est l’évolution de l’indicateur de résultat entre les périodes 𝑡 = 0 et 𝑡 = 1 conditionnellement à p(X) qui est la fonction de densité des caractéristiques observables X. 𝑇 représente la variables de traitement. Et Pr(.) représente la probabilité de recevoir le

37 L’hypothèse d’ignorabilité du programme suppose qu’il n’existe aucune inobservable qui explique à la fois la participation et le résultat (Rosenbaum et Rubin, 1983 et 1985).

100

traitement (T) conditionnellement aux caractéristiques. Sous ces conditions, la DD peut donc directement être estimée à partir de la formule suivante :

𝐷𝐷 = 1 𝑁1 ∑ {∆𝑌𝑖(𝑋𝑖)𝑇=1− ∑ 𝑊𝑖,𝑗∆𝑌𝑗(𝑋𝑗)𝑇=0 𝑗∈𝐼𝑜∩𝑆𝑝 } 𝑖∈𝐼1∩𝑆𝑝 ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.6)

∆𝑌𝑖(𝑋𝑖)𝑇=1 correspond à la différence dans l’indicateur de résultat entre les dates 𝑡 = 0 et 𝑡 = 1 sur un individu 𝑖 traité. ∑𝑗∈𝐼𝑜∩𝑆𝑝𝑊𝑖,𝑗∆𝑌𝑗(𝑋𝑗)𝑇=0 correspond à la moyenne pondérée de ces mêmes différences sur tous les individus 𝑗 du groupe contrôle considérés comme semblables à 𝑖. Cette ressemblance est déterminée sur la base de l’écart ‖𝑝(𝑋𝑖) − 𝑝(𝑋𝑗)‖ représentant la distance entre i et j en termes de score de propension. Le coefficient 𝑊𝑖,𝑗 est un facteur de pondération qui dépend de cet écart ‖𝑝(𝑋𝑖) − 𝑝(𝑋𝑗)‖.

𝑁1 est le nombre d’individus dans le groupe traité et la DD reste simplement la moyenne des différences d’évolution entre le groupe traité et le groupe contrôle appartenant au support commun. Le support commun étant la région sur laquelle le groupe traité et contrôle partagent les mêmes propensions. 𝐼1∩ 𝑆𝑝 et 𝐼0∩ 𝑆𝑝 représentent respectivement l’ensemble des individus traités et contrôles qui partagent ce support commun 𝑆𝑝.

La procédure consiste alors à faire de l’appariement en fonction des scores de propension (Rosenbaum et Rubin, 1983 et 1985). Il s’agit là de calculer la probabilité de recevoir le traitement conditionnellement à X. Pour cela, on estime d’abord un modèle logit de la forme suivante :

𝑝𝑖 = Pr(𝑇 = 1⁡|𝑋) = 𝛩𝑋 + 𝜖⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.7) Les valeurs prédites de cette probabilité conditionnelle constituent les scores de propension

𝑝𝑖 . Et pour estimer 𝑊𝑖𝑗 on utilise la fonction de Kernel en suivant Heckman et al. (1997).

Cette fonction est traduite par la relation suivante :

𝑊𝑖𝑗= 𝐾 ( 𝑝(𝑋𝑖) − 𝑝(𝑋𝑗) 𝑁 ) 𝐾 (𝑝(𝑋𝑘) − 𝑝(𝑋𝑖) 𝑁 ) 𝑘∈𝐼0 ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.8)

Où K(.) est la fonction de kernel et est hN la largeur de la bande (bandwidth parameter)38, 𝐼0⁡le groupe contrôle et N le nombre d’observations.

101

Pour réduire au maximum l’écart (ou la distance) entre un individu traité 𝑖 et ceux considérés comme ses semblables dans le groupe contrôle, nous choisissons la fonction Epanechnikov qui reste la méthode la plus efficiente pour minimiser la moyenne des erreurs quadratiques intégrées (ou fonction de risque de 𝑝𝑖). Le poids de chaque individu j par rapport i se réécrit alors en reprenant l’équation (2.7) et (2.8):

𝑊𝑖𝑗 = 𝐾( 𝑝𝑖−𝑝𝑗) ℎ𝑁 ) 𝐾(𝑝𝑘−𝑝𝑖 ℎ𝑁 ) 𝑘∈𝐼0 ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.9𝑎) En posant 𝑝𝑖−𝑝𝑗 𝑁 = 𝑆⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡ On a ⁡⁡𝐾(𝑆) = { 3 4√5(1 −15𝑆2) ⁡⁡⁡⁡⁡⁡⁡𝑠𝑖⁡⁡|𝑆| < √5 0⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝑠𝑖⁡⁡|𝑆| ≥ √5⁡⁡ ⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.9𝑏)⁡⁡

Finalement, la DD avec appariement consiste à faire du propensity score

matching à la période initiale pour s’assurer de la similarité entre les traités et les contrôles et

par la suite appliquer la double différence pondérée pour estimer l’impact. Mais l’estimation en DD avec appariement suppose que la condition "d’équivalence sur le support commun" soit vérifiée i.e. une similarité entre les deux groupes de comparaison sur le support commun de probabilité. Le support commun représente donc une zone où le groupe traité et le groupe contrôle partagent les mêmes scores de propension. Nous testons cette condition en utilisant la méthode de Smith et Todd (2003) dans laquelle chaque variable d’appariement est régressée sur une forme polynomiale du scores de propension score et de la muette de traitement. L’équation de test se présente sous la forme suivante :

𝑋𝑣𝑘 = 𝛼0+ 𝛼1𝑝̂𝑣+ 𝛼2𝑝̂𝑣2+ 𝛼3𝑇𝑣+ 𝛼4(𝑇𝑣∗ 𝑝̂𝑣) + 𝛼5(𝑇𝑣∗ 𝑝̂𝑣2) + 𝑢𝑣𝑘⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡(2.9c) Où 𝑋𝑣𝑘 est la kième variable explicative portant sur le village 𝑣. 𝑝̂𝑣 le score de propension dénotant la probabilité pour le village 𝑣 d’obtenir le programme conditionnellement à ses caractéristiques et 𝑇𝑣 la variable de traitement qui prend 1 pour les villages traités et 0 sinon. L’hypothèse nulle du test est que tous les coefficients impliquant 𝑇𝑣 sont conjointement nuls (𝛼3= 𝛼4= 𝛼5= 0)

La satisfaction de cette condition de nullité nécessite, en effet, d’exclure les villages qui sortent de la région du support commun. En règle générale, un village contrôle j peut être exclu lorsque la différence entre sa propension et la propension la plus faible du groupe traité dépasse un certain seuil :(𝑝𝑚𝑖𝑛,𝑇=1− 𝑝𝑗∈𝑇=0) > 𝜏 Où 𝜏 est le seuil de tolérance. Et un

102

village traité i peut être exclu lorsque sa propension est supérieure à la propension la plus élevée dans le groupe contrôle d’un certain seuil (Dehejia et Wahba,1999).

Nous nous servons de cette règle en utilisant une méthode itérative basée sur les F-tests de l’équation (2.9c) en excluant au fur et à mesure les villages jusqu’à ce que le test

d’équivalence soit concluant.