• Aucun résultat trouvé

Rappel sur les techniques permettant d'améliorer la puissance d'une expérimentation à budget donné

lorsque l'assignation aléatoire porte sur des groupes Usage de la macro CUBE

1. Rappel sur les techniques permettant d'améliorer la puissance d'une expérimentation à budget donné

1.1. Définition de la puissance

Par rapport à d’autres types de protocoles d’évaluation, une expérimentation avec assignation aléatoire entend apporter un estimateur non biaisé de l’effet moyen d’un « traitement » ou d’une « action expérimentale » sur une population donnée. Cette absence de biais est très appréciable, mais cette qualité n’est pas toujours suffisante et les sondeurs savent d’expérience qu’on peut disposer d’un estimateur non biaisé sans pour autant être très informé. En effet, l’estimateur peut avoir une faible précision (ou une grande variance). Ainsi, dans la pratique, une expérimentation avec assignation aléatoire n’est intéressante que si on a de bonnes chances de mettre en évidence un effet significatif du traitement, dans l’hypothèse où cet effet existe réellement et compte tenu de son ampleur attendue. Cette probabilité de détecter l’effet, telle qu’on peut l’apprécier avant le lancement de l’expérimentation, est appelée la

« puissance statistique » de l’expérimentation.

Le principe d’une expérimentation avec assignation aléatoire (dans une version simple où une seule modalité de traitement est testée) est le tirage aléatoire d’un « échantillon test » et d’un « échantillon témoin » au sein de la population. L’estimation de l’effet du traitement E est alors basée sur l’analyse des écarts observés entre les deux échantillons au regard d’une variable d’intérêt ou de résultat (appelée

« output » dans la littérature anglo-saxonne). Nous considèrerons ici que tous les individus du groupe test reçoivent le traitement et qu’aucun individu du groupe témoin ne le reçoit.

Prenons un cas simple et classique avec une population limitée à n1+n2 individus et dans laquelle on tire aléatoirement sans remise n1 individus pour l’échantillon test (et de ce fait n2 pour l’échantillon témoin).

On suppose que la variable d’intérêt X prend les valeurs X1T0 ,...,XnT10n2 en l’absence de traitement et les valeurs X1T1 ,...,XnT11n2 avec application du traitement T.

Soit  1  T0 témoin T X

Xtest

Ê , l’écart entre la moyenne T1

Xtest de X dans l’échantillon traité et la moyenne T0

témoin

X dans l’échantillon non traité.

Ê est un estimateur sans biais de l’effet du traitement sur la variable de résultat X, c'est-à-dire que son espérance E(Ê) est égale à E.

La variance de Ê est :

où Varemp est la variance empirique sur l’ensemble de la population.

De la variance de cet estimateur (liée à l’échantillonnage aléatoire) dépend la puissance de l’expérimentation.

On s’attend à ce que le traitement ait un effet positif sur X. On choisit donc de réaliser un test unilatéral.

L’hypothèse sera H0 : E = 0 contre H1 : E>0.

Supposons que l’effet réel soit Er (positif). Dans ce cas, Ê suit une loi normale de moyenne Er et dont la variance est Var (Ê). On note

ProbEEr((Ê/S)1,645)le risque de ne pas rejeter H0 à tort (β représente le manque de puissance du test). La puissance est égale à 1-β.

La figure 1 permet de visualiser les différents risques. Si l’on suppose que Eˆsuit une loi normale, la gaussienne de gauche représente les fluctuations d’échantillonnage lorsque H0 est vraie. La courbe de droite représente les fluctuations d’échantillonnage lorsque la différence réelle est Er. Si L est la valeur seuil de rejet de H0 (pour α=5 %, L=1,645*S), toute valeur observée de la différence supérieure à L ne sera plus considérée comme une fluctuation d’échantillonnage de zéro et on conclura à l’efficacité du traitement.

160

Pour estimer la puissance, il faut connaître à l’avance la variance empirique de

2

Dans le cas où X est une variable continue et où l’effet est homogène, pour tout individu i : E

Dans le cas où l’expérimentation porte en réalité sur un échantillon aléatoire de taille n1+n2 d’une population bien plus vaste de taille N, on peut considérer que les observations Xi correspondent à la réalisation de n1+n2 variables aléatoires indépendantes.

Deux cas de figure sont très courants selon que X est une variable continue ou une indicatrice.

Si les Xi suivent chacun une loi normale de même variance, on considère le rapport Eˆ Sˆ,

où 1 2 2

Ce rapport suit une loi T de Student avec un nombre de degré de libertés égal à n1+n2-2.

Si les Xi suivent une loi binomiale, les moyennes sont des proportions. On considère alors le rapport :

 

Lorsque n1 et n2 sont grands, Z suit approximativement une loi normale centrée réduite.

1.2. Comment augmenter la puissance

Que le niveau choisi pour constituer un échantillon test et un échantillon témoin soit l’individu ou le groupe (classe, zone, centre, mission locale…), diverses techniques permettent d’améliorer la puissance d’un plan d’expérimentation constitué avec un nombre fixé d’individus (ou de groupes) à qui on administre un traitement ou à qui on propose de bénéficier d’un dispositif et un nombre fixé d’individus (ou de groupes) témoin.

Ces techniques consistent à mettre à profit des informations auxiliaires sur les individus (ou les groupes) avec des données disponibles avant l’expérimentation. L’idée est souvent de diminuer la variance « a priori » de l’estimateur de l’output. Lorsque certaines caractéristiques des individus (ou des groupes) peuvent de fait être prédictives de l’output, il importe que les échantillons test et témoin aient des distributions sur ces caractéristiques qui soient très proches, ce qui n’est pas toujours assuré lorsque la taille de ces échantillons est faible. Par exemple, dans une expérimentation pour l’insertion des jeunes, si la part des jeunes issus de l’immigration ou des non diplômés n’est pas la même entre échantillons test et témoin, une partie des écarts observés viendra de ce déséquilibre.

Trois grandes techniques sont répertoriées dans la littérature pour aller dans ce sens.

Une première technique, appelée « stratification » consiste à procéder à un tirage aléatoire au sein de chaque « strate ». Une strate correspond en général à une modalité d’une variable qualitative ou d’un croisement de variables qualitatives. On peut ainsi procéder au sein de chaque strate, au tirage d’un nombre d’unités proportionnel à la taille de la strate, même si ce n’est pas le plan de sondage optimal. Le recours à une stratification se justifie d’autant plus que l’effet du traitement, loin d’être homogène, est différencié d’une strate à l’autre.

Une deuxième technique, appelée « appariement », consiste à constituer des paires d’unités jumelles (i.e.

les plus semblables possibles au regard de diverses caractéristiques liées à l’output). On tire alors dans chaque paire un individu au hasard pour l’affecter à l’échantillon test, l’autre étant affecté à l’échantillon témoin. On peut regarder l’appariement comme un cas particulier de la stratification. En effet, une fois que les paires sont organisées, on peut considérer que chaque paire constitue une strate.

Une troisième technique, appelée « minimisation » consiste à assigner les unités les unes après les autres en minimisant à chaque tirage les déséquilibres entre les échantillons (au regard des diverses caractéristiques retenues) obtenus successivement. Cette technique introduite par Taves (1974) trouve des adeptes pour des essais cliniques dans lesquels les patients sont reçus les uns après les autres. Le processus d’affectation peut présenter une part de hasard. Mais dans la mesure où ce processus de tirage est difficile à modéliser, cette méthode s’éloigne d’une « randomisation » au sens classique.

Ces trois techniques concernent l’amélioration du protocole d’assignation aléatoire, en amont du tirage des échantillons. Une quatrième technique permet de mobiliser utilement des informations sur les unités (individus ou groupes) en aval du tirage. Il s’agit de mobiliser des variables corrélées à l’output en ayant recours à un modèle économétrique d’analyse de la variance pour définir l’effet du « traitement ».

Selon Bruhn et Mac Kenzie (2009), l’appariement constitue une des meilleures méthodes pour obtenir l’équilibre dans des échantillons de petites tailles. Mais les simulations effectuées par Raudenbusch, Martinez et Spybrook (2007) font apparaître qu’en disposant d’informations sur une variable continue assez corrélée à l’output, l’appariement était souvent moins efficace que l’usage en aval de cette variable dans une analyse de la variance de l’output. Par ailleurs, les comparaisons effectuées par Bruhn et Mac Kenzie n’intègrent pas le recours à la méthode de tirage d’échantillons CUBE que nous allons expliciter puis expérimenter.

162

Outline

Documents relatifs