• Aucun résultat trouvé

La mesure est une étape cruciale de toute enquête scientifique. Elle fait le pont entre les concepts qui animent nos théories et les données empiriques que nous analysons statistiquement.

Certains phénomènes peuvent être opérationnalisés par observa- tion directe : le concept de « température » est quantifié en mesurant la colonne de mercure d’un thermomètre ; la « consommation » peut être représentée par la liste d’achats qu’une personne porte à sa carte de cré- dit. Plusieurs organisations et gouvernements assemblent des données administratives qui mesurent directement certains des concepts dé- mographiques ou économiques pertinents pour les sciences sociales.

D’autres concepts sont plus difficiles à opérationnaliser. Souvent, l’analyste devra user d’instruments de mesure complexes ou indirects, comme les questionnaires, les instruments de mesure physiologique, les données textuelles, les expériences ou les audits.

Par exemple, Helliwell, Layard et Sachs (2019) étudient les réponses à un sondage pour mesurer le niveau de bonheur des citoyens de 156 pays. Soroka, Fournier et Nir (2019) emploient un capteur de conduc- tance cutanée pour mesurer la réaction émotionnelle d’individus qui visionnent des reportages journalistiques à teneur négative. Johnson, Arel-Bundock et Portniaguine (2019) calculent la fréquence des mots employés dans les discours prononcés par des banquiers centraux, afin d’examiner leurs croyances économiques. Chandrasekhar, Golub et Yang (2018) manipulent les conditions stratégiques d’un jeu pour que les sujets d’une expérience révèlent leur niveau d’embarras. Bertrand et Mullainathan (2004) répondent à plusieurs offres d’emploi avec des CV fictifs pour mesurer le taux de rappel des candidats issus de diffé- rents groupes sociaux.

Ces instruments de mesure varient dans leur capacité à saisir les concepts qui nous intéressent. On dit qu’un instrument est bon si la mesure qu’il produit est « valide » et « fidèle » (Durand et Blais, 2016).

La « validité de construit » renvoie à l’adéquation entre un concept et la mesure employée pour opérationnaliser ce concept. Une mesure est valide si elle offre une bonne « traduction » du concept, c’est-à-dire si elle permet de généraliser à partir de l’observation concrète jusqu’au concept abstrait. Une mesure est valide si un changement dans cette mesure implique un changement dans le concept qu’elle représente.1

Une mesure pourrait être valide sans être fidèle. Dans ce contexte, la « fidélité » fait référence à notre capacité à mesurer le concept d’in- térêt sans faire d’erreurs accidentelles ou aléatoires. Lorsque notre ins- trument de mesure est fidèle, il saisit le concept d’intérêt avec préci- sion, sans faire (trop) d’erreurs. Lorsque l’instrument est fidèle, mesu- rer le même phénomène à répétition produirait approximativement le même résultat à chaque fois.

Ce chapitre considère les conséquences du manque de fidélité. D’abord, l’analyse graphique nous permettra d’apprécier la grande di- versité des sources potentielles de biais de mesure.2Ensuite, l’analyse algébrique nous permettra d’examiner deux cas importants et de dé- velopper notre intuition quant aux conséquences du biais de mesure dans ces deux contextes.

Analyse graphique

Imaginez qu’un analyste s’intéresse aux variablesXetY. Malheu- reusement, ces variables sont impossibles à observer directement. Plu- tôt, l’analyste mesure les variablesX˜ etY˜, qui sont les produits ob- servables des variables d’intérêt et de termes d’erreurUX etUY. Par

exemple, la variable observéeX˜ pourrait être construite ainsi :

X X˜ UX

Maintenant, imaginez que l’analyste veuille estimer l’effet causal de

XsurY, alors que les deux variables sont mesurées avec erreur. Dans ce cas, il sera très difficile d’obtenir un estimé non biaisé de l’effet causal. Sauf dans quelques cas très particuliers que nous explorerons plus loin, l’effet causal n’est pas identifiable en présence d’erreur de mesure.

1. Les méthodologues font parfois la distinction entre deux types de validité de construit. La « validité convergente » signifie que plusieurs mesures d’un même concept convergent vers un même résultat. La « validité discriminante » signifie qu’une mesure saisit un seul et unique concept.

2. Notre analyse graphique du biais de mesure suit de près la présentation plus détaillée de Hernán et Robins (2020).

Cette conclusion est vexante, parce que l’erreur de mesure est omni- présente en sciences sociales. Pour comprendre la diversité des sources d’erreur de mesure, il est utile de distinguer trois types : l’erreur indé- pendante, l’erreur différentielle et l’erreur sur les variables de contrôle.

Erreur de mesure indépendante

La première caractéristique que nous devons considérer est l’indé- pendance de l’erreur de mesure. La figure 10.1 montre deux exemples où l’analyste tente d’estimer l’effet deXsurY. Malheureusement, les deux variables sont mesurées avec erreur, de sorte que seules les va- riables marquées d’un tilde sont observables (X˜etY˜). Dans ces GOA, les variablesUXY, UXetUY représentent l’erreur de mesure.

On dit que les erreurs de mesure qui affectent la cause et l’effet sont « indépendantes » s’il n’existe aucun chemin ouvert entre elles. Dans la figure 10.1a,UXetUY sont séparées par des collisions. Le chemin

entre ces deux variables est bloqué. L’erreur de mesure est donc indé- pendante. Dans la figure 10.1b,UX etUY sont liées par un chemin

ouvert :UX ← UXY → UY. Les erreurs de mesure sont donc dépen-

dantes.

FIGURE 10.1.

Indépendance de l’erreur de mesure.

(A) Erreurs indépendantes X Y ˜ X Y˜ UX UY (B) Erreurs dépendantes X Y ˜ X Y˜ UX UY UXY

Les erreurs de mesure sur la cause et l’effet peuvent être associées pour plusieurs raisons. Par exemple, lorsqu’un sondeur pose des ques- tions controversées à ses répondants, il peut s’attendre à ce que certains d’entre eux modifient leurs réponses pour camoufler certaines préfé- rences « inavouables ». Les sociologues et les psychologues appellent

ce désir de conformité un « biais de désirabilité sociale ». Si certains individus ont plus le souci de bien paraître que d’autres, les mesures prises pour ces individus pourraient être systématiquement biaisées, et ces erreurs de mesure pourraient être liées d’une mesure à l’autre.

Erreur de mesure différentielle

Un autre type d’erreur de mesure est saisi par le concept de « dif- férentialité ». On dit que l’erreur de mesure sur la causeX est « non différentielle » si elle est indépendante de la vraie valeur de l’effetY. De façon similaire, l’erreur de mesure sur l’effet Y est non différen- tielle si elle est indépendante de la causeX. La figure 10.2 donne trois exemples où les erreurs de mesure sont non différentielles ou différen- tielles.

FIGURE 10.2.

Différentialité de l’erreur de mesure.

(A) Erreurs non différentielles X Y ˜ X Y˜ UX UY (B) Erreurs différentielles X Y ˜ X Y˜ UX UY (C) Erreurs différentielles X Y ˜ X Y˜ UX UY

Des erreurs de mesure différentielles peuvent survenir dans plu- sieurs contextes, quand la cause est associée à l’erreur de mesure sur l’effet (ou vice versa). Par exemple, si une chercheuse s’intéresse à l’ef- fet de la consommation de drogues illicites sur la santé, elle pour- rait mesurer la cause à l’aide d’un test sanguin, et l’effet en adminis- trant un questionnaire aux participants de l’étude. Si la consommation de drogue pousse les répondants à faire des erreurs systématiques en rapportant leur état de santé, l’erreur de mesure serait différentielle, comme dans la figure 10.2b.

Erreur de mesure dans les variables de contrôle

Un troisième type d’erreur de mesure peut survenir lorsqu’une va- riable de contrôle est mesurée avec erreur. Le GOA dans la figure 10.3 montre qu’il est essentiel de contrôler la variableZsi on veut estimer l’effet causal deXsurY. Malheureusement, il est impossible de blo- quer le chemin par la porte arrière directement, puisque la variableZ

n’est pas observée directement. Plutôt, l’analyste observe la variableZ˜, qui est une mesure imparfaite de la variableZ. Un modèle de régres- sion qui contrôlerait la variableZ˜n’arriverait pas à fermer complète- ment le chemin par la porte arrièreX ← Z → Y. Par conséquent, notre estimé de l’effet causal deXsurY pourrait être biaisé.

FIGURE 10.3.

Erreur de mesure qui affecte une variable de contrôle.

X Y Z ˜ Z UZ Mauvaise nouvelle

Dans presque toutes les situations que nous avons considérées au- paravant, l’estimé de l’effet causal deXsurY sera biaisé. En règle gé- nérale, la force du biais est proportionnelle à la taille de l’erreur de me- sure. Par contre, la taille ou la direction du biais de mesure est très difficile à anticiper en pratique, surtout lorsque les erreurs sont dé- pendantes et/ou différentielles.

Ceci dit, la taille et la direction du biais sont bien connues dans deux cas de figure illustratifs. Dans la prochaine section, nous allons consi- dérer ces deux cas à l’aide d’une analyse algébrique.

Analyse algébrique

Dans cette section, nous allons analyser deux types d’erreur de me- sure dans un modèle de régression linéaire bivarié. Dans le premier cas, l’erreur de mesure affecte la variable dépendanteY; cette erreur

de mesure ne biaisera pas l’estimé du coefficient de régression, mais augmentera le niveau d’incertitude qui entoure notre estimé. Dans le deuxième cas, l’erreur de mesure affecte la variable indépendanteX; cette erreur de mesure impose un biais d’atténuation sur notre estimé du coefficient de régression.

Erreur dans la variable dépendante : incertitude

Le premier cas à considérer est celui où notre variable dépendante est mesurée avec erreur. Par exemple, imaginez qu’un analyste tente d’estimer le coefficientβdu modèle suivant :

Y = α + β· X + ε (10.1) Malheureusement, son instrument de mesure n’arrive pas à saisir précisément la valeur deY, de sorte qu’il arrive seulement à observer la variableY˜ :

˜

Y = Y + η

ηreprésente une erreur de mesure aléatoire.

Si on assume queηest centrée à zéro (E[η] = 0) et indépendante deX et deY, alors nous pouvons simplement estimer le modèle de régression avecY˜ comme variable dépendante :

˜

Y = α + β· X + ˜ε

Cette équation peut être réexprimée ainsi :

Y + η = α + β· X + ˜ε

Y = α + β· X + (˜ε− η) (10.2) On voit que la seule différence entre le modèle que nous aimerions estimer (10.1) et celui que nous pouvons estimer (10.2) est le terme d’erreur. En moyenne, ceci n’aura pas d’effet sur le coefficient de régres- sion. Par contre, la formule de l’erreur type (équation 5.5) montre que l’incertitude qui entoure le coefficient estimé dépend de la variance du résidu. De plus, la règle 20.7 de la variance suggère qu’en général, la va- riance du résidu dans l’équation 10.1 sera plus grande que la variance

du résidu dans l’équation 10.2. Par conséquent, lorsque la variable dé- pendante est mesurée avec erreur, il faut s’attendre à ce que nos erreurs types soient (correctement) plus grandes.

Erreur dans la variable indépendante : biais d’atténuation

Un analyste aimerait estimer le modèle suivant :

Y = α + β· X + ε

Malheureusement, la variableXest impossible à mesurer précisé- ment. Tout ce que l’analyse peut faire, c’est mesurer la variableX˜, qui est déterminée par la vraie valeur deXet par un terme d’erreur aléa- toireυ:

˜

X = X + υ (10.3)

L’analyste estime donc le modèle suivant :

Y = ˜α + ˜β· ˜X + ˜ε

Si l’erreur de mesure est indépendante deXet deY, alors :3

Cov(υ, X) =Cov(υ, Y ) = 0 (10.4)

En exploitant les équations 5.3, 10.3, 20.11, 20.7, et 10.4, nous pou- vons réexprimer le coefficient de régression :

˜ β = Cov( ˜X, Y ) Var( ˜X) = Cov(X + υ, Y ) Var(X + υ) = Cov(X, Y ) +Cov(υ, Y )

Var(X) +Var(υ) + 2·Cov(υ, X)

= Cov(X, Y )

Var(X) +Var(υ) (10.5)

3. Ces covariances sont exactement égales à zéro seulement quand la taille de l’échantillon tend à l’infini. Les résultats qui suivent seront donc valides en termes de convergence en probabilité.

En contraste, le coefficient qui nous intéresse vraiment est :

β = Cov(X, Y )

Var(X)

À moins que l’erreur de mesure soit constante (Var(υ) = 0), le dénominateur de l’équation 10.5 est trop grand et le coefficient de ré- gression aura tendance à être trop près de zéro. La valeur absolue de l’estimé deβ˜sera plus petite que la valeur absolue du vrai coefficient

β. L’estimé du coefficient souffre donc d’un « biais d’atténuation ». La force de ce biais dépend de la taille de l’erreur de mesure. Si notre ins- trument de mesure est imprécis, l’erreur de mesure aura une grande variance. Lorsque Var(υ)est grande, l’estimé deβ˜s’éloignera beau- coup du vrai coefficientβ.

Solutions

Le biais de mesure est un problème particulièrement vexant pour les analystes. La meilleure approche pour limiter ce type de biais est simplement de développer de meilleurs instruments de mesure pour récolter des données avec moins d’erreurs de mesure. Lorsque ce n’est pas possible, l’analyste pourra parfois se tourner vers l’estimation par variable instrumentale (chapitre 14), ou il devra exécuter une analyse de sensibilité pour vérifier si ses conclusions risquent d’être affectées par l’erreur de mesure (VanderWeele et Li, 2019).

Chapitre 11