• Aucun résultat trouvé

Questions binaires

Dans le document Pouvoir prédictif des questions de sondage (Page 30-35)

Pour prédire les réponses des individus aux différents formats de question, nous avons besoin de faire des hypothèses sur leur comportement. CommeManski(1990,1995), nous supposons dans un premier temps que les individus ont des anticipations rationnelles. Un individu ayant des anticipations rationnelles reconnaît que ces futures décisions dépendent à la fois de l’information dont il dispose au moment du sondage et des futures réalisations d’événements incertains. L’hypothèse d’anticipation rationnelle implique que les répon- dants connaissent le processus qui détermine leur choix et qu’ils répondent en donnant leur meilleure prédiction du futur compte tenu de l’information disponible au moment du sondage. Pour déterminer leurs meilleures prédictions, les répondants minimisent une fonction de perte interne.

Supposons dans un premier temps, que tous les enquêtés participent aux élections (a = 1) ou répondent comme s’ils étaient certains de participer (P (a = 1) = 1). L’hypothèse d’un taux de participation de 100% est plausible dans les pays où le vote est obligatoire (Ex : Belgique, Australie). Notons x les caractéristiques du répondant. Soit bo|a=1l’intention de

vote du répondant avec bo|a=1 = 1 s’il compte voter pour le candidat A et bo|a=1 = 0 s’il

compte voter pour le candidat B. Soit bg|a=1l’anticipation du répondant sur le résultat de

l’élection avec bg|a=1 = 1 s’il estime que le candidat A gagnera l’élection et bg|a=1 = 0 s’il

estime que le candidat B gagnera l’élection. Un chercheur qui observe les caractéristiques (x) du répondant, son intention de vote (bo|a=1) et ses anticipations (bg|a=1) sur le résultat

2.2.1

Intentions de vote individuelles

Pour répondre à une question binaire sur leurs intentions de vote, les individus prennent en compte l’information disponible et l’incertitude qui pèse sur leurs futurs (Manski,1990). Soient st l’information détenue par le répondant à la période t (avec t = {0, 1}), z un

événement incertain dont les réalisations affectent la décision de vote et y(st, z) le com-

portement de vote subséquent du répondant. Sous l’hypothèse d’anticipation rationnelle, le répondant connaît y(st, z) ainsi que la distribution objective de probabilité de l’événe-

ment incertain P (z|st). Par conséquent, le répondant peut déterminer P (y = 1|st) puisque

P (y|st) = R y(s, z)dP (z|st) et pour y = 1, R y(st, z)dP (z|st) = R dP (z|st) = P (z|st) =

P (y = 1|st). La réponse optimale d’un répondant qui minimise une fonction de perte1

quelconque (L(y − b)) est donnée par :

bo|a=1= 1 si P (y = 1|s0) ≥ π

bo|a=1= 0 si P (y = 1|s0) ≤ π

où la valeur de π dépend de la fonction de perte du répondant. Le répondant déclare qu’il votera pour le candidat A tant que sa probabilité subjective P (y = 1|s0) de voter pour ce

candidat est supérieure au seuil π. De plus, la proportion des répondants qui se trompent en déclarant leur intention de vote est inférieure à π et la proportion des répondants dont l’intention de vote coïncident avec le comportement de vote subséquent est supérieure à π. Autrement dit,

0 ≤ P (y = 1|s0, bo|a=1 = 0) ≤ π ≤ P (y = 1|s0, bo|a=1= 1) ≤ 1

Dans le cas particulier de la fonction de perte quadratique L(y − b) = (y − b)2, le gain

espéré pour une réponse binaire b quelconque est E[L|b, st] = P (y = 1|st)(y − b)2+ (1 −

P (y = 1|st))(y − b)2. Il suit que pour b = 1 : E[L|b = 1, st] = 1 − P (y = 1|st) et pour

b = 0 : E[L|b = 0, st] = P (y = 1|st). Pour minimiser ces pertes, le répondant rapporte

b = 1 si 1 − P (y = 1|st) ≤ P (y = 1|st) ; ce qui implique que P (y = 1|st) ≥ 1/2. La valeur

de π est donc de 1/2. Ce résultat tient pour n’importe quelle fonction de perte symétrique.

L’hypothèse d’anticipations rationnelles ne suffit pas pour borner P (y) parce que le cher- cheur ne connaît ni s0 ni π. Pour borner P (y), nous supposons en plus que les caractéris-

tiques observables x des répondants sont un sous-ensemble de s0et que tous les répondants

1. La fonction de perte est une fonction de l’erreur e = y − bo|a=1commise par les enquetés dans leur

utilisent une même fonction de perte connue du chercheur. Dans ce cas, les bornes sont données par :

0 ≤ P (y = 1|x, bo|a=1 = 0) ≤ π ≤ P (y = 1|x, bo|a=1= 1) ≤ 1 (2.1)

Supposons maintenant que le chercheur peut estimer P (bo|a=1 = 1|x) de façon non para-

métrique à partir d’un sondage et qu’il souhaite borner P (y = 1|x). P (y = 1|x) peut être décomposé comme suit :

P (y = 1|x) ≡ P (y = 1|x, bo|a=1= 0)P (bo|a=1= 0|x) (2.2)

+P (y = 1|x, bo|a=1= 1)P (bo|a=1= 1|x)

La proportion P (y = 1|x) des individus qui votent pour le candidat A correspond à la somme pondérée de la proportion des individus qui se trompent en déclarant vouloir voter pour le candidat B et de la proportion des individus pour lesquels l’intention de voter pour le candidat A coïncide avec le comportement de vote subséquent. Les poids sont respectivement la proportion des individus qui déclarent vouloir voter pour le candidat B (P (bo|a=1= 0|x)) et la proportion de ceux qui déclarent vouloir voter pour le candidat

A (P (bo|a=1 = 1|x)). La proportion des individus qui votent pour le candidat B est

(1 − P (y = 1|x)).

Les équations 2.1 et 2.2 impliquent que

0 ≤ P (y = 1|x, bo|a=1= 0)P (bo|a=1= 0|x) ≤ πP (bo|a=1= 0|x) et

πP (bo|a=1 = 1|x) ≤ P (y = 1|x, bo|a=1 = 1)P (bo|a=1= 1|x) ≤ P (bo|a=1= 1|x)

Nous pouvons maintenant dériver les bornes inférieure (LB) et supérieure (U B) de P (y = 1|x) comme suit :

LB = πP (bo|a=1 = 1|x)

U B = πP (bo|a=1= 0|x) + P (bo|a=1= 1|x) (2.3)

L’application de ces bornes par un chercheur peut être illustrée dans un exemple simple de sondage. Soit un sondage dans lequel 68% des répondants déclarent qu’ils voteront pour le candidat A lors des prochaines élections (P (bo|a=1 = 1|x) = 0.68). Si tous les répondants

ont des anticipations rationnelles et minimisent une fonction de perte symétrique (π = 1/2), alors les bornes obtenues à l’équation2.3 se calculent comme suit :

1/2 ∗ 0.68 ≤ P (y = 1|x) ≤ 1/2 ∗ 0.32 + 0.68 ⇒ 0.34 ≤ P (y = 1|x) ≤ 0.84

L’écart entre les bornes (U B − LB) est égal à πP (bo|a=1 = 0|x) + (1 − π)P (bo|a=1 =

1|x). Dans le cas des fonctions de perte symétriques, cet écart est toujours égal à 1/2 quelque soient les réponses des individus à la question binaire posée. Autrement dit, même sous l’hypothèse d’anticipations rationnelles, les estimations obtenues avec des questions binaires ont une très faible précision.

Le chercheur ne connaît pas la vraie valeur de P (bo|a=1|x). Les bornes U B et LB doivent

donc être estimées à partir des réponses au sondage. Des intervalles de confiance peuvent être construits autour des valeurs estimées des bornes.

2.2.2

Anticipations du résultat des élections

Les organismes de sondage demandent parfois aux individus de donner leur anticipation sur le comportement agrégé de la population (bg). Nous souhaitons modéliser le processus

par lequel l’individu détermine la réponse à ce type de question. Rothschild et Wolfers (2013) ont émis l’hypothèse que les répondants agrègent uniquement les intentions de vote des membres de leur réseau social pour répondre aux questions relatives au résultat de l’élection. Par soucis de simplicité, nous faisons l’hypothèse forte que tous les électeurs ap- partiennent à un même réseau social. Nous considérons également que les répondants ont des anticipations rationnelles et prennent en compte la décision de participation des élec- teurs dans leur réponse (bg|a=1). De plus, les répondants ont des ensembles d’information

distincts (si0). Ils connaissent la distribution P (y(s, z) = 1|s) pour toutes les réalisations

de l’ensemble d’information s ainsi que la distribution P (s) de s dans la population à n’importe quelle période.

Les répondants peuvent utiliser deux différentes méthodes pour déterminer leur prédiction du résultat de l’élection (bg|a=1). La première méthode consiste à agréger P (y = 1|si0) pour

tous les individus de la population et à rapporter bg|a=1 = 0 ou bg|a=1 = 1 selon le résultat

de l’agrégation. Dans ce cas, le répondant calcule P (y) = R R y(s, z)dP (z|si0)dP (si0) ;

ce qui implique P (y = 1) = R R dP (z|si0)dP (si0) = R P (z|si0)dP (si0) pour y = 1. La

réponse bg|a=1 à la question binaire sur les anticipations agrégées est donnée par :

bg|a=1 = 1 si P (y = 1) ≥ π

bg|a=1 = 0 si P (y = 1) ≤ π

où π dépend de la fonction de perte du répondant. En suivant la démarche exposée à la section 2.2.1, nous pouvons borner la part de vote du candidat A (P (y = 1)) et calculer

la largeur des bornes :

LB = πP (bg|a=1= 1)

U B = πP (bg|a=1 = 0) + P (bg|a=1 = 1)

U B − U L = πP (bg|a=1= 0) + (1 − π)P (bg|a=1 = 1) (2.4)

Ce résultat montre que la précision des questions portant sur le résultat de l’élection ne dépend pas des caractéristiques du répondant mais uniquement de leur fonction de perte. Si la fonction de perte est symétrique (π = 1/2), la largeur des bornes est égale à 1/2 comme dans le cas des questions binaires sur les intentions de vote individuelles.

La deuxième approche comporte deux étapes. Elle consiste à déterminer et à agréger les réponses bo|a=1(si) que les électeurs auraient données à une question binaire sur leurs

intentions de vote puis à rapporter la meilleure prédiction du résultat de cette agrégation. Ainsi, le répondant calcule P (y = 1|si) = R P (y(s, z) = 1|z)dP (z|si) pour chacun des

membres de la population et déduit leur réponses bo|a=1(si) comme suit :

bo|a=1(si) = 1 si P (y = 1|si) ≥ π

bo|a=1(si) = 0 si P (y = 1|si) ≤ π

où π dépend de la fonction de perte des électeurs. Il calcule ensuite la part de vote ¯P (y = 1) du candidat A en agrégeant les réponses attendues (bo|a=1(si)) puis détermine sa propre

réponse (bg|a=1) selon la valeur de ¯P (y = 1).

¯ P (y = 1) = Z bo|a=1(si)dP (s) (2.5) bg|a=1 = 1 si P (y = 1) ≥ π¯ bg|a=1 = 0 si P (y = 1) ≤ π¯

Les bornes de la part de vote du candidat A et leur largeur sont données par :

LB = π ¯P (bg|a=1= 1)

U B = π ¯P (bg|a=1 = 0) + ¯P (bg|a=1 = 1)

U B − LB = π ¯P (bg|a=1 = 0) + (1 − π) ¯P (bg|a=1= 1) (2.6)

Les deux méthodes décrites ci-dessus ne donnent pas le même résultat. Supposons par exemple que 20% de la population a 95% de chance de voter pour le candidat A et que

80% de la population a 49% de chance de voter pour le candidat A. En utilisant la première méthode avec une fonction de perte symétrique, le répondant calcul la probabilité de voter pour le candidat A en faisant 0.2 · 0.95 + 0.8 · 0.49 = 0.51. Puisque P (y = 1) ≥ 1/2, le répondant rapporte bg|a=1 = 1. Par contre, en utilisant la deuxième méthode, le répondant

calcule la probabilité de voter pour le candidat A en faisant 0.2 · 1 + 0.8 · 0 = 0.2. Puisque P (y = 1|si) ≤ 1/2, il rapporte bg|a=1 = 0. En revanche, bien que les résultats soient

différents, les largeurs des bornes calculées pour les parts de vote sont toutes égales à 1/2 dans le cas d’une fonction de perte symétrique.

Dans le document Pouvoir prédictif des questions de sondage (Page 30-35)

Documents relatifs