• Aucun résultat trouvé

Questions binaires avec incertitude

Dans le document Pouvoir prédictif des questions de sondage (Page 35-39)

Nous avons montré à la section 2.2.1 que les estimations obtenues à partir de questions binaires ont une très faible précision. L’utilisation d’une question binaire avec incertitude permet d’obtenir une meilleure précision en réduisant l’écart entre les bornes.

Considérons le cas d’une question binaire avec incertitude dans laquelle le répondant a la possibilité de choisir l’une des trois réponses suivantes : « voter pour le candidat A », « voter pour le candidat B », ou « n’est pas sûr ». Les répondants qui choisissent la troisième option doivent ensuite dire s’ils penchent plus pour le candidat A ou pour le candidat B. Ce format de question divise les répondants en trois groupes (les partisans du candidat A, les partisans du candidat B et les électeurs indécis) étant donné les probabilités subjectives individuelles P (y = 1|st) de voter pour le candidat A.

Soit G une variable qualitative représentant le groupe idéologique (par exemple : démo- crates (D), démocrates modérés (DM) ou républicains modérés (RM) et républicains (R)) auquel appartient le répondant. Pour simplifier les notations dans la suite, nous présen- tons les démocrates (D) comme des partisans du candidat A, les républicains (R) comme des partisans du candidat B et les modérés (DM ou RM) comme des électeurs indécis. Nous considérons également que la variable G prend respectivement les valeurs "1", "2" et "3" si le répondant est un partisan du candidat A, un partisan du candidat B ou un électeur indécis. Soient πL et πH (avec πL≤ π ≤ πH) les seuils de probabilité à l’intérieur

desquels le répondant déclare qu’il n’est pas sûr de son choix. Un répondant affirme qu’il est indécis lorsque πL≤ P (y = 1|st) ≤ πH. Les valeurs prises par ces seuils de probabilité

dépendent de la façon dont le répondant interprète l’expression « n’est pas sûr ». Notez que πL et πH représentent également l’erreur maximale que les partisans des candidats

classent parmi les partisans du candidat A lorsque πH ≤ P (y = 1|st) ≤ 1 ou parmi les

partisans du candidat B lorsque 0 ≤ P (y = 1|st) ≤ πL.

Pour simplifier le reste de la preuve, nous supposons que les deux seuils de probabi- lité (πL et πH) sont identiques pour tous les répondants. Si tous les répondants ont des

anticipations rationnelles et minimisent une fonction de perte symétrique, alors les par- tisans du candidat A ne rapporterons jamais bo|a=1 = 0 et les partisans du candidat

B ne rapporterons jamais bo|a=1 = 1 parce que (P (y = 1|s0, G = 1) ≥ πH ≥ π) et

(P (y = 1|s0, G = 2) ≤ πL ≤ π). Cela signifie que P (bo|a=1 = 0|x, G = 1) = 0 et

P (bo|a=1 = 1|x, G = 2) = 0. En revanche, les électeurs indécis rapportent bo|a=1 = 1 si

π ≤ P (y = 1|s0, G = 3) ≤ πH et bo|a=1 = 0 si πL≤ P (y = 1|s0, G = 3) ≤ π. Ces règles de

décision nous permettent de borner P (y|x, bo|a=1) pour les trois groupes de répondant en

utilisant la démarche présentée à la section 2.2.1.

Pour les partisans du candidat A :

πH ≤ P (y = 1|x, bo|a=1= 1) ≤ 1 (2.7)

Pour les partisans du candidat B :

0 ≤ P (y = 1|x, bo|a=1= 0) ≤ πL (2.8)

Pour les électeurs indécis :

πL≤ P (y = 1|x, bo|a=1 = 0) ≤ π (2.9)

π ≤ P (y = 1|x, bo|a=1 = 1) ≤ πH

Essayons à présent de borner P (y|x) à partir des résultats précédents. Les probabilités P (y = 1|x, G) et P (y = 1|x) peuvent être réécrites comme suit :

P (y = 1|x, G) ≡ P (y = 1|x, G, bo|a=1= 0)P (bo|a=1= 0|x, G) (2.10)

+P (y = 1|x, G, bo|a=1= 1)P (bo|a=1= 1|x, G)

et

P (y = 1|x) ≡ P (y = 1|x, G = 1)P (G = 1|x) + P (y = 1|x, G = 2)P (G = 2|x) (2.11) +P (y = 1|x, G = 3)P (G = 3|x)

Dans chaque groupe G, la proportion des individus qui votent effectivement pour le can- didat A (P (y = 1|x, G)) est une somme pondérée de la proportion des répondants qui se trompent en déclarant leur intention de vote (P (y = 1|x, G, bo|a=1 = 0)) et de la pro-

portion des répondants dont l’intention de vote coïncide avec le comportement de vote subséquent (P (y = 1|x, G, bo|a=1 = 1)). De même, la proportion totale des individus qui

votent effectivement pour le candidat A (P (y = 1|x)) est une somme pondérée de ceux qui votent pour ce candidat dans chaque groupe (P (y = 1|x, G)) ; les poids étant la proportion des individus de chaque groupe dans la population (P (G|x)).

Puisque les partisans du candidat A(B) ne déclarent jamais qu’ils voteront pour le can- didat B(A), alors P (bo|a=1 = 0|x, G = 1) = P (bo|a=1 = 1|x, G = 2) = 0. Les proportions

(P (y = 1|x, G)) des individus qui votent pour le candidat A dans chaque groupe sont calculées à partir de l’équation2.10 :

P (y = 1|x, G = 1) = P (y = 1|x, G = 1, bo|a=1= 1) (2.12)

P (y = 1|x, G = 2) = P (y = 1|x, G = 2, bo|a=1= 0) (2.13)

P (y = 1|x, G = 3) = P (y = 1|x, G = 3, bo|a=1= 0)P (bo|a=1= 0|x, G = 3) (2.14)

+P (y = 1|x, G = 3, bo|a=1= 1)P (bo|a=1= 1|x, G = 3)

En appliquant les bornes des équations 2.7, 2.8 et 2.9 aux équations 2.12, 2.13 et 2.14 , nous obtenons :

πH ≤ P (y = 1|x, G = 1) ≤ 1 (2.15)

0 ≤ P (y = 1|x, G = 2) ≤ πL (2.16)

πLP (bo|a=1= 0|x, G = 3) + πP (bo|a=1= 1|x, G = 3) ≤ P (y = 1|x, G = 3) (2.17)

≤ πP (bo|a=1 = 0|x, G = 3) + πHP (bo|a=1= 1|x, G = 3)

La meilleure précision qu’un chercheur puisse obtenir en estimant P (y = 1|x, G) est de 1 − πH pour les partisans du candidat A et de πL pour les partisans du candidat

B. Pour le groupe des électeurs indécis, la précision obtenue dépend de la fonction de perte des répondants (π), des seuils de probabilité (πL et πH) et de la proportion de

ceux qui penchent plus pour le candidat A (P (bo|a=1 = 1|x, G = 3)) ou le candidat B

(P (bo|a=1= 0|x, G = 3)).

Nous pouvons maintenant borner P (y = 1|x) en appliquant les bornes des équations2.15, 2.16 et2.17 à l’équation 2.11 :

LB = πHP (G = 1|x) + (πLP (bo|a=1 = 0|x, G = 3)

+πP (bo|a=1= 1|x, G = 3))P (G = 3|x)

U B = P (G = 1|x) + (πP (bo|a=1= 0|x, G = 3)

+πHP (bo|a=1= 1|x, G = 3))P (G = 3|x) + πLP (G = 2|x)

Les bornes de P (y = 1|x) dépendent des proportions des différents groupes d’électeurs dans la population, de la valeur de π et des seuils de probabilité πL et πH. Pour π = 1/2

et (πL= 1 − πH = ε), la largeur des bornes est :

U B − LB = P (G = 3|x)(1/2 − ε) + (1 − P (G = 3|x))ε (2.18)

L’équation2.18montre que la largeur des bornes dépend uniquement de la valeur prise par ε et de la proportion des électeurs indécis dans l’échantillon (P (G = 3|x)). Cette largeur est toujours strictement inférieure à 1/2 quelles que soient les valeurs de ε et P (G = 3|x).

Prenons un exemple de sondage pour illustrer ces résultats. Supposons que les partisans du candidat A représentent 45% de l’échantillon et que les partisans du candidat B repré- sentent 30% de l’échantillon. De plus, 30% des électeurs indécis rapportent qu’ils penchent plus pour le candidat A. Si tous les répondants minimisent une fonction de perte symé- trique (π = 1/2) et si ε = 0.2, la probabilité de voter pour le candidat A peut être bornée comme suit :

LB = 0.8 ∗ 0.45 + 0.25 ∗ (0.2 ∗ 0.7 + 0.5 ∗ 0.3) U B = 0.45 + 0.25 ∗ (0.5 ∗ 0.7 + 0.8 ∗ 0.3) + (0.2 ∗ 0.3)

⇒ 0.4325 ≤ P (y = 1|x) ≤ 0.6575

et l’écart entre les bornes est donné par U B − LB = 0.25 ∗ (0.5 − 0.2) + (1 − 0.25) ∗ 0.2 = 0.225 < 1/2.

La proportion des électeurs indécis diminue à mesure que le jour du scrutin se rapproche. Par ailleurs, Delavande et Manski (2010) ont montré dans une étude empirique que la précision des sondages augmente à mesure que le jour du scrutin se rapproche. Il se pourrait donc que la largeur des bornes diminue avec la proportion des électeurs indécis. Mais en théorie, ce résultat n’est valable que pour certaines valeurs de ε. En effet, la dérivée partielle de la largeur des bornes par rapport à P (G = 3|x) est égale à 1/2 − 2ε. La largeur des bornes est donc une fonction croissante de P (G = 3|x) lorsque ε < 1/4 et

une fonction décroissante de P (G = 3|x) lorsque ε > 1/4. Pour ε = 1/4, la largeur des bornes est égal à 1/4 quelle que soit la proportion des électeurs indécis.

Dans le document Pouvoir prédictif des questions de sondage (Page 35-39)

Documents relatifs