Régression binaire par capture-recapture
Jean-Baptiste ANTENORD1,2 Etienne BILLETTE de VILLEMEUR2
1Université Quisqueya (CREGED / Haïti)
2Université de Lille (LEM, UMR9221 / Lille, France)
24-26 octobre 2018
10ème Colloque Francophone sur les Sondages
Les méthodes de capture-recapture (MCR)
De l'étude des populations animales...
Comment estimer la taille d'une population animale ? Pas de recensement
Pas de base de sondage
=> Procéder avec des captures répétées
Les animaux sont marqués et relâchés après chaque capture On infère la taille de la population non-observée de
l'observation
... à celle des sociétés humaines
Pour des Populations diciles à enquêter (PDE) (Enfants de rue, sans-abris, extrême pauvreté...)
Combinaison de diérentes sources d'information Sondages aléatoires répétés
Les méthodes de capture-recapture (MCR)
De l'étude des populations animales...
Comment estimer la taille d'une population animale ? Pas de recensement
Pas de base de sondage
=> Procéder avec des captures répétées
Les animaux sont marqués et relâchés après chaque capture On infère la taille de la population non-observée de
l'observation
... à celle des sociétés humaines
Pour des Populations diciles à enquêter (PDE) (Enfants de rue, sans-abris, extrême pauvreté...)
Combinaison de diérentes sources d'information Sondages aléatoires répétés
Estimateurs statistiques pour PDE
Quelle proportion d'individus avec la caractéristiquex a également la caractéristiquey?
Objectifs de l'étude :
Proposer un estimateur de probabilité conditionnelle dans le cas où
On dispose de deux échantillons indépendants ... pas nécessairement représentatifs.
Cadre général des MCR
Principe des Méthodes de Capture-Recapture :
Extraire l'information contenue dansK observations partielles, pour en inférer les caractéristiques de la population non observée.
Soit
U ={1,2, ...,N}, la population
nyx, le nombre d'individus de caractéristiquesy∈ {0,1}et x∈ {0,1}
ωi= (ω1i,ω2i, ...,ωKi ), historique des captures de l'individu i∈U
(ωki =1 si l'individu apparaît dans la listek etωki =0 sinon) nyxω , nombre d'individus de caractéristiquesyx et d'historique de capture ω
Par dénition :
nyx=
∑
ω∈Ω
nωyx.
Cas de K=2 listes indépendantes
Ensemble des historiques de capture-recapture : Ω ={11;10;01;00}
ω=11 : présent dans les deux listes ω=00 : jamais observé
Pour un individu de caractéristiques y,x : r1yx,probabilité d'être inclus dans la liste 1 r2yx,probabilité d'être inclus dans la liste 2
Présent dans la liste 2 Absent de la liste 2 Présent dans la liste 1 nyx11=nyx r1yx
r2yx
n10yx=nyx r1yx 1−r2yx Absent de la liste 1 nyx01=nyx 1−r1yx
r2yx
nyx00=nyx 1−r1yx
1−r2yx .
La population non-observée s'élève à nyx00=nyx01n10yx
n11yx .
Estimateur de probabilité conditionnelle par la MCR
Estimateur de population par la MCR (Rivest et Lavallée, 2012)
ncyx=nyx01+nyx10+nyx11+nyx01n10yx nyx11 = 1
nyx11 nyx01+nyx11
n10yx+nyx11 .
Estimateurs de probabilité conditionnelles par la MCR :
b¯
q=Prob{y=1|x=1}= nc11 nc11+nc01
= n1101 n1101+n1111
n1011+n1111 n0111 n1101+n1111
n1110+n1111
+n1111 n0101+n1101
n1001+n0111;
bq=Prob{y=1|x=0}= nc11 nc11+nc01
=. . .
Variance de l'estimateur b q
Estimation de la variance (Par la méthode Delta)
\V bq¯ '
nc01
2
nc01+nc11 4
V\
nc0011
+
nc11 2
nc01+nc11 4
V\
nc0100
.
La variance asymptotique sur-estime la vraie variance (Sekar et Deming, 1949 ; Manly, 1969)
V\
nc00yx V\a
ncyx00
< nyx11
ncyx = nyx112 n01yx+nyx11
nyx10+nyx11.
Biais de l'estimateur naïf e q ¯
Estimateur naïf deq=Prob{y=1|x=1} : e¯
q= o11 o11+o01,
oùoyx=nyx01+nyx10+n11yx est l'eectif de caractéristiquesyx observé.
Biais de l'estimateur naïf eq¯:
bq≡eq¯−bq¯=bb
"
nc0001 o01
!
− nc1100 o11
!#
,
où bb>0.
Condition de biais nul : nc1100 nc11
=nc0001 nc01 .
Biais asymptotique de l'estimateur naïf et test de biais nul
Le biais deeq¯est asymptotiquement nul si et seulement si les individus de caractéristiquesyx=11 etyx =01 ont la même probabilité de ne pas être observés
Probabilité qu'un individu de caractéristique yx ne soit pas observé :
p00yx= 1−r1yx
1−r2yx , avecrc1yx=nyx11/ nyx01+nyx11
etrc2yx=nyx11/ nyx10+nyx11 .
Asymptotiquement, la condition de biais nul est vériée si, au risqueα
P
Z = pc0011−pc0100 r
V\
pc0011−pc0100
−→L N(0,1)
≤zα
2
=1−α.
Conclusion
La contribution
Nous proposons un estimateur de probabilité conditionnelle Sur la base de deux échantillons indépendants mais non-représentatifs
Pour lequel nous calculons la variance exacte
Un test statistique est proposé an d'évaluer la possibilité de se dispenser du redressement statistique sous-jacent à notre estimateur
Dans de nombreuses circonstances, les populations sont diciles à rejoindre et on ne dispose pas de bases de sondage Par l'application des MCR, il est possible d'obtenir des estimateurs qui s'aranchissent de ces dicultés sur la base d'observations indépendantes et répétées.