Régression binaire par capture recapture

(1)

Régression binaire par capture-recapture

Jean-Baptiste ANTENORD¹^,² Etienne BILLETTE de VILLEMEUR²

1Université Quisqueya (CREGED / Haïti)

2Université de Lille (LEM, UMR9221 / Lille, France)

24-26 octobre 2018

10ème Colloque Francophone sur les Sondages

(2)

Les méthodes de capture-recapture (MCR)

De l'étude des populations animales...

Comment estimer la taille d'une population animale ? Pas de recensement

Pas de base de sondage

=> Procéder avec des captures répétées

Les animaux sont marqués et relâchés après chaque capture On infère la taille de la population non-observée de

l'observation

... à celle des sociétés humaines

Pour des Populations diciles à enquêter (PDE) (Enfants de rue, sans-abris, extrême pauvreté...)

Combinaison de diérentes sources d'information Sondages aléatoires répétés

(3)

Les méthodes de capture-recapture (MCR)

De l'étude des populations animales...

Comment estimer la taille d'une population animale ? Pas de recensement

Pas de base de sondage

=> Procéder avec des captures répétées

Les animaux sont marqués et relâchés après chaque capture On infère la taille de la population non-observée de

l'observation

... à celle des sociétés humaines

Pour des Populations diciles à enquêter (PDE) (Enfants de rue, sans-abris, extrême pauvreté...)

Combinaison de diérentes sources d'information Sondages aléatoires répétés

(4)

Estimateurs statistiques pour PDE

Quelle proportion d'individus avec la caractéristiquex a également la caractéristiquey?

Objectifs de l'étude :

Proposer un estimateur de probabilité conditionnelle dans le cas où

On dispose de deux échantillons indépendants ... pas nécessairement représentatifs.

(5)

Cadre général des MCR

Principe des Méthodes de Capture-Recapture :

Extraire l'information contenue dansK observations partielles, pour en inférer les caractéristiques de la population non observée.

Soit

U ={1,2, ...,N}, la population

n^yx, le nombre d'individus de caractéristiquesy∈ {0,1}et x∈ {0,1}

ωⁱ= (ω₁ⁱ,ω₂ⁱ, ...,ω_Kⁱ ), historique des captures de l'individu i∈U

(ω_kⁱ =1 si l'individu apparaît dans la listek etω_kⁱ =0 sinon) n^yx_ω , nombre d'individus de caractéristiquesyx et d'historique de capture ω

Par dénition :

n^yx=

∑

ω∈Ω

n_ω^yx.

(6)

Cas de K=2 listes indépendantes

Ensemble des historiques de capture-recapture : Ω ={11;10;01;00}

ω=11 : présent dans les deux listes ω=00 : jamais observé

Pour un individu de caractéristiques y,x : r₁^yx,probabilité d'être inclus dans la liste 1 r₂^yx,probabilité d'être inclus dans la liste 2

Présent dans la liste 2 Absent de la liste 2 Présent dans la liste 1 n^yx₁₁=n^yx r₁^yx

r₂^yx

n₁₀^yx=n^yx r₁^yx 1−r₂^yx Absent de la liste 1 n^yx₀₁=n^yx 1−r₁^yx

r₂^yx

n^yx₀₀=n^yx 1−r₁^yx

1−r₂^yx .

La population non-observée s'élève à n^yx₀₀=n^yx₀₁n₁₀^yx

n₁₁^yx .

(7)

Estimateur de probabilité conditionnelle par la MCR

Estimateur de population par la MCR (Rivest et Lavallée, 2012)

nc^yx=n^yx₀₁+n^yx₁₀+n^yx₁₁+n^yx₀₁n₁₀^yx n^yx₁₁ = 1

n^yx₁₁ n^yx₀₁+n^yx₁₁

n₁₀^yx+n^yx₁₁ .

Estimateurs de probabilité conditionnelles par la MCR :

b¯

q=Prob{y=1|x=1}= nc¹¹ nc¹¹+nc⁰¹

= n₁₁⁰¹ n¹¹₀₁+n₁₁¹¹

n₁₀¹¹+n¹¹₁₁ n⁰¹₁₁ n¹¹₀₁+n¹¹₁₁

n¹¹₁₀+n¹¹₁₁

+n¹¹₁₁ n⁰¹₀₁+n₁₁⁰¹

n₁₀⁰¹+n⁰¹₁₁;

bq=Prob{y=1|x=0}= nc¹¹ nc¹¹+nc⁰¹

=. . .

(8)

Variance de l'estimateur b q

Estimation de la variance (Par la méthode Delta)

\V bq¯ '

nc⁰¹

₂

nc⁰¹+nc¹¹ ₄

V\

nc₀₀¹¹

+

nc¹¹ ₂

nc⁰¹+nc¹¹ ₄

V\

nc⁰¹₀₀

.

La variance asymptotique sur-estime la vraie variance (Sekar et Deming, 1949 ; Manly, 1969)





 V\

nc₀₀^yx V\a

nc^yx₀₀





< n^yx₁₁

nc^yx = n^yx₁₁₂ n₀₁^yx+n^yx₁₁

n^yx₁₀+n^yx₁₁.

(9)

Biais de l'estimateur naïf e q ¯

Estimateur naïf deq=Prob{y=1|x=1} : e¯

q= o¹¹ o¹¹+o⁰¹,

oùo^yx=n^yx₀₁+n^yx₁₀+n₁₁^yx est l'eectif de caractéristiquesyx observé.

Biais de l'estimateur naïf eq¯:

b_q≡eq¯−bq¯=bb

"

nc₀₀⁰¹ o⁰¹

!

− nc¹¹₀₀ o¹¹

!#

,

où bb>0.

Condition de biais nul : nc¹¹₀₀ nc¹¹

=nc₀₀⁰¹ nc⁰¹ .

(10)

Biais asymptotique de l'estimateur naïf et test de biais nul

Le biais deeq¯est asymptotiquement nul si et seulement si les individus de caractéristiquesyx=11 etyx =01 ont la même probabilité de ne pas être observés

Probabilité qu'un individu de caractéristique yx ne soit pas observé :

p₀₀^yx= 1−r₁^yx

1−r₂^yx , avecrc₁^yx=n^yx₁₁/ n^yx₀₁+n^yx₁₁

etrc₂^yx=n^yx₁₁/ n^yx₁₀+n^yx₁₁ .

Asymptotiquement, la condition de biais nul est vériée si, au risqueα

P







Z = pc₀₀¹¹−pc⁰¹₀₀ r

V\

pc₀₀¹¹−pc⁰¹₀₀

−→L N(0,1)

≤z^α

2







=1−α.

(11)

Conclusion

La contribution

Nous proposons un estimateur de probabilité conditionnelle Sur la base de deux échantillons indépendants mais non-représentatifs

Pour lequel nous calculons la variance exacte

Un test statistique est proposé an d'évaluer la possibilité de se dispenser du redressement statistique sous-jacent à notre estimateur

Dans de nombreuses circonstances, les populations sont diciles à rejoindre et on ne dispose pas de bases de sondage Par l'application des MCR, il est possible d'obtenir des estimateurs qui s'aranchissent de ces dicultés sur la base d'observations indépendantes et répétées.