• Aucun résultat trouvé

Observations dichotomiques : notations et mod` ele

Soient i = 1, · · · , n sujets ind´ependants. Deux observateurs observent une caract´eris- tique discr`ete dichotomique. Soit la variable al´eatoire Yir telle que Yir = 1 si le sujet i est jug´e positif par l’observateur r, Yir = 0 sinon (r = 1, 2).

On suppose que chaque sujet poss`ede un vecteur de covariables sp´ecifiques aux sujets not´e xi. On suppose ´egalement qu’il existe deux vecteurs de covariables sp´ecifiques aux

observateurs xir, r = 1, 2 comme dans l’approche de Shoukri et Mian (1996). On pose

z0i = (x0i, x0i1, x0i2).

On d´efinit une variable al´eatoire indicatrice Yitelle que Yi = 1 si les deux observateurs sont d’accord sur le sujet i et Yi = 0 sinon. En terme de Yi1 et Yi2, on a

Le coefficient Kappa de Cohen pour mesurer l’accord entre Yi1 et Yi2 est d´efini de mani`ere habituelle

κi =

poi− pei

1 − pei

(4.2) o`u

poi = P[Yi = 1|zi] = P[Yi1= 1, Yi2 = 1|zi] + P[Yi1= 0, Yi2 = 0|zi]

et

pei = pi1pi2+ (1 − pi1)(1 − pi2)

o`u pir = P[Yir = 1|xi, xir], r = 1, 2.

Pour une valeur donn´ee de pei, nous avons vu au paragraphe ?? que

−1 ≤ κi ≤ 1. (4.3)

En effet, ici, nous sommes dans le cas d’observations binaires effectu´ees sur un sujet i.

Un mod`ele lin´eaire en les param`etres pourrait ˆetre d´efini au moyen d’une fonction de lien g(.) telle que

g(κi) = z0iγ

o`u γ est un vecteur de param`etres inconnus. La fonction de lien ´evite la n´ecessit´e d’ex- primer les contraintes sur le param`etre γ afin que les in´egalit´es (4.3) soient satisfaites. Puisque κ pr´esente certaines analogies avec un coefficient de corr´elation, on pourrait d´efinir une fonction de lien proportionnelle `a la transformation bien connue de Fisher, `a savoir

g(κi) = arcth (κi) = ln(

1 + κi

1 − κi

) i = 1, · · · , n.

Malheureusement cette fonction de lien et les param`etres γ qui y sont associ´es ne sont pas ais´es `a interpr´eter en termes concrets.

C’est pour cette raison que Lipsitz et al (2001) ont pr´ef´er´e utiliser le lien identit´e κi = z0iγ i = 1, · · · , n (4.4)

sans aucune contrainte sur les valeurs de κ dans le proc´ed´e d’estimation.

Pour tous les jeux de donn´ees que les auteurs pr´ecit´es ont exp´eriment´es jusqu’`a pr´esent, les valeurs estim´ees de κ ont satisfait aux contraintes (4.3). Ceci ne signifie pas qu’il n’existe pas d’´echantillon concret ou artificiel pour lequel κi pourrait ˆetre sup´erieur `a

un. A l’heure actuelle, le mod`ele (4.4) est toujours au stade exp´erimental et aucune d´emonstration de ses propri´et´es n’a ´et´e envisag´ee.

Montrons que nous pouvons estimer le vecteur de param`etres γ au moyen du mod`ele poi = E[Yi|zi] = P[Yi = 1|zi].

En utilisant les ´equations (4.2) et (4.4), le mod`ele de poi en terme de κi peut s’´ecrire poi = pei+ κi(1 − pei) = pei+ z0iγ(1 − pei) = pei+ z∗ 0 i γ (4.5) o`u z∗i = (1 − pei)zi .

Si pei ´etait connu, alors le mod`ele de poi serait un mod`ele lin´eaire en les param`etres avec

– une fonction de lien identit´e ;

– une ordonn´ee `a l’origine connue pei;

– un vecteur de covariables connu z∗i ; – un vecteur de param`etres inconnus γ.

Par cons´equent, afin d’estimer γ, si peiest connu, on peut utiliser la m´ethode du maximum

de vraisemblance bas´ee sur la distribution de Bernoulli de la variable al´eatoire Yi. La vraisemblance est, dans ce cas,

L(κ, γ) = n Y i=1 pyi oi(1 − poi)1−yi.

Malheureusement, pei est rarement connu. Une des possibilit´es est alors d’utiliser l’es-

timation du maximum de vraisemblance bas´ee sur la distribution conjointe de (Yi1, Yi2) pour estimer conjointement (pi1, pi2) et γ, comme l’ont fait Shoukri et Mian (cfr 3.10.3).

L’approche de Lipsitz est diff´erente, il remplace pei dans l’´equation (4.5) par son

estimation ˆpei et estime alors γ en utilisant un mod`ele lin´eaire. En particulier, on peut

estimer pi1 et pi2, en utilisant une r´egression logistique avec le mod`ele

logit(pir) = x0irβ1r + x 0

iβ2r r = 1, 2 (4.6)

et estimer pei comme suit

ˆ

pei = ˆpi1pˆi2+ (1 − ˆpi1)(1 − ˆpi2). (4.7)

D`es lors, le mod`ele lin´eaire pour poi est

poi ≈ ˆpei+ (1 − ˆpei)z0iγ. (4.8)

(Vu que ˆpei est une estimation, le signe ”≈” remplace le signe ”=” dans l’expression (4.8.))

En consid´erant la valeur estim´ee ˆpei dans l’expression (4.8) comme connue, γ peut

On proc`ede donc comme suit

– On utilise une r´egression logistique de Yi1sur les covariables (xi1, xi) afin d’obtenir

b pi1;

– On utilise une r´egression logistique de Yi2sur les covariables (xi2, xi) afin d’obtenir

b pi2;

– Pour chaque sujet, on d´etermine alors ˆpei = ˆpi1pˆi2+ (1 − ˆpi1)(1 − ˆpi2) ;

– On utilise une r´egression lin´eaire pour donn´ees binaires de Yi sur les covariables z∗i avec une ordonn´ee `a l’origine connue ˆpei (en anglais : an offset). Le processus it´eratif

utilis´e fait appel aux ´equations d’estimation g´en´eralis´ees que nous avons introduites au Chapitre 3.

Remarquons que puisque le mod`ele pour pir (4.6) n’est pas une fonction de γ, pour

un mod`ele donn´e de pir, l’estimation ˆβ de β sera la mˆeme, en d´epit du mod`ele de κi.

Par contre, l’estimation de κi d´epend du mod`ele utilis´e pour estimer les param`etres

pir et peut ˆetre biais´e si le mod`ele n’est pas ad´equat.

En traitant de nombreux ´echantillons, Lipsitz et al (2001) ont constat´e qu’il ´etait pr´ef´erable d’introduire trop de covariables dans le mod`ele (4.6) que trop peu, mˆeme si certaines covariables ne sont pas significatives au niveau d’incertitude α donn´e a priori.

Cette mani`ere de proc´eder entraˆıne une l´eg`ere augmentation de l’erreur type estim´ee de ˆγ.

Il n’existe aucune th´eorie formelle ni aucune d´emonstration des propri´et´es ´enonc´ees ci-dessus.

Posons β0 = (β011, β021, β012, β022).

En utilisant le d´eveloppement en s´eries de Taylor comme Prentice (1988) et en sup- posant que les mod`eles de pi1, pi2 et κi sont correctement sp´ecifi´es, on peut d´emontrer

que ( ˆβ0, ˆγ0) est un estimateur convergent en probabilit´e pour (β0, γ0) et que

n1/2(( ˆβ − β)0, (ˆγ − γ)0) suit une distribution asymptotiquement multinormale avec un vecteur moyen 0 et une matrice de variances-covariances pouvant ˆetre estim´ee par un estimateur robuste de la variance comme l’estimateur du Jackknife (Wu, 1986).

Une forme de l’estimateur du Jackknife est

var( ˆβ0, ˆγ0)0 = n X i=1 (( ˆβ0, ˆγ0)−i− ( ˆβ 0 , ˆγ0))0(( ˆβ0, ˆγ0)−i− ( ˆβ 0 , ˆγ0)) (4.9) o`u ( ˆβ0, ˆγ0)−i est l’estimation de ( ˆβ

0

, ˆγ0) obtenue en supprimant les deux observations relatives au i`eme individu et recalculant β et γ.

4.3

Extension `a un nombre de cat´egories sup´erieur `a

Documents relatifs