Soient i = 1, · · · , n sujets ind´ependants. Deux observateurs observent une caract´eris- tique discr`ete dichotomique. Soit la variable al´eatoire Yir telle que Yir = 1 si le sujet i est jug´e positif par l’observateur r, Yir = 0 sinon (r = 1, 2).
On suppose que chaque sujet poss`ede un vecteur de covariables sp´ecifiques aux sujets not´e xi. On suppose ´egalement qu’il existe deux vecteurs de covariables sp´ecifiques aux
observateurs xir, r = 1, 2 comme dans l’approche de Shoukri et Mian (1996). On pose
z0i = (x0i, x0i1, x0i2).
On d´efinit une variable al´eatoire indicatrice Yitelle que Yi = 1 si les deux observateurs sont d’accord sur le sujet i et Yi = 0 sinon. En terme de Yi1 et Yi2, on a
Le coefficient Kappa de Cohen pour mesurer l’accord entre Yi1 et Yi2 est d´efini de mani`ere habituelle
κi =
poi− pei
1 − pei
(4.2) o`u
poi = P[Yi = 1|zi] = P[Yi1= 1, Yi2 = 1|zi] + P[Yi1= 0, Yi2 = 0|zi]
et
pei = pi1pi2+ (1 − pi1)(1 − pi2)
o`u pir = P[Yir = 1|xi, xir], r = 1, 2.
Pour une valeur donn´ee de pei, nous avons vu au paragraphe ?? que
−1 ≤ κi ≤ 1. (4.3)
En effet, ici, nous sommes dans le cas d’observations binaires effectu´ees sur un sujet i.
Un mod`ele lin´eaire en les param`etres pourrait ˆetre d´efini au moyen d’une fonction de lien g(.) telle que
g(κi) = z0iγ
o`u γ est un vecteur de param`etres inconnus. La fonction de lien ´evite la n´ecessit´e d’ex- primer les contraintes sur le param`etre γ afin que les in´egalit´es (4.3) soient satisfaites. Puisque κ pr´esente certaines analogies avec un coefficient de corr´elation, on pourrait d´efinir une fonction de lien proportionnelle `a la transformation bien connue de Fisher, `a savoir
g(κi) = arcth (κi) = ln(
1 + κi
1 − κi
) i = 1, · · · , n.
Malheureusement cette fonction de lien et les param`etres γ qui y sont associ´es ne sont pas ais´es `a interpr´eter en termes concrets.
C’est pour cette raison que Lipsitz et al (2001) ont pr´ef´er´e utiliser le lien identit´e κi = z0iγ i = 1, · · · , n (4.4)
sans aucune contrainte sur les valeurs de κ dans le proc´ed´e d’estimation.
Pour tous les jeux de donn´ees que les auteurs pr´ecit´es ont exp´eriment´es jusqu’`a pr´esent, les valeurs estim´ees de κ ont satisfait aux contraintes (4.3). Ceci ne signifie pas qu’il n’existe pas d’´echantillon concret ou artificiel pour lequel κi pourrait ˆetre sup´erieur `a
un. A l’heure actuelle, le mod`ele (4.4) est toujours au stade exp´erimental et aucune d´emonstration de ses propri´et´es n’a ´et´e envisag´ee.
Montrons que nous pouvons estimer le vecteur de param`etres γ au moyen du mod`ele poi = E[Yi|zi] = P[Yi = 1|zi].
En utilisant les ´equations (4.2) et (4.4), le mod`ele de poi en terme de κi peut s’´ecrire poi = pei+ κi(1 − pei) = pei+ z0iγ(1 − pei) = pei+ z∗ 0 i γ (4.5) o`u z∗i = (1 − pei)zi .
Si pei ´etait connu, alors le mod`ele de poi serait un mod`ele lin´eaire en les param`etres avec
– une fonction de lien identit´e ;
– une ordonn´ee `a l’origine connue pei;
– un vecteur de covariables connu z∗i ; – un vecteur de param`etres inconnus γ.
Par cons´equent, afin d’estimer γ, si peiest connu, on peut utiliser la m´ethode du maximum
de vraisemblance bas´ee sur la distribution de Bernoulli de la variable al´eatoire Yi. La vraisemblance est, dans ce cas,
L(κ, γ) = n Y i=1 pyi oi(1 − poi)1−yi.
Malheureusement, pei est rarement connu. Une des possibilit´es est alors d’utiliser l’es-
timation du maximum de vraisemblance bas´ee sur la distribution conjointe de (Yi1, Yi2) pour estimer conjointement (pi1, pi2) et γ, comme l’ont fait Shoukri et Mian (cfr 3.10.3).
L’approche de Lipsitz est diff´erente, il remplace pei dans l’´equation (4.5) par son
estimation ˆpei et estime alors γ en utilisant un mod`ele lin´eaire. En particulier, on peut
estimer pi1 et pi2, en utilisant une r´egression logistique avec le mod`ele
logit(pir) = x0irβ1r + x 0
iβ2r r = 1, 2 (4.6)
et estimer pei comme suit
ˆ
pei = ˆpi1pˆi2+ (1 − ˆpi1)(1 − ˆpi2). (4.7)
D`es lors, le mod`ele lin´eaire pour poi est
poi ≈ ˆpei+ (1 − ˆpei)z0iγ. (4.8)
(Vu que ˆpei est une estimation, le signe ”≈” remplace le signe ”=” dans l’expression (4.8.))
En consid´erant la valeur estim´ee ˆpei dans l’expression (4.8) comme connue, γ peut
On proc`ede donc comme suit
– On utilise une r´egression logistique de Yi1sur les covariables (xi1, xi) afin d’obtenir
b pi1;
– On utilise une r´egression logistique de Yi2sur les covariables (xi2, xi) afin d’obtenir
b pi2;
– Pour chaque sujet, on d´etermine alors ˆpei = ˆpi1pˆi2+ (1 − ˆpi1)(1 − ˆpi2) ;
– On utilise une r´egression lin´eaire pour donn´ees binaires de Yi sur les covariables z∗i avec une ordonn´ee `a l’origine connue ˆpei (en anglais : an offset). Le processus it´eratif
utilis´e fait appel aux ´equations d’estimation g´en´eralis´ees que nous avons introduites au Chapitre 3.
Remarquons que puisque le mod`ele pour pir (4.6) n’est pas une fonction de γ, pour
un mod`ele donn´e de pir, l’estimation ˆβ de β sera la mˆeme, en d´epit du mod`ele de κi.
Par contre, l’estimation de κi d´epend du mod`ele utilis´e pour estimer les param`etres
pir et peut ˆetre biais´e si le mod`ele n’est pas ad´equat.
En traitant de nombreux ´echantillons, Lipsitz et al (2001) ont constat´e qu’il ´etait pr´ef´erable d’introduire trop de covariables dans le mod`ele (4.6) que trop peu, mˆeme si certaines covariables ne sont pas significatives au niveau d’incertitude α donn´e a priori.
Cette mani`ere de proc´eder entraˆıne une l´eg`ere augmentation de l’erreur type estim´ee de ˆγ.
Il n’existe aucune th´eorie formelle ni aucune d´emonstration des propri´et´es ´enonc´ees ci-dessus.
Posons β0 = (β011, β021, β012, β022).
En utilisant le d´eveloppement en s´eries de Taylor comme Prentice (1988) et en sup- posant que les mod`eles de pi1, pi2 et κi sont correctement sp´ecifi´es, on peut d´emontrer
que ( ˆβ0, ˆγ0) est un estimateur convergent en probabilit´e pour (β0, γ0) et que
n1/2(( ˆβ − β)0, (ˆγ − γ)0) suit une distribution asymptotiquement multinormale avec un vecteur moyen 0 et une matrice de variances-covariances pouvant ˆetre estim´ee par un estimateur robuste de la variance comme l’estimateur du Jackknife (Wu, 1986).
Une forme de l’estimateur du Jackknife est
var( ˆβ0, ˆγ0)0 = n X i=1 (( ˆβ0, ˆγ0)−i− ( ˆβ 0 , ˆγ0))0(( ˆβ0, ˆγ0)−i− ( ˆβ 0 , ˆγ0)) (4.9) o`u ( ˆβ0, ˆγ0)−i est l’estimation de ( ˆβ
0
, ˆγ0) obtenue en supprimant les deux observations relatives au i`eme individu et recalculant β et γ.