• Aucun résultat trouvé

Conclusion et perspectives

Dans ce chapitre, nous avons étudié les intégrales Kaplan-Meier en développant une approche qui peut être vue comme un point d'équilibre entre les deux approches existantes : celle d'Akritas (2000) qui envisage ces intégrales du point de vue de la théorie des martingales, et celle de Stute (1995) qui prend le parti de considérer l'estimateur de Kaplan-Meier comme une fonction continue par morceaux dont les sauts sont ensuite étudiés par des méthodes de U−statistiques. En utilisant le lien entre les sauts de

ˆ

F et la fonction ˆG, nous parvenons ainsi à obtenir de nouvelles représentations des intégrales Kaplan-Meier (en présence de variables explicatives, voir Théorème 2.2.10) sous des hypothèses d'intégrabilité optimales. Nous obtenons également des résultats de représentations i.i.d. valables uniformément sur des classes de fonctions.

C'est dans ce dernier domaine qu'à l'heure actuelle, nos résultats ne parviennent pas à obtenir de résultats "optimaux", dans le sens où ils reposent sur l'Hypothèse d'intégra- bilité 2.2.4. Cette hypothèse, quoique acceptable en pratique, représente une contrainte supplémentaire par rapport à l'Hypothèse 2.2.3, qui est seule nécessaire pour garantir que les termes de la représentation i.i.d. possèdent une variance nie. Au Théorème 2.2.10, lorsque l'on ne considère qu'une seule fonction, on n'a besoin que de l'Hypothèse 2.2.3. La raison, spécique à notre méthode de preuve, pour laquelle nous ne parvenons pas à étendre ce résultat à une classe de fonctions vient de l'utilisation de l'inégalité de Lenglart, qui s'avère inappropriée dans le cas d'une classe de fonctions. Néanmoins, il semble raisonnable de conjecturer que l'énoncé du Théorème 2.2.11 reste vérié si l'on s'aranchit de l'Hypothèse 2.2.4.

Une autre question à envisager serait la question des U−processus Kaplan-Meier ou des U−statistiques Kaplan-Meier. Des représentations asymptotiques des U−statistiques Kaplan-Meier ont déjà été étudiées par Bose et Sen (2002) (U−statistiques d'ordre 2 uniquement). Leurs résultats reposent sur des conditions d'intégrabilité trop contrai- gnantes. Notre approche pourrait probablement être utilisée pour obtenir des représen- tations analogues sous des hypothèses d'intégrabilité optimales.

Transformations des données

Dans ce chapitre, nous nous intéressons à l'étude d'un modèle de régression, c'est à dire à l'estimation d'une fonction

m0(x) = E [Y | X = x] ,

où m0∈ M, le modèle M étant une famille de fonctions (paramétrique au Chapitre 4,

non paramétrique au Chapitre 5, semi-paramétrique au Chapitre 6).

La présence de censure aléatoire rend impossible l'utilisation des données telles quelles pour l'estimation de m0, ainsi que le soulignera la première section de ce cha-

pitre. Pour estimer la fonction m0,une première méthode consiste à utiliser les intégrales

Kaplan-Meier dénies au Chapitre 2. En particulier, cette méthode est liée à la méthode des estimateurs dits "à pondération," pour reprendre la terminologie de Zhou (1992a). Ce lien sera plus précisément exploré dans la section 4.1.2 du Chapitre 4. Voir également Stute (1999).

L'objet de ce chapitre est la description d'une deuxième technique, dite des estima- teurs "synthetic data," reposant sur des transformations des données. Cette méthode a été initiée par Koul, Susarla et Van Ryzin (1981), et Leurgans (1987). On peut également mentionner Buckley et James (1978), Tsiatis (1990), malgré des diérences importantes du point de vue algorithmique qui seront exposées par la suite. Dans la méthode synthe- tic data, il s'agit essentiellement de remplacer les variables T observées par des variables Y∗, tout en s'assurant que E [Y| X] = E [Y | X] (malheureusement, produire une telle

transformation calculable à partir des données reste de l'ordre du v÷u pieux : les trans- formations Y∗ proposées reposent en général sur l'utilisation de la loi conditionnelle

de Y , qui est inconnue ; la procédure synthetic data consiste à se rapprocher au mieux de ces transformations "idéales"). Sous les Hypothèses d'identiabilité 1.1.3 ou 1.1.4, toutes les transformations considérées sont basées sur l'estimateur de Kaplan-Meier. Par suite, l'étude de théorique des estimateurs synthetic data repose sur des sommes non i.i.d., comme dans le cas des intégrales Kaplan-Meier.

La principale contribution de ce chapitre consiste à mettre en évidence le lien entre les intégrales Kaplan-Meier et ces transformations synthetic data. Ce lien va permettre d'obtenir des représentations i.i.d. de sommes de ces transformations approchées. Ces

représentations s'avèrent particulièrement utiles, puisqu'elles permettent d'étudier l'ap- plication des estimateurs synthetic data à des modèles de régression généraux. Jusqu'à présent, dans le cas d'un modèle de régression paramétrique, les estimateurs synthetic data n'avaient été étudiés que dans le cas du modèle linéaire. Les représentations i.i.d. obtenues dans ce chapitre vont notamment permettre d'étudier le cas plus général d'un modèle de régression non linéaire, considéré au Chapitre 4.

Dans la section 3.1, nous reviendrons sur l'erreur commise par les procédures statis- tiques qui ne tiendraient pas compte de la présence de censure. Le but de cette étude sera tout d'abord de se convaincre, s'il en est besoin, de la nécessité de prendre en compte la censure pour l'estimation de m0.De plus, les conclusions que nous en tirerons s'avére-

ront précieuses pour la compréhension des diérentes transformations considérées dans les sections suivantes. Elles motiveront ainsi l'introduction des estimateurs "synthetic data" évoqués dans la section 3.2. L'étude théorique des deux principales transforma- tions (de Koul Susarla et Van Ryzin, 1981, et Leurgans 1987) est conduite dans la section 3.3, où sont obtenues de nouvelles représentations i.i.d. de sommes empiriques de synthetic data. Ces représentations, obtenues par Delecroix, Lopez, Patilea (2006), permettent notamment l'étude théorique d'estimateurs basés sur les transformations synthetic data, notamment dans le domaine des modèles de régression paramétrique généraux (régression non linéaire, voir Chapitre 4). Les résultats présentés ici sont légè- rement diérents de ceux de Delecroix, Lopez, Patilea (2006) puisqu'ils améliorent les conditions d'intégrabilité sous lesquelles ces représentations demeurent valides.

3.1 Erreurs commises si l'on ne tient pas compte de la cen-

Documents relatifs