• Aucun résultat trouvé

Influence de l’ombrage et de la densité de semis sur le développement de jeunes chênes sessiles

N/A
N/A
Protected

Academic year: 2021

Partager "Influence de l’ombrage et de la densité de semis sur le développement de jeunes chênes sessiles"

Copied!
118
0
0

Texte intégral

(1)

HAL Id: hal-02838308

https://hal.inrae.fr/hal-02838308

Submitted on 7 Jun 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Influence de l’ombrage et de la densité de semis sur le

développement de jeunes chênes sessiles

Fleur Longuetaud

To cite this version:

Fleur Longuetaud. Influence de l’ombrage et de la densité de semis sur le développement de jeunes chênes sessiles. Sciences du Vivant [q-bio]. 2000. �hal-02838308�

(2)

Mémoire présenté en vue de l’obtention du DESS Ingénierie Mathématique et

Outils Informatiques

Influence de l’ombrage et de la densité de semis sur

le développement de jeunes chênes sessiles

Fleur Longuetaud

(3)

REMERCIEMENTS

Je tiens à remercier :

Francis Colin, mon responsable de stage pour le temps qu’il m’a consacré.

Laetitia Farque dont la thèse est à l’origine de mon stage pour sa disponibilité et son aide précieuse. Christian Herbé pour sa disponibilité tout au long de mon stage et sa faculté à résoudre tous mes problèmes informatiques.

Michel Pitsch pour son aide technique en ce qui concerne les illustrations du rapport. Odile Pons, René Gueguen et Gilles Le Moguédec pour leur aide en statistique.

Jean-Claude Fort mon professeur de statistiques à la faculté des sciences de l’université NANCY I. Ainsi que toute l’équipe Croissance et Production.

(4)

SOMMAIRE

1. Introduction ____________________________________________________________ 1 2. Les bases de mon étude ___________________________________________________ 2 2.1. Quelques éléments sur la croissance du chêne _________________________________ 2 2.2. Le dispositif expérimental__________________________________________________ 5 2.3. Présentation des fichiers de données brutes ___________________________________ 8 2.4. Le cahier des charges _____________________________________________________ 9 2.5. Traitement des fichiers de données __________________________________________ 9 3. Méthodes statistiques mises en œuvre _______________________________________ 11

3.1. Caractéristiques à prendre en compte pour mes données _______________________ 11 3.2. Les méthodes d’analyse de survie __________________________________________ 11

3.2.1. Présentation générale des méthodes de survie ___________________________________ 11 3.2.2. Partie théorique____________________________________________________________ 12

3.2.2.1. Les principales fonctions pour l’étude de la survie _______________________________ 12 3.2.2.2. Estimations des fonctions de survie et de hasard _________________________________ 15 3.2.2.3. Comparaisons de courbes de survie ___________________________________________ 17 3.2.2.4. Principaux modèles _______________________________________________________ 18

3.3. Outil : le logiciel SAS_____________________________________________________ 22 3.4. Adaptation de ces méthodes à mes données et problèmes rencontrés _____________ 26 3.5. La puissance des tests ____________________________________________________ 26 4. Résultats ______________________________________________________________ 28

4.1. Présentations graphiques _________________________________________________ 28

4.1.1. Proportions de plants dont le bourgeon terminal du tronc se trouve en phase

d’allongement pour les différentes unités de croissance à une date donnée ____________________ 28

4.1.2. Etude des dates de départ des phases d’allongement pour les différents traitements ___ 41

4.1.3. Etude de la durée des phases d’allongement des bourgeons terminaux du tronc _______ 48

4.1.4. Etude de la durée des périodes de repos entre deux phases d’allongement pour les

bourgeons terminaux du tronc ________________________________________________________ 50 4.2. Application des méthodes d’analyse de survie à mes données ___________________ 51

4.2.1. Dates de démarrage des phases d’allongement pour le bourgeon terminal du tronc ____ 51

4.2.2. Dates de démarrage des phases d’allongement pour les bourgeons terminaux des premières

ramifications _______________________________________________________________________ 70

4.2.3. Durées des phases d’allongement pour les bourgeons terminaux du tronc ____________ 73

4.2.4 Durée des périodes de repos entre deux phases d’allongement pour les bourgeons

terminaux du tronc__________________________________________________________________ 80

5. Conclusion ____________________________________________________________ 85 Références ________________________________________________________________ 88 Annexes __________________________________________________________________ 91

(5)
(6)

1.

Introduction

Les chênes sessiles et pédonculés représentent un volume sur pied de 446 millions de m³ et une production annuelle de 3 millions de m³ de grumes en France. Notre pays est en effet le premier producteur de chêne Européen et le deuxième mondial derrière les Etats-Unis. L’exportation des grumes est très importante. Le chêne a donc un fort poids économique.

Les chênaies qui occupent une surface de 4 millions d’hectares, sont également un enjeu écologique : elles assurent une grande diversité des écosystèmes et participent à la formation des paysages. Ce sont encore des milieux peu artificiels que le sylviculteur doit gérer au mieux, afin d’obtenir du bois de qualité tout en respectant l’équilibre biologique des écosystèmes.

Le développement des jeunes arbres est important en sylviculture car il conditionne la qualité des grumes à exploiter à l’état adulte. Celle-ci dépend bien sûr de facteurs génétiques, mais aussi des conditions environnementales telles que la lumière, la température, la densité... Dans les jeunes peuplements, les conditions environnementales peuvent être modifiées en réalisant des éclaircies (coupes dans les arbres adultes), des dépressages (suppression de jeunes plants) ou des dégagements (suppression de la végétation adventice).

Néanmoins, les forestiers ne savent pas comment optimiser ces opérations pour offrir au jeune peuplement le climat lumineux le plus favorable à son développement.

Pour cette raison, l’équipe « croissance et production » du centre INRA de Champenoux, au sein de laquelle mon stage s'effectue, s’est lancé dans un vaste projet, testant l’effet de la lumière sur les régénérations forestières. Dans le cadre de ce projet, un dispositif permettant de tester l’effet conjugué de la lumière et de la densité a été mis en place. Il est suivi depuis trois ans par Laetitia Farque dans le cadre de sa thèse.

Mon étude porte sur de jeunes plants de chênes sessiles, et plus précisément sur leur phénologie1 sous différentes conditions de lumière et de densité. Le but de l’étude est d’analyser l’effet des différents facteurs par des méthodes statistiques d’analyse de la survie. Ces méthodes étant plus traditionnellement employées dans le domaine médical.

Dans une première partie, je présenterai les bases de mon étude. Puis j’expliquerai les méthodes d’analyses utilisées, j’énoncerai les résultats obtenus et enfin je discuterai et conclurai.

1 Phénologie : étude de la succession dans le temps des phénomènes de développement et du comportement des

êtres vivants, en particulier des végétaux, en rapport avec les conditions du milieu. La phénologie étudie notamment les variations des époques de germination, de débourrement des bourgeons, de floraison et de fructification des plantes sous les divers climats.

(7)

2.

Les bases de mon étude

2.1. Quelques éléments sur la croissance du chêne

Pour bien comprendre en quoi consiste mon étude, il est nécessaire d’apporter quelques précisions quant à la croissance du chêne.

Le chêne est une essence de lumière, bien que les semis se développent souvent à l’ombre. A l’état adulte, le chêne atteint 30 à 40 m de haut.

La croissance est rythmique, c’est à dire que l’allongement des rameaux se fait par vagues de

croissance successives (Figure 1). Les chênes peuvent avoir jusqu’à 3 ou 4 vagues de croissance par an. Chaque vague dure environ 10 à 15 jours et est suivie d’une période de repos d’une durée de 2 à 3 semaines.

La portion de tige mise en place pendant ces périodes est appelée unité de croissance (UC) (Figure 2). C’est l’apex appelé encore bourgeon terminal qui est à l’origine de l’allongement des axes en assurant la production de nouvelles cellules. D’autres bourgeons appelés bourgeons caulinaires, situés le long du tronc, assurent la production des nouveaux axes.

Figure 1 : diagramme représentatif d’une portion de la tige d’un plant de Chêne sessile. UC : abréviation de l’unité de croissance produite au cours d’une période continue d’allongement.

(8)

Figure 2 : dessin d’une unité de croissance (UC) d’un plant de Chêne sessile avec les deux organes foliaires pris en compte : écailles à la base et feuilles à limbe bien développé

On suit la rythmicité de l’allongement des axes en observant les périodes d’activité du bourgeon terminal.

Chez le chêne, les dates pour l’éclatement des bourgeons, la mise en place des UC, la sortie des feuilles, ce qu’on appelle débourrer, sont variables, et dépendent des conditions de croissance, essentiellement température et luminosité. Dans nos régions, la date de débourrement se situe autour de la deuxième quinzaine d’avril.

La phénologie du bourgeon est étudiée grâce à la définition des stades suivants (Figure 5) :

• stade n°1 : bourgeon formé, écailles collées, petite taille ;

• stade n°2 : bourgeon à peine gonflé, écailles se décollant légèrement ;

• stade n°3 : bourgeon un peu gonflé et commençant à s’allonger ;

• stade n°4 : bourgeon allongé, début d’ouverture des écailles ;

• stade n°5 : au moins une feuille est sortie complètement du bourgeon ;

(9)
(10)

Le stade n°4 est important car on considère que c’est à ce stade que commence véritablement la phase d'allongement pour l’unité de croissance considérée.

2.2. Le dispositif expérimental

Le dispositif expérimental mis en place croise deux facteurs influençant la croissance du chêne : la luminosité et la densité de semis (Figure 5).

Deux niveaux de lumière sont considérés : la pleine lumière soit 100% du rayonnement solaire et un ombrage équivalent à 20% du rayonnement solaire. Cette réduction de lumière est obtenue sous ombrière par des toiles filtrantes constituées de bandelettes de polyéthylène tressé et aluminisé.

Pour chacun des niveaux de lumière, 4 densités ont été considérées.

Les variables qualitatives dont on veut tester les effets sur une variable numérique observée sont appelées « facteurs ». Leurs modalités sont appelées « niveaux ». Et enfin lorsqu’il y a plusieurs facteurs, une combinaison de niveaux est un « traitement » (Saporta, 1990).

Au total le dispositif est constitué de 8 traitements différents. Chaque traitement est constitué de 5 blocs (répété 5 fois) comportant chacun 80 individus. Pour chaque bloc les chênes situés en bordure ne sont pas pris en compte et les observations portent sur une quarantaine d’individus. Les mesures ont été réalisées sur un seul bloc par traitement, soit une quarantaine d’individus par traitement.

(11)

Figure 4

Nous avons deux facteurs : lumière et densité. Pour le facteur lumière, nous avons deux niveaux :

• 100% de la lumière (L);

• 15-20% de la lumière (O).

(12)

• 100 plants/m² (D1);

• 25 plants/m² (D2);

• 11 plants/m² (D3);

• 2.8 plants/m² (D4).

Il est important de noter que c’est à l’intérieur de chacun des niveaux de lumière que l’on trouve les différentes densités. En effet, pour cette expérience, la qualité du sol est un facteur susceptible de nuire à l’homogénéité des groupes.

Ici nous cherchons à comparer des groupes en fonction de la lumière qu’ils ont reçu, et en fonction de la densité des semis. Nous avons 8 traitements en tout. La méthode des blocs (Falissard, 1998, p79) aurait consisté à répéter les 8 traitements sur plusieurs parcelles afin de pouvoir éliminer un éventuel facteur qualité du sol de la parcelle. Mais matériellement, il aurait été difficile de placer une ombrière sur chaque petite parcelle sans faire de l’ombre, par exemple, aux individus devant bénéficier d’une lumière totale. La qualité du sol est un facteur que l’on ne peut pas contrôler ici.

Ci-dessous se trouvent des photos du dispositif :

(13)

photo 2 : plants à l’intérieur de l’ombrière

2.3. Présentation des fichiers de données brutes

Le dispositif a permis de recueillir un grand nombre de données. Mon étude porte sur l’année 1999. Les observations ont débuté le 21 avril, et se sont terminées vers la mi-août. Elles ont eu lieu en général deux fois par semaine, mais parfois une seule. Les stades pour le bourgeon terminal du tronc ont été observés, ainsi que les longueurs des unités de croissance mises en place, le nombre de nouvelles ramifications.

Au cours des suivis de croissance, nous avons regroupé les stades n°3 et 4 car leur différenciation n’était pas évidente. Ainsi les stades n°3 et 4 ne forment plus qu’un stade appelé stade n°4, et qui correspond au départ des phases d’allongement.

Les mesures ou observations, ont été saisies sous Excel. Je dispose de huit fichiers de données, un par traitement.

Voici un extrait d’un de ces fichiers pour comprendre la façon dont sont archivées les données.

DATE 21/4 27/4 30/4 4/5 7/5 11/5 18/5 25/5 1/6 8/6 11/6 15/6 18/6 22/6 25/6 29/6 2/7 7/7 13/7 16/7 20/7 23/7 31/7 5/8 10/8 1 bg A1 4 6 6 6 6 6 6 1 4 5 5 5 6 6 6 1 1 1 1 1 1 1 5 6 6 1 lg A1 6 44 67 79 79 81 81 0 0 58 86 131 139 141 141 0 0 0 0 0 0 0 28 97 97 1 nb nvlles R 99 (1) 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 1 bg Rmax 99 4 6 6 6 1 1 1 1 4 5 5 5 6 6 6 1 1 1 1 1 1 1 1 1 1 1 lg Rmax 99 0 29 52 52 0 0 0 0 0 25 45 86 91 95 95 0 0 0 0 0 0 0 0 0 0 1 nb nvlles R 99 (2) 0 0 0 0 0 0 0 0 0 1 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 1 bg Rmax 99 0 0 0 0 0 0 0 0 0 4 5 5 6 6 6 1 1 1 1 1 1 2 5 6 6 1 lg Rmax 99 0 0 0 0 0 0 0 0 0 31 63 81 97 104 104 0 0 0 0 0 0 0 55 108 108 1 bg Rmax 98+99 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 lg Rmax 98+99 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 bg A1 1 1 2 4 6 6 6 6 2 2 4 5 6 6 6 6 6 1 1 1 1 2 M M M 2 lg A1 0 0 0 0 12 15 16 16 0 0 14 59 121 166 177 179 179 0 0 0 0 0 0 0 0 2 nb nvlles R 99 (1) 0 0 0 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

Tableau 1 : données brutes

Dans la première ligne nous avons les dates auxquelles ont été effectuées les observations. Dans la première colonne se trouve le numéro du plant étudié.

(14)

Par exemple :

• « bg A1 » correspond à la phénologie du bourgeon terminal du tronc. Dans cette ligne nous trouvons le stade du bourgeon (numéro entre 1 et 6), ou la lettre « M » si le bourgeon est mort, ou encore « C » si le bourgeon est cassé. Le plant n°1 avait son bourgeon terminal au stade n°4 le 21 avril. Il a donc mis en place une première unité de croissance, puis une deuxième à partir du 1er juin;

• « lg A1 » correspond à l’allongement du tronc (en mm) pour l’unité de croissance (UC) considérée ;

• « nb nvlls R 99(1) » est le nombre de nouvelles ramifications qu’il y a eu en 99 pendant la première UC ;

• « bg Rmax 99 » correspond à la phénologie du bourgeon terminal de la plus grande des ramifications précédentes…

2.4. Le cahier des charges

Maintenant qu’un certain vocabulaire a été défini, je peux formuler clairement les analyses qui m’ont été demandées, à savoir :

• Les proportions de plants mettant en place les différentes unités de croissance dans les différents niveaux de lumière et de densité ;

• La comparaison des dates de départ des phases d’allongement pour les différents niveaux de lumière et de densité ;

• Les durées de ces phases d’allongement suivant les mêmes facteurs ;

• Les durées des périodes de repos entre deux phases de croissance ;

• L’influence du diamètre du tronc sur les dates de démarrage des phases d’allongement ;

• La taille des échantillons est-elle suffisante? Les dates d’observation sont-elles assez nombreuses?

2.5. Traitement des fichiers de données

Les fichiers de données à traiter sont les fichiers Excel présentés dans le Tableau 1 en 2.3. Ils contiennent des données qui ne concernent pas mon étude, par conséquent il faut travailler sur ces fichiers pour en extraire les données qui m’intéressent. J’ai choisi de faire ce tri sous Excel à partir de macros programmées en Visual Basic. Cette méthode s’est avérée plus intéressante qu’une programmation en langage C car elle est plus simple, plus rapide et elle évite le transfert des données sous Unix qui est souvent source de problèmes avec des fichiers trop volumineux.

De plus, je ne connaissais pas du tout cet aspect d’Excel, ce choix m’a donc permis d’acquérir un nouvel outil.

Après traitement sous Excel, j’ai obtenu de nouvelles tables prêtes à être analysées. Ces nouveaux tableaux sont enregistrés au format texte (avec pour séparateurs des tabulations) pour pouvoir être ensuite utilisés par le logiciel SAS.

Macros pour le traitement des fichiers :

Les programmes se trouvent en annexes et sont commentés pour une plus grande compréhension. (1) Limite entre le stade n°6 et le retour au stade n°1 pour une nouvelle UC

Dans un premier temps j’ai homogénéisé les fichiers en ce qui concerne la délimitation entre les stades n°6 et n°1, correspondant à la limite entre la fin d’une phase d’allongement, et le début d’une

(15)

autre. Nous avons défini qu’une UC était terminée à partir de deux observations consécutives au stade n°6 avec une longueur d’axe constante.

En effet il arrivait fréquemment que l'on observe sur au moins trois observations successives un bourgeon au stade n°6, avec une longueur qui n'augmentait plus (longueur finale). Dans ce cas je devais laisser pour deux observations le stade n°6 et la longueur correspondante, et à partir de la 3ème observation identique réinitialiser à un stade n°1 et à une longueur de 0 pour une éventuelle nouvelle UC.

La macro « délimiter_stades_6_et_1 » (voir annexes) permet de réaliser cette opération. (2) Quelques vérifications succinctes

Les fichiers de données étant trop volumineux pour être vérifiés convenablement par une simple lecture, j'ai réalisé deux petites macros permettant de détecter certaines erreurs :

la première « vérification_des_lignes_bg » permet de s'assurer que les valeurs prises par les stades des bourgeons sont bien comprises entre 1 et 6 ;

la deuxième « vérification_des_lignes_lg » permet de s'assurer que les longueurs mesurées pour une même UC vont bien en augmentant. On admettra cependant une diminution de longueur de 5mm pouvant être due à des erreurs de mesure. Cette macro fût particulièrement efficace et permit de détecter bon nombre d'erreurs.

(3) Effectifs dans les différentes UC

Dans un premier temps j’ai voulu différencier les phases d’allongement pour chacune des unités de croissance.

Pour chaque date je compte le nombre de troncs mettant en place une UC1, une UC2, une UC3 et une UC4 (nous considérons qu’un axe est en phase d’allongement pour une UC si le bourgeon est au stade n°4, 5 ou 6).

La macro " effectifs_dans_les_différentes_UC_par_date " effectue ce comptage. En sortie, elle stocke les résultats dans un tableau avec une ligne pour les dates, puis une ligne pour chaque UC contenant les effectifs.

Cette macro fournit également les résultats en proportion du nombre de plants observés pour le traitement considéré.

Exemple : pour une date donnée, dans la ligne UC1, on trouve la proportion des plants du traitement considéré qui sont en phase d’allongement pour la première unité de croissance.

(4) Dates de début pour les différentes UC

La macro « début_UC_pour_tronc » permet de stocker les dates auxquelles ont lieu les débuts des phases d’allongement (c’est à dire la date à laquelle le bourgeon passe au stade n°4) pour les différentes UC du tronc. Le résultat est un tableau avec une ligne pour les dates, puis une ligne par UC. Les résultats en proportion du nombre de plants étudiés pour un traitement donné sont également disponibles.

Pour chaque UC, cette macro indique dans des tableaux le nombre de jours écoulés entre le 10 avril 99 et le début de croissance pour cette UC. J’ai choisi le 10 avril parce qu’à cette date les phases d’allongement n’avaient pas encore démarré. Ca aurait pu être n’importe quelle autre date, l’important étant de pouvoir comparer les traitements entre eux.

Cette macro permet également de récupérer les durées entre les dates de début des phases d’allongement pour la première unité de croissance et pour la deuxième, les durées des périodes d’allongement pour la mise en place de la deuxième unité de croissance et de la troisième (c’est à dire le temps écoulé entre l’apparition du stade n°4 et la fin de la croissance), ainsi que les durées des périodes de repos.

C’est la macro que j’ai le plus utilisé. Je l’ai modifié au fur et à mesure en fonction de mes besoins. Les données ont ensuite été organisées de façon à pouvoir être traitées par SAS.

(16)

3.

Méthodes statistiques mises en œuvre

3.1. Caractéristiques à prendre en compte pour mes données

Plusieurs éléments sont à noter concernant les données à étudier.

Je cherche à comparer les dates de début des phases d’allongement en fonction des traitements. L’événement étudié est dans ce cas la date d’apparition du stade n°4 pour le bourgeon terminal. Or le 21 avril, date à laquelle ont commencé les observations, des bourgeons terminaux se trouvent déjà au stade n°4. Dans ce cas nous savons seulement que l’événement s’est produit avant le 21. Ce phénomène de censure se produit pour la mise en place de la première unité de croissance.

Nous pouvons aussi remarquer que pour les différentes variables, dates de démarrage, durées des phases d’allongement, durées des périodes de repos, beaucoup de plants présentent les mêmes valeurs. Nous parlerons d’ex æquo. Une partie des ex æquo provient d’événements s’étant réellement produit aux mêmes dates, mais beaucoup proviennent du faible nombre d’observations.

De plus, les variables de temps à étudier sont assez fortement dissymétriques, et nous ne connaissons pas leur distribution.

Les méthodes d’analyse de survie semblent adaptées au traitement de mes données.

3.2. Les méthodes d’analyse de survie

3.2.1. Présentation générale des méthodes de survie

En analyse des données de survie, nous nous intéressons à l’apparition d’un événement au cours du temps. Un événement est le passage d’un état discret à un autre. Par exemple le passage de l’état de bon fonctionnement d’une machine à l’état de panne,…

En pratique, il est souvent possible de traiter ces variables par des méthodes classiques, en comparant par exemple des pourcentages d’individus pour lesquels l’événement a eu lieu. Cependant en s’y prenant ainsi, nous perdons beaucoup d’information car nous ne prenons pas en compte les dates de réalisation des événements. D’autres méthodes plus adaptées ont donc été développées.

Il faut bien sûr tenir compte des dates d’apparition de l’événement, mais aussi de la durée pendant laquelle les sujets de l’étude ont été suivis. Par exemple dans le cas de personnes atteintes d’une maladie, la date de début des observations peut être la date où la maladie a été dépistée, ou bien la date de mise en place d’un traitement. Cette date est appelée date d’origine. Ce n’est donc pas la même pour tous les individus. Selon le type d’étude réalisée, le choix de la date d’origine n’est pas le même. Ce qui sera étudié par la suite, sera le temps écoulé entre cette date d’origine, et l’apparition de l’événement qui nous intéresse. Il est également possible de considérer le temps écoulé depuis l’apparition d’un autre événement, ou depuis la dernière apparition d’un même événement. Tout dépend du but de l’étude réalisée.

A l’origine ces méthodes ont été établies pour des problèmes de fiabilité, puis largement développées pour l’étude des décès. C’est pourquoi nous parlons de données de survie. Mais le domaine d’application de ces méthodes est bien plus large que l’analyse de la survie. Des études d’événements très diversifiés peuvent être effectuées. Par exemple : pannes de machines, accidents de voiture, mariages, licenciements, apparition d’une maladie, etc.

Les méthodes en analyse des données de survie sont nombreuses :

Kaplan-Meier, méthode actuarielle, régression exponentielle, régression log-normale, régression des hasards proportionnels, méthodes en temps discret…

(17)

Certains de ces modèles sont équivalents, et devant un tel choix, il peut être difficile de prendre la bonne méthode.

Ce qui caractérise peut-être le plus les données de survie :

La présence de données censurées. Par exemple, pour l’étude de décès, il arrive souvent que l’étude se termine avant que tous les sujets ne soient morts. Les dates de leur décès ne sont donc pas disponibles. Il se peut aussi que des individus quittent l’étude en cours de route pour divers raisons. De telles données ne pourraient pas être analysées correctement sans tenir compte de ce phénomène de censure. Une donnée est censurée à droite si on sait seulement que l’événement ne s’est pas encore produit à une certaine date. C’est le type de censures le plus fréquemment rencontré. Inversement, une donnée est censurée à gauche si on sait que l’événement s’est produit avant une certaine date.

Dans le cas des variables censurées à droite, plusieurs types de censures peuvent se produire.

 La date de censure peut être la même pour tous les sujets de l’étude. On se fixe une date pour la fin des observations, et si l’événement n’a pas eu lieu, alors la donnée est considérée comme censurée.

 On décide d’arrêter les observations quand un certain nombre d’événements s’est produit. Les éléments pour lesquels l’événement n’a pas eu lieu sont censurés.

 La censure aléatoire : la censure peut provenir de faits non contrôlés par l’investigateur. Pour une étude médicale par exemple, les malades peuvent quitter le groupe d’étude parce qu’ils changent de région par exemple.

La présence de censure aléatoire est plus difficile à traiter.

Il peut aussi arriver qu’une variable soit censurée à la fois à droite et à gauche. Pour plus de détails sur les censures, voir Allison, (1995) et Hill, (1996).

L’existence de variables explicatives dépendantes du temps. L’âge, par exemple, est une variable dépendant du temps. Les méthodes traditionnelles ne permettent pas de traiter correctement de telles variables (Allison, 1995 p4).

• Il s’agit d’étudier des variables aléatoires positives, de distributions souvent dissymétriques et de grande variance. Il faudra donc préférer des paramètres robustes tels que médianes et quartiles à des paramètres plus courants tels que moyenne et écart-type. En effet, la moyenne est sensible aux valeurs extrêmes.

3.2.2. Partie théorique

A présent, je vais considérer les données de survie d’un point de vue plus théorique.

Dans un premier temps je donnerai les principales fonctions utilisées en analyse de la survie, puis leur estimation.

Le but essentiel en analyse de survie étant de mettre en évidence des différences entre les groupes, je développerai différentes méthodes de comparaison :

- Des méthodes de comparaison de deux ou plusieurs groupes basées sur des tests de rang non paramétriques (test du log-rank, Wilcoxon), et adaptées au traitement des données de survie ;

- Des modèles statistiques semi-paramétriques (modèle des hasards proportionnels de Cox très répandu), et paramétriques pour tester l’effet de différents facteurs.

3.2.2.1. Les principales fonctions pour l’étude de la survie

(18)

Il s’agit d’une variable aléatoire quantitative continue dans la plupart des cas, mais elle peut être considérée comme discrète. Dans notre étude T correspond au temps écoulé avant que n’apparaisse le stade n°4.

Soit f la densité de probabilité (probability density function) de T, dt dt t T t t f dt ) Pr( lim ) ( 0 + < ≤ = →

Cette fonction est utilisée quand les variables sont continues.

F est la fonction de répartition (cumulative distribution function) de T, )

Pr( )

(t T t

F = ≤ , cette fonction peut être utilisée pour toutes les variables aléatoires. Si les variables sont continues, nous pouvons écrire :

=

=

t

du

u

f

t

T

t

F

0

)

(

)

Pr(

)

(

dt t dS dt t dF t f( )= ( ) =− ( )

Si cette fonction est connue pour toutes les valeurs de t, alors nous connaissons l’essentiel quant à la distribution de T.

On appelle fonction de survie (survivor function) la fonction définie par : ) ( 1 ) Pr( ) (t T t F t S = > = −

Cette fonction est d’usage plus courant.

C’est la probabilité de ne pas encore avoir réalisé l’événement à la date t (ou probabilité d’être encore en vie à la date t).

Comme c’est une probabilité, S est comprise entre 0 et 1. S(t) est monotone décroissante continue, telle que S(0)=1 et

∞ →

t

lim S(t)=0.

Cette fonction donne la proportion de sujets n’ayant pas encore réalisé l’événement au temps t. Il est donc normal qu’elle décroisse de 1 vers 0.

La fonction de hasard (hazard function).

Pour les variables continues, la fonction de hasard est plus utilisée que la densité pour décrire des distributions. C’est cette fonction qui est la plus représentative d’une distribution de survie. La fonction S(t) qui intègre l’ensemble des informations faites avant t décrit mal la dynamique instantanée du processus de mortalité. La fonction de hasard décrit le risque instantané qu’a un événement de se produire au temps t. Comme le temps est une variable continue, la probabilité qu’un événement se produise au temps t est nulle. Mais nous pouvons parler de la probabilité qu’un événement se produise entre t et t+dt. Nous voulons également prendre la probabilité conditionnelle aux sujets pour lesquels l’événement n’a pas encore eu lieu. Parce que si l’événement a déjà eu lieu, il n’y a plus de risque qu’il se produise. Mais nous ne voulons considérer que les individus pour lesquels l’événement s’est produit au début de l’intervalle [t,t+dt). La probabilité

)

Pr(

t

T

<

t

+

dt

T

t

est divisée par dt la longueur de l’intervalle, ce qui permet d’ajuster la probabilité à un instant précis. Par ailleurs, nous voulons le risque au temps t exactement, donc, nous rendons l’intervalle de plus en plus petit en faisant tendre dt vers 0.

(19)

dt t T dt t T t t h dt ) Pr( lim ) ( 0 ≥ + < ≤ = →

Cette définition de la fonction de hasard est semblable à celle de la densité (voir ci-dessus).

La seule différence est que pour la densité la probabilité du numérateur n’est pas conditionnelle. Pour cette raison, la fonction de hasard est parfois appelée densité conditionnelle.

La fonction de survie, la densité de probabilité, et la fonction de hasard, sont des méthodes équivalentes pour décrire une distribution de variables continues. A partir de l’une d’elle, on peut retrouver les deux autres.

On a [ ( )] ) ( ) ( ' ) ( ) ( ) ( Ln S t dt d t S t S t S t f t h = =− =−       − =

t du u h t S 0 ) ( exp ) (       − =h t

th u du t f 0 ) ( exp ) ( ) (

Ces équations sont très utilisées, car il est souvent nécessaire de passer d’une représentation à une autre.

Voici quelques remarques à prendre en compte pour la fonction de hasard (Paul D. Allison, 1995) :  Nous considérons souvent la fonction de hasard comme la probabilité instantanée

qu’un événement se produise, mais ce n’est pas vraiment une probabilité, car elle peut prendre des valeurs supérieures à 1, cela à cause de la division par dt.

 La fonction de hasard n’est jamais réellement observée, nous pouvons seulement l’estimer.

 Il est souvent utile de considérer la fonction de hasard comme une caractéristique individuelle et non pas une caractéristique de l’échantillon.

Exemples de fonctions de hasard (Allison, 1995 ; Cantor, 1997)

 La fonction la plus simple pour décrire la survie est la fonction exponentielle : 0 ), exp( ) (t = − t tS

λ

, on a f(t)=

λ

e−λt

La fonction de hasard est constante : h(t)=

λ

ou logh(t)=

µ

 Nous avons la cas où le log de la fonction de hasard est une fonction linéaire du temps : t t h( )=

µ

+

α

log t t e e t h( )= µ α =

λγ

Dans ce cas les dates d’apparitions des événements suivent une distribution de Gompertz.  Nous pouvons également avoir une relation du type :

t t h( ) log log =

µ

+

α

α α µ

λ

t t e t h( )= =

Dans ce cas, il s’agit d’une distribution de Weibull.

(20)

Si nous voulons introduire des variables explicatives dans le modèle nous pouvons écrire :  Pour le modèle exponentiel :

k kx x t h( )=

µ

+

β

1 1 +L+

β

log

 Pour le modèle de Weibull : k kx x t t h( )=

µ

+

α

log +

β

1 1 +L+

β

log

• H est la fonction de risque cumulée.

=

t

du

u

h

t

H

0

)

(

)

(

3.2.2.2. Estimations des fonctions de survie et de hasard

Une analyse sur des données de survie commence par une estimation de la fonction de survie. Deux méthodes non paramétriques sont disponibles pour l’estimation de la fonction de survie.

 la méthode de Kaplan-Meier ou « product-limit » ;  la méthode actuarielle ou « life table ».

La méthode de Kaplan-Meier est la plus précise. La méthode actuarielle en est une approximation utile quand l’effectif étudié est important. Quand il y a beaucoup d’observations la méthode de Kaplan-Meier devient trop lourde, le tracé devient peu lisible et il est préférable de passer à la méthode actuarielle. La méthode actuarielle peut aussi être utilisée quand les dates des événements sont de précision grossière.

La méthode de Kaplan-Meier (Hill, 1996 ; Allison, 1995)

Quand il n’y a pas de données censurées, l’estimateur de Kaplan-Meier est très simple. Nous avons vu précédemment que S(t) était la probabilité que l’événement ne se soit pas encore produit à la date t.

) ( ˆ t

S sera simplement la proportion d’observations pour lesquelles l’événement n’a pas encore eu lieu.

n échantillo l dans total sujets de nombre lieu eu encore pas a n événement l lesquels pour sujets de nombre t S ' ' ' ) ( ˆ =

Les choses sont encore relativement simples quand la date de censure est la même pour toutes les observations, et quand les dates de réalisation de tous les événements sont antérieures à cette date de censure. Avant la date de censure, Sˆ t( ) est égale à la même proportion que précédemment. Après la date de censure Sˆ t( ) n’est pas défini.

Les choses se compliquent lorsque nous avons des dates de censures qui sont antérieures à des dates de réalisation d’événements, la proportion d’événements qui ne se sont pas encore produit au temps t peut être biaisée. Car pour des éléments censurés l’événement peut s’être produit avant t sans que nous le sachions.

Supposons qu’il y ait k dates d’événements distinctes, t1 <t2 <L<tk . Nous avons :

S

(

t

)

=

Pr(

T

t

)

=

Pr(

T

t

T

t

1

)

Pr(

T

t

1

)

) 0 Pr( ) 0 1 Pr( ) 1 Pr( ≥ ≥ − ≥ ≥ ≥ = T tT t L T T T

Soit

Q

j

=

Pr(

T

j

T

j

1

)

, la probabilité de ne pas avoir réalisé l’événement au jour j conditionnellement au fait de ne pas l’avoir réalisé juste avant ce jour.

1 * ... ) (t QQ 1 Q1 S = t t

(21)

) (t

S est estimée par le produit des estimations qjde Qj.

j

q étant la proportion observée de sujets n’ayant pas réalisé l’événement au jour j parmi ceux des sujets qui n’avaient pas réalisé l’événement juste avant j.

Si mjest le nombre d’événements observés au temps tj, on a :

j j j

j n m n

q =( − )/ où nj est le nombre de sujets pour lesquels l’événement ne s’est pas encore produit juste avant tj, c’est à dire que se sont des sujets soumis au risque que l’événement se produise en tj. Nous ne prenons pas en compte ici les sujets censurés avant tj. Par contre les sujets pour lesquels la censure se produit au temps tj exactement sont comptés. Donc njest égale au nombre total de sujets présents au départ, moins le nombre de sujets pour lesquels l’événement a été observé avant tj, moins le nombre de sujets censurés avant tj.

Remarque : l’estimateur de Kaplan-Meier pour la fonction de survie est constant entre deux dates d’apparition de l’événement.

Finalement on a pour l’estimation de la fonction de survie par la méthode de Kaplan-Meier :

[

]

≤ ≤ − = − = t t i i t t i i i i i n m n m n t Sˆ( ) 1 , pour t1ttk. • La méthode actuarielle

Dans cette méthode les dates des événements sont regroupées par intervalles. Les probabilités conditionnelles sont estimées pour des intervalles et non plus pour des dates d’événements observés. Cette estimation est calculée en comptant le nombre de données censurées et non censurées se trouvent dans chaque intervalle de temps [ti1,ti), i=1, 2, …, k+1, ou t0 =0et tk+1 =∞. Soit nile nombre de sujets pour lesquels l’événement n’a pas été observé avant ti, et posons mi le nombre

d’événements se réalisant dans cet intervalle. On pose bi =titi1, et

2 i i i w n n′ = − , où wiest le nombre de données censurées dans cet intervalle. On pose également tmile milieu de [ti1,ti).

La probabilité conditionnelle d’un événement dans l’intervalle [ti1,ti)est estimée par :

i i i

n

m

q

=

ˆ

Soit pˆi =1−qˆi,

= − = i j j i q t S 1 ) ˆ 1 ( ) ( ˆ

Nous pouvons noter la similitude entre cette formule et celle obtenue par la méthode de Kaplan-Meier. Les principales différences sont :

 Le nombre d’observations censurées n’est pas divisé par 2 dans l’estimation de Kaplan-Meier.

 Les bornes des intervalles dans l’estimation de Kaplan-Meier sont définies par les événements eux-mêmes.

Pour plus de détails sur cette méthode voir Hill, 1996 ; SAS/STAT User’s guide Volume2 4ème édition.

A partir de l’estimation de la survie, nous pouvons estimer la médiane. En effet, la distribution de survie étant souvent asymétrique, on utilise plutôt la médiane que la moyenne.

(22)

Attention : pour avoir une bonne estimation de la médiane, il faut que la fonction de risque ne soit pas trop faible aux alentours de la date en question. Sinon les dates des événements autour de la médiane sont trop éloignées et ne permettent pas une précision correcte.

Estimation de la fonction de risque :

Un estimateur naturel de la fonction de risque, correspondant à l'estimateur de Kaplan-Meier, est à chaque temps d’événement ti la proportion d’événements observée :

i i i n m t

h∧( )= , où miest le nombre d'événements observés en tiet nile nombre de sujets exposés au risque juste avant ti.

Quand la méthode actuarielle est utilisée, nous avons :

) 2 2 ( ) ( i i i i i mi m w n b m t h − − =

3.2.2.3. Comparaisons de courbes de survie

Un des points essentiels en analyse des données de survie est la comparaison de la survie de groupes soumis à des traitements différents. Nous voulons en fait tester l’hypothèse nulle d’égalité de la survie entre les groupes. Or la distribution des temps de survie ne suit pas une loi normale, il ne serait donc pas approprié de se livrer à de simples comparaisons de moyenne entre les groupes (ce qui requiert l’hypothèse de normalité). Des procédures non paramétriques comme les tests de rang permettent de passer outre ces problèmes.

Les tests de rang classiques (Mann-Whitney, Savage,…) ont été adaptés au traitement des données de survie, notamment à la présence de données censurées.

Le test du log-rank est une généralisation d’un test non paramétrique au cas où la variable mesurée est censurée. C’est une généralisation du test de Savage.

De même, le test de Gehan (Wilcoxon) est identique au test non paramétrique de Wilcoxon en l’absence de censures et d’ ex æquo (événements qui se sont produit aux mêmes dates).

Ils permettent de comparer des survies sans avoir à faire d’hypothèses sur leur distribution.

Pour le log-rank, le Chi-deux utilisé nécessite cependant de nombreuses dates où ont lieu les événements, ou de nombreux événements à chaque date (Falissard, 1998).

Le test du log-rank est considéré comme plus puissant que le test de Wilcoxon si l’hypothèse des hasards proportionnels est raisonnablement vérifiée.

En l’absence de censure le test de Savage est localement le plus puissant pour les alternatives à risque proportionnel. En présence de censures l’optimalité persiste sous certaines conditions comme l’indépendance du processus de censure et du processus de survie. Le test du log-rank en étant une généralisation au cas censuré est souvent préférable au test de Wilcoxon (Hill, 1996 p44).

Comparaison de deux groupes :

Supposons que nous avons des échantillons de tailles

N

1 et

N

2, avec

N

1

+

N

2

=

N

.

Soient

t

1

<

L

<

t

M, les dates distinctes des événements pour les échantillons. Il se peut qu’il y ait des ex æquo, donc que MN.

(23)

Dans le groupe 1 par exemple, la statistique du log-rank est

(

)

1 1 1

=

M j j j

e

m

, la sommation a lieu sur

les dates d’événements uniques, m1jest le nombre d’événements observés dans le groupe 1 au temps

j

t (dans le cas d’ex æquo, nous avons m1j >1), et e1jest le nombre d’événements que l’on peut s’attendre à trouver au temps tj. On a e1j =n1jmj/njnjest le nombre de sujets soumis au risque juste avant tj, n1jest le nombre de sujets soumis au risque dans le groupe 1 juste avant tj, mjest le nombre d’événements observés au temps tj pour les deux groupes. Si m1je1j >0alors plus d’événements que prévu ont eu lieu dans le groupe 1.

La statistique du Chi-deux est calculée en élevant la statistique au carré, puis en divisant par l’estimation de la variance.

De même, la statistique de Wilcoxon est donnée par :

(

)

1 1 1

=

M j j j j

m

e

n

,

la seule différence est la présence de nj. Les différences sont donc ici multipliées par des poids. La statistique du Chi-deux est calculée de la même manière que précédemment.

Comme njdécroît, Wilcoxon met un poids plus fort sur les événements précoces.

Le test de Wilcoxon met donc des poids plus forts pour les événements précoces, alors que le log-rank attribue le même poids à toutes les observations. Wilcoxon peut donc être utilisé pour différencier des courbes de survie portant essentiellement sur des survies de courtes durées.

Wilcoxon est inversement moins sensible que le log-rank aux différences entre les groupes qui peuvent se manifester à des dates plus tardives.

Le test du log-rank est plus apte à détecter des différences du type :

[

]

γ ) ( ) ( 2 1 t S t

S = , où

γ

est un nombre positif autre que 1.

Par contre, le test de Wilcoxon est plus adapté dans le cas de distributions log-normales des dates. Mais aucun des tests ne s’avère très efficace pour détecter des différences lorsque les courbes de survies se croisent.

Les tests précédents se généralisent à la comparaison de plus de deux groupes.

3.2.2.4. Principaux modèles

Il y a deux modèles très répandus en analyse des données de survie.

 « the accelerate failure time model » (Kalbfleisch et Prentice, 1980)  « the Cox proportional hazards model » (Cox, 1972)

The accelerate failure time model (AFT) (Allison, 1995)

Dans sa forme la plus générale, ce modèle décrit une relation entre les fonctions de survie pour chaque couple d’individus.

Si Si(t) est la fonction de survie pour un individu i, alors pour tout autre individu j, nous avons une relation du type : t t S t Si( )= j(

φ

ij )∀ , ij

(24)

Soit Tiune variable aléatoire représentant les dates des événements pour le ième individu de l’échantillon, posons xi1,L,xik les valeurs de k variables pour ce même individu.

Nous avons pour le modèle : logTi =

β

0 +

β

1xi1 +L+

β

kxik +

σε

i i

ε

est un terme de perturbation aléatoire, les

β

iet

σ

sont des coefficients à estimer.

Donc les seules différences qu’il y a par rapport à une régression classique sont le terme

σ

devant

ε

i, et que la variable dépendante est le log de la variable à expliquer.

Si il n’y avait pas de variables censurées, nous pourrions effectuer une régression standard (moindres carrés) sur la variable logT.

Mais dans le cas de censures les choses sont difficiles à traiter avec les moindres carrés. Nous utiliserons plutôt la méthode du maximum de vraisemblance.

Pour les régression classiques, nous faisons l’hypothèse que les

ε

i suivent une loi normale. Ici, nous disposons de distributions supplémentaires pour les

ε

i.

Pour plus de détails sur ces modèles voir Kalbfleisch et Prentice, Allison ou Hill.

Le modèle multiplicatif de Cox Introduction :

Dans un article de 1972, Cox a fait deux innovations significatives. D'abord, il proposa un modèle, dit modèle des hasards proportionnels. Le nom de ce modèle peut prêter à confusion car il se généralise au cas de hasards non proportionnels. Ensuite il proposa une nouvelle méthode d'estimation : vraisemblance partielle ou maximum de vraisemblance partielle.

Le modèle de Cox est actuellement le plus répandu en analyse des données de survie.

Il permet la prise en compte simultanée de plusieurs variables pour expliquer la survie. Bien qu’il soit souvent utilisé avec des variables continues, il permet aussi de prendre en compte des variables qualitatives binaires. Dans le cas de variables qualitatives à plus de deux modalités, il est possible de les prendre en compte après la mise en place d’un codage à base d’indicatrices (Estève, Benhamou, Raymond, 1993, p 270).

Contrairement aux méthodes paramétriques, ce modèle ne nécessite pas d’hypothèses quant à la distribution de la survie, c’est pourquoi il est qualifié de semi-paramétrique. Ce modèle est plus robuste.

Ce modèle est basé sur l’hypothèse des hasards proportionnels (voir plus loin), mais peut être généralisé au cas où cette hypothèse n’est pas vérifiée.

La méthode utilisée est celle de la vraisemblance partielle de Cox. Modèle de base :

Considérons que nous avons une seule covariable

x

. La fonction de hasard pour un individu au temps t s’écrit :

{ }

x t x t h( , )=

λ

0( )exp

β

0

λ

serait la fonction de hasard d’un individu pour lequel la covariable

x

serait nulle. Cette fonction ne dépend que du temps, elle est inconnue, et nous ne cherchons pas à l’estimer.

L’analyse consiste à estimer

β

.

Si l’hypothèse nulle

β

=0 est rejetée, alors nous pouvons conclure a une influence de la variable

x

sur la valeur de la fonction de hasard. Si

β

>0, la fonction de hasard croit quand

x

augmente. Inversement si

β

<0, la fonction de hasard décroît quand

x

augmente.

(25)

La valeur estimée de

β

conduit à une estimation de exp(

β

) qui est la valeur du quotient ) , ( ) 1 , ( x t h x t h +

quelques soient les valeurs de t et de

x

. Ce quotient est appelé quotient de hasard, ou quotient de risque (RR) .

Pour les variables a deux modalités, ce quotient est le rapport des fonctions de hasard pour chacun des deux groupes. Bien sûr ce quotient doit être constant en fonction du temps.

Cas de plusieurs covariables :

Le risque instantané de réaliser l’événement dépend des covariables par l’intermédiaire d’un facteur multiplicatif qui s’applique au risque

λ

0(t).

Le modèle de Cox postule que le risque instantané de décès d’un patient i caractérisé par un ensemble de k variables explicatives xi1,L,xik peut s’écrire sous la forme :

{

i k ik

}

ik i

i t x x t x x

h (, 1,L, )=

λ

0( )exp

β

1 1+L+

β

(1),

qui est la fonction de hasard d’un individu i au temps t.

λ

0(t) serait la fonction de hasard d’un individu pour lequel les variables xij seraient nulles.

Les

β

j sont des constantes (paramètres de la régression) à estimer qui permettent de mesurer l’intensité de l’effet des xij. Ce modèle permet donc d’estimer l’effet de chaque covariable en présence des autres. Les estimations des

β

j se font par maximisation de la vraisemblance partielle. Ce modèle ne traite ni le cas où l’hypothèse des hasards proportionnels n’est pas vérifiée, ni la présence de variables dépendantes du temps.

Si nous passons au log, nous obtenons :

ik k i

i t t x x

h ( )=log

λ

0( )+

β

1 1+L+

β

log , il s’agit d’une fonction linéaire des xij (hypothèse de log-linéarité).

Remarque : si log

λ

0(t)=

α

, nous retrouvons le modèle exponentiel, si log

λ

0(t)=

α

logt, nous retrouvons le modèle de Weibull.

Si pour deux individus i et j, nous écrivons le quotient de leur fonction de hasard, nous pouvons voir que le terme dépendant du temps disparaît. Donc ce quotient est indépendant du temps.

{

( ) ( )

}

exp ) ( ) ( 1 1 1 i j k ik jk j i x x x x t h t h − + + − =

β

L

β

Donc si nous traçons les fonctions de hasard des deux individus en question, elles doivent être strictement parallèles, c’est l’hypothèse des risques proportionnels.

Nous avons ( ) exp ( ) exp ( )exp

{ }

exp

{

exp

{ }

0( )

}

0 0 0 t x x u du u h t S t t Λ − =       − =       − =

λ

β

β

, ou

β

et

x

sont des vecteurs.

D’où Log(−Log(S(t,x))=LogΛ0(t)+

β

x.

Par exemple, si nous avons une covariable qui prend deux valeurs 0 et 1 : Soient

S

1

(

t

)

et S0(t), les fonctions de survie pour les deux valeurs :

{

exp( ) ( )

}

exp ) ( 0 1 t x t S = −

β

Λ et S0(t)=exp

{

−Λ0(t)

}

) ( ) exp( ) (

logS1 t =−

β

x Λ0 t et logS0(t)=−Λ0(t), d’où

r t S t S t

S ( ) log ( )exp( ) log ( )

(26)

)] ( log log[ log )) ( log log(− S1 t = r+ − S0 t

Pour deux valeurs d’une variable x, les représentations graphiques doivent se déduire l’une de l’autre par une simple translation (ces représentations permettent de vérifier l’hypothèse des hasards proportionnels).

En théorie, l’hypothèse des hasards proportionnels doit être vérifiée pour les différents niveaux des variables du modèle. Si ce n'est pas le cas, il peut être préférable d’utiliser un modèle stratifié. Un tel modèle permet de tester l’effet d’une variable à un niveau donné des autres (voir ci-après). Dans le cas de variables continues, nous pourrons créer des classes, et vérifier l’hypothèse pour les différentes classes.

Pour avoir des détails sur la vraisemblance partielle de Cox, voir Allison p 122.

L’hypothèse des hasards proportionnels (Allison, 1995)

Le modèle de Cox peut facilement s’étendre au cas où l’hypothèse des hasards proportionnels n’est pas vérifiée.

En effet, si on introduit des covariables dépendantes du temps, il n'est plus exacte de parler de hasards proportionnels. Le coefficient des hasards n'est plus constant.

Allison pense que ce qui concerne l'hypothèse des hasards proportionnels est souvent excessif.

La raison pour laquelle beaucoup de personnes apportent tant d’attention à cette hypothèse est que le modèle porte un nom en relation avec cette propriété. En même temps ils ignorent d’autres points essentiels comme la prise en compte de toutes les variables susceptibles d’expliquer le phénomène, le type de censure dont il s’agit, etc.

En fait pour se faire une idée, la violation de l’hypothèse des risques proportionnels est équivalente à l’interaction de une ou plusieurs variables avec le temps. Si l’effet d’une variable varie avec le temps, alors elle ne vérifie pas l’hypothèse des hasards proportionnels.

Si nous estimons un modèle des hasards proportionnels alors que l'hypothèse n'est pas vérifiée pour certaines variables, alors le coefficient pour cette variable est une sorte d'effet moyen sur la grandeur temporelle.

Deux méthodes permettent de traiter le problème de variables dépendantes du temps :

L’une d’elle incorpore directement l’interaction avec le temps dans le modèle, et l’autre consiste en une stratification (l’effet du temps est contenu dans des fonctions arbitraires).

Interactions avec le temps

Dans le modèle de Cox, pour représenter l’interaction d’une covariable avec le temps, nous pouvons écrire :

x

t

t

xt

x

t

t

h

(

)

(

)

(

)

(

)

log

=

α

+

β

1

+

β

2

=

α

+

β

1

+

β

2 , dans cette équation l’effet de x est mesuré par

β

1

+

β

2

t

.

Si

β

2 est positif, alors l’effet de x augmente linéairement avec le temps, et inversement.

1

β

peut être interprété comme l’effet de x au temps 0. Le modèle stratifié

Quand l’hypothèse des hasards proportionnels n’est pas vérifiée, une solution consiste à utiliser un modèle de Cox stratifié. Cette méthode est surtout utilisée quand la covariable en question n’est pas d’intérêt direct.

(27)

Le modèle des hasards proportionnels de Cox : h(t,x)=

λ

0(t)exp

{ }

β

x (où

β

est le vecteur des paramètres à estimer et

x

le vecteur des covariables), suppose que l’hypothèse des hasards proportionnels soit vérifiée pour chaque couple de valeurs d’une covariable.

Parfois pour certaines covariables, l’hypothèse n’est pas vérifiée. Pour gérer ce problème, une extension du modèle précédent est proposée.

k que le facteur pour lequel l’hypothèse n’est pas vérifiée comporte q niveaux. Nous définissons la fonction de hasard pour un individu du niveau j de ce facteur comme étant :

{ }

x t

x t

hj( , )=

λ

0j( )exp

β

, pour j=1,…,q.

Les fonctions de base

λ

01,...,

λ

0q, n’ont aucun lien entre elles.

Le traitement des ex æquo

Résumé de l’article de Hertz-Picciotto Irva et Rockhill Beverly, Biometrics 53 ,septembre 1997 : « Les études de survie ne fournissent pas toujours des dates d’événements distinctes. Plusieurs méthodes ont été proposées pour prendre en compte les ex æquo qui en résultent. Le but de cet article est de comparer ces méthodes. Des simulations ont été conduites dans lesquelles les dates d’événements ont été générées dans le cas de l ‘étude de deux échantillons avec une force de mortalité exponentielle, un rapport de force de mortalité constant et sans censures. Les dates d’événements ont été regroupées de façon à produire des ex æquo en nombre important, moyen et faible, correspondant à des moyennes de 10, 5 et 2.5 événements par intervalle. Des modèles de Cox à forces de mortalité proportionnelles ont été ajustés aux données en utilisant chacune des trois approximations pour prendre en compte les ex æquo avec chaque taille d’intervalle, pour des échantillons de taille n=25, 50, 250 et 500 par groupe. L’approximation de Breslow (1974, Biometrics 30, 89-99) tend à sous estimer la vraie valeur de

β

, alors que celle de Kalbfleisch-Prentice (1973, Biometrika 60, 267-279) tend à la surestimer. Le biais de ces estimations augmente avec le nombre d’ex æquo. L’approximation d’Efron (1977, Journal of the American Statistical Association 72, 557-565) est bien meilleure que les deux autres, en particulier pour un nombre moyen ou important d’ex æquo. Même avec n=25 dans chaque groupe le biais est inférieur à 2% et pour des échantillons supérieur à 50 il est inférieur à 1%. Sauf pour le cas du nombre d’ex æquo maximum dans le cas des plus petits échantillons, l’intervalle de confiance pour les trois estimateurs se situe entre 94% et 96%. Les queues de distributions des probabilités sont cependant asymétriques avec les formules de Breslow et de Kalbfleisch-Prentice alors qu’avec l’approximation d’Efron elles sont plus proches de la valeur nominale de 2.5%. Bien que l’approximation de Breslow soit la méthode proposée par défaut dans beaucoup de logiciels standards, la méthode d’Efron doit être préférée, particulièrement lorsque la taille d’échantillon est petite, d’emblée ou à cause d’un nombre important de censures. »

3.3. Outil : le logiciel SAS

Présentation des différentes procédures SAS:

LIFETEST

La procédure LIFETEST permet de calculer des estimations non paramétriques de la fonction de survie. Kaplan-Meier est la méthode utilisée par défaut. La méthode actuarielle est également disponible

La procédure LIFETEST effectue également des tests de rangs entre groupes pour tester l’effet de différents traitements. Il s’agit de tester l’hypothèse nulle d’égalité des fonctions de survie entre les groupes. Trois tests sont disponibles. Le test du log-rank, le test de Wilcoxon, et un test de

(28)

vraisemblance. Ce dernier n’est valable que si la distribution des dates des événements est exponentielle.

Les représentations graphiques de certaines fonctions sont également disponibles, notamment les fonctions de survie et de hasard. La fonction −logSˆ(t) en fonction de t. Ce qui nous intéresse dans cette fonction, c’est surtout la recherche d’un éventuel caractère linéaire. En effet une représentation linéaire et passant par l’origine traduirait une distribution exponentielle des dates des événements. La fonction log(−logSˆ(t)) en fonction de logt. Une représentation linéaire traduirait une distribution de Weibull. En effet, le modèle de Weibull vérifie :

Logt Log

t LogS

Log(− ( ))=

γ

λ

0 +

γ

Cette procédure peut être utilisée avec des données censurées à droite.

L’effet d’un ensemble de variables quantitatives sur les dates des événements peut être testé, mais sans estimation de paramètre. SAS produit une statistique de test pour chacune des variables en ignorant les autres. Puis les traite ensemble, la procédure teste un certain effet incrémental quand des variables s’ajoutent à l’ensemble.

Les procédures LIFEREG et PHREG peuvent effectuer le même genre de test. LIFETEST n’est de toute façon pas la plus adaptée à ce genre de traitement. Comme il n’y a pas d’estimations, l’effet des variables sur la survie n’est pas quantifiable. De plus les tests incrémentaux ne testent pas vraiment l’effet de chaque variable en contrôlant les autres. A la place, nous obtenons un test de l’effet de chaque variable en contrôlant celles qui ont déjà été introduites. Par ailleurs nous n’avons aucun contrôle sur l’ordre d’inclusion des variables ce qui peut conduire à une mauvaise interprétation.

LIFEREG

La procédure LIFEREG produit des estimations pour des modèles de régression paramétriques. Ces estimations sont basées sur la méthode du maximum de vraisemblance.

Cette procédure permet le traitement des données censurées à gauche, c’est la seule.

Mais ces dernières années la procédure LIFEREG s’est fait un peu éclipser par PHREG (voir ci-après) qui effectue des régressions semi-paramétriques, utilisant la méthode dite de la vraisemblance partielle.

Nous pouvons également tester certaines hypothèses quant à l’allure de la fonction de hasard.

Si la forme de la distribution de survie est connue, alors LIFEREG effectue de meilleures estimations que PHREG.

Mais ce qui constitue la principale limite de LIFEREG, est le fait qu’elle ne peut pas prendre en compte des variables dépendantes du temps, ce qui est le point fort de PHREG.

PHREG

La procédure PHREG effectue une régression basée sur le modèle de Cox. C’est un modèle au même titre que les modèles de régression linéaire ou logistique.

Ce modèle est très utilisé en analyse des données de survie pour expliquer l’effet de variables explicatives sur le temps de survie, que les données soient censurées ou non. Des variables explicatives dépendantes du temps peuvent être utilisées, elles sont courantes en analyse des données de survie (exemple : l’âge).

PHREG permet de traiter les variables continues et discrètes. Des analyses stratifiées peuvent aussi être demandées. Ce modèle permet de traiter ajustement et stratification.

PHREG utilise uniquement les observations pour lesquelles aucune variable n’est manquante.

En dépit de tous ces avantages, le modèle de Cox ne doit pas être considéré comme une méthode universelle. Il est parfois préférable d’utiliser des méthodes paramétriques.

Toutes les implémentations du modèle de Cox ne se valent pas. L’implantation sous SAS, PHREG, est considérée comme étant relativement complète et exacte.

Références

Documents relatifs

MOLDOVA - Université de médecine et de pharmacie « Nicolae Testemiteanu » ROUMANIE - Université des Sciences Agricoles et Médecine Vétérinaire de Cluj-Napoca. GEORGIE

Ensuite, dans les cas d’exception où de telles facilités doivent être accordées à la presse, qu’il convient pour cette raison d’identifier, la commission suggère deux

LA MAJORITÉ DES PERSONNES INTERROGÉES, ONT LEUR PROCHE MALADE QUI A VÉCU UNE HOSPITALISATION POUR RAISONS PSYCHIATRIQUE (PLUS DES 2/3 À PLUSIEURS

déterminer (i) les conditions nécessaires pour que les investissements consacrés à l’emploi dans le secteur sanitaire et social induisent une croissance économique inclusive

Suite à la concertation de l’ensemble des acteurs lors d’une réunion technique le 8 juin dernier et à la consultation du conseil départemental de l’eau, ce lundi 15 juin,

[r]

Nicolas Hulot, ministre d’État, ministre de la Transition écologique et solidaire, salue la labellisation des Marais et tourbières des vallées de la Somme et de l'Avre au titre de la

L’introduction des résultats des évaluations du coût des OMD concernant sept secteurs (éducation, santé, infrastructures routières, eau, énergie, agriculture, environnement