• Aucun résultat trouvé

Application des méthodes d’analyse de survie à mes données

4.2.1. Dates de démarrage des phases d’allongement pour le bourgeon terminal du tronc

Dans cette partie, nous allons tester l’influence de plusieurs facteurs sur les dates de départ des phases d’allongement des unités de croissance 1, 2 et 3 du tronc.

Les facteurs dont je dispose dans mes fichiers de données sont l’éclairement, la densité des semis, et le diamètre du tronc fin 98. Derrière l’introduction de cette covariable se trouve l’hypothèse de travail que plus un plant démarre tôt l’allongement de ses UC, plus il a de temps pour les développer, plus les dimensions de ce plant, dont le diamètre du tronc, sont fortes. Inversement une autre hypothèse est que plus un plant est de forte dimension, plus il contient de réserves carbonées qui peuvent être mobilisées pour démarrer la croissance.

Nous considérons qu’il y a départ d’une phase d’allongement quand le bourgeon terminal réalise un stade n°4. Nous allons travailler sur la variable du temps écoulé entre le 10 avril 99 et l’observation du stade n°4 pour la mise en place de l’UC2 (le 10 avril est un choix arbitraire de date se trouvant avant le début des observations).

Je commencerai par l’analyse des UC2 et UC3, puis je terminerai par l’UC1 qui présente des données censurées à gauche.

Pour les UC n°2 et 3, je considérerai qu’il n’y a pas de censure à droite. Une donnée est censurée à droite si nous savons seulement que l’événement a eu lieu après une date donnée. Il arrive pourtant que certaines UC ne soient pas mises en place avant la date de fin des observations. Mais dans le cas des phases d’allongement, si elles n’ont pas eu lieu avant la date de fin des observations, il y a très peu de chance qu’elles aient lieu après.

En médecine, pour l’analyse des décès dus à une maladie, ce type de censures est fréquent. Mais les décès peuvent avoir lieu n’importe quand, que ce soit pendant l’étude, ou après.

Pour les dates de démarrage des phases d’allongement, il semble qu’il y ait des périodes propices à la croissance. Autrement dit, si une phase d’allongement n’a pas eu lieu à la bonne période, et qu’elle n’a pas non plus eu lieu à la période favorable suivante, alors il y a peu de chance qu’elle se produise un jour. Or pour chacune des UC, les observations ont eu lieu jusque suffisamment tard pour permettre de surveiller d’éventuels retards (d’une période au moins). Pour l’UC2 si le démarrage n’a pas eu lieu avant la date de fin des observations, alors il n’aura pas lieu du tout. L’utilisation de données censurées dans ce cas, ne ferait qu’appauvrir la puissance de l’analyse inutilement. Je ne considérerai que les plants qui ont réalisé un stade n°4 pour l’UC considérée.

Par ailleurs dans notre étude il arrive que des bourgeons terminaux meurent avant de mettre en place des unités de croissance. Les raisons de la mort de ces bourgeons n’ayant aucun rapport avec ce qui nous intéresse, je ne les prendrai pas en considération.

nombre de jours pour voir apparaître le stade n°4 0 20 40 60 80 100 120 140 traitements n o m b re d e j o u rs UC2 UC3 Figure 15

En Figure 15 pour chacun des huit traitements, j’ai représenté côte à côte les nombres de jours écoulés entre le 10 avril 1999 et le démarrage des phases d’allongement.

Comme nous l’avons déjà remarqué précédemment, certaines phases d’allongement ont eu lieu en retard. Beaucoup de points sont superposés du fait du nombre important d’ex æquo, mais les troncs dont les bourgeons terminaux démarrent leur phase d’allongement en retard ressortent bien ici.

Quand j’observe un chevauchement, je cherche à savoir ce qui s’est passé en consultant les fichiers de données brutes.

Pour le traitement n°1, nous avons un début de deuxième phase d’allongement en retard. Ce retard est dû à une période de repos plus longue que la normale entre la première phase d’allongement et la deuxième (il s’agit du plant n°31).

Pour le traitement n°3, nous avons plusieurs retards pour la mise en place de l’UC2. Les plants n°10 et n°27 sont en retard. Pour ces deux plants c’est la première phase d’allongement qui a débuté tardivement, ce qui a causé un décalage pour la deuxième phase.

Enfin pour le traitement 8, nous avons des plants qui commencent seulement leur deuxième phase de croissance (plants n°18, 24 et 36) alors que d’autres commencent leur troisième phase. Il semblerait qu’ici encore ce soit de longues périodes de repos qui en soient à l’origine.

Nous pouvons nous demander s’il ne serait pas préférable de supprimer certains individus de l’étude pour ne pas fausser les résultats.

(1) Démarrage des phases d’allongement pour la deuxième unité de croissance des bourgeons terminaux du tronc

L’étude graphique précédente (voir 4.1.) a déjà permis de mettre en évidence une légère différence entre les plants sous ombrière et les autres qui sont plus en avance. Je vais essayer ici de confirmer les observations précédentes. J’essaierai aussi bien sûr de voir ce qu’il en est pour l’effet densité.

Etude préliminaire

Dans une analyse sur des données de survie, les études préliminaires sont souvent réalisées par la procédure LIFETEST. Dans un premier temps je vais utiliser la procédure LIFETEST pour réaliser des graphiques des fonctions de survie.

La syntaxe de base pour l’utilisation de LIFETEST est la suivante : proc lifetest <options> ;

timevar est le nom de la variable qui mesure la quantité de temps pendant lequel le sujet est suivi, et eventvar est la variable qui précise si la variable est censurée ou non. L’option plots permet de tracer les représentations graphiques de différentes fonctions.

Exemple :

proc lifetest plots=(s,ls,lls) ;

Les fonctions dont nous voulons une représentation graphique sont à spécifier entre parenthèses de l’option et peuvent être :

- s estimation de la fonction de survie en fonction du temps (la méthode de Kaplan-Meier est utilisée par défaut)

- ls -log(fonction de survie) en fonction du temps

- lls log(-log(fonction de survie)) en fonction de log(temps) - h estimation de la fonction de hasard en fonction du temps - p estimation de la densité en fonction du temps

Remarque : pour obtenir le tracé des fonctions de hasard et de la densité, il est nécessaire d’utiliser la méthode actuarielle.

Or sous SAS la méthode de Kaplan-Meier est utilisée par défaut. Si nous voulons utiliser la méthode actuarielle, il faut le préciser en tant qu’option de la procédure comme suit :

proc lifetest methode=act ;

Fonctions de survie :

Le graphe de la fonction de survie représente la proportion de troncs dont la phase d’allongement du bourgeon terminal n’a pas encore commencé, en fonction du nombre de jours écoulés depuis le 10 avril 1999.

• Comparaison des fonctions de survie pour les deux niveaux de lumière :

Dans chaque niveau de lumière sont présentes les quatres densités étudiées, la répartition des plants dans les quatres densités est semblable en pleine lumière et sous ombrière, ce qui permet une comparaison correcte.

L’effet de la quantité de lumière est très visible sur la Figure 16. La courbe noire se situe en dessous de la courbe rouge, et de plus elles ne se croisent pas. Les plants se trouvant hors de l’ombrière sont les premiers à commencer la mise en place de la deuxième unité de croissance. Cependant une telle différence entre les deux courbes est peut-être due au fait que les dates d’observations sont peu nombreuses. En effet les observations ont eu lieu au mieux deux fois par semaine, ce qui fait que l’écart entre deux dates et supérieur à trois jours. Un écart de 1 ou 2 jours sera donc mesuré comme étant supérieur à trois jours.

Comparaison des fonctions de survie pour chaque traitement (Figure 17) :

Figure 17

Le dessin est un peu chargé, mais nous pouvons tout de même en retirer quelques informations. Les plants soumis aux traitements T2 et T4, sont les plus précoces en ce qui concerne la mise en place de la deuxième unité de croissance. A l’opposé, les plants des traitements T7 et T8 sont les plus tardifs. Or les traitements T2 et T4 bénéficient de la pleine lumière, tandis que T7 et T8 sont sous ombrière. Pour ce qui est des autres traitements, ils ne semblent pas trop éloignés les uns des autres. La densité ne semble pas avoir d’effet significatif ici.

The LIFETEST Procedure

Product-Limit Survival Estimates ❶

GROUPE = T1 Survival❸

❷ Standard Number Number

JOURS Survival Failure Error Failed Left

0.000 1.0000 0 0 0 25

52.000 . . . 1 24

52.000 . . . 2 23 52.000 0.8800 0.1200 0.0650 3 22 59.000 . . . 4 21 59.000 . . . 5 20 59.000 . . . 6 19 59.000 . . . 7 18 59.000 . . . 8 17 59.000 . . . 9 16 59.000 . . . 10 15

Tableau 7 : sortie SAS

LIFETEST fournit une estimation de la fonction de survie (Tableau 7). Le Tableau 7 présente une partie de l’estimation de la fonction de survie pour le traitement T1 croisant pleine lumière et densité D1.

La méthode de Kaplan-Meier (product-limit) est utilisée par défaut ❶.

Dans le cas présent, nous n’avons pas de données censurées, la fonction de survie est simplement la proportion de plants n’ayant pas commencé leur phase d’allongement. Nous trouvons les valeurs de la fonction de survie en ❷. La valeur initiale de la fonction de survie est 1. Quand il y a des durées ex æquo, l’estimation est reportée uniquement pour le dernier ex æquo. Si il y avait des observations censurées, elles seraient marquées par une étoile à côté du nombre de jours. En ❸ se trouve l’écart-type de la survie.

Pour chaque étude, LIFETEST donne également un récapitulatif du nombre de sujets, ainsi que du nombre de variables censurées, dans chacun des groupes considérés.

Valeurs des médianes et moyennes de survie :

• Comparaison des deux niveaux d’éclairement :

Summary Statistics for Time Variable JOURS

Point 95% Confidence Interval Quantile Estimate [Lower, Upper) 75% 62.000 59.000 62.000 50% ❹ 59.000 . . 25% 52.000 52.000 59.000 Mean 59.551 ❺ Standard Error 0.787

Summary Statistics for Time Variable JOURS

Point 95% Confidence Interval Quantile Estimate [Lower, Upper) 75% 73.000 66.000 73.000 50% 62.000 62.000 66.000 25% 59.000 59.000 62.000 Mean 67.594 Standard Error 1.006

Tableau 9 : plants sous ombrière

En ❹ du Tableau 8, nous avons la médiane de survie. C’est la date à laquelle 50% des bourgeons terminaux du tronc ont atteint le stade n°4 pour l’UC2. La médiane de survie est simple à calculer, et de plus elle est un bon indicateur de ce qui se passe dans les groupes. Elle permet lors d’analyses préliminaires d’avoir une première idée de l’effet des facteurs. Nous disposons également d’un intervalle de confiance à 95%.

Le temps moyen de survie est indiqué en ❺ (c’est la durée moyenne entre le 10 avril et la date d’apparition du stade n°4).

Pour les plants sous ombrière, nous pouvons remarquer l’écart entre la valeur de la moyenne (67,6 jours) et la valeur de la médiane (62 jours), ce qui est signe d’une répartition dissymétrique des dates de démarrage.

Par ailleurs, la médiane est de 59 jours (correspond au 8 juin) pour les plants en pleine lumière, et de 62 jours (11 juin) pour les plants sous ombrière. Elle est donc légèrement plus basse en pleine lumière. Ce résultat va dans le sens de notre intuition. Les écarts entre les deux groupes sont plus grands pour les autres percentiles (Tableau 8 et Tableau 9).

• Comparaisons des médianes entre les différents traitements : classement traitement jours

1 T2 52 2 T1 59 3 T4 59 4 T3 62 5 T5 62 6 T6 62 7 T7 66 8 T8 66

Tableau 10 : valeurs des médianes pour les différents traitements

Le Tableau 10 présente un classement des médianes pour chacun des huit traitements croisant lumière et densité. Aux quatre premières places, nous retrouvons les quatre traitements ayant bénéficié d’une lumière totale. Du point de vue de la médiane de survie le groupe le plus précoce est le groupe du traitement T2. A l’opposé, les groupes les plus tardifs sont T7 et T8. Aux premières places, nous avons les traitements en pleine lumière, et aux dernières les traitements sous ombrière. Il ne semble pas y avoir d’effet densité marqué.

Représentation des fonctions de hasard (Figure 18) :

La forme de la fonction de hasard peut nous fournir des renseignements importants quant à la survie (temps écoulé pour voir apparaître un stade n°4). En effet certaines variables comme la durée de vie humaine, le taux de chômage, la durée de vie des entreprises ont une fonction de hasard bien particulière.

La procédure LIFETEST permet une représentation de la fonction de hasard basée sur la méthode actuarielle.

Figure 18 : représentation des fonctions de hasard pour chacun des deux niveaux d’éclairement

Représentation de la fonction Log(−LogSˆ(t)) en fonction de Log(t) et test de l’hypothèse des hasards proportionnels :

Comme nous l’avons vu précédemment, le modèle de Cox est basé sur l’hypothèse des hasards proportionnels. La procédure LIFETEST permet de vérifier graphiquement cette hypothèse.

La procédure permet de représenter Log(−Log(S(t,x)) en fonction de Log(t). Les courbes pour deux valeurs d’une covariable doivent être à peu près parallèles.

Figure 20 : tracés de log(−logSˆ(t))pour les densités, ombrière

Figure 21 : log(−logSˆ(t))pour les deux niveaux de lumière, densité 100 plants/m2

Figure 23 : log(−logSˆ(t))pour les deux niveaux de lumière, densité 11 plants/m2

Figure 24 : log(−logSˆ(t))pour les deux niveaux de lumière, densité 2,8 plants/m2 Les Figure 19 et Figure 20 présentent pour chacun des niveaux de lumière les courbes pour les quatre densités étudiées. Les tracés pour la covariable densité ne sont pas loin d’être parallèles, mais se croisent, l’hypothèse des hasards proportionnels pour la covariable « densité » peut donc être mise en doute (Kalbfleisch, Prentice, 1980). Les résultats seront à considérer avec prudence.

L’hypothèse des hasards proportionnels pour la covariable « luminosité » semble être vérifiée (Figure 21 à 24).

De plus, nous pouvons faire quelques observations préliminaires. Les courbes pour le niveau « pleine lumière » se situent toujours au dessus des courbes pour le niveau « ombrière », ce qui met en évidence un effet de la quantité de lumière. En revanche il est difficile de mettre en évidence un effet de la densité. Nous pourrions éventuellement stratifier sur la covariable densité. Cependant en général on stratifie sur une variable n’étant pas d’intérêt premier, car aucune estimation de l’effet n’est obtenue pour la variable de stratification.

La procédure LIFETEST met à notre disposition trois tests d’homogénéité propres à l’analyse de survie, notamment à la présence de données censurées et d’ex æquo. Les tests sont le test du log-rank, le test du score et le test de vraissemblance.

Le plus utilisé est le test du log-rank.

Remarque : le dernier des trois tests n’est pas exploitable car il suppose que la distribution des variables soit exponentielle.

Pour chacun des niveaux de lumière, je vais tester l’homogénéité entre les quatres densités.

Test of Equality over Strata Pr > Test Chi-Square DF Chi-Square Log-Rank 19.9307 3 0.0002 Wilcoxon 17.7612 3 0.0005 -2Log(LR) 0.3156 3 0.9571

Tableau 11 : tests d’homogénéité des dates de démarrage de la phase d’allongement de l’UC2 pour les densités en pleine lumière

Test of Equality over Strata Pr > Test Chi-Square DF Chi-Square Log-Rank 23.4533 3 0.0001 Wilcoxon 18.1822 3 0.0004 -2Log(LR) 0.5842 3 0.9000

Tableau 12 : tests d’homogénéité pour les densités sous ombrière

L’hypothèse nulle d’homogénéité est rejetée dans le deux cas avec des P-value respectives de 0,0002 et de 0,0001 pour le test du log-rank.

Il y a donc des différences des dates de démarrage entre les différents niveaux de densité. Cela ne veut pas nécessairement dire qu’il y a un effet de la densité. En effet, il n’est pas tenu compte de l’ordre entre les densités. De plus ces différences pourraient provenir d’autres facteurs non contrôlables comme la qualité du sol.

De même j’effectue des tests d’homogénéité pour chaque densité entre les deux niveaux de lumière. On conclue à des différences entre les plants sous ombrière et ceux en pleine lumière pour les densités 2.8, 11 et 25 plants/m2. En revanche pour la densité maximale de 100 plants/m2 aucune différence entre les deux niveaux de lumière n’a pu être mise en évidence (P=0,89 pour le test du log-rank).

A plusieurs niveaux, que ce soit sur les courbes de survie ou dans la partie 4.1., j’ai pu remarquer une certaine homogénéité entre les traitements T2 et T4, T1, T3, T5 et T6 puis entre T7 et T8. J’ai donc été tentée de réaliser des tests d’homogénéité entre ces groupes de traitements. Les p-value sont toutes très supérieures à 0,05 (respectivement P=0,2147, P=0,4581, et P=0,8635 pour le test du log-rank), donc aucune différence entre les groupes n’a pu être mise en évidence au niveau des dates de départ des phases d’allongement de l’UC2. Les résultats pour le test de Wilcoxon sont les mêmes.

Test de l’effet de facteurs sur les dates de départ des phases d’allongement pour l’UC2 : L’étude suivante portera sur un total de 243 plants.

Pour tester l’effet de facteurs, je vais utiliser la procédure PHREG, c’est la procédure la plus répandue pour ce genre de traitement. C’est le modèle semi-paramétrique de Cox qui est utilisé dans cette procédure. Il ne requiert pas d’hypothèses sur la distribution des variables.

La syntaxe de base est la suivante : proc phreg <options> ;

model response <*censor(list)> = variables </options> ;

Pour le traitement des ex æquo, nous utiliserons la méthode EXACT. Le programme en utilisant la méthode EXACT est le suivant :

proc phreg ;

model jours = lumiere / ties=exact ; run ;

La procédure PHREG permet de traiter des variables quantitatives, ou qualitatives binaires. Les facteurs dont je dispose sont : la luminosité, la densité, et le diamètre du tronc fin 98.

Remarque : dans cette partie la variable à étudier est le temps écoulé entre le 1 janvier 99 et l’observation du stade n°4 correspondant au départ de l’UC2 (les durées sont donc en jours juliens). Cela ne change strictement rien aux résultats des analyses sur l’effet des facteurs.

Testing Global Null Hypothesis: BETA=0

Without With

Criterion Covariates Covariates Model Chi-Square

-2 LOG L 885.140 844.393 40.747 with 3 DF (p=0.0001) Score . . 44.339 with 3 DF (p=0.0001) Wald . . 42.468 with 3 DF (p=0.0001)

Tableau 13 : tests d’homogénéité (sortie SAS)

En ❶ est testée l’association globale entre les variables explicatives et la survie. Trois tests sont disponibles : le test du rapport de vraisemblance, le test de Wald et un test de score.

L’hypothèse nulle est l’hypothèse que chaque coefficient est nul.

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Risk Variable DF Estimate Error Chi-Square Chi-Square Ratio LUMIERE 1 0.757744 0.13808 30.11358 0.0001 2.133 DENSITE 1 0.001501 0.00175 0.73938 0.3899 1.002 D98 1 0.010583 0.00644 2.70409 0.1001 1.011

Tableau 14 : estimation des paramètres du modèle de Cox

Ci-dessus, nous avons les résultats des estimations pour le modèle semi-paramétrique de Cox. La méthode dite EXACT est utilisée pour le traitement des ex æquo. Dans cette méthode, les ex æquo sont considérés comme étant dus à des imprécisions ou erreurs de mesure. Dans notre étude, beaucoup d’ex æquo sont dus au faible nombre d’observations. Si nous avions eu une observation par jour, le nombre d’ex æquo aurait été moindre. Cette méthode semble adaptée à nos données.

Les coefficients

β

i sont estimés en ❷ du Tableau 14. Les p-values correspondant au test de

β

i =0 sont en ❸ :

P=0,0001 pour le facteur lumière, ce qui confirme l’effet du facteur éclairement sur les dates de démarrage des phases d’allongement.

Mais pour les facteurs densité et diamètre du tronc, les p-values sont supérieures à 0,05. Aucun effet de ces facteurs n’a pu être mis en évidence (ce qui ne veut pas forcément dire qu’il n’y en a pas). Pour les variables explicatives prenant les valeurs 0 et 1 (c’est le cas ici pour le facteur luminosité), la colonne risk ratio ❹ correspond au quotient des estimations des fonctions de hasard avec au numérateur l’estimation correspondant à la modalité 1, et au dénominateur l’estimation correspondant à la modalité 0. Ici ce coefficient est de 2,13 > 1, donc l’estimation du hasard pour le niveau de pleine lumière est plus élevée que celle pour le niveau sous ombrière. Ce qui va dans le sens des résultats précédemment obtenus. Le risque de voir apparaître un stade n°4 pour la mise en place de l’UC2 (c’est à dire de voir démarrer la phase d’allongement) est plus élevé chez les plants situés en pleine lumière. Comme seul le facteur éclairement semble avoir un effet significatif, je simplifie le modèle en ne

Documents relatifs