• Aucun résultat trouvé

4.2 Approche par modèles à équation structurelle

4.2.2 Analyse de sensibilité par simulations

Dans la section précédente, le SEM (4.1) a été proposé de telle manière qu’il res-pecte conceptuellement la construction des questionnaires EORTC de HRQoL. Des résultats numériques sur données simulées ont été proposés pour une généralisation de ce modèle, dans lequel un troisième facteur, associé à un nouveau bloc de mesure, est expliqué à la place de y (Bry et al., 2015). Les auteurs ont montré une stabi-lité du modèle pour l’estimation des paramètres et la reconstruction des facteurs. Une analyse de sensibilité a également été réalisée afin d’étudier la qualité d’estima-tion suivant le nombre de sujets pris en compte et le nombre de variables observées par blocs. L’influence du nombre de sujets affecte plus intensément l’estimation du modèle que celle du nombre de variables observées par bloc.

Le modèle (4.1) étant un appauvrissement du modèle proposé par (Bry et al.,

2015), nous proposons une étude de simulation pour confirmer ces résultats, et étudier la capacité du SEM à reconstruire les facteurs et l’influence des covariables sur cette dernière. Ainsi, nous proposons dans un premier temps une analyse de sensibilité qui se focalise sur la reconstruction des facteurs en étudiant l’influence des différents éléments du modèles (valeur des paramètres, taille de l’échantillon ou encore nombre d’observations par bloc de mesure). Dans un second temps, nous verrons l’impact de la prise en compte ou non d’une covariable associée à un groupe de traitement. Ces simulations permettront ainsi de mettre en évidence la similarité entre un facteur reconstruit sans la connaissance de covariables et la somme des observations suppo-sées le refléter. Les valeurs des paramètres utilisuppo-sées pour simuler les données ont été choisies suivant les estimations obtenues sur les données réelles issues d’un essai cli-nique utilisant le questionnaire EORTC QLQ-C30. Pour chaque étude de simulation, N = 500 jeux de données ont été simulées.

Sensibilité de l’estimation des paramètres

La Figure 4.3 montre la sensibilité de l’estimation des paramètres suivant la taille de l’échantillon (nombre de sujets n) considérée. Les tailles d’échantillon testées dans les simulations recouvrent la majorité des différentes tailles d’effectifs rencontrées en pratique. Tous les paramètres ne sont pas représentés. Le nombre de sujets considérés influe sur la variabilité des estimations des paramètres, mais les estimations sont centrées sur les valeurs qui ont permis de générer les données. Nous pouvons avoir une bonne confiance quant à l’estimation des paramètres.

(a) Distributions des (cσv)v=y,1,2 (b) Distributions des (cbr)r=1,2

(c) Distributions de cD1 (d) Distributions de ba1

Figure 4.3: Sensibilité du modèle (4.1) en fonction de la taille de l’échantillon n. Les

valeurs utilisées pour simuler les données sont : (qr= 12)r=1,2, c1 = −c2 = 4, d = 80, σy = σr = 10, ar = (4, 4, . . . , 4), D1 = (d11, . . . , d1q1) où (d1s= 70)s=1,...,q

1 et D2 = (d21, . . . , d2q2) où (d2s= 30)s=1,...,q

2.

Ensuite, la Figure 4.4 montre la sensibilité de l’estimation des paramètres du modèle suivant le nombre de variables (qr)r=1,2 par bloc. Les estimations sont stables quel que soit le nombre de variables observées par bloc. La qualité de l’estimation des paramètres semble être d’avantage influencée par le nombre de sujets que par le nombre de variables observées par bloc.

Sensibilité de la reconstruction des facteurs

Dans cette sous-section, nous étudions la sensibilité de la reconstruction des fac-teurs suivant les valeurs des paramètres du modèle (4.1), la taille de l’échantillon n et le nombre de variables observables par bloc. La Figure 4.5a montre une corrélation entre le facteur simulé (noté (fr)r=1,2) et le facteur estimé (noté ( ˜fr)r=1,2) constante ∀n ∈ {60, . . . , 500}. Plus la taille de l’échantillon est grande, moins il y a de varia-bilité concernant la corrélation entre le facteur simulé et le facteur reconstruit des

(a) Distributions des (cσv)v=y,1,2 (b) Distributions des (cbr)r=1,2

(c) Distribution des cD1 (d) Distribution des ba1

Figure 4.4: Sensibilité du modèle (4.1) en fonction du nombre d’observations (qr) par bloc r(r = 1, 2). Les valeurs utilisées pour simuler les données sont : n = 150, c1=−c2= 4, d = 80, σy = σr = 10, ar = (4, 4, . . . , 4), D1 = (d11, . . . , d1q1) où (d1s= 70)s=1,...,q

1 et D2= (d21, . . . , d2q2) où (d2s= 30)s=1,...,q

2.

N = 500 simulations. Le nombre (qr)r=1,2 d’observations par bloc de mesure influe sur la capacité du modèle à reconstruire le facteur (fr)r=1,2. En effet, la Figure 4.5b montre que, lorsque qraugmente, la corrélation entre (fr)r=1,2et ( ˜fr)r=1,2augmente également. Ces résultats sont cohérents étant donné que plus il y a de variables pour refléter le facteur, plus il y a de l’information pour le reconstruire.

Les valeurs des paramètres ont bien entendu un impact sur la reconstruction des facteurs. En effet, les valeurs des paramètres (ar)r=1,2 sont importantes (voir Figure 4.6). Plus leurs coefficients sont grands, plus le facteur (source commune à l’ensemble des observations) à du poids pour expliquer les observations (Figure 4.6b). Le rapport entre la valeur des paramètres (ar)r=1,2 et les variances des erreurs σr2

r=1,2 est logiquement important dans la reconstruction des facteurs. En effet, plus ce rapport est petit (beaucoup de bruit pour un petit signal), plus l’information des facteurs est "noyée". Ce rapport « signal sur bruit » a beaucoup moins d’influence concernant les paramètres (cr)r=1,2 et la variance σy de l’erreur de l’équation (4.2c). En effet, la

(a) Influence de n (b) Influence de (qr)r=1,2

Figure 4.5: Corrélation entre les facteurs simulés pour générer les données et les

fac-teurs reconstruits par le modèle (4.1), suivant la taille d’échantillon (n) et le nombre de variables observées par blocs (qr). Les valeurs utilisées pour simuler les données sont : σy = σ1= σ2= 10, c1=−c2 = 4, d = 80, D1= (d11, . . . , d1q1) où (d1s= 70 + 2s)s=1,...,q

1, D2 = (d21, . . . , d2q2) où (d2s= 20 + 2s)s=1,...,q

2 et ar = (4, 4, . . . , 4). Pour la Figure 4.5a, (qr= 12)r=1,2 et pour la Figure 4.5b, n = 150.

Figure 4.6a montre que l’influence de ces paramètres sur la reconstruction des facteurs est minime contrairement à celle des paramètres dans les équations de mesures (4.2a) et (4.2b). Ces résultats semblent tout à fait cohérents et valident indirectement la programmation. L’information portée par les variables des différents blocs de mesure est bien plus importante que celle de la variable réponse.

Influence d’un effet groupe sur les facteurs

La comparaison du niveau de HRQoL entre deux groupes de traitement est essen-tielle dans un essai clinique. Le SEM proposé dans ce chapitre permet de quantifier la différence en moyenne entre les scores de chaque groupe à chaque temps de mesure. Cependant, nous ne connaissons pas l’influence d’une différence entre deux groupes sur l’estimation des facteurs lorsque celle-ci n’est pas prise en compte en tant que variable explicative. En effet, si la covariable associée au groupe de traitement n’est pas prise en compte dans le modèle, l’estimation des facteurs est affectée par cette information. Afin d’étudier l’impact d’une éventuelle covariable, des simulations ont été réalisées avec des valeurs de paramètres similaires à celles utilisées précédemment. La nuance avec les simulations précédentes est dans la prise en compte de la variable explicative groupe dans les équations (4.2a), (4.2b) et (4.2c), qui se traduit notam-ment par (qTr)r=1,2= qt= 2. Soit gi = 0 si l’individu i appartient au groupe contrôle et gi = 1 pour le groupe expérimental. Les premières colonnes de T et (Tr)r=1,2 ne sont alors composées que de 1 et la seconde de 1 et 0 selon l’appartenance au groupe (le même nombre de patients est considéré par groupe). Les paramètres associées

(a) Influence de (cr)r=1,2

(b) Influence de (ar)r=1,2 (1) (c) Influence de (ar)r=1,2(2)

Figure4.6: Corrélation entre les facteurs simulés pour générer les données et les facteurs

reconstruits par le modèle (4.1). La Figure 4.6a montre l’influence des valeurs des paramètres cr et σy, ∀r ∈ {1, 2}, avec ar = (4, 4, . . . , 4) et σr = 10. La Figure 4.6b montre l’influence des valeurs des paramètres ar et σr, ∀r ∈ {1, 2}, avec c1=−c2= 4 et σy= 10. Les valeurs utilisées pour simuler les données sont : (qr= 12)r=1,2, n = 150, d = 80, D1= (d11, . . . , d1q1) où (d1s= 70 + 2s)s=1,...,q

1 et D2= (d21, . . . , d2q2) où (d2s= 20 + 2s)s=1,...,q 2.

sont alors notés tel que : d =  µ0y δy  ; Dr =  µr 01. . . µr 0qr δr 1. . . δr qr  ,

où µ0 représente la moyenne du groupe g = 0 et δ = µ1−µ0la différence en moyenne entre les deux groupes. Plusieurs différences entre les deux groupes ont été testées de manière uniforme sur l’ensemble des observations simulées : δ = {0, 5, 10, 20, 30}. Ce

(a) Influence de n (b) Influence de (qr)

Figure 4.7: Corrélations entre les facteurs simulés fr et les facteurs estimés par le SEM avec ˜fr

g ou sans ˜fr la considération de la covariable liée au groupe. Les différences testées sont δ = {0, 5, 10, 20, 30} et supposées uniforme sur l’ensemble des observations.

choix des valeurs est justifié par le fait que les MCID considérées dans les modèles de survie sont généralement de 5, 10 ou 20 points (sur une échelle de 0 à 100). En effet,Osoba et al. (1998) ont montré qu’un changement moyen de 5 à 10 points du score, correspond à un petit changement de HRQoL ; une différence moyenne de 10 à 20 points correspond à un changement modéré ; et enfin une différence de plus de 20 points correspond à fort changement. Cependant, une différence de 30 qui correspond à la différence entre deux modalités adjacentes pour une dimension uni-item à quatre modalités de réponse est également étudiée.

La Figure 4.7 montre la corrélation entre les facteurs simulées (fr)r=1,2 et les facteurs estimés en prenant en compte ou pas la variable associée au groupe (res-pectivement (ffr

g)r=1,2 et (ffr)r=1,2). Les influences du nombre de patients considérés et du nombre de variables dans les blocs de mesures sont également étudiées. Les conclusions sont identiques à la partie précédente : la variabilité de la distribution de la corrélation diminue en fonction de n et n’évolue pas en fonction de (qr)r=1,2. Cependant, la corrélation entre la vraie variable latente (facteur simulé) et celle es-timée reste constante quelle que soit la différence entre les groupes pris en compte lorsque cette dernière est considérée dans le modèle. Enfin, plus la différence entre les groupes augmente, plus la corrélation diminue entre les facteurs simulés et les facteurs estimés sans la connaissance a priori du groupe.

La non prise en compte de la variable associée au groupe affecte également l’es-timation des paramètres du modèles. L’esl’es-timation des paramètres d et (Dr)r=1,2 change, ainsi que celle des paramètres directement liés aux facteurs (cr, ar)r=1,2(voir la Figure 4.8). Une part de l’information liée à l’effet groupe va être portée par le facteur et par conséquent modifier les estimations des paramètres associés. La

diffé-(a) Estimations de ar (b) Estimations des (cr)

Figure 4.8: Estimation des paramètres ar et cr en considérant une différence uniforme sur l’ensemble des observations de δ = {0, 5, 10, 20, 30} entre deux groupes.

rence testée (δ ≥ 0)) suggère que µ1 ≥ µ0. Cela va se traduire par ˜fr|g=12 supérieur en moyenne à ˜fr|g=0, et ˜fr

g=1 < ˜fr|g=1 tout comme ˜fr

g=0 > ˜fr|g=0. Les paramètres (cr, ar)r=1,2 ont alors une tendance à augmenter et d’autant plus que la différence entre les groupes est grande.

Tous les résultats de simulations présentés jusqu’à maintenant montrent la robus-tesse du modèle avec les variations attendues dans les estimations des paramètres et des facteurs suivant la taille de l’échantillon et le nombre d’observation par bloc. Une des utilités du modèle réside également dans la possibilité de comparer la somme des observations par bloc et des facteurs sous-jacents du modèle. Cela permet de valider que le score3 est une bonne représentation du concept reflété par cet ensemble de variables. En effet, la Figure 4.9 montre que le « Score-somme » (SS) est très corrélé aux facteurs reconstruits par le SEM lorsque le groupe n’est pas compris dans le modèle (ρ ≈ 1 quelque soit les valeurs de n, qr et δ, Figures 4.9a et 4.9b). En re-vanche, plus la différence entre les deux groupes est grande, plus la corrélation entre SS et ˜fr

g est faible. Cela s’explique par le fait que l’influence de l’effet groupe sur SS et sur ˜fr ne permet plus de distinguer la vraie variable latente f sous-jacente aux observations. Son information est "noyée" par le signal de la covariable groupe et ne permet plus de capter la source individuelle qui renvoie une dépendance des mesures. En pratique, ces résultats sont intéressants pour l’analyse de la HRQoL. En effet, l’intérêt est de réduire les analyses et de pouvoir discriminer entre deux groupes suivant leur niveau de HRQoL. Sous cet objectif, les SS ou les facteurs associés aux différents blocs de mesure semblent être de bons candidats pour une analyse plus

2. ˜fr|g=1 : facteur estimé sans la connaissance de la variable groupe dans le SEM pour les patients du groupe expérimental (g = 1) ;

3. le score correspond à une somme d’un ensemble de variables. Il sera exprimé sur une échelle de 0 à 100 par souci d’homogénéité avec les autres scores du questionnaire de HRQoL ;

(a) Influence de n (b) Influence de (qr)

Figure 4.9: Corrélations entre le SSr par bloc et les facteurs respectifs estimés avec ˜

fr

g ou sans ˜fr la considération de la covariable liée au groupe. Les différences testées sont δ = 0, 5, 10, 20, 30 et supposées uniforme sur l’ensemble des observations .

globale.

Dans le cas où une différence existe entre les deux groupes, l’information est portée par le SSr mais également par ˜fr respectif. Par souci d’homogénéité, il est alors préférable de se ramener à la comparaison de ˜fr vs ˜fr

g qui sont à la même échelle, alors que le SSr peut dépendre du calcul (somme exprimée sur une échelle de 0 à 100 ou simple somme mais dont l’échelle dépend alors du nombre de variables).

4.3 Application

En pratique, les données de HRQoL sont loin d’être normalement distribuées et nous avons proposé un modèle dont l’hypothèse de base est la normalité des données. Nous avons vu dans les chapitres précédents que faire cette hypothèse4n’impacte pas les conclusions des analyses longitudinales. Sous l’hypothèse de normalité des scores de HRQoL nous avons appliqué le modèle (4.1) sur les données de HRQoL de l’essai de phase II CO-HO-RT (Azria et al.,2010) qui concernent n = 149 patientes atteintes d’un cancer du sein. L’objectif de cet essai est de comparer deux schémas d’adminis-tration du létrozole5 associé à une radiothérapie. Après l’intervention chirurgicale, les patientes pourront recevoir une chimiothérapie. Elles seront ensuite réparties de façon aléatoire en deux groupes. Les patientes du premier groupe (n = 74) rece-vront une hormonothérapie avec du létrozole quotidiennement pendant deux ans. Trois semaines après le début de ce traitement, les patientes débuteront également une radiothérapie (d’une durée de cinq semaines). Les patientes du deuxième groupe

4. hypothèse de « (grand) confort » ;

5. le létrozole inhibe l’enzyme aromatase qui est la principale source des œstrogènes dont dépend le développement tumoral dans le cancer du sein ;

(n = 75) recevront les mêmes traitements mais la radiothérapie sera administrée avant le traitement par létrozole, ce dernier débutant trois semaines après la fin de la radiothérapie. Les patientes des deux groupes seront suivies tous les trois mois pendant deux ans.

Dans le contexte du cancer sein, un faible taux de données manquantes est ob-servé6. Les mesures du module additionnel QLQ-BR23 (questionnaire spécifique au cancer du sein) complètent dans cet essai celles relevées avec le questionnaire QLQ-C30 (questionnaire générique à tous les cancers) et permettent de considérer un nombre plus élevé de dimensions et plus spécifiques à la localisation cancéreuse (voir Figure 4.1). Des analyses sur le critère de HRQoL ont déjà été réalisées de manière classique, c’est-à-dire dimension par dimension et de manière indépendante. Ces ré-sultats n’ont montré aucune différence significative entre les deux groupes.