Discussion - Mesures subjectives et épidémiologie : problèmes méthodologiques liés à l'utilisat

En se rapprochant le plus possible des conditions habituellement rencontrées en pratique, ces études de simulation ont permis d’apporter une réponse à la question de la taille d’échantillon nécessaire à la validation interne d’échelle en psychiatrie. En effet, si la structure factorielle de l’instrument est nette, l’estimation du nombre de sujets nécessaire à l’obtention d’une solution factorielle stable et précise est indiquée dans le tableau 6 pour différentes conditions définies par la méthode d’analyse choisie et par le nombre d’items et de facteurs dans l’échelle. Afin d’obtenir une précision souhaitée du coefficient alpha de Cronbach, cette estimation est ensuite à adapter à l’aide de la figure 9.

0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 0,14 50 100 150 200 300 500 1000 Demi-amplitude de l'intervalle de confiance à 95% Effectif 10 items (α=0,7) 45 items (α=0,7) 10 items (α=0,8) 45 items (α=0,8) 10 items (α=0,9) 45 items (α=0,9)

Figure 9 : Demi-amplitude de l’intervalle de confiance à 95% du coefficient alpha de Cronbach pour quatre valeurs attendues ( ) en fonction de l’effectif et du nombre d’items dans l’échelle

D’après les résultats de l’étude par simulation de données artificielles, 300 sujets sont habituellement suffisants mais ce nombre doit être augmenté dans trois cas : lorsque le nombre de facteurs dans l’échelle est grand, lorsque l’AFE est choisie comme méthode d’analyse et lorsque le nombre d’items est petit. Ce dernier point est l’un des résultats les plus importants de cette étude car il montre à quel point l’utilisation de la règle du ratio / peut être délétère, en particulier pour des échelles à faible nombre d’items. Plusieurs études récentes sur le sujet de la taille d’échantillon nécessaire à une analyse factorielle ont abouti à la même conclusion, cependant, l’étendue des valeurs des paramètres qu’elles étudiaient ( , , ) ne permettait pas de dégager une règle simple de détermination du nombre de sujets nécessaire (Guadagnoli et Velicer, 1988; Hogarty et al., 2005; MacCallum et al., 1999; Mundfrom et al., 2005; Velicer et Fava, 1998).

Un autre résultat important concerne le choix entre ACP et AFE pour l’analyse de ce type de données. L’utilisation de l’ACP dans ce champ de recherche a été très souvent critiquée dans la littérature. En effet, le modèle d’analyse en facteurs communs et spécifiques est basé sur l’hypothèse de la présence de variables latentes qui expliquent les corrélations observées entre les items d’une échelle. Certains auteurs ont fait remarquer que l’ACP n’est pas totalement compatible avec cette hypothèse (Costello et Osborn, 2005; Fabrigar et al., 1999; Floyd et Widaman, 1995). Par ailleurs, dans le modèle d’analyse en facteurs communs, la variance de chacun des items est décomposée en une part de variance commune et une part de variance unique, cette dernière comprenant la variance due à l’erreur de mesure et la variance spécifique à chaque item. La matrice de corrélations utilisée en AFE pour l’estimation des charges est la matrice « réduite » comprenant sur sa diagonale les communautés des items alors que dans l’ACP, aucune distinction n’est faite entre variance commune et unique et c’est la variance totale qui est représentée sur la diagonale de la matrice de corrélation (Fabrigar et al., 1999; Ford et al., 2006; Widaman, 1993). Les relations entre items sont par ce fait surestimées et les valeurs de charges retrouvées par ACP sont supérieures à celles estimées par l’AFE. Dans les conditions rencontrées en psychiatrie, cette surestimation des charges par ACP est d’autant plus importante que est petit et est grand ; ce biais n’étant pas diminué lorsque augmente comme le montre la figure 7. L’utilisation de

l’AFE est donc recommandée dans ce champ afin d’obtenir des solutions factorielles moins biaisées.

Devant la difficulté à recommander une règle générale de calcul de la taille d’échantillon valide dans l’ensemble des champs où les techniques psychométriques s’appliquent, une revue de la littérature a permis d’identifier les caractéristiques des structures factorielles rencontrées en psychiatrie. Dans ce domaine, les facteurs sont en général corrélés entre eux, la valeur des charges principales est en moyenne de l’ordre de 0,6 et il existe une assez bonne détermination des facteurs avec un ratio / supérieur à sept. A l’aide de ce modèle « moyen » de structure factorielle, des données catégorielles intégrant différents niveaux d’effet plancher ou plafond pour chaque item ont pu être simulées. Les conditions rencontrées en psychiatrie ont donc été reproduites au plus près dans ces données artificielles, permettant ainsi d’obtenir des résultats mieux transposables à la pratique en conditions réelles que ceux des précédentes études de simulation sur ce sujet (Guadagnoli et Velicer, 1988, 1988; Hogarty et al., 2005; Mundfrom et al., 2005; Velicer et al., 1982).

Il faut, néanmoins, noter que deux hypothèses ont été nécessaires au programme de simulation et pourraient être responsables d’une augmentation de la force des données simulées par comparaison aux données réelles. Une de ces hypothèses concerne l’égalité des charges principales. L’absence d’influence significative de cette hypothèse sur la qualité de la solution factorielle a été soulignée par Velicer et Fava dans leur étude de simulation conduite en 1998 (Velicer et Fava, 1998). L’autre hypothèse concerne la structure simple des données : absence de charges croisées et charges secondaires fixées à zéro. Pour permettre d’évaluer l’influence de ces hypothèses sur les tailles d’échantillon estimées dans le tableau 6, une étude de simulation basée sur données réelles a été réalisée. Les résultats de cette étude pourraient suggérer que les tailles d’échantillon recommandées sont sous-estimées, cependant, des structures factorielles différentes ont été observées dans les échantillons simulés par tirage au sort avec remise dans un seul et même échantillon de données réelles. L’importance de la moyenne de l’écart-type des charges observée sur ces 10000 échantillons résultait donc du mélange de différentes structures factorielles existant dans ces différents échantillons. De nouvelles études sont nécessaires pour explorer ce phénomène, il est cependant possible à

cette étape de conclure que les tailles d’échantillon présentées dans le tableau 6 sont les minima nécessaires, déterminées à partir d’une situation idéalisée dans laquelle le modèle d’analyse en facteurs communs est vrai. En pratique, la stabilité de la solution obtenue à partir de données réelles pourrait requérir un échantillon plus grand.

Les résultats obtenus dans cette étude sont basés sur une échelle « modèle » en psychiatrie et peuvent donc varier en fonction des caractéristiques propres à un instrument particulier. Des éléments de connaissances préalables sur et peuvent être utilisés pour préciser l’effectif nécessaire à partir du tableau 6. Par exemple, l’étude de la validité interne d’une échelle à cinq facteurs nécessite au minimum 400 sujets si l’ACP est choisie comme méthode d’analyse ou 450 sujets si c’est l’AFE qui est choisie. Enfin, dans cette étude, c’est l’influence de sur la précision du coefficient alpha de Cronbach qui a été étudiée alors que des développements récents suggèrent que d’autres méthodes pourraient être plus appropriées pour l’évaluation de la consistance interne (Green et Yang, 2009; Sijtsma, 2008). Cependant, le débat concernant la meilleure méthode perdure et le coefficient alpha de Cronbach est encore de loin le plus utilisé en pratique.

5. Conclusion

Déjà mise à mal dans de précédentes études, la règle du ratio / ne trouve aucune justification dans les résultats obtenus ici et doit être abandonnée. La validation d’une petite échelle ne nécessite pas moins de sujets que la validation d’une grande échelle, au contraire. Si le but est de mettre en évidence la structure factorielle, sous l’hypothèse que le modèle d’analyse en facteurs communs et spécifique est vrai, un minimum de 300 sujets est en général acceptable dans les conditions rencontrées en psychiatrie. Cet effectif doit néanmoins être augmenté si le nombre de facteurs attendus dans l’échelle est grand. Par ailleurs, cette étude montre que pour obtenir des solutions factorielles plus exactes, l’AFE devrait être choisie comme méthode d’analyse.

6. Appendice

Dans le modèle en facteurs communs et spécifiques, chaque variable observée (item) est une combinaison linéaire d’un ou plusieurs facteurs communs et d’un facteur unique. L’équation fondamentale du modèle s’écrit de la manière suivante :

= + + ⋯ + + ⋯ +

L’indice représente les items ( = 1 à ) et l’indice les facteurs ( = 1 à ). est le vecteur de longueur comportant les réponses des sujets à l’item j. Chaque facteur commun est un vecteur de longueur comportant les niveaux non-observables des sujets sur ce facteur. Ils chargent sur chaque item avec un coefficient spécifique à cet item, la charge . Le facteur unique à chaque item est aussi un vecteur de longueur qui est représenté par et est indépendant des facteurs communs et des facteurs uniques aux autres items (Brown, 2006).

Dans le modèle de simulation développé pour cette étude, deux hypothèses ont été posées : l’existence d’une structure simple (chaque item n’est chargé que par un seul facteur) et les charges principales ( ) sont toutes égales. Ainsi, si les premiers items ne sont chargés que par le premier facteur , les items suivants par , …, les suivants par , …, et les derniers items par ((∑ = ), les réponses à l’ensemble des items peuvent être modélisées de la manière suivante :

56 ∀ ∈ [1 , ] , = + ∀ ∈ [( + 1), ] , = + ⋮ ∀ ∈ [( + 1), ] , = + ⋮ ∀ ∈ [( + 1), ], = + avec ∀ ∈ [1, ], ~ (0,1) et ⊥ ₍ ₎ et ∀ ∈ [1, ], ~ (0,1) et ⊥

A noter que le coefficient n’est pas directement égal à . En effet, afin de préserver les variances des égales à l’unité, une standardisation est nécessaire par le facteur . A partir de ce modèle, les données individuelles ont donc été simulées sous la forme d’une matrice où chaque ligne contient les réponses d’un individu à chacun des items de l’échelle et chaque colonne contient les réponses des individus à un item. Si est l’indice des individus ( = 1 à ), la réponse de l’individu à l’item est donc de la forme :

∀ ∈ [1, ], ∀ ∈ [1, ], ∀ ∈ [( + 1), ], = +

1 +

L’introduction d’une corrélation inter-facteurs a été rendue possible en modélisant chaque facteur à l’aide d’un terme spécifique à chacun des facteurs ( ~ (0,1)) et d’un terme commun à tous les facteurs ( ~ (0,1)) :

= + avec ⊥

Les proportions de chacun de ces termes, et , permettent donc le contrôle des corrélations inter-facteurs avec pour seule contrainte que la somme de leurs carrés soit égale à 1, là aussi dans le but de conserver les variances des facteurs communs égales à l’unité. Enfin, une dernière étape a été nécessaire pour que les données simulées soient de type catégoriel et

de distribution non-symétrique à l’image de celles rencontrées en conditions réelles. En prenant pour exemple un dispositif de réponse de type Likert à quatre points, la transformation des en nombres entiers entre un et quatre a été réalisée en utilisant trois seuils dans leur distribution : −1 + , 0 + et 1 + où est tiré dans une distribution uniforme entre [-0,5 ; 0,5] pour introduire une asymétrie et ainsi simuler des effets planchers et plafonds.

La génération des données a été effectuée grâce au logiciel R version 2.6.2. Les vecteurs , , et ont été générés à l’aide de la fonction rnorm de ce logiciel et à l’aide de la fonction runif.

C

HAPITRE

3 :

U

TILISATION DES MODELES ISSUS DE LA THEORIE DE

REPONSE A L

’

ITEM POUR LA DETERMINATION DE LA DIFFERENCE

MINIMALE CLINIQUEMENT PERTINENTE D

’

UN QUESTIONNAIRE

Traduction de l’article suivant, présenté en langue originale en annexe 2 :

Rouquette A, Blanchin M, Sébille V, Guillemin F, Côté S, Falissard B, Hardouin JB. The Minimal Clinically Important Difference determined using Item Response Theory Models: an attempt to solve the issue of the association with baseline score. Journal of Clinical

Epidemiology; 67(4):433-440

Contribution des co-auteurs :

Alexandra Rouquette : Conception de l’étude, revue de la littérature, programmation des analyses statistiques, interprétation des résultats, rédaction, soumission et révision de l’article.

Myriam Blanchin : Contribution à la programmation des analyses statistiques et à l’interprétation des résultats, révision de l’article.

Véronique Sébille : Contribution à l’interprétation des résultats, à la révision de l’article.

Francis Guillemin : Contribution à l’interprétation des résultats, à la révision de l’article.

Sylvana Côté : Contribution à l’interprétation des résultats, à la révision de l’article. Bruno Falissard : Contribution à l’interprétation des résultats, à la révision de l’article.

Jean-benoit Hardouin : Conception de l’étude, contribution à la programmation des analyses statistiques, à l’interprétation des résultats, à la rédaction et révision de l’article.

61 Résumé

Objectif. L’évaluation de la Différence Minimale Cliniquement Pertinente (DMCP) d’un

questionnaire par la méthode recommandée dans la littérature (« anchor-based ») est problématique car elle mène à une valeur différente selon la sévérité initiale des sujets inclus dans l’étude. Sa détermination sur une échelle d’intervalle, l’échelle du Trait Latent (TL), en utilisant un modèle issu de la Théorie de Réponse à l’Item (Item Response Theory, IRT) pourrait éviter ce problème. L’objectif de cette étude était de comparer la sensibilité (Se), la spécificité (Sp) et les valeurs prédictives (VP) de la DMCP déterminée sur l’échelle du score (DMCP-Sc) ou sur l’échelle du TL (DMCP-TL).

Cadre et schéma de l’étude. La DMCP-Sc et la DMCP-TL de la sous-échelle santé générale

du questionnaire MOS-SF36 ont été déterminées sur une cohorte de 1170 patients, dans le cas d’une aggravation ou d’une amélioration de l’état de santé perçu, en utilisant la méthode anchor-based et un modèle IRT de la famille de Rasch. Les Se, Sp et VP ont été calculées en prenant la question de transition du questionnaire MOS-SF36 comme gold standard.

Résultats. L’amplitude de la DMCP-Sc dans le cas de l’amélioration (1,58 points de score)

était inférieure à celle retrouvée dans le cas d’une détérioration (-7,91 points). Les Se, Sp et VP étaient similaires pour la DMCP-Sc et la DMCP-TL dans les deux cas. Cependant, lorsque la DMCP était définie sur l’échelle du score par plusieurs valeurs en fonction de la sévérité initiale, les Se, Sp et VP étaient systématiquement plus élevées.

Conclusion. Les résultats de cette étude renforcent les recommandations récentes concernant

l’utilisation d’une DMCP définie par plusieurs valeurs en fonction de la sévérité initiale.

Mots-clefs: Différence minimale cliniquement pertinente, Questionnaires, Sensibilité et spécificité, Théorie de réponse à l’item, Mesure d’intervalle, Question de transition, Trait latent

1. Introduction

Les échelles et les questionnaires sont de plus en plus utilisés dans les études longitudinales pour mesurer l’état de santé perçu par les sujets et évaluer son évolution au cours du temps. En effet, la perception que les individus ont de la santé et de la maladie influence leurs comportements ; les cliniciens, chercheurs et décideurs ont donc un intérêt croissant pour l’intégration de ce genre de mesures dans l’évaluation des traitements, interventions ou politiques de Santé Publique (Clancy et Eisenberg, 1998; Ellwood, 1988; McHorney, 1997; Roger, 2011; US Department of Health and Human Services, 2009). Une des principales limites à leur utilisation en recherche clinique ou épidémiologique est l’interprétation des mesures obtenues (Beaton et al., 2011, 2002, 2001; Cook, 2008; Copay et

al., 2007; de Vet et al., 2010; Ferreira et al., 2011; Guyatt et Cook, 1994; Liang, 2000;

Norman et al., 1997; Revicki et al., 2008; Stucki et al., 1996).

Par exemple, que signifie une diminution de deux points d’anxiété sur une période de six mois lorsqu’elle est mesurée à l’aide d’une échelle dont le score varie de zéro à 20 ? Sur le plan clinique, cette différence traduit-elle une évolution du niveau d’anxiété perceptible par le patient, ses proches ou le clinicien ou est-elle « négligeable », c'est-à-dire sans répercussion clinique ? Le concept de Différence Minimale Cliniquement Pertinente (DMCP) a été initialement décrit en 1989 pour faciliter l’interprétation d’une différence observée lors de l’utilisation d’un questionnaire dans une étude longitudinale. Sa définition est « la plus petite différence de score dans le domaine d’intérêt que les patients perçoivent comme bénéfique et qui mènerait, en l’absence d’effets secondaires ou de coût excessif, à une modification de la prise en charge des patients » (Jaeschke et al., 1989). Dans les cas où l’évaluation par les patients eux-mêmes est compliquée, cette définition a été adaptée au point de vue du clinicien comme « la plus petite taille d’effet qui le mènerait à recommander un traitement au patient » (van Walraven et al., 1999).

Il n’existe pas encore de consensus clair dans la littérature concernant la meilleure méthode de détermination de la DMCP d’un questionnaire. D’un côté, certaines méthodes utilisent des indices statistiques basés sur la distribution de la différence de score dans la

population comme, par exemple, le de Cohen (Cohen, 1988). De l’autre côté, les méthodes dites « anchor-based methods » utilisent un critère externe (« anchor ») ayant une pertinence clinique pour caractériser les différences de score observées (Beaton et al., 2002; Copay et al., 2007; Crosby et al., 2003; Liang, 2000; Revicki et al., 2008). Ce critère peut être un indicateur (dosage sanguin par exemple) de la réponse clinique à une intervention ou de l’évolution de la maladie mais le plus utilisé est le jugement global que porte le patient lui-même ou le clinicien sur l’évolution du phénomène mesuré par le questionnaire. En effet, cette dernière méthode, dite « du jugement global », est de plus en plus recommandée dans la littérature car elle est la seule à fournir une mesure de la signification du changement telle que perçu par l’individu (Cook, 2008; Crosby et al., 2004; Revicki et al., 2008; Terwee et al., 2007; US Department of Health and Human Services, 2009). En pratique, de nombreuses études utilisent maintenant plusieurs types de critères externes (Purcell et al., 2010; Sloan, 2005; Yost et al., 2005).

Quelle que soit la méthode utilisée, la détermination de la DMCP reste problématique car, en fonction de l’échantillon utilisé, du critère externe utilisé, etc. la valeur de DMCP obtenue pour un même questionnaire est variable. L’existence d’une seule et unique valeur spécifique d’un questionnaire a d’ailleurs été largement remise en question dans la littérature (Beaton, 2003; Beaton et al., 2002; Hays et Woolley, 2000; Revicki et al., 2006; Terwee et al., 2010). Par exemple, un phénomène particulier est régulièrement rencontré lors de l’utilisation des méthodes « anchor-based » : la dépendance de la valeur de la DMCP estimée au Score Initial (SI) des sujets de l’échantillon (Bird et Dickson, 2001; Crosby et al., 2004; de Vet et

al., 2007; Jensen et al., 2003; Lauridsen et al., 2006; Stratford et al., 1998, 1996; Stucki et al.,

1996; Ten Klooster et al., 2006; Terwee et al., 2010; Tubach et al., 2005). Il a donc été recommandé dernièrement de définir la DMCP par plusieurs valeurs dépendantes du SI plutôt que par une seule et unique valeur (Copay et al., 2007; Crosby et al., 2004, 2003; Revicki et

al., 2008; Tubach et al., 2005). En pratique, une telle définition implique que pour pouvoir

conclure sur la pertinence clinique de l’évolution d’un score chez un sujet, différentes valeurs de DMCP devront être utilisées en fonction de son SI.

Dans la littérature, quatre explications à ce phénomène de dépendance au SI ont été avancées (Copay et al., 2007). La première tient compte de la nature subjective de la DMCP :

un changement peut être perçu différemment par un sujet en fonction de son degré de sévérité initiale (Baker et al., 1997). La deuxième explication porte sur la nature statistique de la DMCP qui est soumise, par ce fait, au phénomène de « régression vers la moyenne », i.e. la tendance observée des scores extrêmes à devenir moins extrêmes lors d’une mesure répétée (Crosby et al., 2004, 2003). Enfin, les deux dernières explications concernent l’échelle de mesure utilisée pour déterminer la DMCP : le score, somme éventuellement pondérée des réponses aux items du questionnaire. Premièrement, cette échelle étant bornée, les bornes inférieures et supérieures sont responsables d’effets plancher et plafond, c'est-à-dire que la mesure d’un changement important pour les sujets dont le SI est proche d’une borne est souvent impossible car un tel changement dépasse les bornes de l’échelle (Baker et al., 1997; Bird et Dickson, 2001; Copay et al., 2007; Hays et Woolley, 2000). Deuxièmement, l’échelle du score n’a pas nécessairement les propriétés d’une échelle d’intervalle : sur une échelle d’intervalle, toutes les unités présentes le long de l’échelle sont égales les unes aux autres (Bird et Dickson, 2001; McHorney, 1997; Samsa et al., 1999; Stevens, 1946). C’est sur ce défaut de propriété d’intervalle de l’échelle du score et sur son rôle potentiel dans la dépendance de la DMCP au SI que va porter cette étude. En effet, si l’échelle du score n’est pas une échelle d’intervalle, l’interprétation d’une différence de score peut varier selon la portion de l’échelle où elle se situe.

Les modèles issus de la théorie de réponse à l’item (Item Response Theory, IRT) permettent l’analyse de données issues de questionnaires et l’expression des résultats sur une échelle d’intervalle. Dans cette théorie, le concept mesuré par le questionnaire est estimé par

Dans le document Mesures subjectives et épidémiologie : problèmes méthodologiques liés à l'utilisation des techniques psychométriques (Page 73-127)