Etapes de création et de validation d’un instrument de mesure

Le processus de développement et de validation d’un questionnaire nécessite plusieurs étapes bien définies (197, 198) (Figure 12).

Figure 12 : Etapes de validation d'un test psychométrique

Création du cadre conceptuel, génération d’items et test de compréhension

Une revue de la littérature, une réunion d’experts et une série d’entretiens non ou semi- directifs auprès d’un échantillon représentatif de la population cible sont réalisées préalablement à la rédaction du questionnaire. Cette étape permet de préciser les informations à recueillir et les modalités d’expression utilisées.

Une fois le cadre conceptuel posé, les questions sont élaborées sous forme de différents items. Un item est la plus petite unité d’information pouvant être isolée. Les items sont regroupés en domaines. La formulation des questions doit utiliser un vocabulaire compréhensible et adapté à la population cible ; les questions doivent avoir le même sens pour tous.

La période de référence est choisie selon sa pertinence clinique, afin de réduire les fluctuations de réponse liées à une trop courte période. Les modalités de réponses sont choisies de manière à être adaptées aux différents items, selon des critères éprouvés dans la littérature.

Etape 1 : Génération d'items • Création du cadre conceptuel

• Génération d'items • Test de compréhension

Etape 2 : Réduction d'items

Etape 3 : Evaluation psychométrique • Validité

Le pool d’items est ensuite présenté à un petit échantillon de patients issu de la population cible. Cette phase est appelée pré-test. La compréhensibilité des différents items et l’exhaustivité des questions sont vérifiées. Cette étape permet de clarifier les ambiguïtés, de remplacer le jargon médical par des termes adaptés et de déterminer l’acceptabilité des questions.

Réduction d’items

La réduction d’items est réalisée au décours d’une étude transversale. Le questionnaire est remis à un plus large échantillon de patients concernés, pour lesquels les données démographiques et pathologiques sont connues. L’objectif est de ne conserver que les items pertinents. Sont alors exclus les items redondants, les items ayant obtenu un taux de répondant bas ou un taux de réponses au plancher haut (patients non gêné ou non concerné), les items dont la réponse n’apporte pas d’information cohérente avec le domaine auquel ils appartiennent (analyse factorielle et analyse multitrait) et ceux qui ne présentent pas de pouvoir discriminant propre par rapport aux autres questions du domaine concerné.

L’analyse factorielle sur les items restants permet d’obtenir des axes expliquant la variance des réponses. Ces axes sont définis par la réunion des questions qui apportent une information commune à un domaine de qualité de vie.

L’analyse conceptuelle des questions contenues dans chaque axe permet de regrouper les questions en dimensions.

Une analyse multitrait réalisée en fonction de ces dimensions permet d’éliminer les questions ne présentant pas de spécificité (forte corrélation à toutes les dimensions) ou au contraire ne présentant qu’une faible corrélation aux dimensions (information unique).

L’acceptabilité conditionne l’adhésion du patient au test. Les items doivent être simples, sans ambiguïté, n’exprimant qu’une seule idée, et peu nombreux (temps passé à remplir le questionnaire). L’accessibilité est reflétée par le taux de réponses manquantes.

Validation psychométrique

La validation psychométrique permet de déterminer les atouts et les limites du nouvel instrument de mesure créé. Le questionnaire est diffusé largement afin de déterminer la qualité des données, la fiabilité interne (coefficient alpha de Cronbach), la reproductibilité (coefficient de corrélation intra-classe), et la validité clinique, en particulier le pouvoir à discriminer des groupes de patientes de gravité différente (test de Tucke).

Le modèle de Rasch est le modèle de fonctions de réponse à l’item le plus utilisé. Il a été développé afin de proposer des mesures objectives pour l’évaluation de critères subjectifs. L’objectif étant de rapprocher les sciences sociales des sciences physiques. Il constitue un modèle vérifiant le lien entre la réponse à l’item et le paramètre étudié.

Il implique deux principes : l’unidimensionnalité et l’indépendance locale.

L’unidimensionnalité implique que les différents items d’un test ne mesurent qu’un seul trait latent, et que la réponse de l’individu à l’item ne dépende que de cette dimension. Elle exprime la cohérence entre les réponses d’un sujet confronté à des items différents, expliquée par le concept mesuré.

L’indépendance localeexige que la réponse d’un sujet à un item ne soit pas affectée par les réponses qu’il a données aux items antérieurs.

La fiabilité interne ou cohérence évalue le degré de hasard, c’est-à-dire dans quelle mesure les variabilités de réponses sont liées à des problèmes de recueil et non à la dimension étudiée. La cohérence de l’ensemble des items composant un test psychologique, ou fiabilité interne, est le plus souvent déterminée par le coefficient alpha de Cronbach. Il s’agit d’un index permettant de mesurer la fiabilité d’un test en partant de l’hypothèse qu’il existe un lien de corrélation linéaire entre le score mesuré et un « vrai » score (c’est-à-dire la fiabilité quand le score mesuré est utilisé). Une corrélation est considérée comme bonne, c’est à dire qu’elle permet d’obtenir le score global par addition ou moyenne, à partir d’un index supérieur à 0,7 ou 0,8 selon les auteurs.

La reproductibilité d’une échelle est évaluée par la réalisation de test-retest. Il s’agit de voir dans quelle mesure deux évaluations faites à deux moments différents sur les mêmes sujets et avec le même test varient alors que la dimension mesurée n’a pas varié. L’indice de

constance test-retest ou indice de corrélation intra-classe est satisfaisant s’il est supérieur à 0,75.

La validité correspond à l’existence d’un lien de cause à effet direct de la variabilité de la mesure en fonction de la variabilité du domaine mesuré. Il faut distinguer la validité de contenu et la validité de construit. La validité de contenu évalue si le contenu du test est représentatif de la dimension étudiée, c’est-à-dire si, et à quel degré, une mesure couvre tous les aspects de la dimension étudiée. La validité de construit nécessite la démonstration que le test mesure bien la dimension qu’il dit mesurer, soit en prouvant une corrélation avec d’autres tests mesurant la même dimension, soit par méthodes qualitatives, après avis d’un panel d’experts, sur la concordance entre les items du test et la dimension évaluée.

Les tests d’étalonnement du score déterminent si l’algorithme de mesure du score proposé est légitime.

Traduction

Les tests validés dans une langue ne peuvent être simplement traduits en équivalence sémantique afin d’obtenir l’équivalence conceptuelle et interculturelle. La traduction nécessite habituellement 5 étapes :

- Traduction de la langue source vers la langue cible par deux traducteurs indépendants, bilingues ;

- Rétro-traduction : vérifier les concepts par deux traducteurs dont la langue maternelle est la langue source ;

- Établissement d’une version finale (revue clinique par comité de pilotage) ; - Test de compréhension et d'acceptabilité (test cognitif) ;

- Adaptation des pondérations (harmonisation internationale).

Dans le document Évaluation multicentrique de la qualité de vie et de la satisfaction des patientes selon le questionnaire BREAST-Q© après reconstruction mammaire pour cancer par lambeau de DIEP ou lambeau de muscle grand dorsal (Page 63-67)