Évaluation de la fidélité et de la validité de la version traduite

Chapitre 2 : Recension des écrits

2.2 Considérations sur le processus d’adaptation et d’évaluation psychométrique d’une échelle

2.2.2 Évaluation de la fidélité et de la validité de la version traduite

Les mesures obtenues auprès des participants lors d’une étude doivent être objectives, précises et reproductibles. Dans plusieurs domaines de recherche, les techniques de mesure utilisées possèdent toutes une erreur aléatoire qui est liée ou non à l’observateur/intervieweur. Alors, l’évaluation de la fidélité d’une mesure est requise pour évaluer le niveau de la variabilité aléatoire d’un outil (Everitt & Hay, 1992; Burns, & Grove, 1997). La fidélité est la reproductibilité des résultats obtenus par un instrument mesurant le même objet (construit) ou le même individu, de façon répétée, et ce, dans différentes conditions (Everitt & Hay, 1992). Si un outil de mesure ne démontre pas de preuves de fidélité, cela peut fausser l’interprétation des résultats obtenus lors de son utilisation (Everitt & Hay, 1992). Donc, la fidélité se rapporte à l’évaluation des caractéristiques telles que la cohérence, la précision et la comparabilité d’un outil. La fidélité n’existe qu’en degré et s’exprime généralement sous la forme d’un coefficient de corrélation, où un (1) signifie une fidélité parfaite et zéro (0) une absence de fidélité. L’estimation de la fidélité d’un outil est spécifique à la population à l’étude. Ainsi, lorsqu’un instrument démontre des évidences de fidélité pour une certaine population, cela ne garantit pas qu’il en soit de même avec un autre échantillon ou auprès d’une population différente (Gélinas et al., 2008).

L’évaluation de la fidélité est centrée sur trois aspects : la stabilité, l’équivalence et l’homogénéité. La stabilité concerne la cohérence des résultats obtenus à la suite des mesures répétées. Celle-ci fait habituellement référence au test-retest. L’utilisation de cette technique repose sur l’hypothèse que le concept à mesurer demeure le même dans les deux temps de mesure et que toute autre variation du score est la conséquence d’une erreur aléatoire. Normalement, avec le test-retest, une période de deux semaines à un mois est recommandée entre les deux temps de mesure, selon le concept mesuré. L’équivalence, quant à elle, met l’accent sur la comparaison de deux versions du même questionnaire ou de deux observateurs mesurant les mêmes faits. Lorsque deux observateurs sont comparés, on parle de fiabilité interjuges (inter-rater reliability) et lorsque se sont deux instruments, on parle plutôt de formes alternatives (alternate forms). Ces dernières s’utilisent davantage dans le développement de tests de connaissances normatives, tandis que la fiabilité interjuges doit être utilisée dans les études dans lesquelles les données d'observation sont collectées ou lorsque des jugements sont rendus par deux ou plusieurs observateurs (Burns & Grove, 1997).

L’homogénéité est principalement utilisée avec les questionnaires et aborde la corrélation des divers éléments à l’intérieur de l'instrument. Cette dernière distribue de toutes les façons possibles les différents éléments compris dans l’outil pour ensuite faire une moyenne des scores et obtenir la fiabilité. Celle-ci examine l’étendue des scores de tous les éléments de l’outil qui mesurent le même construit. Il s’agit d’un test de cohérence interne (Burns & Grove, 1997).

Un instrument qui a démontré de faibles preuves de fidélité ne peut pas être valide, car il est inconstant dans sa mesure. De plus, un instrument fidèle n’est pas assurément valide pour une population en particulier. Tout comme la fidélité, la mesure de validité doit être évaluée à chaque situation. D’où la nécessité d’évaluer également la validité d’un outil. Celle-ci est considérée comme l'aspect le plus important de l'évaluation psychométrique (Blacker & Endicott, 2000) et constitue certes l’évaluation de qualité d’une mesure des plus discutées dans le contexte des sciences psychosociales (Pasquali, 2009). La validité est le degré d’authenticité d’un instrument de mesure et réfère à la façon dont l’outil mesure ce qu’il est censé mesurer (Burns & Grove, 1997; Carmines & Zeller, 1979; Endicott, & Blacker, 2000; Fortin, 2010). Elle est aussi décrite comme étant une évaluation du degré de preuves (des faits) et de la théorie qui appuient les interprétations des scores des tests qui découlent des usages qui sont proposés par l’application de ces tests auprès d’une population cible (Gélinas et al., 2008; Messick, 1989). Ainsi, le but ultime du processus de validation est le degré de confiance attribuable aux inférences faites à partir des scores obtenus avec les échelles (Bowling, 1997; Streiner & Norman, 1995).

La terminologie employée dans la littérature diffère amplement pour les types de validité. Selon Streiner, & Norman (1995), les approches utilisées pour l’évaluation de la validité peuvent être décrites en considérant l’existence préalable ou non d’un outil mesurant le même attribut. Ainsi, quand il y a une mesure déjà existante,

19 les approches décrites dans la littérature se résument à la validité de critère. À l’inverse, quand aucune mesure n’existe, l’ensemble des approches pour évaluer la validité s’appuient sur la validité de construit. Il est important de mentionner que l’évaluation de la validité se justifie uniquement après avoir démontré la fidélité de l’outil de mesure. Avant même l’étape de fidélité, l’outil nouvellement développé ainsi que celui adapté pour une autre culture doivent être soumis à un autre type de validité, soit la validité de contenu.

La validité de contenu

La validité de contenu est subjective et systématique. Celle-ci est essentielle dans le processus de développement et d'adaptation d’un instrument (Sireci, 1998). Le chercheur examine si les différents éléments d'un instrument s’intègrent bien au domaine mesuré (Hair et al., 2005). La validité de contenu est incluse dans les étapes d'évaluation par un comité d'experts et lors du prétest, auprès d’un échantillon de la population cible à l'étude. Ces étapes sont nécessaires pour assurer la cohérence conceptuelle de la mesure ainsi que la réactivité et la représentativité des éléments de l’outil pour la population cible (Alexander & Coluci, 2011). Pour la quantification de la validité du contenu, les sources consultées mettent en lumière les méthodes qui permettent d’évaluer la corrélation entre les évaluateurs sur les différents aspects de l'instrument, tels l’index de validité de contenu (content validity index - CVI) et le pourcentage d’agrément. La validité de contenu des éléments peut être quantifiée en appliquant l’index de validité de contenu (ICV) (Lynn, 1986; Polit & Beck, 2012). Les lignes de conduites peuvent être utilisées pour aider les experts à appuyer leur jugement. Pour accomplir cette tâche, le nombre d’experts nécessaires dépend des personnes qui sont accessibles et acceptables. Un minimum de cinq juges est exigé afin de fournir un niveau suffisant d’évaluation, néanmoins, le nombre de juges ne devrait pas excéder dix pour obtenir un commun accord sans encombre. Quand il y a six experts et plus, même si un ou plusieurs d’entre eux sont en désaccord, l’outil demeurera valide (Lynn, 1986). Le pourcentage d’agrément évalue la clarté de chaque élément et vérifie s’il cadre avec le concept et sa définition. Par la suite, l’accord est cumulé pour chaque élément. Le pourcentage se calcule en divisant le nombre d’évaluateurs d’accord avec l’élément par le nombre total d’évaluateurs (Hulley et al., 2001; Tilden, Nelson, & May, 1990).

La validité de critère

La définition traditionnelle de ce type de validité est la corrélation d’une échelle avec une autre mesure du même concept, idéalement considérée comme une mesure étalon, laquelle a été acceptée pour être utilisée comme telle dans le domaine étudié. Cette validité est habituellement divisée en deux : la validité concurrente et la validité prédictive. La validité concurrente effectue une corrélation entre le nouvel instrument et le critère (mesure étalon), les deux étant appliqués au même moment. La validité prédictive, quant à elle, a comme finalité de vérifier la capacité du nouvel outil à prédire la valeur future de la mesure étalon. Pour ce type de validité de critère, un délai est nécessaire entre l’application des deux tests.

La validité de construit

La validité de construit est une mesure psychométrique fondamentale de la validité (Pasquali, 2009) et implique trois étapes distinctes. Tout d’abord, la relation entre la théorie et le concept en soi doit être spécifiée. Ensuite, la relation empirique entre les mesures des concepts doit être examinée. Finalement, l’évidence empirique doit être interprétée selon la façon dont les résultats clarifient la validité de construit de la mesure (Carmines & Zeller, 1979). Il y au moins trois types de validité de construit : la validité de groupes contrastés, la validité convergente/divergente ou discriminante et la validité examinée par l’analyse factorielle.

La validité de groupes contrastés vise à tester si le nouvel outil permet d’identifier, dans deux ou plusieurs groupes de sujets, des différences dans les scores de construits mesurés par l’outil (Lobiondo-Wood, & Haber, 2001). Les groupes de sujets doivent être connus (de façon hypothétique ou empirique) pour avoir un certain lien avec le concept mesuré. Pour confirmer la validité des groupes contrastés, une différence significative des scores est attendue entre les groupes dans le sens qui était prévu (Streiner & Norman, 1995).

En règle générale, pour analyser la validité convergente, il est nécessaire que la méthode choisie ait intégré une base théorique de sorte que la base conceptuelle puisse fournir des associations entre le construit et une variété d'autres. L’association entre les mesures des construits suggère que la mesure pourrait être fortement associée avec certains, mais faiblement corrélée avec d’autres (Furr & Bacharach, 2013). La validité convergente est confirmée lorsque les preuves de corrélation sont observées entre deux ou plusieurs mesures dans le sens prévu. Tandis que lorsqu’il y a absence de corrélation entre les variables assignées théoriquement comme étant des différents construits, la validité divergente est confirmée. Il convient de noter que pour conclure à des preuves de validités convergente et divergente, il faut s’en remettre au degré de signification statistique. En règle générale, la convergence doit démontrer des corrélations statistiquement significatives. La validité divergente ne doit pas montrer de corrélation importante (Furr & Bacharach, 2013). Toutefois, cette règle devrait être appliquée en considérant d'autres facteurs comme la taille de l'échantillon. Un des différents aspects qui affectent l'interprétation de la validité des corrélations est le contexte des différents domaines de recherche ou d'application. Parmi les différents domaines de la science, différentes règles peuvent être adoptées pour l'évaluation des associations. Certaines zones ont plus de contrôle sur leurs variables expérimentales, alors que d'autres ont des techniques de mesure plus précises ou des phénomènes encore plus complexes en termes de multiplicité. Ces différences influent sur la grandeur des résultats obtenus dans la recherche. Par conséquent, l'interprétation des coefficients de validité de toutes associations doit être faite en relation avec le domaine spécifique de recherche et de l'application de l’outil (Furr & Bacharach, 2013).

L’analyse factorielle a comme but d’examiner les relations entre les différents éléments de l’outil pour identifier s’il y a différentes dimensions dans un même outil, c’est-à-dire différents attributs d’un même concept (Burns &

21 qui se regroupent en différents facteurs. Le regroupement est analysé selon sa signification possible, d’après le concept analysé. Par la suite, les facteurs provenant de l’analyse exploratoire peuvent être confirmés par l’analyse factorielle confirmatoire.

Donc, à la suite de la collecte de données, si les résultats confirment les hypothèses proposées, l’instrument de mesure est considéré comme étant valide et peut être utilisé dans la population ciblée (Fayers & Machin, 2000). Le but du processus de validation est d'estimer la mesure dans laquelle les tests démontrent que le modèle prédit des associations. La base théorique d'un construit guide l'étude, donc l'interprétation de validité de la preuve (Furr & Bacharach 2013).

Dans le document Adaptation culturelle et validation de l'échelle "The european heart failure self-care behaviour Scale-9" pour la population franco-canadienne (Page 31-35)