Mesure de la validité de l’analyse des entretiens

D EUXIEME PARTIE :

Chapitre 6 : Analyse des données

I. Analyse des entretiens

I.3 Mesure de la validité de l’analyse des entretiens

Comme le soulignent Huberman & Miles (1996) « En recherche qualitative, la validité et la fiabilité de l’instrument reposent largement sur les compétences du chercheur [...] C’est une personne plus ou moins faillible qui observe, interroge et enregistre, tout en modifiant les outils d’observations, d’entretien et d’enregistrement d’une visite sur le terrain à une autre. »

Ainsi, comme le soulignent Drucker-Godard & al. (1999) « la fiabilité s’estime [...] à partir du travail de codage des données brutes fournies à travers les entretiens. [...] Il s’agit dans ce cas de demander à différents codeurs d’analyser les données à partir d’un

ensemble de [thèmes] prédéterminés dans un protocole de codage puis d’estimer la fiabilité intercodeur à partir de taux d’accords entr e les différents codeurs. »

Afin de s’assurer de l’objectivité de notre processus d’analyse, celui -ci a donné lieu à une validation portant sur les onze premiers entretiens, soit environ 15% du total des données utilisées. Cette validation a été effectuée par deux autres codeurs, tous deux chercheurs en gestion.

La procédure suivie est la suivante. Tout d’abord nous avons expliqué aux codeurs les points importants de la recherche, l’objet de l’analyse et la procédure de double codage. Nous leur avons également remis un exemplaire du protocole de codage explicitant la démarche de codage et détaillant la définition de chaque thème74. Notons que pour limiter le temps consacré à ce processus de double codage, les vérificateurs sont partis directement du dictionnaire des thèmes (passages de l’entretien classés par thèmes)75 Ils devaient à partir du DT élaborer le DTR c’est à dire libeller les différents items et mettre en lumière les passages correspondants.

Ainsi pour chaque passage, le codeur devait :

• vérifier la correspondance entre le sens du passage et le thème dans lequel il était classé ;

• comparer le passage aux autres éléments du même thème afin d’en percevoir les similitudes et les différences ;

• résumer les passages ayant le même sens au sein d’un même item avec un libellé adapté ;

Ces analyses ont ensuite été confrontées entre elles pour déterminer leur degré de similitude. (Drucker-Godard & al., 1999) Pour cette mesure, nous ne pouvions pas utiliser l’indicateur le plus courant qu’est le coefficient d’agrém ent kappa de Cohen (1960). En

Un exemplaire de ce protocole est disponible en Annexe D

Ne pas partir directement de l’entretien pouvait présenter des risques de biais. En effet dans le dictionnaire des thèmes, les propos sont déjà destructurés et classés par thèmes. Or ce classement pouvait être influencé par nos hypothèses implicites. Toutefois, ce risque paraît à notre sens limité car les double-codeurs avait explicitement la possibilité et le devoir de reclasser dans le thème approprié tout passage du dictionnaire des thèmes qu’il pensait mal classé. Un certain nombre de reclassements ont d’ailleurs eu lieu. Ainsi l’influence de notre propre cadre mental était elle réduite.

effet, l’utilisation de cet indicateur exigeait que les différentes catégories (en l’occurrence les items de notre dictionnaire des thèmes résumé) soient exhaustives (Drucker-Godard & al., 1999), ce qui n’était pas le cas dans notre cas puisque les items ne recouvrant pas tous les cas possibles mais uniquement ceux qui apparaissait dans l’entretien. Il nous fallait donc utiliser d’autres indicateurs ad -hoc.

Toutefois, le choix d’un indicateur pouvait poser quelques problèmes : le résultat pouvait différer selon que l’on prenne un indicateur basé sur le nombre d’items codés de la même manière ou le nombre de lignes codées à l’identique. En effet, un item peut tout aussi bien correspondre à 1 ligne ou à 20 lignes. Or, une erreur sur un item regroupant un grand nombre de lignes constituera une erreur d’interprétation plus importante (dans le sens ou il y a désaccord sur une plus grande partie du texte) que si l’item n’est constitué que de quelques lignes. Pour résoudre cette difficulté nous avons donc utilisé deux indicateurs, A portant sur les items, B sur les lignes.

A= *100 total items d' nbre accord a y il où items d'

nbre _{; B=}₍₁₋ nbre de lignes où il y a désaccord_{) *}₁₀₀

nbre de lignes total

En pratique, il est apparu que A majorait systématiquement l’erreur, et que B la minorait.

La détermination du nombre d’items/lignes total76 et du nombre d’items/lignes où il y avait désaccord se faisait par discussion entre les codeurs selon la procédure suivante :

• tout item codé par l’un des codeurs et non codé par les autres comptait pour un désaccord et augmentait donc le nombre d’items total d’une unité ;

• tout item codé dans des thèmes différents par les codeurs était compté comme désaccord (même si après discussion entre les codeurs il apparaissait que le codage pouvait se justifier) mais le nombre total d’items rest ait constant.

Au final, ce double codage donnait des taux de similitudes entre les analyses compris entre 89,5% et 97% pour A et entre 92% et 99,8% pour B77. Ces taux ont été estimés très satisfaisants, Weber (1990) estimant par exemple qu’un taux supérieur à 80% constitue une preuve de fiabilité du codage.

La confrontation des différents codeurs, ainsi que l’explicitation et la discussions des désaccords sur certains items ont également été l’occasion de développer un « consensus intersubjectif » entre les codeurs. En effet, elles ont permis d’affiner le protocole de codage notamment en précisant la définition de chacun des thèmes.

Il nous faut toutefois souligner que la validation ainsi obtenue ne porte que sur une partie de nos entretiens. Toutefois, valider totalement notre analyse impliquait de procéder de la même façon pour la totalité des soixante-cinq entretiens. Or, au vu de l’investissement, ne serait ce qu’en temps qu’une telle démarche demande, entreprendre cette validation totale relève de la gageure. Nos taux de similitude étant très importants, et la méthode utilisée se voulant détaillée, précise et rigoureuse, nous pensons que notre analyse fournit des critères suffisants de validité.

Une fois l’analyse des entretiens effectuées, et afin d’obten ir des données portant sur une entreprise dans sa globalité, il nous fallait agréger les données individuelles. C’est ce processus d’analyse intra -entreprise que nous détaillons dans le point suivant.

Dans le document Vision et pilotage d'entreprise : conceptualisation, représentation et pratiques (Page 150-153)