La méthode d’analyse des données verbales

CHAPITRE VI : L’ANALYSE DES DONNÉES

1. La méthode d’analyse des données verbales

Dans les sciences cognitives et les sciences de l’education, il y a eu un besoin croissant de collecter et analyser les « messy data ». Ces données concernent les explications verbales, les observations, les enregistrements vidéo et audio, aussi bien que les gestes. Le besoin de recueillir ces types de données est lié à l’étude des comportements et des performances dans un contexte d’activité. Par exemple, il semble de plus en plus évident que les performances des experts sont supportées par des aides extérieurs, tels que la prise de notes, les dessins ou les esquisses ( Norman, 1988 in Chi 1997); il semble par conséquent nécessaire d’inclure dans le corpus de données à analyser non seulement les transcriptions verbales mais aussi les dessins, les gribouillages ou les gestes des experts pour capturer une compréhension complète

14 Paragraphe correspondant à une synthèse, en traduction libre, de l’article ‘Quantifyng Qualitative Analyses for Verbal Data : A Practical Guide’, M.T.H. Chi, 1997, The Journal of Learning Sciences, 6(3)

192

de leur capacités (Norman, 1988 in Chi , 1997). Mais, les données de différentes natures doivent pouvoir être combinées et comparées. Or, la combinaison des méthodes d’analyse, surtout qualitative et quantitative est une démarche complexe à mettre en œuvre : elle prend beaucoup de temps, elle est subjective d’un point de vue de l’interprétation et restrictive d’un point de vue de l’applicabilité des protocoles. Une adéquation de différentes méthodes est proposée par Michelene T.H. Chi en 1997, qui présente un véritable guide à l’intégration d’analyses quantitatives et qualitatives pour les données verbales (écrites ou orale). La méthodologie de Chi est notre cadre méthodologique d’analyse. Une introduction à cette méthode est présentée ci-après, suite à une traduction libre d’extraits de l’article « Quantifying Qualitative Analyses for Verbal data : A Practical Guide » (The Journal of The Learning Sciences, 6(3), 1997). Les travaux de recherche de Chi (1972-2013) se situent dans le domaine de la représentation des connaissances expert-novice, l’expertise et la résolution de problèmes en physique et dans les géosciences. La littérature scientifique lui consacre environ 5000 citations, et ses articles ont, depuis une vingtaine d’années, une diffusion mondiale. La Géocognition s’empare également des démarches de Chi, notamment pour la description des représentations mentales de la connaissance géographique (Mark, Freska et Tverski, 1999). Dans le cas de notre recherche, ce choix méthodologique se justifie par l’approche exploratoire des connaissances, en situation d’apprentissage en comparaison avec l’expertise, qu’il engage.

L’analyse verbale est une méthodologie pour quantifier le codage subjectif ou qualitatif du contenu des phrases. Essentiellement, cette méthode permet, à travers le codage d’éléments verbaux (verbatim) propres à une idée, de concrétiser l’idée même, pour ensuite pouvoir en comptabiliser ou comparer les occurrences.

Le champ de recherche qui englobe un grand nombre de méthodes d’analyses verbales est celui de l’apprentissage. Deux objectifs sont visés par cette démarche : premièrement capturer la représentation d’une connaissance qu’un sujet peut avoir, et comment cette représentation se modifie avec l’acquisition ; deuxièmement, contraster la connaissance d’un expert avec celle d’un novice. La plupart des recherches dans ce domaine se sont intéressées à représenter une connaissance idéale relative à un problème donné, utilisant des techniques computationnelles sophistiquées et des moyens tels que les réseaux sémantique ou Bayesiens. Or, plutôt que chercher à représenter une connaissance idéale, l’objectif de cette méthode est de mettre en évidence quelles connaissances le sujet utilise pour résoudre un problème, qu’elles soient correctes ou pas. Pour mettre en évidence ce que le sujet connait, il est

193

nécessaire d’analyser non seulement le contenu des expressions verbales, mais aussi leur structuration. L’ensemble des propositions, concepts, objectifs, rôles et relations permettent de reconstituer une structure cognitive.

Le traitement le plus fréquent et systématique des données verbales est fait dans le contexte de la méthode du ‘protocol analysis’, comme exposé par Newell et Simon (1972). Bien que les deux méthodes partagent beaucoup de points en commun, Chi (1997) tient à souligner les différences qui se situent au niveau des consignes, du but, de l’analyse, de la validation et des conclusions. Face à un problème donné, les consignes du ‘protocol analysis’ demandent au sujet de verbaliser à voix haute (thinking-aloud) les informations qu’il obtient au fur et à mesure qu’il avance dans la résolution ; cette verbalisation décrit strictement, machinalement l’action conduite sans laisser de la place aux explications et justifications. Au contraire, les consignes de la ‘verbal data analysis’ demandent au sujet d’expliquer et rationaliser ce qu’il est en train de faire, au risque de modifier la performance qui peut justement être améliorée par l’auto-explication.

En ce qui concerne le but des deux analyses, les différences sont déterminantes : le ‘protocol analysis’ veut capturer le processus de résolution du problème, qui correspond à un ensemble de séquences de tâches (et sous-tâches) et d’opérateurs. Souvent, un modèle du processus est reconstitué minutieusement en amont, grâce à une analyse cognitive de l’activité et une comparaison entre le modèle et le parcours de résolution du sujet est effectuée, pour vérifier où les tâches et les opérateurs concordent. Inversement, la ‘verbal data analysis’ de Chi, reconstitue le chemin de résolution du sujet sans un modèle préalable de comparaison.

En termes d’analyses, les deux méthodes partagent plusieurs détails techniques, tels que la segmentation et le codage. Néanmoins, dans le ‘protocol analysis’ du fait qu’il définit à priori les états du problème et les opérateurs, l’analyse consiste à identifier dans le corpus textuel le vocabulaire correspondant à ces éléments. Dans la ‘verbal data analysis’ les référents ne sont pas connus : l’identification et la définition des référents, qui ont forcement lieu avant l’étude du vocabulaire, ajoute donc de la complexité à ce type d’analyse.

La validation de l’analyse est obtenue dans le ‘protocol analysis’ par le degré de correspondance entre la représentation de la résolution du problème du modèle et la représentation de la connaissance du sujet (séquences et les éléments du modèle et l’ensemble des séquences et éléments du sujets) ; seulement il n’est jamais clair dans quelle mesure le modèle peut être invalidé. Dans la ‘verbal data analysis’, la validation est souvent obtenue à

194

travers des calculs statistiques sur les données codées, dont les résultats supportent (ou pas) une hypothèse ou répondent à des questions de recherche.

Aussi, les conclusions que l’on peut tirer de ces deux approches analytiques sont différentes : le ‘protocol analysis’ fournit des informations sur la stratégie adoptée par un sujet dans la résolution d’un problème. La stratégie est liée à l’enchainement de séquences, de tâches et d’opérateurs présents dans le processus de résolution. Certains auteurs montrent que la stratégie des experts est orientée par la définition du problème, tandis que pour les novices elle est orientée par les objectifs à atteindre (Simon et Simon, 1978) ; ces deux visions comportent des enchainements de séquences différents. La ‘verbal data analysis’ ne fournit pas des conclusions sur l’enchainement des séquences et donc sur la stratégie adoptée pour la résolution d’un problème ; elle permet d’identifier l’ensemble des connaissances mobilisées par un sujet lors de la résolution d’un problème.

L’accent mis sur les différences entre les deux méthodes d’analyse parait indispensable à la présentation de notre approche, car, comme l’auteur le souligne, dans un cadre expérimental, le chercheur passe assez facilement d’une méthode à l’autre, sans pour autant compromettre sa méthodologie. Dans notre cas, il est important de rappeler que, à côté des aspects prépondérants de la ‘verbal data analysis’, d’autres aspects du ‘protocol analysis’ ont été adoptés, notamment là où nous avons effectué, au préalable, une analyse cognitive de l’activité de cartographie d’aptitude.

Avant d’aborder les détails procéduraux de la méthodologie, un bref tour d’horizon proposé par Chi (1997), sur les moyens d’intégration d’analyse qualitative et quantitative est ci-après présenté. Dans les sciences cognitives, les méthodes qualitatives se référent généralement aux recherches conduites dans des milieux –dits- naturels, tels que les classes, les entreprises, les communautés, les quartiers et les données recueillies concernent des observations, des explications, des interviews, des enregistrements, etc. Le principal avantage de ces méthodes est qu’elles fournissent une compréhension riche et approfondie d’une situation ou d’un phénomène ; l’inconvénient est qu’elles souffrent de la subjectivité d’interprétation et de la non-réplicabilité. Les méthodes quantitatives se référent en général à un cadre expérimental délimité (souvent en laboratoire), soigneusement conçu, dans lequel le chercheur contrôle et manipule les variables à étudier ; les données issues de ces expériences sont de nature dénombrable, telles que l’absence ou la fréquence. Ces méthodes assurent l’objectivité et la réplicabilité, mais limitent la généralisation des résultats au contexte du monde réel. Il y a

195

plusieurs façons d’intégrer les méthodes quantitatives et qualitatives : la plus traditionnelle est l’approche ‘interprétative’, dans laquelle les données qualitatives sont utilisées pour interpréter les résultats quantitatifs ; l’approche ‘complémentaire’ dans laquelle les données quantitatives servent à confirmer les analyses qualitatives ou vice-versa ; l’approche ‘quantitative-based qualitative’ dans laquelle les données qualitatives sont examinées pour définir des thèmes ou des tendances, des méthodes de codage sont développées pour capturer ces tendances et le codage est analysé quantitativement. L’analyse des données verbales que nous adoptons correspond à la dernière approche.

1.1 Procédure de la ‘verbal data analysis’

Une fois les données recueillies et transcrites, la technique d’analyse comporte 8 étapes. Nous les décrivons ci-après. Le terme « protocole » est utilisé par Chi (1997) pour parler du corpus de données verbales et nous adoptons sa terminologie dans ce chapitre.

1. Réduire le protocole verbal. Le chercheur réduit le volume des transcriptions de l’activité, soit en décidant d’un échantillonnage aléatoire, soit en choisissant un sous-ensemble sur la base de critères neutres, tels qu’une plage de temps, un changement de locuteur, etc.., soit en sélectionnant quelques tâches représentatives de toute l’activité.

2. Segmenter le protocole réduit. Une fois que le corpus du protocole est défini, il est nécessaire de le segmenter pour identifier les unités d’analyse. Les manières de coder un événement sont classiques et bien documentées dans la littérature, et comprennent au moins les catégories suivantes (Zacks & Tversky, 2001) : espace, temps, intentionalité (ou motivations), causalité, protagonistes et/ou objets. Il s’agit bien de comprendre que ces unités ne sont présentes que par commodité. Il serait tout à fait possible que l’observateur note ce qu’il observe, en direct et en langage naturel, mais cela donnerait des protocoles bien trop variables pour être analysés. Le choix des unités de codage consiste donc bien en une première réduction de la dimension de la réalité observée (Dessus, 2007). Pour le codage des données verbales, il y a trois enjeux à considérer :

a) la granularité du segment : la coupure peut se faire à différents niveaux qui révèlent des granularités différentes, telles qu’une proposition, une idée, un raisonnement. Dans le cas de données relatives à un protocole de résolution de problème, une approche qui utilise un grain correspondant aux tâches et sous-tâches de la procédure de solution, fournit des données plus évidentes.

196

b) l’adéquation entre la dimension du grain et l’interprétation des résultats que le chercheur peut en dériver en réponse aux questions de recherche : par ex., si le chercheur se demande comment ses sujets raisonnent sur une tâche spécifique, il serait approprié de considérer comme unité de codage un enchainement de raisonnements, ce qui comporte un grain de plusieurs phrases.

c) les attributs utilisés pour segmenter : les limites des unités de codage peuvent être définis avec des caractéristiques non liées au contenu, comme les pauses ou les tours de parole, ou avec des caractéristiques sémantiques, comme les idées, les chaines d’arguments, les sujets de discussion ou les impasses pendant la résolution d’un problème.

Souvent, notamment dans le cas de données verbales relatives à une procédure de solution, une idée est illustrée par plusieurs phrases. Il est alors plus pertinent de preserver des segments longs, car ils englobent la complétude de l’idée évoquée et empêchent de compter plusieurs fois le même propos.

3. Définir le schéma de codage. Une fois que le corpus est segmenté, il est prêt pour être codé. Les codes doivent être conçus pour correspondre à la représentation de la connaissance : par exemple, un formalisme de type organigramme sera approprié pour représenter des réseaux sémantiques ou conceptuels, alors que des modèles mentaux seront plus pertinents pour un système de connaissances. Le schéma de catégories taxonomiques est sans doute le plus simple de ces formalismes, car il ne permet pas de révéler les liens entre les éléments codés ; néanmoins ce schéma organise l’appartenance des explications et élaborations des sujets (experts ou novices) à des catégories de concepts, de principes ou de procédures propres à un système de connaissance.

Dans les données verbales, le développement d’un formalisme est un processus itératif qui demande, indépendamment du type de représentation choisie, un va-et-vient entre une démarche « top-down » et une démarche « bottom-up ». « Top-down » signifie que les codes choisis sont guidés par les cadres théoriques : dans le cas d’une activité de cartographie d’aptitude, dont les connaissances sont représentées par un schéma taxonomique, les catégories sont conçues sur la base de ce que la littérature scientifique a prouvé en matière d’interprétation cartographique ; « bottom-up » signifie au contraire, que les catégories sont issues de l’analyse des données brutes et que des nouvelles hypothèses peuvent être générées à partir des données.

197

4. Identifier les éléments verbaux représentatifs (verbatim) et les affecter au formalisme choisi. Une fois qu’un formalisme est décidé, l’étape suivante consiste à identifier les éléments du discours qui sont représentatifs d’une catégorie et à leur affecter un codage spécifique. Par exemple, si dans le schéma taxonomique une catégorie connotée par des attributs géomorphologiques a été établie, le chercheur cherchera dans les segments du corpus tous les mots en lien avec l’orographie, tels que ‘montagne’, ‘vallée’, ‘versant’. 5. Représenter le formalisme (optionnel). Une fois que les données sont codées elles doivent

être représentées. Le choix de la représentation graphique est dépendant du type de formalisme. Dans le cas d’un schéma taxonomique, une simple table qui organise toutes les catégories peut être adéquate ; dans le cas d’un réseau sémantique il faut représenter les relations par des liens (lignes) et des nœuds (points) selon les correspondances entre les codes.

6. Identifier le(s) pattern(s). La représentation graphique du codage facilite la reconnaissance d’éventuels patterns. Lorsque le graphisme est un tableau, comme dans le cas du schéma taxonomique, il est relativement simple d’identifier des patterns car les résultats des calculs sur les données peuvent être représentés en graphique. Lorsque le graphisme est une structure en réseau, les patterns peuvent être visuellement identifiés au niveau des liens, mais des méthodes quantitatives doivent être développées pour confirmer ces observations. Dans les deux cas, la quantification des éléments représentés dans le formalisme d’un codage, ne doit pas se limiter au comptage total de tels éléments ; l’intérêt d’une intégration entre méthodes qualitatives et quantitatives prend tout son sens lorsque la quantification permet de mettre en évidence des différences entre patterns et à l’intérieur de patterns, avec par exemple, des techniques de comptage sur les occurrences des éléments codés.

7. Interpréter le(s) pattern(s) et sa validité. L’interprétation des patterns dépend entièrement des hypothèses ou des questions de recherche posées : les données et les résultats des analyses peuvent être interprétés en termes de stratégies et processus, ou en termes de structure et contenu de la connaissance de base, ou des deux. Certes, l’interprétation est d’autant plus persuasive qu’elle bénéficie de l’apport d’autres preuves et analyses : dans le cas du schéma taxonomique, l’interprétation est souvent très convaincante juste grâce au support des techniques statistiques que l’on peut facilement lui appliquer.

8. Effectuer un double codage et affiner les analyses. Afin de prouver la fiabilité de l’analyse, il est nécessaire qu’un deuxième chercheur (codeur) effectue les analyses. En règle générale, le ‘double codage’ comporte une discussion préliminaire entre les deux

Dans le document Approche cognitive pour l'intégration des outils de la géomatique en sciences de l'environnement: modélisation et évaluation. (Page 194-200)