• Aucun résultat trouvé

6.1 Méthode d'analyse des questions ouvertes 113

6.1.3 Notre procédure d'analyse de contenu 123

La construction d'un savoir-faire en analyse de contenu ne peut s'acquérir à notre sens que par l'exercice en lui-même de l'analyse de contenu: elle nécessite de se plonger dans la diversité, de se noyer dans la variété pour faire émerger une typologie. Néanmoins, un certain nombre d'étapes peuvent être isolées et décrites.

L'analyse de contenu a été réalisée sur des données textuelles, mais la même procédure peut être utilisée avec d'autres types de données sémantiques. La démarche peut en fait être transposée à l'observation en général.

6.1.3.1 Principes

La construction d'une typologie des réponses des participants se fait en plusieurs étapes qui se chevauchent et rétroagissent l'une sur l'autre: le but étant de réduire la diversité des réponses fournies et de trouver une organisation, qui permette de rendre compte de leur contenu sémantique.

A partir des réponses des participants à des questions ouvertes, des types de représentations vont être construits. Ces types vont se construire par l'analyse et ne sont pas postulés a priori. Des hypothèses locales sont posées au cours de l'analyse et se concrétisent dans les choix effectués aux différentes étapes. La procédure de construction des typologies se fait par un va- et-vient entre induction et hypothético-déduction.

6.1.3.2 Etapes

Les étapes principales de la construction des typologies de représentations sont le choix et la construction de descripteurs, la mise en évidence et l'analyse des configurations produites par le croisement des modalités des différents descripteurs, l'émergence de types de représentations et, finalement, l'agrégation de types de représentation en modèles explicatifs. Mais au préalable, il est nécessaire de délimiter le corpus utilisé et de choisir une unité d'analyse.

Etape 1: Définition du corpus et sélection du corpus de travail

Définition du corpus

La définition du corpus peut être une étape délicate dans le cas de données préexistantes, où le choix d'un échantillon doit obéir à des règles d'exhaustivité, de représentativité, d'homogénéité et de pertinence (Bardin, 1977). Dans notre cas, le corpus était constitué des réponses des participants à notre recherche. Ces réponses ont été transcrites intégralement dans un fichier Excel. A partir de là, pour des raisons de validation que nous décrirons en détails plus loin, le corpus a été séparé selon des règles strictes et pré-établies en deux parties que nous nommerons corpus de travail et corpus de validation. La construction des typologies et modèles de représentation s'est faite sur le corpus de travail, puis a été vérifiée sur le corpus de validation.

124 Les réponses des participants à chaque question prise séparément constituent les corpus qui seront analysés. Chaque question produit un corpus de réponses; il y a donc autant de corpus que de questions. Sur chaque corpus pris séparément, des descripteurs seront choisis dont les configurations produiront des types de représentations. Les types seront éventuellement regroupés en modèles de compréhension. Il y aura donc, dans un premier temps, autant de typologies que de questions. Dans un deuxième temps, les typologies et/ou modèles construits à partir des différentes questions seront mis en relation.

La validité et la représentativité de l'analyse des réponses écrites à des questions ouvertes peuvent être questionnées. Ce type de données soulève un certain nombre de problèmes tels que celui du rapport entre ce discours et la pensée de son producteur (il ne dit que ce qu'il veut bien dire), ou encore tels que celui de sa représentativité (la réponse est-elle seulement représentative du contexte de la question ou représente-t-elle quelque chose de plus profond de la pensée du producteur). Il s'agit de réfléchir au sens de la question posée: le participant s'est-il lui-même déjà posé une fois cette question ou est-elle complètement nouvelle pour lui (et donc complètement étrangère)? La valeur de la réponse produite (sa représentativité de la pensée de son producteur) en sera évidemment différente.

La familiarité des participants avec le thème conditionne la fiabilité et la validité des données véhiculées par le discours. Autrement dit, pour que ce qu'ils disent corresponde à quelque chose, il faut qu'ils se soient déjà interrogés sur le thème en question. Sinon, la construction de la réponse est complètement liée au contexte du questionnement. Au fond, cette problématique correspond à l'interrogation plus fondamentale de savoir si les représentations mises en évidence peuvent être considérées comme des modèles ou non, et si ceux-ci sont stables. Cependant, chaque mesure a ses avantages et ses inconvénients et ceux-ci ne justifient pas d'abandonner les questions ouvertes comme méthodes de recueil de données.

Sélection du corpus de travail

Nous avons construit nos catégories d’analyses sur un échantillon d’énoncés issus du corpus récolté. Cet échantillon, nommé corpus de travail, a été sélectionné pour chaque question ouverte. La sélection du corpus est soumise à deux exigences complémentaires: d’une part, l’échantillon doit être tiré au hasard, d’autre part, le corpus de travail doit être représentatif de l’ensemble des énoncés. Pour satisfaire ce deuxième point, il est donc nécessaire de contrôler quelque peu le hasard en respectant, dans le corpus de travail, une proportion représentative d’énoncés de chaque modalité des variables que nous désirons explorer. Notre procédure de sélection du corpus de travail peut donc être qualifiée de partiellement aléatoire. En parlant des méthodes d'échantillonnage, Myers & Hansen (2003) qualifie ce type d'échantillonnage d'aléatoire stratifié: il prélève au hasard des individus (ici des énoncés) issus de chaque sous- groupe (chaque modalité des variables à explorer) dans des proportions identiques à celles qui existent dans la population de référence (dans ce cas, l'ensemble du corpus). Cette stratégie est intéressante ici puisque les énoncés appartenant aux différentes modalités des variables à explorer sont susceptibles d'être différents.

Cette étape de notre procédure d'analyse de contenu poursuit les mêmes buts qu'un échantillonnage de sujets et vise à augmenter la validité externe des résultats obtenus. L’application réussie des catégories élaborées sur le corpus de travail à l’ensemble du corpus sera l'un des critères de validité de notre démarche d’analyse de contenu. La sélection du corpus de travail doit donc se faire avec un soin particulier.

125 Que respecter pour sélectionner les énoncés ?

Il n’existe pas de norme standard concernant la proportion d’énoncés la plus intéressante à utiliser pour construire les catégories d’analyses. Cependant, il est nécessaire de sélectionner un corpus de travail qui soit manipulable, c’est-à-dire pas trop grand, mais néanmoins représentatif : la pratique de ce type d’analyse conseille de sélectionner entre 25 et 50% du corpus (Thommen, communication personnelle, email 30.10.2002). Nous avons choisi de sélectionner les réponses aux questions ouvertes de la moitié des participants à la recherche. Les participants sont classés dans des groupes selon le croisement des différentes modalités des variables indépendantes (Niveaux scolaires, Genre), ainsi qu'en fonction de la version de questions ouvertes qui leur a été attribuée. Nous tenons également compte de deux autres critères : la filière d’étude à l’intérieur des Niveaux scolaires et l’Intérêt pour la biologie (pour une description de ces différentes variables, voir Chapitre 4). Le Tableau 14 présente le nombre de participants par croisement de variables dont les réponses aux différentes questions ouvertes constituent le corpus complet et le corpus de travail.

Tirage au sort

Pour sélectionner les participants dont les réponses constitueront le corpus de travail, nous les avons triés en fonction des variables mentionnées ci-dessus. Puis, dans chaque sous-groupe ainsi constitué, nous avons tiré au hasard les participants qui feront partie du corpus de travail. Pour le tirage au sort, nous avons utilisé la fonction de sélection aléatoire du programme de statistiques SPSS10 for Macintosh.

Nous avons des informations supplémentaires concernant nos participants, telles que le fait qu’ils aient suivi un cours de génétique en dehors de leur scolarité, ainsi que la profession de leurs parents/conjoint et la profession qu’ils envisagent de choisir. Nous avons vérifié que les participants dont les réponses constituent le corpus de travail se répartissent de la même manière dans les modalités de ces variables que les participants dont les réponses constituent le corpus total.

Etape 2: Choix d'une unité d'analyse

L'étape suivante d'une analyse de contenu est le choix d'une unité d'analyse qui peut être, par exemple, le mot, la phrase, l'énoncé, l'interaction, le tour de parole, ou, pour des corpus non- textuels, les trait d'un dessin, les postures, etc. Le choix d'une unité d'analyse dépend de la question à laquelle on veut répondre. Dans notre cas, la réponse d'un participant à une question ouverte est notre unité d'analyse.

Cette réponse peut être composée d'une ou de plusieurs phrases (d'une ou de plusieurs propositions, mots, paragraphes, etc.). Chaque phrase peut à son tour, contenir une ou plusieurs idées. Les idées des différentes phrases peuvent être redondantes ou non26. Nous considérons la réponse comme un tout. C'est ce tout qui nous intéresse, constitué par les idées uniques qu'elle contient27. Ainsi, pour les questions soumises à l'ensemble des participants,

26

Ainsi, nous ne trouvons pas d'intérêt à segmenter les réponses, car la segmentation sera de toute manière subjective ou demandera une réflexion linguistique trop poussée pour notre projet.

27

Nous cherchons dans les réponses l'existence de différentes catégories, sans chercher à décrire les réponses dans toute leur complexité sémantique. D'autres objectifs que les nôtres pourraient conduire à rechercher d'autres catégories sémantiques dans les mêmes réponses.

126 nous traiterons 132 protocoles (corpus de travail). Pour les questions soumises à la moitié des participants, nous baserons notre construction sur 61 protocoles.

Tableau 14: Nombre de réponses dans chaque croisement des modalités des variables constituant le corpus et le corpus de travail

Niveaux scolaires

Sexe Types de

QO

Filières Intérêt28 Nbre de réponses constituant le corpus

Nbre de rép. constituant le corpus de travail

CO2 fille A CO2 PV 4 2

B CO2 PV 4 2

garçon A CO2 PV 3 2

B CO2 PV 3 2

CO3 fille A CO3 PV 9 4

BP 4 2 B CO3 PV 7 4 BP 1 0 garçon A CO3 PV 12 7 BP 2 0 B CO3 PV 15 8 BP 3 1

GY2 fille A GY2 PV 6 3

BP 4 1 GY2spec BP 3 2 B GY2 PV 11 5 BP 5 3 garçon A GY2 PV 13 7 BP 3 1 GY2spec BP 1 0 B GY2 PV 10 5 BP 3 1 GY2spec BP 2 1

GY3 fille A GY3 PV 13 7

BP 1 0 GY3spec BP 4 2 GY3comp PV 1 0 B GY3 PV 11 6 BP 5 2 GY3spec BP 1 0 garçon A GY3 PV 2 1 GY3spec BP 8 4 B GY3 PV 1 1 BP 1 0 GY3spec BP 6 3

UNIPSY fille A UNIPSY PV 8 5

BP 1 0 UNIPSYopt PV 1 0 B UNIPSY PV 9 5 UNIPSYopt PV 1 0 garçon A UNIPSY PV 4 2 B UNIPSY PV 1 1 BP 2 1 TOTAL 209 103 28

PV= regroupement des modalités “Pas vraiment” et “Un peu” / BP= regroupement des modalités “Beaucoup” et “Passionément”

127 Les réponses aux différentes questions sont protocolées dans un fichier Excel. L'informatisation des données est une étape absolument nécessaire: l'analyse de contenu (en tout cas lorsqu'elle est menée sur des corpus importants) ne peut se passer de l'informatisation, comme nous le verrons dans l'étape de construction des descripteurs. Il faut cependant faire attention à ne pas confondre "l'objectivité du traitement des données d'analyse et l'objectivité

de l'ensemble de la démarche" (Jakobi & Wuillemin-Sales, 1999, p. 211). Il est évident que

l'ordinateur ne rattrape pas un mauvais codage et que l'informatisation ne doit pas cacher les défauts de l'analyse. Cependant, elle permet de contrôler facilement et fréquemment la rigueur des descripteurs construits et l'homogénéité du codage intra et inter-codeurs. Ces contrôles permettent réellement une amélioration de l'objectivité de l'analyse. De plus, l'informatique permet d'automatiser un certains nombre de procédure de codage et de gagner du temps. Les transcriptions sont fidèles, les fautes d'orthographes ont été conservées. Les dessins (flèches, renvois, etc.) sont décrits. C'est alors que la phase de codage des données peut enfin commencer, ce qui constitue la première étape spécifique à l'analyse de contenu. Potter & Wetherell (1987) décrivent ce moment particulier, où toutes les données ont été récoltées et retranscrites: "At this point the researcher usually sits back in contentment (...). There are

litterally hundreds of thousands of words waiting to be transformed into exciting research findings, and with this thought contentment can easily be transformed into total immobility and panic" (p. 166).

Etape 3: Choix, construction des descripteurs et de leurs modalités

La réponse d'un participant est notre unité d'analyse, notre objet d'analyse. Chaque objet va être décrit en fonction de différentes dimensions. Ces dimensions sont ce que nous désignerons comme descripteurs. Les descripteurs, comme leur nom l'indique, servent à décrire nos unités d'analyse, c'est-à-dire les réponses données par les participants aux questions ouvertes. Les descripteurs sont des variables qui peuvent prendre différentes valeurs ou modalités et décrire nos objets. Ils permettent de classer les idées contenues dans les réponses. La nature de ces descripteurs est sémantique. Cette étape correspond à la phase d'exploitation du matériel de Bardin (1977): elle vise à passer des données brutes du texte à une description construite de son contenu.

Le choix des descripteurs est construction et dépend des objectifs de l'analyse. Dans notre procédure, ils n'existent pas a priori, mais émergent du corpus de travail. Ce choix est un processus long, qui nécessite de nombreuses lectures des énoncés dans une perspective inductive. Il n'y a pas de procédure standardisée pour produire des résultats à partir d'un corpus de données textuelles. "There is no obvious parallel to the well-controlled

experimental design and test of statistical significance" (Potter & Wetherell, 1987, p. 168).

L'analyse implique de nombreuses lectures attentives et relectures, de nombreux faux départs, de longues heures de "struggling with data" (Potter & Wetherell, 1987, p.168). Le type de lecture utilisé ("lecture flottante" de Bardin, 1977) est très différent de la lecture rapide produite pour mettre en évidence les informations principales, puisque l'analyse peut être conduite par des détails, des détours, des idées contradictoires.

Pour Jakobi & Wuillemin-Sales (1999), le choix et l'organisation des catégories "est le

moment où toute la subjectivité du chercheur sera nécessaire" (p. 208). Le nombre de

128 peut y avoir autant de descripteurs que de manières de décrire le corpus. Cependant, l'objectif n'est pas de décrire le corpus de manière exhaustive, mais de choisir des descripteurs qui permettent de donner du sens aux données récoltées. L'analyse doit être productive (Weil- Barais, 1997) ou heuristique (Bardin, 1977; Jakobi et Wuillemin-Sales, 1999): elle doit apporter des résultats suffisamment riches pour pouvoir répondre aux questions initialement posées, permettre de poser des questions et des hypothèses, offrir des perspectives nouvelles. Le sens n'est pas épuisé par l'analyse de contenu. Une autre analyse peut produire d'autres résultats. Cependant, une analyse spécifique doit pouvoir être reproduite par d'autres analystes (objectivité et fidélité). Des choix doivent donc être faits qui dépendent de l'intuition du codeur, et des hypothèses locales qui émergent au fil des lectures. Ces choix doivent ensuite être décrits précisément pour arriver à une définition stricte des descripteurs et de leurs modalités permettant d'atteindre une fidélité inter- et intra-codeurs suffisante et mesurable.

"La différence de cette analyse à une catégorisation intuitive, n'est pas l'absence de décision mais l'explicitation de ces décisions qui peuvent être discutées, contestées" (Thommen, 1995,

p. 21).

La construction et le choix des descripteurs ont été réalisés à partir d'un échantillon du corpus appelé corpus de travail. Les descripteurs n'étaient donc pas définis a priori. Pour l'analyse de la deuxième partie du corpus (corpus de validation), les descripteurs étaient définis: le fait de retrouver les descripteurs et les modalités construites sur le corpus de travail dans le corpus de validation dans des proportions comparables permet de valider les choix effectués.

Le choix du nombre de modalités par descripteur est également un processus: à une extrémité, il peut exister un descripteur avec deux modalités (présence/absence) et à l'autre extrême un descripteur avec autant de modalités que d'idées contenues dans le corpus. Une première étape consiste à décrire les idées avec un seul descripteur et presque une modalité par objet (Inventaire des idées): à partir de cet inventaire, des descripteurs distincts sont différenciés avec un nombre plus restreints de modalités. La démarche de choix et de construction des descripteurs va trouver son terme lorsqu'un nombre de descripteurs suffisant pour répondre aux questions posées sera déterminé avec un nombre fini de modalités par descripteurs. L'étape suivante consiste à croiser les différents descripteurs pour obtenir des configurations de modalités desquelles vont émerger des types de réponses. C'est donc à partir des configurations produites par les différentes combinaisons de modalités des différents descripteurs que vont émerger des types de réponses.

L'informatisation des protocoles permet de procéder par essais et erreurs, et de revenir facilement à un descripteur antérieur, d'agréger des catégories automatiquement ou de les scinder à nouveau, etc. Les différentes étapes sont visualisées dans le fichier (les étapes précédentes ne sont pas effacées) et permettent ainsi d'éviter de longues heures d'explicitation de la démarche en construction puisque celle-ci est visible dans le fichier. En effet, des choix sont faits: ceux-ci doivent être explicités de la manière la plus précise possible pour que l'analyse soit reproductible, compréhensible, valide. Cependant, le fait de pouvoir suivre la démarche par l'évolution du fichier permet de n'expliciter que les choix finaux, c'est-à-dire ceux que le codeur choisit de garder et d'éviter de devoir décrire en détails chaque étape, sans savoir encore si celle-ci sera gardée ou abandonnée.

Un certain nombre de principes, tels que l'économie (éviter la redondance entre des catégories), la pertinence, ou encore la simplicité (nombre de modalités par descripteurs ne

129 doit pas être trop élevé) (Bardin, 1977; Weil-Barais, 1997) peuvent aider à garder le cap dans cette étape de l'analyse.

Etape 4: Des descripteurs aux types

A la fin de l'étape 3, un certain nombre de descripteurs ont été construits et leurs modalités décrites. L'étape suivante consiste à croiser les différents descripteurs et à observer les configurations de modalités produites. En effet, c'est à partir de celles-ci que des types de réponses vont émerger. Un type de réponse est constitué par le regroupement de réponses en fonction de la ressemblance des configurations de descripteurs qui le caractérisent. Le cas le plus simple consiste à considérer une configuration comme un type de réponse, mais lorsque le nombre de descripteurs et de modalités augmente, le nombre de configurations possibles (et éventuellement observées) peut être très élevé. Il s'agit alors de réduire éventuellement le nombre de configurations possibles par différents moyens tels que la concaténation de différents descripteurs en un méta-descripteur, la réduction du nombre de modalités par descripteur, le regroupement de certains descripteurs, ou encore le transfert de certaines modalités d'un descripteur à un autre descripteur (ces différentes procédures seront exemplifiées plus loin).

Il y a donc quelques va-et-vient entre les étapes 3 et 4 jusqu'à ce qu'un nombre restreint de descripteurs ne soit arrêté. Ces descripteurs sont ensuite combinés et les configurations produites par ces combinaisons mises en évidence. Un tableau croisé permet alors d'obtenir la fréquence des configurations présentes dans le corpus de travail. Il s'agit alors de prendre à nouveau des décisions: regroupement de configurations en types, versus différenciation de certains regroupements en types différents. Ces choix sont guidés par les hypothèses posées concernant les variables indépendantes: dans notre cas, évolution des représentations en fonction de l'enseignement de la biologie et de la génétique.

Etape 5: Des types aux modèles

Les types de représentations peuvent ensuite éventuellement produire des Modèles de représentation, qui dans notre procédure sont des regroupements plus larges que les types de