La procédure de traitement des données issues du questionnaire : une première analyse quantitative première analyse quantitative

Partie 4 : le processus d’investigation scientifique

4.1 La procédure de traitement des données issues du questionnaire : une première analyse quantitative première analyse quantitative

Au sein de cette sous-partie, la préparation des données avant leur analyse avec les logiciels SPSS® (Statistical Package for Social Sciences) et IRaMuTeQ (Interface de R pour les analyses Multidimensionnelles de Textes et de Questionnaires) est présentée. Puis, les procédures de traitement de ces données sont explicitées.

4.1.1 La préparation des données

Cette préparation fait suite à la fermeture du questionnaire en ligne. Il s’agit de préparer les données issues des questions fermées et ouvertes pour leur transfert depuis le logiciel LimeSurvey (logiciel d’enquêtes statistiques) vers les logiciels de traitement des données, respectivement SPSS® (logiciel d’analyses statistiques) et IRaMuTeQ (logiciel de lexicométrie).

4.1.1.1 Les questions fermées

Le questionnaire a été fermé le 15 juillet 2017. Ensuite, les données enregistrées à partir des réponses des participants ont été exportées dans un format compatible avec le logiciel SPSS®, c’est-à-dire en « .sav ». Le tableau ainsi obtenu contient l’ensemble des données. Associé à ce dernier, un deuxième tableau contenant l’ensemble des variables a été créé par le logiciel d’analyses des données.

De façon à sécuriser nos données, nous les avons également exportées au format

« .xls » afin de pouvoir, si besoin, utiliser le tableur Excel.

Nous avons procédé, ensuite à la vérification de l’encodage des variables ainsi que de leur correspondance avec les données. Les variables correspondent aux différentes questions posées ; par exemple, l’âge, la formation ou encore l’expérience des enseignants. Elles sont de nature qualitative ordinale (exemple, la

variable du concours) ou nominale (exemple, la variable du sexe). Certaines, comme l’âge ou le nombre d’heures de formation, sont des variables dites classées parce que nous les avons bornées pour faciliter l’analyse (exemple : entre 20 et 25 ans). Nous avons modifié certains paramètres comme le format, la déclaration des valeurs possibles et la nature des variables. En effet, par exemple lors de l’exportation des données de LimeSurvey vers SPSS®, le format de certaines variables était donné de façon alphanumérique. Or certaines analyses descriptives ne peuvent pas être réalisées avec des données alphanumériques. Nous avons donc modifié ces données alphanumériques (A1=complétement d’accord) en données numériques (1=complétement d’accord). Nous avons également modifié le tableau des données correspondant à ces variables en remplaçant les « A1 » par des « 1 ».

4.1.1.2 Les questions ouvertes

L’ensemble des textes obtenu à partir des deux questions ouvertes du questionnaire (la définition de DIS et les raisons de faire mettre en œuvre ces démarches) a été exporté dans deux fichiers Word. Ensuite, ils ont été encodés (variables étoilées, etc.) suivant un codage particulier indispensable pour être analysé dans le logiciel de lexicométrie, et enregistrés au format « .txt ». Plus précisément, chaque réponse d’un enseignant à l’une des questions ouvertes correspond à un texte. Ces derniers ont dû être introduits par quatre étoiles (****) suivies d'une série de variables étoilées (variables illustratives) séparées par un espace (extrait du corpus ci-dessous). Ce codage à partir de variables étoilées a facilité par la suite certaines analyses.

Extrait du corpus correspondant à la question ouverte sur les raisons de faire mettre en œuvre des démarches d’investigation scientifique.

**** *age_3645 *fonction_ens *formationI_moins5 *fprmationC_non

Pour inciter leur intérêt face aux sciences et pour les amener à raisonner, à réfléchir, à se poser des questions, à chercher, à trouver tout seul, à les voir trouver une solution.

**** *age_4655 *fonction_ens *formationI_non *fprmationC_non Pour mettre les élèves en action, qu'ils soient acteurs de leur savoir.

Dans l’extrait du corpus ci-dessus, nous pouvons lire la réponse de deux enseignants à la question portant sur les raisons de mise en œuvre des DIS en classe :

1. Le premier répondant est âgé entre 36 et 45 ans ; il est enseignant, il a suivi moins de cinq heures de formation initiale concernant les DIS et aucune formation continue.

2. Le deuxième répondant est âgé entre 46 et 55 ans ; il est également enseignant et il n’a suivi aucune formation portant sur les DIS.

Le corpus a ensuite été exporté dans le logiciel IRaMuTeQ pour être analysé.

4.1.2 Le traitement des données issues des questions fermées

Le Logiciel SPSS® a été utilisé pour analyser les données provenant des questions fermées du questionnaire. Les différentes analyses effectuées sont des analyses statistiques descriptives. L’objectif de la statistique descriptive est de décrire de façon synthétique et parlante des données observées pour mieux les analyser. En ce sens, deux types d’analyse ont été réalisés : des analyses descriptives univariées et des analyses descriptives bivariées.

Concernant les premières, des calculs d’effectifs et de fréquences ont été exécutés. Des analyses bivariées ont aussi été mises en œuvre. L’objectif de ces analyses était d’étudier les éventuelles relations entre deux variables statistiques.

Nous nous sommes intéressée dans le cadre de cette recherche aux éventuelles relations entre deux variables qualitatives et, plus précisément, soit entre deux variables nominales, soit entre une variable nominale et une variable ordinale.

Concernant les relations entre deux variables qualitatives, il s’agissait de réaliser des tableaux de contingence encore appelés tableaux croisés. En effet, lorsqu’on étudie simultanément deux variables qualitatives, il est commode de présenter les données sous forme d’une table de contingence, synthèse des observations selon les modalités des variables qu’elles présentent. À partir de cette table, nous avons défini la notion de profil (ligne et colonne), dont nous nous sommes servie pour réaliser un diagramme de profils faisant apparaitre la liaison entre les deux variables, lorsqu’il y en existait une. Pour qualifier cette liaison entre deux variables nominales ou entre une variable nominale et une variable ordinale, nous avons utilisé un coefficient de vraisemblance, le L² (Likelihood ratio chi square), qui confirmait la liaison ou non, et le V de Cramer qui fournissait une indication quant à la force de l’association. Nous avons fait le choix d’utiliser le coefficient de vraisemblance plutôt que le Chi carré, notamment parce que ce coefficient est peu sensible au N échantillonal si ce dernier est inférieur à 30 et à l’identité du nombre de catégories des variables croisées, contrairement au Chi carré. De plus, ce dernier n’offre pas d’indicateur de la force de la relation et n’apprécie pas les fréquences de cellules à faible effectif (N < 5). Alors que le coefficient de vraisemblance est peu sensible à la non-quadracité du tableau de contingence et à l’importance du N (Fox, 1999). En outre, comme d’autres auteurs, Howell (1998) note que « if I had to use only one measure of association, I would choose the Cramer Øc » (p. 182), car il n’est dépendant ni de la taille du tableau de contingence ni de la taille de l’échantillon. Par ailleurs, la fonction de SPSS® concernant les résidus standardisés ajustés, nous donne la ou les catégories sous ou sur représentées.

4.1.3 Le traitement statistique des données issues des questions ouvertes

Comme nous l’avons précisé au début de cette section, l’analyse des données textuelles a été réalisée ici suivant une approche lexicale (Fallery et Rodhain, 2007). Une fois l’ensemble des réponses aux deux questions ouvertes du questionnaire exporté dans le logiciel de lexicométrie IRaMuTeQ sous la forme de deux fichiers en « .text », nous avons ouvert et indexé les corpus textes. Il s’agissait notamment de définir les caractéristiques générales du corpus, ainsi que les différentes options de l’indexation comme l’encodage du texte en UTF8, le choix de la langue ou encore l’utilisation ou non du dictionnaire des expressions. De plus, avant chaque demande d’analyse sur un corpus, nous avons dû choisir les options de lemmatisation, c’est-à-dire si le texte devait être lemmatisé ou non. Le choix de lemmatiser le texte permet par exemple de ramener tous les verbes à l’infinitif (apprenez, appris, apprenons en apprendre), les noms au singulier et les adjectifs au masculin singulier (professionnelles, professionnelle, professionnels en professionnel). Pour la présente recherche, nous avons fait le choix de lemmatiser le texte pour identifier les mots utilisés par les enseignants dans leur définition des DIS mises en œuvre en classe par leurs élèves. Il s’agit ici d’une analyse macroscopique qui est affinée par la suite lors de l’analyse thématique. Également, avant chaque analyse de corpus, nous avons choisi ce que le logiciel nomme « les clés d’analyse ». Il s’agit de la distinction entre les formes dites « pleines » ou

« actives » et des formes identifiées comme « supplémentaires ». En effet, la plupart des analyses réalisées par IRaMuTeQ différencient ces deux types de formes. C’est pourquoi nous avons la possibilité de choisir quelle classe grammaticale (adjectif, conjonction, etc.) est active ou supplémentaire. Dans le cadre de cette recherche, les formes actives sont, par exemple, les adjectifs, les adverbes, les noms et les verbes.

Une fois le corpus indexé, différentes analyses textuelles ont été effectuées pour analyser nos deux questions ouvertes (Guérin-Pace, 1997). Nous précisons que, pour chacune des analyses, IRaMuTeQ a créé un répertoire qu’il insère dans le dossier conçu lors de l’ouverture du corpus. Nous avons réalisé quatre types

d’analyse. Le choix de ces analyses repose sur les spécificités de celles-ci en relation avec le cadre de référence et l’analyse thématique mise en place par la suite.

Dans un premier temps des statistiques simples, comme les effectifs de toutes les formes, des formes actives et supplémentaires et des hapax (nombre de mots n’apparaissant qu’une seule fois dans tout le corpus), ont été réalisées. Ces effectifs peuvent être représentés par des nuages de mots ; cependant, nous avons fait le choix de les insérer dans un tableau, afin de mettre en évidence à la fois les mots les plus utilisés et les moins usités dans le discours des enseignants. Ce premier niveau d’analyse a permis, notamment, de faire ressortir les termes sur-employés par les enseignants pour définir les DIS. Dans un deuxième temps, nous avons effectué des analyses de similitudes à partir des cooccurrences. Les résultats ont été visualisés sur un graphique (graphique des similitudes). Un dernier type d’analyse est réalisé. Il s’agit d’une classification hiérarchique descendante selon la méthode décrite par Reinert (1983). Le logiciel fractionne de façon successive le texte et en extrait des classes de mots représentatives. Plus précisément, il est fondé sur une analyse statistique distributionnelle. Les mécanismes qu’il met en œuvre sont indépendants du sens : IRaMuTeQ classe les « phrases » du corpus (dénommées « regroupement de segments de texte » ou « RST ») en fonction de la distribution du vocabulaire présent dans ces unités de RST. Le logiciel repère le vocabulaire dans les différents regroupements et les met en relation. Autrement dit, il relie les regroupements qui ont des mots communs. En procédant à des regroupements de formes, IRaMuTeQ restitue le corpus en classes qui dégagent des sortes de « vision du monde ». Nous avons interprété ces classes de mots en fonction de notre premier objectif spécifique de recherche et en utilisant la liste des mots les plus significatifs fournie par le logiciel. Par ailleurs, le Chi-deux permet de déterminer la forte ou la faible appartenance d’un mot à une classe, et de mettre ainsi en évidence les termes les plus représentatifs d’une classe donnée. Les résultats disponibles pour cette analyse sont essentiellement donnés sous la forme de dendrogrammes, figures qui visualisent les liens que les formes d’une même classe entretiennent entre elles. Cette dernière analyse a esquissé les différentes

définitions et finalités des DIS déclarées par les enseignants. Nous rappelons que l’ensemble de ces analyses que nous qualifions d’exploratoire a été complété par une analyse thématique.

Nous avons utilisé la statistique textuelle, pour notre recherche, comme un outil exploratoire. IRaMuTeQ permet de réaliser des analyses textuelles sur un volume important de textes. Ces analyses sont davantage reproductibles et non linéaires, comparées à des analyses effectuées manuellement. De plus, bien cela soit discutable,

le traitement de l’information recueillie par les méthodes de la statistique textuelle présente un avantage indéniable qui consiste à traiter les réponses aux questions ouvertes telles qu’elles ont été recueillies, sans modification du texte. On évite ainsi les biais induits par l’étape de post-codification thématique. (Guérin-Pace, 1997, p. 4)

En effet, la mise en place d’un code est déjà l’aboutissement d’un jugement basé sur l’analyse des réponses (Achard, 1991). L’approche lexicale, bien que n’étant pas totalement garantie (Marchand, 1998), apporte une certaine objectivité à l’analyse textuelle.

L’utilisation de la lexicométrie en première intention se justifie également par notre corpus, et plus précisément par la forme des réponses apportées par les répondants aux deux questions ouvertes. Les enseignants, certainement orientés par la formulation de la consigne (« donnez une courte définition ») ont pour la plupart rédigé des réponses très courtes sous forme de suite de mots, sans constituer de phrase. Par conséquent, une première approche par une analyse de fréquence des occurrences et des cooccurrences est ici intéressante.

Extrait du corpus correspondant à la question ouverte sur les raisons de faire mettre en œuvre des démarches d’investigation scientifique.

« Éveiller la curiosité, la motivation »

De plus, IRaMuTeQ comme d’autres logiciels de lexicométrie, met en évidence les fréquences des termes peu, voire rarement employés par les répondants. Cela permet de ne pas ignorer des résultats pouvant alimenter l’ensemble de l’analyse du corpus : « Les réponses rares sont souvent écartées alors qu'elles peuvent s'attacher à des populations caractéristiques peu nombreuses, et présenter un grand intérêt lorsque l'on considère l'ensemble du corpus » (Guérin-Pace, 1997, p. 4).

Cependant, il nous faut tenir compte d’un certain nombre de limites concernant cette méthode d’analyse purement statistique. En effet, de façon générale, chaque étape de construction d’une analyse statistique comme la lexicométrie pose des problèmes spécifiques. Il ne faut pas oublier que, malgré une grande fiabilité des résultats proposés, ces derniers ne sont pas neutres sur le plan des méthodes. Celles-ci impliquent une certaine vision du texte, considéré comme un « sac de mots » (Lebart et Salem, 1994, p. 146), négligeant sa syntaxe et son organisation propre. De plus, le continu des discours doit être transformé en discontinu en créant des unités discrètes comptabilisables. Le choix de ces unités implique des options quant à la segmentation du texte. Par exemple, la lemmatisation, en regroupant sous une même forme les différentes flexions des occurrences, génère des problèmes d’ambiguïté parfois difficiles à résoudre, mais aussi des non-sens d’un point de vue linguistique : utiliser un terme au singulier peut ne pas être la même chose que de l’utiliser au pluriel (exemple : problème ou problèmes). La lemmatisation a bien sûr une forte incidence sur les décomptes lexicométriques. Ensuite, IRaMuTeQ ne prend pas le sens en compte. Une partie importante de l’analyse textuelle n’est donc pas réalisée avec cette méthode. Cela implique également que la lexicométrie ne peut bien évidemment pas départager les textes dans lesquels une forme est utilisée au sens propre et ceux dans lesquels elle prend un sens métaphorique.

L’ensemble de ce qui vient d’être énoncé a orienté notre choix méthodologique vers une double analyse lexicale et thématique (la procédure d’analyse thématique est présentée dans la section qui suit). Les deux approches sont perçues ici comme étant complémentaires (Larose et Lenoir, 1998 ; Larose, 1999 ; Hasni, 2001). L’analyse lexicale permet par son approche exploratoire d’apporter des premiers résultats dont nous tenons compte pour la construction de la grille d’analyse thématique utilisée par la suite. L’analyse thématique remet les mots en contexte de façon à leur redonner leur sens.

4.2 La procédure de traitement des données issues des questions ouvertes

Dans le document Étude de l’articulation des démarches d’investigation scientifique avec les autres savoirs composant la structure disciplinaire « Cas d’enseignants de sciences de la vie et de la Terre exerçant en collège français » (Page 178-186)