Méthodologie d’analyse - Les questionnaires

5.2 Les questionnaires

5.2.3 Méthodologie d’analyse

Le traitement statistique des enquêtes a été réalisé à l’aide du logiciel multi-plateformes R, distribué gratuitement par le CRAN (Compréhensive R Archive Network) à l’adresse suivante http://cran.r-project.org/. Ce logiciel de statistique permet notamment le stockage et la gestion des données. Il propose une collection intégrée d’outils d’analyse 7. Les données peuvent être récupérées sous forme de tableaux de données dans différents formats (.xls, .odt, .csv).

8. De janvier à mars 2010

9. Par exemple, par opposition à des plans d’échantillonnage basés sur la méthode des quotas, des grappes ou encore des strates.

statistique et un large éventail d’outils graphiques. En particulier, le package FactoMineR de R, développé par F. Husson, J. Josse, S. Lê et J. Mazet, a contribué à l’analyse exploratoire multidimensionnelle des données.

Traitement des non-réponses, des modalités rares et des questions ouvertes

Afin de préparer les données recueillies à l’analyse statistique, nous avons opéré un premier traitement sur ces dernières que nous détaillons ici pour le questionnaire adressé aux non utilisateurs. Le second questionnaire a fait l’objet d’un traitement similaire.

Nous avons, dans un premier temps, écarté de l’analyse les individus ayant répondu à moins de 70% des questions posées, ce qui correspond à 10 individus.

Concernant les données manquantes, différentes stratégies étaient envisageables10_{et notam-}

ment deux : d’une part, supprimer les individus pour lesquels les valeurs sont manquantes et analyser les variables sur la population renseignée, avec le risque que l’analyse en question perde de son intérêt, notamment dans le cas de non-réponses effectives nombreuses, d’autre part, imputer une valeur là où les réponses sont manquantes, la question étant alors de savoir laquelle. Pour cela, il est possible de mettre en oeuvre une méthode basée sur les deux faits suivants : considérons deux variables x ety étroitement corrélées lorsque l’on prend en compte les individus complets pour elles deux. En présence d’une non réponse pour un individu i sur une modalité de y, il est possible d’estimer cette donnée manquante à partir de la valeur de x sur ce même individu. Aussi, dans le cas de deux individus i et j dont toutes les valeurs sont proches, en l’absence de valeur de j pour une variable k, il est possible de l’estimer par la valeur de i pour cette même variable k.

Le tableau ci-dessous résume le taux de non-réponses partielles aux différentes variables du questionnaire des non utilisateurs. Parce que le taux de non-réponses est globalement faible

Table 5.3 – Taux de non réponses - questionnaire non utilisateurs Codes des variables Non réponses Taux de non réponses

ANC 1 0,3% FORM 1 0,3% TUIC 1 0,3% RAIS 27 8,9% UT 3 1% REV 0 0% TN 1 0,3% LABEL 2 0,6% PROJ 1 0,3% COND 106 35%

10. Une autre voie consiste à rechercher les raisons et mécanismes des non-réponses mais cette stratégie ne présente pour notre étude que peu d’intérêt.

et que la seule variable, dont la contribution aux non réponses est élevée, est considérée comme variable supplémentaire11 _{dans le traitement statistique principal, nous avons re-}

tenu la seconde stratégie. Cette dernière a été mise en oeuvre à l’aide du package missMDA développé par F. Husson et J. Josse.

Concernant les modalités rares, le résumé du jeu de données incite à regrouper certaines modalités de la variable RAIS entre elles du fait de leur faible effectif, ceci pour éviter que ces modalités n’influencent trop l’analyse. A la question "Pourquoi n’utilisez-vous de TBI dans votre enseignement ?", un enseignant a répondu à la fois qu’il n’y en avait pas dans l’établissement et que les difficultés d’accès à l’outil étaient rédhibitoires. Sans trahir com- plètement la pensée de ce répondant, nous avons regroupé cette modalité avec "il n’y a pas de TBI dans l’établissement". De même, cinq personnes ont répondu simultanément que leur établissement disposait de TBI mais pas pour les mathématiques et que les difficultés d’accès étaient rédhibitoires. Nous avons regroupé cette modalité avec la réponse : "il y en a dans mon établissement mais pas pour les mathématiques".

Concernant l’exploitation de l’information issue de l’unique question ouverte du questionnaire (COND), nous avons déjà indiqué qu’au regard des non-réponses, cette variable a été traitée comme supplémentaire dans les différents traitements opérés. Nous avons cependant exploité cette information de la façon suivante : les différents mots utilisés par les répondants ont été regroupés en fonction de leur signification.

L’intérêt principal du traitement de cette variable réside dans le fait de pouvoir mettre en relation le texte et les autres variables qualitatives de l’étude, afin de rendre plus efficace la qualité explicative des résultats. En outre, les résultats de l’analyse textuelle nous a permis de formuler certaines hypothèses de lecture des données et d’illustrer certaines relations entre variables qui n’étaient pas évidentes.

Choix de l’analyse

L’objectif de notre étude est de résumer un tableau de données dans lequel des individus sont décrits par des variables qualitatives, ce que permet l’analyse des correspondances multiples (ACM). L’ACM permet l’étude des ressemblances entre les individus du point de vue de l’ensemble des variables et ainsi la mise à jour de profils d’individus. Elle permet également de faire un bilan des liaisons entre variables et d’étudier les associations de mo- dalités. Enfin, les individus peuvent être caractérisés par les modalités des variables.

Explication heuristique de l’Analyse des Correspondances Multiples

Les données issues des questionnaires sont susceptibles d’être étudiées à partir des individus, des variables et des modalités. Ces objets, de nature différente, conduisent à déployer des raisonnement sensiblement différents et que nous mettons en oeuvre dans le traitement des données.

L’étude des individus consiste à dresser une typologie des individus en recherchant les ressemblances du point de vue de l’ensemble des variables. Il s’agit dès lors de se munir d’une distance qui permette d’évaluer la proximité de deux individus. Un premier choix, qui consis- terait en la comparaison de la présence-absence des modalités choisies par les individus, permettrait de rendre compte des deux cas de figures suivants : - si deux individus prennent les mêmes modalités, la distance qui les sépare doit être nulle - si deux individus ont en commun un grand nombre de modalités, ces individus doivent être proches.

Cependant, sur cette seule base, la distance entre deux individus dépendrait exclusivement de leurs caractéristiques et pas de celles des autres individus. Cette prise en compte des autres individus dans le calcul de cette distance est d’importance dès lors que l’on souhaite prendre en compte plus finement les spécificités communes des individus. En particulier, si deux individus ont en commun un grand nombre de modalités sauf une qui est prise par un des individus et rarement par l’ensemble des autres, la distance choisie doit permette de les éloigner afin de prendre en compte la spécificité d’un des deux. De la même manière, si deux individus ont en commun une modalité rare, il s’agira de les rapprocher quelles que soient leurs différences par ailleurs afin de prendre en compte leur spécificité commune. Ces différents cas de figures permettent ainsi de constater qu’il est nécessaire dans le choix de la distance, de comparer les individus modalité par modalité en veillant à prendre en compte la rareté ou le caractère général de la modalité.

Concernant l’étude des variables et des modalités, il s’agit de dresser un bilan des liaisons entre les différentes variables. Parce que l’information portée par une variable peut être étu- diée au niveau des modalités, l’ACM se focalise en particulier sur l’étude des modalités, une modalité représentant à la fois une variable et un groupe d’individus12. La distance définie sur les modalités doit permette de rendre compte que deux modalités k et k′_{, représentant}

chacune un groupe d’individus, sont d’autant plus éloignées qu’elles ont peu d’individus en commun, autrement dit que le nombre d’individus prenant soit la modalité k, soit la moda- lité k′ _{est grand. (on note ce nombre I(k 6= k}′_{) par la suite)}

Une pondération de cette distance par l’effectif de chaque modalité est cependant néces- saire comme le montre le cas suivant : considérons trois modalités k, k′ _{et k}′′ _{représentant}

respectivement 10, 100 et 100 individus. Supposons que les modalités k et k′ n’aient aucun individu en commun, et que les modalités k′ _{et k}′′_{aient 45 individus en commun. On a alors}

I_{(k 6= k}′) = 110 et I(k′ _{6= k}′′_{) = 55 × 2 = 110. Pourtant, k et k}′ _{ont 0% d’individus en}

commun, alors que k′ _{et k}′′_{ont 45% d’individus en commun. La prise en compte de l’effectif}

de chaque modalité doit permettre de plus éloigner les modalités k et k′ que les modalités k′ _{et k}′′_.

Classification hiérarchique et ACM

Le fait de disposer de plusieurs points de vue ne peut que renforcer la solidité des conclusions

dans une analyse statistique exploratoire. La méthode d’analyse des correspondances multiples fournit principalement des représentations synthétiques des individus, des variables ou encore des modalités. Le mode de représentation privilégié de ces objets est le nuage de points évoluant dans un espace euclidien, dans lequel les distances entre points s’interprètent en termes de ressemblances pour les individus et les modalités, en terme de corrélation pour les variables.

Un des objectifs de l’analyse est de proposer une classification des enseignants en différentes classes correspondants à des profils distincts.Un autre mode de représentation, plus intuitif que celui proposé par l’ACM et qui met en évidence les parentés est l’arbre hiérarchique, nous le mettons en oeuvre dans la construction des profils.

Analyse hiérarchique et analyse des correspondances multiples s’inscrivent dans une même perspective. Ces deux approches opèrent sur le même jeu de données (un tableau individus x variables) et utilisent la même distance euclidienne entre individus. L’idée de combiner ces deux approches permet ainsi d’obtenir une méthodologie riche.

Cette brève présentation heuristique pourra être complétée par la lecture, en annexe E, d’un complément sur le calcul des distances entre individus et entre modalités en ACM ainsi que sur la méthode de classification retenue.

Dans le document Le tableau blanc interactif, un outil pour la classe de mathématiques ? (Page 175-179)