• Aucun résultat trouvé

Résultats empiriques –

1. Questions de recherche et préparation du questionnaire – méthodologie questionnaire – méthodologie questionnaire – méthodologie

1.1 Questions de recherche

1.2.3 Méthodes d'analyse

1.2.3.4 Classification des concepts en champs lexicaux

En-dehors de ces quelques outils statistiques, la principale analyse qui a été effectuée est cependant la catégorisation lexicale des mots issus de cette recherche. Cette classification devait non

seulement contribuer à répondre à la question de recherche principale, mais permettre un raffinement de la compréhension de ces données par un axe sémantique. Il s'agit par là d'une approche relativement innovante.

Pour cela, la tâche a été de classifier tous les éléments évoqués par les participants en catégories.

Ces catégories s'apparentent fortement à des champs lexicaux, puisqu'il s'agit bel et bien de lier entre eux "un ensemble de termes lexicaux entretenant entre eux certaines relations sémantiques"

(selon la définition de Fuchs 2007), raison pour laquelle je me permets parfois d'utiliser un terme ou un autre (et m'en tiendrai à ces deux afin d'éviter de tomber dans des débats lexicographiques mêlant les notions de champs conceptuels, lexicaux et sémantiques). La classification utilisée pour catégoriser les productions des participants devait permettre de dessiner les traits sémantiques des représentations évoquées et également de comprendre la structuration des informations propres à chaque groupe d'individus, touchant donc autant aux questions d'information que de champ de représentation de Moscovici (voir page 49 pour la discussion).

Cette méthode d'analyse consistant à examiner non pas uniquement la fréquence des termes bruts mais la nature des concepts évoqués dans une tâche d'association lexicale n'est d'ailleurs pas nouvelle (voir notamment UNESCO 1995, Muller 1998, Araujo E Sá et Schmid 2008…), mais elle s'éloigne quelque peu des façons de faire plus systématiques que l'on peut trouver dans le

domaine de la psychologie sociale. En effet, puisqu'elle fonde une analyse sur une interprétation des données elles-mêmes, plutôt que d'interpréter les analyses de données (je l'accorde, la nuance est subtile…), on peut lui reprocher de n'être pas assez systématique et de laisser une place trop importante à la subjectivité et aux représentations mêmes des chercheurs plutôt que de faire reposer les conclusions sur des faits objectivement analysés tels qu'ils peuvent être suivant les méthodes traditionnelles relevant plus souvent du quantitatif. Il est vrai que cette démarche témoigne d'une perspective presque qualitative, laissant de la place à ce qui peut émerger des données, et servant plus à faire ressortir les représentations à partir des données plutôt qu'à tester des hypothèses prédéfinies. Le choix de cette approche s'est cependant révélé pertinent et justifié à plusieurs égards:

Tout d'abord, la tâche d'association lexicale libre telle que je l'ai utilisée est une forme de récolte de données ouverte qui donne lieu à des résultats très hétérogènes. Comme nous le verrons, sur les presque 2200 termes évoqués, plus de 860 étaient des concepts différents. Des résultats aussi nombreux et dissemblables sont souvent considérés comme étant difficiles à traiter dans une analyse quantitative et "peu stables" (voir notamment les conclusions de Rosenberg et Sedlack 1972). N'étant moi-même de loin pas aussi familière avec les analyses quantitatives que ces chercheurs et les autres mentionnés, il ne me semblait pas opportun pour ce travail de me lancer

𝑁(𝐵|𝐴) =𝑁(𝐴 ∩ 𝐵) 𝑁(𝐴)

Occurrences conditionnelles: Soient A et B deux termes évoqués, N(A) le nombre d'occurrences du terme A (nombre de personnes ayant cité A), N(A∩B) le nombre de personnes ayant cité les deux (nombre de cooccurrences des termes A et B), et N(B|A) la proportion des personnes ayant cité A qui ont aussi cité B:

Ce résultat est donc asymétrique entre A et B. (la proportion de participants ayant cité A qui ont aussi cité B n'est pas égale au nombre de participants ayant cité B qui ont aussi cité A) et varie entre 0 et 100% (0 et 1.0).

dans des méthodes d'investigation trop complexes ou qui ne me paraîtraient pas pouvoir fournir des résultats satisfaisants.

Par ailleurs, dans la plupart des recherches utilisant cette approche, le travail "en amont" effectué en vue d'une analyse quantitative (telle qu'une analyse factorielle, ou hiérarchique) consiste souvent à regrouper les items semblables (lexèmes, pluriels/singuliers, formes féminines/masculines, comme je l'ai fait plus haut), voire à procéder à de réels regroupement sémantiques (associant par exemple des termes sémantiquement liés). De Giacomo (1986), Le Bouedec (1984), ou plus récemment Callaghan et al. (2012) ou encore Moloney et al. (2014) ont tous eu recours à ces outils de simplification, de systématisation des données. Même s'il me semble d'un certain côté en effet intéressant de ne considérer que les traits sémantiques sur lesquels les participants se rejoignent le plus et de réduire par analogie le nombre de données à traiter, cette façon de faire me semble laisser de côté un volet entier et pourtant très intéressant de ce qui est évoqué. En effet, un participant qui pour le mot "langue", évoque "l'entente" n'évoque pas forcément le fait, par exemple, "d'entendre".

De même, un participant qui pense au mot "étranger" – adjectif ou nom – pour une langue ne pense pas forcément de la même façon que celui qui associe celui d'"étrangère". Le fait que plusieurs mots sont polysémiques et font parfois référence, pour les participants, à des représentations diverses de la Langue (ou de tout objet de représentation, cela étant dit) se retrouve à mon sens perdu au fil des simplifications et empêche de prendre en compte que même si toute représentation se centre autour d'une composante sociale, elle n'en est pas moins variable d'un individu à l'autre, aspect qui se retrouve à mon avis perdu en n'interprétant chaque terme évoqué que d'une seule façon. Nous aurons l'occasion de rediscuter de cette marge interprétative dans le chapitre 8 (voir page 369).

De plus, les recherches plus traditionnelles se concentrent en général pour les analyses non seulement sur les concepts sous leur forme "nettoyée", regroupée par lexèmes par exemple, mais souvent uniquement sur les éléments les plus souvent cités, ne considérant que ceux qui dépassent ce que Sarrica et Wachelke définissent comme le "cut-off point for the evocation rank criterion"

(2010: 320) – et encore cette limite n'est pas systématiquement définie. Cette façon de couper dans les données, qui selon les auteurs cités se concentre sur la composante "sociale", partagée, de la représentation, permet peut-être d'aller plus rapidement au cœur du problème mais elle laisse encore une fois de côté l'apport sémantique des concepts, même idiosyncratiques, qui sont évoqués.

Le fait que les éléments qui ne sont cités qu'une fois par l'un ou l'autre des participants sont souvent exclus des interprétations peut peut-être en effet mettre en évidence les éléments centraux en laissant la part individuelle liée à l'expérience personnelle des participants de côté, mais il a été pris pour hypothèse ici que ces éléments isolés ne sont parfois pas dénués de sens (et ce, même s'ils ne sont cités qu'une fois!) et qu'ils peuvent aussi contribuer à une analyse sémantique plus globale.

Prenons un exemple: si, en réponse au stimulus "soleil", le participant A a cité – entre autres –

"crème", le participant B "douleur", le participant C "bobo" et le participant D "brûler", et qu'ils sont les seuls à avoir produit ces mots-là au milieu de termes plus fréquents tels que "plage", "vacances"

ou "été", peut-on réellement se permettre de ne pas en tenir compte? Ne pourrait-on pas dégager un trait de représentation de ces productions pourtant particulières? On remarque en effet assez vite que tous font référence aux problèmes médicaux posés par l'exposition au soleil, mais cette

interprétation ne pourrait se faire sur une base numérique, la proportion de chacun de ces mots étant trop faible par rapport aux autres.

Le fait de grouper les termes produits en fonction de champs lexicaux – y compris les moins

fréquemment cités – et de comparer ensuite ces catégories est donc pour moi une façon de pouvoir

tenir compte de cette variété et de considérer également les éléments peu cités tout en analysant des productions de groupes de participants.

1.2.3.4.1 Définition des champs lexicaux

L'une des parties fastidieuses de ce travail a dans un premier temps été de définir les différents champs lexicaux dans lesquels les concepts pouvaient être classifiés, puis de procéder à la

classification elle-même. Comme tout codage de données qualitatives, plusieurs critères s'appliquent à la définition de ces catégories (voir Berelson 1952):

 un critère d'homogénéité, visant à ce que les catégories "regroupe[nt] les idées des enquêtés en éléments de signification semblables et ne fonctionne que sur une seule dimension" (Andreani & Conchon 2005: 4)

 un critère d'exhaustivité faisant en sorte que les catégories prévues couvrent un maximum des termes produits

 un critère d'objectivité que j'aurai l'occasion de détailler plus tard, qui vise à faire en sorte que le codage soient le moins possible liées à une subjectivité du chercheur.

 un critère de pertinence qui pousse à faire en sorte que chaque terme soit adéquatement classé, ce qui est rendu possible par une discussion du groupe de travail.

A ces critères s'ajoute souvent celui de l'exclusivité qui définit que chaque item doit être codé dans une et une seule catégorie. Même si cette option simplifie probablement le travail d'analyse, elle tombe selon moi exactement dans le biais d'homogénéisation que je mentionnais ci-dessus. Il ne me paraît en effet pas concevable, surtout dans une tâche d'association lexicale qui vise à examiner des représentations individuelles et qui doit pouvoir rendre compte d'une diversité, de partir du principe que tous les mots n'ont qu'une et une seule signification, et ne peuvent être classés que dans un et un seul champ lexical. Laisser l'option d'attribuer un même concept à plusieurs champs lexicaux me paraissait donc bien plus adéquat, et me permettait d'ailleurs (comme nous le verrons plus tard) de mesurer non seulement les productions des participants mais également les similitudes (ou

dissimilitudes) entre les champs lexicaux eux-mêmes, ce qui s'est révélé être fascinant.

Les catégories ont finalement été définies non seulement en fonction des questions de recherche et des domaines que ces derniers mettent en avant, mais également suite à une première observation du dictionnaire global produit par les participants et des premières analyses de fréquences, aussi en regard de tout ce que nous avons parcouru jusqu'ici. Ceci me permettait, comme le soulignent également De Pietro et al. dans le rapport de l'UNESCO (1995: 11), de ne pas me baser uniquement sur mes propres représentations mais également sur celles des participants. Même si dans leur enquête, les chercheurs de l'UNESCO ont défini leurs champs lexicaux au cours de leur phase pilote, j'ai pour ma part préféré concentrer la phase de test – menée sur un panel de 12 enseignants de français – uniquement sur les aspects techniques plutôt que sur la définition même de ces champs, que je voulais au plus proche des productions réelles des participants de l'enquête "finale".

1.2.3.4.2 Catégorisation des éléments

Une fois ces champs définis, il reste dans la tâche de classification le plus gros du travail – celui de catégorisation des différents items. Pour cela, et ce afin d'essayer d'avoir le plus d'objectivité possible, un groupe de travail a été constitué. Chacun des quatre membres avait donc pour tâche, pour chacun des termes, de définir s'il pouvait faire partie d'un des champs lexicaux définis ou non.

Ces catégorisations pouvaient ensuite mener à la formation des catégories:

 Si les quatre membres du groupe ont attribué un mot à une catégorie, le lien lexical a été considéré comme "fort" et le mot placé dans la catégorie.

 Si trois des quatre membres du groupe ont attribué un mot à une catégorie, le lien lexical a été considéré comme "bon" et le mot placé dans la catégorie.

 Si deux des quatre membres du groupe ont jugé un terme comme appartenant à une catégorie, le lien a été considéré comme "discutable", et la décision reportée.

 Si aucun ou un seul membre sur les quatre a déterminé qu'un terme devait faire partie d'une certaine catégorie, le rapport était considérée comme "faible" et le terme n'a pas été attribué à la catégorie.

Afin d'optimiser la classification, une réunion de tous les membres du groupe de travail après la classification individuelle a permis de parcourir chacun des termes et des catégories ayant été attribués par deux des quatre membres, ainsi que de faire émerger plusieurs attributions

"systématiques" (par exemple celle de regrouper dans la catégorisation les adjectifs, ou les noms de pays). Cette réunion a été l'occasion non seulement de se prononcer sur l'attribution finale (ou non) du concept ou du mot évoqué à l'une ou l'autre des catégories, mais aussi de faire émerger les interprétations diverses qui pouvaient surgir à l'évocation d'un concept ou d'un autre.

Encore une fois, cette façon de procéder s'éloigne quelque peu des analyses quantitatives dont il est souvent question dans des analyses lexicales, puisqu'elle implique – à plusieurs stades et de façon plus ou moins forte – les jugements du chercheur ou d'un groupe de chercheurs dans l'interprétation des résultats. L'analyse par champs lexicaux n'offre donc pas des résultats aussi rigoureux que pourraient le faire des analyses plus proches d'une quantification stricte données, mais compte tenu des biais évoqués plus haut et des apports possibles d'une telle perspective, il m'a paru intéressant d'aborder les concepts produits sous cet angle, sans pour autant sous-estimer les améliorations que l'on pourrait y apporter.