• Aucun résultat trouvé

Alceste et l’analyse lexicométrique

L’analyse lexicométrique a donc été faite en ayant recours au logiciel Alceste.

Celui-ci, de plus en plus fréquemment utilisé dans des travaux de recherche en sciences sociales, fait en quelque sorte partie de la culture méthodique et de la réflexion méthodologique d’un nombre conséquent de chercheurs22.

21 Nous avons déjà eu l’occasion de développer ce point dans « Subjectivité et analyse de contenu », in L’analyse de contenu : premiers éléments de réflexion, Crédoc, Cahier de Recherche N°6, Déc. 1990 ; L’analyse propositionnelle du discours; Crédoc, Cahier de Recherche N°15 ; mai 1991 ; L’analyse des relations par opposition, Crédoc, Cahier de Recherche N°31, avril 1992. Nous y reviendrons ultérieurement.

22 Pour notre part, nous avons déjà eu l’occasion d’utiliser la version 3.0 du logiciel pour une étude du Crédoc, voir Michel Messu, 2002, Les « solidarités familiales » dans les travaux du Crédoc, Cahier de Recherche N°174.

A l’Iresco, le groupe de réflexion sur l’analyse lexicale a présenté plusieurs résultats tirés de l’application du

Max Reinert, le concepteur du logiciel, présente ainsi sa démarche méthodologique. « La méthodologie Alceste entre dans le cadre général des recherches en analyse des données linguistiques (Benzécri, 1981 ; Lebart, Salem, 1989) et consiste principalement en l’étude des lois de distribution du vocabulaire dans un corpus. De ce point de vue, comme le remarque d’ailleurs J. P. Benzécri, cette approche peut être considérée comme dérivée de l’approche distributionnelle de Z. S. Harris, au moins dans son objectif général puisqu’il s’agit non pas de chercher le sens d’un texte mais d’en déterminer comment sont organisés les éléments qui le constituent. Selon Harris, cité par Benzécri, par distribution d’un élément, il faut entendre l’ensemble de ses environnements possibles. (...) L’approche proposée se différencie principalement par la définition de ces éléments. Nous faisons de l’énoncé l’unité de base de nos investigations. On entend généralement par énoncé, la plus petite partie d’un discours où un sujet psychique exprime quelque chose à quelqu’un sur le

“monde” (ou un “monde”) et le reconnaît comme tel. » 23 Non le sens d’un texte, mais l’organisation de ses énoncés, propose Max Reinert. Voilà donc ce qui peut nous être des plus utiles pour appréhender les contextes théoriques d’énonciation de notre objet d’étude. Même s’il nous faudra encore procéder à l’interprétation du sens à donner à chacun de ces contextes théoriques d’énonciation. Ce qui reste, à notre sens, l’objectif premier d’une recherche théorique.

Sans revenir plus avant sur la présentation générale du logiciel24, rappelons seulement, et pour la clarté du propos, que ce logiciel procède, comme l’indique le développement de l’acronyme25, à une analyse lexicale contextualisée. Celle-ci s’effectue par découpage du texte du corpus. Autrement dit, le corpus est préparé sous forme d’énoncés relativement réduits, appelés « unités de contexte initiales » (UCI). Ces dernières sont ensuite découpées, par le logiciel, en « unités de contexte élémentaires » (UCE). Quelques règles de transcription auront été appliquées pour constituer le corpus de texte à traiter. Ainsi, les accents, les traits d’union, auront été supprimés ; le signe “_”, qui est considéré comme une lettre, est utilisé pour réunir en une même forme lexicale un mot composé ou une expression

logiciel. Yves Lochard l’a utilisé au sein du Grass pour des travaux portant sur la presse, Laurent Ortalda y a eu recours pour l’enquête de l’Ined : « proches et parents »… bref, son usage est loin d’être seulement confidentiel.

23 Max Reinert, 1992, Notice du logiciel Alceste. Version 2.0. Septembre 1992.

24 Voir notamment, Max Reinert, 1990, « Alceste, une méthode d’analyse des données textuelles. Application au texte “Aurélia” de Gérard de Nerval », Bulletin de Méthodologie sociologique, N° 26.

25 ALCESTE = Analyse Lexicale par Contexte d’un Ensemble de Segments de Texte.

consacrée du langage ordinaire. Alceste possède un dictionnaire des locutions pré-établi susceptible de reconnaître un grand nombre de locutions de la langue française. Toutefois celui-ci peut être complété par l’utilisateur.

La première étape que va effectuer le logiciel Alceste à partir du corpus ainsi constitué consiste à lemmatiser les formes linguistiques présentes. Sachant que ce ne sont pas les « mots » du langage courant qui sont reconnus et retenus pour l’analyse, mais des « formes graphiques simples », c’est-à-dire l’ensemble des occurrences formées strictement des mêmes caractères non délimitateurs —généralement un ensemble de lettres séparées par un délimitateur comme un espace ou un signe de ponctuation. La lemmatisation consiste à regrouper les différentes « formes graphiques » du corpus qui peuvent être associées à une même « racine ». Autrement dit, pour être réduite à sa « racine », la « forme graphique » doit comporter et ladite racine et une désinence recevable par le logiciel. Ainsi, psychose, psychologique, psychosociologie, psychosociologique, psychotropes seront ramenés à la forme réduite « psycho< » ; grand, grande, grandes, grands seront ramenés à la forme réduite

« grand+ » ; peut, peuvent, pouvait seront ramenés à la forme réduite « pouvoir. ». Alceste procède ainsi à différents types de réduction.

Pour ce faire Alceste utilise un algorithme qui permet de reconnaître, grâce à un dictionnaire des racines, les racines des verbes irréguliers et des « mots-outils ». Sont considérés comme mots-outils : les articles, les pronoms, les auxiliaires être et avoir, certaines locutions et les chiffres romains.

La reconnaissance des mots-outils et la lemmatisation effectuées, Alceste dispose d’une liste de « mots pleins » qu’il utilisera pour l’analyse. Cette liste forme le « dico », fichier sur lequel on peut intervenir pour corriger d’éventuelles aberrations de lemmatisation.

On obtient à la fin de cette étape un dictionnaire des formes réduites contenues dans le corpus qui va permettre de réaliser les étapes ultérieures du logiciel, à savoir une « classification descendante hiérarchique » présentée comme une « procédure d’aide à l’interprétation des classes ».

La méthode de classification utilisée par Alceste est la classification descendante hiérarchique. Celle-ci permet d’obtenir une hiérarchie de classes emboîtées les unes dans les autres. La méthode adoptée se révèle plus stable que la classification ascendante hiérarchique utilisée par d’autres logiciels, et qui, appliquée au langage naturel, est très sensible aux

artefacts de méthode26. La classification descendante hiérarchique permet d’évacuer les noyaux artefactuels qui provoquent des instabilités dans la constitution des classes. La première classe analysée comprend toutes les unités de contexte. C’est une procédure itérative et, à chaque étape, on va chercher la meilleure bipartition de la plus grande des classes restantes.

Le logiciel procède selon trois étapes :

- la recherche du premier facteur de l’AFC du tableau, en général très grand (4000 lignes par 1400 colonnes maximum) et très creux (très forte proportion de “zéros”) ; - la recherche de l’hyperplan perpendiculaire au premier axe maximisant l’inertie inter-classes des deux nuages ainsi différenciés (cette inertie étant, à un coefficient près, égale au Chi2 du tableau des marges) ;

- choix de la plus grande des classes restantes par amélioration de la partition obtenue à l’aide d’un algorithme d’échange et réitération.

Cette méthode revient donc à calculer les distances entre les différentes UCE définies dans l’étape précédente, puis, en fonction de ce calcul, à segmenter le corpus en groupes homogènes d’UCE distincts les uns des autres. La distance utilisée est fournie par le lexique. Deux UCE sont d’autant plus proches qu’elles contiennent de nombreux mots identiques.

Alceste, toutefois, n’effectue pas une classification exhaustive des UCE. Il crée une classe résiduelle d’UCE qui n’appartiennent à aucune autre classe. Dans nos différentes analyses, entre 60 et 70% d’UCE ont été classées.

La dernière étape consiste en la présentation des classes ainsi obtenues. Pour ce faire Alceste propose un certain nombre de fichiers types. Parmi ceux-ci on peut trouver : - la liste du vocabulaire spécifique de chaque classe. Sont retenus les mots lemmatisés satisfaisant à un critère d’appartenance à la classe (Chi2 à un degré de liberté supérieur à 2.7);

- la liste des mots-outils spécifiques de la classe ;

26 Voir Valérie Beaudouin et Saadi Lahlou, 1993, L’analyse lexicale : outil d’exploration des représentations, Crédoc, Cahier de Recherche N°48.

- la liste des réponses les plus caractéristiques de chaque classe ; - la liste des couples caractéristiques ;

- etc.

Alceste fourni encore le dendogramme des classes stables. Mais, soulignons-le encore, Alceste ne donne pas le sens qu’il convient d’accorder au discours qu’il analyse. Il nous reviendra de la faire dans les pages qui vont suivre.