• Aucun résultat trouvé

De la connaissance des représentations

4. Traiter puis analyser les données textuelles

4.1. Trier et classer les données en fonction des objectifs

Nous avons appliqué divers traitements à ces tapuscrits afin de trier et classer les données selon différentes méthodes. Nous avons dans un premier temps, répertorié les éléments de réponses en fonction des objectifs que nous avions fixés précédemment, objectifs spécifiques aux entretiens avec les acteurs et communs avec les auteurs des atlas. Cette opération nous a permis de rester proche du discours des acteurs et auteurs et d’extraire les données dont nous avions besoin pour cerner leurs représentations. Elle fut particulièrement longue à réaliser, nous avons dû rechercher les informations souhaitées dans des discours souvent factuels.

Dans un second temps, afin d’avoir une représentation distanciée des discours dont nous connaissons le contexte de réalisation et le contenu, nous avons souhaité nous intéresser aux mots utilisés, afin de cerner le lexique employé lorsqu’il s’agit de tenir des propos sur le paysage. Nous avons utilisé un logiciel de lemmatisation de termes,

Nomino, cette opération consiste à extraire le radical des mots mais conserve sa

nature. La préparation du corpus pour ce traitement demande diverses opérations de "nettoyage" des tapuscrits. Nous avons ainsi enlevé les noms propres et les dates des discours transcrits. A l’issue de cette opération nous disposons d’un référentiel de mots classés en noms, verbes, adjectifs et adverbes sur lequel nous pouvons opérer un certain nombre de tris et classements différents en fonction de nos besoins.

4.2. Dégager les composantes thématiques principales

Nous avons voulu extraire des informations complémentaires à ce dernier traitement pour dégager les composantes thématiques principales de notre corpus textuel et

connaître les liens qui existent entre elles. Nous avons donc souhaité réaliser un traitement statistique sur ce corpus, notre choix s'est donc tourné vers l'utilisation des réseaux de neurones (Davalo E.et Naim P. (1990), Josselin D. (1995) et Lelu A. (1995)). Cependant, nous voulions pouvoir interroger notre base de données à partir des documents - les tapuscrits des acteurs, des groupes sociaux ou des atlas - des mots et des thèmes. Les compétences développées par le logiciel Neuronav nous ont ainsi paru appropriées à nos objectifs. Il permet à partir du traitement « neuronal » des corpus, d’élucider « les conditions d’émergence des concepts » et offre la possibilité de modéliser cette émergence (Lelu A., 1995). Le principe du logiciel

Neuronav conduit l’exploitation des données à partir « d’algorithmes classiques en analyse exploratoire des données, tentant une synthèse entre algorithme à centres mobiles et constructions d’axes factoriels locaux ».

Préparer les corpus

Nous avons réalisé un premier travail d’indexation des données en opérant diverses segmentations dans les tapuscrits – regroupements par groupe social ou genre par exemple -. Nous avons pu effectuer des tris de mots à partir d’une requête faite sur le corpus de mots rangés par ordre de fréquence. Nous avons ainsi utilisé un anti- dictionnaire - terme utilisé par les concepteurs du logiciel - pour soustraire aux calculs les mots très peu employés par les acteurs ou les atlas. Après de nombreuses phases exploratoires, nous avons filtré d’autres mots qui d’après nous brouillaient les traitements. Nous avons ainsi retiré les mots comme paysage ou définition, des verbes comme faire ou être, des noms de lieux lorsqu’ils apparaissaient rarement, etc. Nous avons pu, avec ce logiciel, effectuer des traitements en ne conservant qu’une catégorie de mots, avec uniquement les verbes, ou en n’employant que les noms et adjectifs par exemple, ou en procédant à un seuillage de fréquence de mots, sont alors exclus du corpus ceux qui se situent sous ce seuil.

Produire des cartes sémantiques des composantes thématiques

Pour chaque traitement, le choix du corpus réalisé, nous procédions à une requête pour le lancement de la cartographie en précisant tout d’abord le type d’analyse que nous souhaitions réaliser. Notre demande se portait sur l’analyse fine dans la mesure où les données étaient lues plusieurs fois lors du lancement du programme, ceci jusqu’à ce que le critère de convergence se stabilise. Dans un second temps, le nombre de thèmes que nous souhaitions atteindre restait à préciser en fonction de nos recherches. Le lancement de la "cartographie2" s’effectue alors. Une représentation symbolique des résultats issus du traitement apparaît à l'écran, elle est appelée "carte". Elle expose des cercles de tailles différentes représentant un thème et son importance. Les mots qui apparaissent sont une proposition du logiciel pour « qualifier le contenu sémantique du thème », elle est réalisée à partir de « l’indice de

centralité le plus élevé parmi tous les mots associés au thème. ». Des listes de mots

principaux agrégés au thème apparaissent sur les cercles, lorsque le « témoin de la souris » s'immobilise sur chacun d'eux.

Figure 62 : Exemple de représentation cartographique des thèmes sous Neuronav

Les cercles sont parfois reliés entre eux, un curseur de détection des proximités permet alors d’apprécier l’intensité des liens et de restituer l’idée d’une figure multidimensionnelle que la carte n’exprime pas. Le degré de proximité des cercles présente donc de l’importance.

Le processus de création de cartographie des thèmes s’effectue ainsi : « les vecteurs

des centralités des mots caractéristiques des thèmes identifiés sont analysés selon la méthode d’analyse en composantes principales pour être représentés dans un plan factoriel » (Lelu A., Aubin S., 2001). Trois étapes caractérisent ce processus. Une

première classification automatique établit des classes de documents homogènes sémantiquement par application de l’algorithme des K-means axiales3. Les classes sont dites recouvrantes, c’est à dire qu’un mot-clé ou un document peut appartenir à plusieurs classes à la fois. Ensuite la « représentation des classes se fait sur une carte

3 Famille d’algorithmes de classification de centres mobiles, ils définissent les K classes recherchées

par K demi-axes passant par l’origine de l’espace géométrique ou K vecteurs unitaires pointant dans la direction de ces demi-axes

sur le plan de l’écran » d’ordinateur. La dernière étape consiste à attribuer un titre

aux classes.

La réalisation de cartes et leur parfois difficile analyse, nous ont ainsi permis de compléter les informations sur les représentations paysagères des acteurs et les auteurs des atlas.