• Aucun résultat trouvé

Les méthodes de classification automatique constituent une des deux grandes familles de techniques d’analyse de données, à côté de l’analyse factorielle. Ces méthodes permettent de représenter les proximités entre les éléments d’un tableau lexical par des regroupements ou des classes.

Deux types de méthodes existent : - les méthodes de partitionnement

- les méthodes de classification hiérarchique.

Les premières produisent de simples découpages ou partitions de la population étudiée. Les deuxièmes permettent d’obtenir, à partir d’un ensemble d’éléments décrits par des variables (dont on connaît les distances deux à deux), une classification hiérarchisée de classes.

Les résultats fournis par ces méthodes de classifications se révèlent des compléments indispensables aux résultats fournis par les calculs de fréquences lexicales.

L'algorithme de Luong produit des graphes rendant compte de la proximité des objets étudiés, ici des textes, à partir d'une distance, ici celle de Labbé.

La méthode de Labbé, basée sur ses travaux de 1990 permet de mettre en évidence ce qu’il qualifie « l’univers lexical » d’une forme donnée. Pour chaque forme f du corpus, il scinde l’ensemble des phrases du corpus en deux sous-ensembles :

- E1 : le sous-ensemble des phrases qui contiennent f

- E2 : le sous-ensemble des phrases qui ne contiennent pas f

Ensuite, pour chacune des formes du corpus, il effectue le test de l’écart-réduit aux sous-fréquences dans les deux sous-ensembles E1 et E2 en tenant compte de leurs tailles respectives. Ainsi, pour chaque forme pôle et au-delà d’un seuil de fréquence significatif, il est possible de sélectionner un ensemble de formes qui sont situées de façon privilégiée dans les mêmes phrases.

180

Sur de telles représentations graphiques, les distances s'apprécient directement en parcourant le chemin qui mène d'un point à un autre. Le résultat de l’algorithme est un graphe, qui peut prendre deux formes: rectangulaire.

La représentation rectangulaire, encore appelée dendrogramme, est la représentation graphique la plus habituelle car c'est sans doute la représentation la plus parlante.

Le principe est simple dans son fondement. Au début, les deux éléments les plus proches sont agrégés. Le couple ainsi formé constitue alors un nouvel élément que l’on va agréger à un troisième pour en former un nouveau et ainsi de suite jusqu’à épuisement de l’ensemble des éléments. Chacun des regroupements effectués par cette méthode s’appelle un nœud. L’ensemble des éléments terminaux rassemblés dans un nœud s’appelle une classe. Les deux éléments (ou groupes d’éléments) agrégés, sont appelés l’aîné et le benjamin de ce nœud. Les nœuds rassemblent des composants nettement moins homogènes que leur réunion.

Toutefois, Hyperbase ne tient pas compte de l'écartement latéral qui sépare les groupes. C’est un artifice de présentation qui vise à disposer les textes sur la surface du plan. Seules les distances verticales sont interprétables.

Selon Etienne Brunet162, « les distances sont plus faciles à interpréter dans la présentation radiale des résultats de l'analyse arborée. En effet, elles sont directement proportionnelles à la longueur des parcours dessinés en rouge sur le graphe.

À chaque bifurcation, le chemin emprunte une direction dont le sens importe peu, c'est la distance qui seule compte et qui se mesure par l'addition des segments de jonction. Le danger ici est de mesurer les distances à vol d'oiseau et de prendre visuellement des raccourcis, comme on le fait en montagne. »

Procédons à l’analyse arborée des distances lexicales du corpus sur les occurrences et sur les formes. Les deux types de représentation sont regroupés dans les trois figures ci-dessous.

162

181

Fig. représentation rectangulaire de l’analyse des distances lexicales du corpus sur les occurrences (à gauche radiale, a droite rectangulaire)

Figure 65 - Représentation arborée de l’analyse des distances lexicales du corpus sur les

182

Figure 66 - Représentation arborée radiale de l’analyse des distances lexicales du corpus

sur les formes

Figure 67 - Représentation arborée rectangulaire (dendrogramme) de l’analyse des

distances lexicales du corpus sur les formes

L’analyse arborée doit permettre de visualiser graphiquement des écarts lexicaux entre les différents textes composant le corpus. La lecture et l’observation des quatre graphes ci-dessus, les représentations rectangulaires et radiales sur les occurrences et les formes nous font constater trois classes :

Pour ce qui est de l’analyse sur les occurrences :

- une dichotomie entre les textes de Cyrulnik et les textes ésotériques restants ; - guérir occupe positionnement en dehors de des deux sous-ensembles ;

- le sous-ensemble « cyrulnik » qui se divise lui-même en deux sous-classes, celui constitué par les textes fantômes et tissage, et celui composé de réel - le sous-ensemble « ésotérique » se divise lui aussi en deux sous-classes,

183

- guérir reste « à part » mais plus proche du sous-ensemble « cyrulnik » que du sous-ensemble « ésotériques ».

Pour ce qui est de l’analyse sur les formes :

- une dichotomie, avec d’un côté les textes de Cyrulnik et guérir, et de l’autre les textes ésotériques restants ;

- le premier sous-ensemble se divise lui-même en deux sous-classes, celui constitué par les textes fantômes et guérir, et celui composé de réel et tissage ;

- le deuxième sous-ensemble regroupe des textes « ésotériques » qui ne sont pas rédigés par Cyrulnik ;

La distinction entre nature et auteur attribuables à chacun des textes du corpus est bien marquée. Le corpus se compose de trois ensembles :

- celui constitué des textes ésotériques de B. Cyrulnik réel et tissage - celui comprenant les textes exotériques guérir et fantômes

- et celui composé des textes ésotériques migration, arthérapie et nervure.

Les textes ésotériques de Cyrulnik sont plus proches entre terme de distances lexicales de l’ensemble composé des textes exotériques que de l’autre ensemble composé des textes ésotériques.

Les deux graphes nous permettent donc de visualiser deux ensembles. Il y a séparation entre les textes exotériques et les textes ésotériques à l’exception des ouvrages de Cyrulnik. Nous pouvons en conclure que, dans le cas de Cyrulnik, l’auteur est prioritaire sur la nature du texte. Ceci laisse présager que l’auteur a un style de rédaction qui lui est propre et particulier et qui constitue une empreinte, une signature des textes dont il est l’auteur. Nous étions partis de l’hypothèse que Boris Cyrulnik avait ses stratégies discursives qui expliquaient sa notoriété et le succès commercial de sa bibliographie pour tout public. Cette hypothèse semble commencer à se vérifier. Nous nous attacherons dans la suite de cette étude à analyser les marques particulières de ce style rédactionnel.

184

Dans les tableaux lexicaux, l’individu statistique donnant lieu à des comptages pour chaque case du tableau est l’occurrence d’une unité textuelle, i.e. soit d’une forme, d’un lemme, d’un segment répété…. A partir du tableau de données sont obtenus des tableaux de distance auxquelles sont associées des représentations géométriques qui décrivent les similitudes existantes. L. Lebart et A. Salem soulignent qu’à ce moment-là, « le problème est de rendre assimilable et accessible à l’intuition ces représentations au prix d’une perte d’information de base qui doit rester la plus petite possible. » Ils distinguent deux familles de méthodes permettant de procéder à ces réductions :

- les méthodes de classification automatiques que nous venons de voir « qui opèrent des regroupements en classes (ou en familles de classes hiérarchisées) des lignes ou des colonnes.

- et les méthodes factorielles : « largement fondées sur l’algèbre linéaire, produisent des représentations graphiques sur lesquelles les proximités géométriques usuelles entre points-lignes et entre points-colonnes traduisent les associations statistiques entre lignes et entre colonnes». C’est à cette famille de méthodes qu’appartient l’analyse en composante principale proposée par Hyperbase et utilisée dans notre analyse.

Les outils de visualisation comme les plans factoriels favorisent en principe une lecture macroscopique de l’information de base.