• Aucun résultat trouvé

UN EXEMPLE DE CLASSIFICATION : P CORNEILLE

Dans le document Qui a écrit Aétius, Juba et Tachmas ? (Page 83-87)

CLASSIFICATIONS HIERARCHIQUES

I. UN EXEMPLE DE CLASSIFICATION : P CORNEILLE

Prenons les tragédies de P. Corneille comme exemple (tableau 1, chapitre 2). L’algorithme agrège les pièces les unes après les autres selon leurs proximités. Ces opérations sont récapitulées dans un dendrogramme.

La classification

L'algorithme procède à la construction d'une classe en regroupant les deux textes séparés par la distance la plus faible ("plus proches voisins"), puis il recalcule les distances des autres textes par rapport à ce nouvel ensemble par la moyenne arithmétique simple des distances, etc. Et ceci jusqu'à la constitution d'un ensemble unique (classement exhaustif).

Dans le tableau 1 du chapitre 2, les deux pièces les plus proches sont Tite et Bérénice et Pulchérie (distance : 0.153). L’algorithme les agrège en un seul groupe en fusionnant les huitième et neuvième lignes et colonnes du tableau. Le remaniement de la matrice des distances est effectué de la manière suivante :

Tite et Bérénice – Suréna : 0.156 ; Pulchérie – Suréna : 0.158

La distance du nouveau groupe {Tite et Bérénice- Pulchérie} à Suréna est de : D({Tite et Bérénice- Pulchérie},Suréna) = 0.157

2 ) 158 . 0 156 . 0 (  

Les résultats de cette première étape sont récapitulés dans le tableau 1 ci-dessous. Ce tableau a une ligne et une colonne de moins que le tableau original.

Tableau 1. Première étape de la réduction de la matrice des distances par agrégation de Tite et Bérénice avec Pulchérie et nouveau calcul des distances des autres textes par rapport à ce groupe.

Oedipe Toison Sertorius Sophonisbe Othon Agésilas Attila {Tite - Pulchérie} Suréna Œdipe 0,000 0,194 0,196 0,190 0,194 0,211 0,196 0,207 0,194 Toison 0,194 0,000 0,187 0,194 0,199 0,201 0,191 0,200 0,201 Sertorius 0,196 0,187 0,000 0,159 0,177 0,173 0,177 0,172 0,173 Sophonisbe 0,190 0,194 0,159 0,000 0,171 0,175 0,188 0,178 0,180 Othon 0,194 0,199 0,177 0,171 0,000 0,179 0,169 0,161 0,174 Agésilas 0,211 0,201 0,173 0,175 0,179 0,000 0,186 0,162 0,162 Attila 0,196 0,191 0,177 0,188 0,169 0,186 0,000 0,178 0,178 {Tite -Pulchérie} 0,207 0,200 0,172 0,178 0,161 0,162 0,178 0,153 0,157 Suréna 0,194 0,201 0,173 0,180 0,174 0,162 0,178 0,157 0,000

83

L’algorithme conserve en mémoire la distance interne au groupe qu’il vient de former (0.153) – nous l’avons encadrée sur le tableau 1 - car elle fournit une information sur le degré d’homogénéité du groupe ainsi formé, information qui sera reportée sur le graphique récapitulant les opérations successives.

Ensuite, il recherche la plus petite distance dans ce nouveau tableau. Il s’agit de D({Tite - Pulchérie},Suréna) = 0.157. Par le même procédé que ci-dessus, il regroupe les deux dernières colonnes et lignes du tableau 1. Ce qui aboutit au tableau 2 ci-dessous qui a encore une ligne et une colonne de moins.

Tableau 2. Deuxième étape de la réduction de la matrice des distances par agrégation de Suréna au groupe {Tite et Bérénice – Pulchérie} et nouveau calcul des distances des autres textes par rapport à ce groupe.

Oedipe Toison Sertorius Sophonisbe Othon Agésilas Attila {Tite-Pulchérie- Suréna} Œdipe 0,000 0,194 0,196 0,190 0,194 0,211 0,196 0,201 Toison 0,194 0,000 0,187 0,194 0,199 0,201 0,191 0,201 Sertorius 0,196 0,187 0,000 0,159 0,177 0,173 0,177 0,172 Sophonisbe 0,190 0,194 0,159 0,000 0,171 0,175 0,188 0,179 Othon 0,194 0,199 0,177 0,171 0,000 0,179 0,169 0,167 Agésilas 0,211 0,201 0,173 0,175 0,179 0,000 0,186 0,162 Attila 0,196 0,191 0,177 0,188 0,169 0,186 0,157 0,178 {Tite- Pulchérie- Suréna} 0,201 0,201 0,172 0,179 0,167 0,162 0,178 0.157

L’opération est répétée jusqu’à ce qu’il ne reste plus qu’un seul groupe. Le dendrogramme

Ces regroupements successifs sont représentés par un arbre (ou dendrogramme) qui comporte, en ordonnées, les distances correspondantes aux niveaux d'agrégation successifs1.

1 Graphiques réalisés avec le logiciel R. Voir Meyer D., Hornik K & Feinerer I. (2008). Text mining

84

Tableau 3. Dendrogramme de la classification hiérarchique ascendante sur le corpus des pièces de P. Corneille (méthode de la moyenne).

Il ne faut pas attacher d'importance au classement des textes de gauche à droite (le logiciel place les textes les plus proches au centre du graphe et les plus éloignés à droite mais c’est une convention arbitraire). Seul compte le niveau auquel l’agrégation est réalisée (ligne horizontale reliant les deux textes). Par exemple, Pulchérie et Tite et Bérénice se rejoignent à 0.153 et Suréna les rejoint à 0.157. Le classement s’achève légèrement en dessous de 0.20 qui est la distance moyenne d’Œdipe et de la Toison d’Or à tous les autres.

Ces niveaux donnent donc une idée de la proximité plus ou moins grande entre les éléments regroupés. En coupant le graphe horizontalement, on peut isoler les groupes de textes très proches, relativement proches, etc. Ce qui fait ressortir nettement l’aspect chronologique du classement, Tite et Bérénice, Pulchérie et Suréna – qui forment le noyau le plus resserré- sont les trois dernières pièces (1670-1674). En haut du graphe, les deux pièces les plus anciennes – Œdipe (1659) et la Toison d’or (1661) - forment le couple le plus hétérogène de ce corpus et paraissent un peu décalées (avec Attila) par rapport au noyau central des pièces de la dernière période de la vie théâtrale de P. Corneille.

Cette méthode a cependant un défaut majeur : pour une pièce particulière, le graphique indique précisément le groupe auquel elle appartient mais pas forcément sa proximité relative à

85

telle ou telle autre pièce composant ce groupe. Par exemple, le graphe peut laisser penser qu’Othon est proche d’Agésilas (chemin le plus court) alors qu’on voit dans le tableau 2 qu’Othon est très proche de Pulchérie (0.158) ou de Tite et Bérénice (0.163) et relativement éloignée d’Agésilas (0.179). Le procédé d’agrégation successive a effacé les liens les plus forts. Le graphique représente donc correctement les étapes de la classification, non pas certaines liaisons entre individus considérés par couples.

Au total, les œuvres de la dernière partie de la vie théâtrale de P. Corneille se rejoignent légèrement en dessous de 0.20 – au maximum moins d’un mot sur cinq est différent dans les différentes œuvres composant cet ensemble - ce qui est un signe de forte homogénéité. Un seuil aussi bas se rencontre rarement dans un ensemble comportant une dizaine d’œuvres dont la création s’étale sur 15 ans. Cette dernière remarque est importante car, contrairement au lecteur, l’automate n’est pas informé de l’identité de l’écrivain qu’il vient d’identifier à l’aveugle.

Naturellement, du point de vue de l’analyse littéraire, ce classement est un point de départ. Les groupes étant isolés, leurs vocabulaires et leurs styles sont étudiés pour comprendre ce qui les singularise dans l’œuvre d’un écrivain et d’une époque.

Ces classifications se sont également révélées être de bons outils au service de l’attribution d’auteur. Pour vérifier cette aptitude, la classification a d’abord été appliquée aux trois corpus (les frères Corneille et J. Racine) avant d’y adjoindre les pièces présentées par J. de La Chapelle et J.- G. Campistron.

86

II. J. RACINE, LES FRERES CORNEILLE…

Dans le document Qui a écrit Aétius, Juba et Tachmas ? (Page 83-87)