• Aucun résultat trouvé

Cognats et multi-alignement

2.5. L’alignement de corpus multi-parallèles

2.5.4 Cognats et multi-alignement

En rédigeant cette synthèse, j’ai néanmoins tenu à poursuivre cette idée en réalisant des expériences complémentaires. Pour des corpus multi-parallèles tels que ceux de l’Union Européenne, il apparaît que la parenté linguistique entre les différents groupes de langues impliqués (langues romanes, langues germaniques, langues slaves, langues baltes, langues finno-ougriennes, pour ne citer que les principaux groupes) doit pouvoir jouer un rôle prépondérant dans le multi-alignement : se contenter d’identifier les transfuges (souvent des nombres ou des noms propres) ne peut donc suffire à tirer profit de cette richesse.

Afin d’explorer cette hypothèse, j’ai téléchargé la transcription de la session du 17 janvier 2000 du parlement européen, tiré du corpus Europarl320, qui contient 11 versions alignées dans les langues suivantes : allemand, anglais, danois, espagnol, français, finnois, grec, italien, portugais, néerlandais, suédois (on utilisera désormais les codes ISO, par ordre alphabétique : DA, DE, EL, EN, ES, FI, FR, IT, NL, PT, SV). J’ai manuellement révisé les alignements fournis pour tous les couples impliquant le français afin d’avoir une référence fiable (la plupart des alignements fournis étaient de bonne qualité à part pour le couple fr-nl qui a nécessité un peu plus de révisions).

Notre première tâche a consisté à mesurer le degré de proximité graphique des formes alignées entre toutes les langues prises deux à deux, afin d’évaluer jusqu’à quel point la parenté génétique peut se traduire en un critère automatiquement exploitable (l’identification des candidats cognats).

Pour chaque couple de phrases, nous avons compté les candidats cognats en retenant toutes les paires de mots d’au moins 7 caractères pour laquelle la SCM (cf p. 22) correspond à au moins 80 % des caractères de la chaîne la plus courte des deux chaînes comparées. Avec de tels critères, plutôt sélectifs, on trouve de très nombreux cognats avec un minimum de bruit. Par exemple, pour les langues da, de, en, on trouve les paires suivantes :

Integration↔integration, explizit↔explicitly, periodiske↔Periodischen, Schroedter↔Schroedterin, diskussion↔Diskussion, programmer↔Programme, Transport↔transport, transport↔Transport, Parlaments↔Parliament, Regionalpolitik↔Regional, regionaler↔regional, Europa-Parlamentets↔Europaparlamentets, Europæiske↔Europäischen, Kommission↔Commission

Lors de cette comparaison, nous avons traité le grec séparément, parce qu’il utilise un alphabet différent. Les résultats, cumulant le nombre de transfuges (hormis les nombres et les noms commençant par une majuscule) et le nombre de cognats identifiés avec les critères précédents, sont présentés dans le tableau 2.5 :

20 http://opus.lingfil.uu.se/Europarl3.php. Le débat est accessible directement ici :

http://www.europarl.europa.eu/sides/getDoc.do?

pubRef=-//EP//TEXT+CRE+20000117+ITEMS+DOC+XML+V0//FR&language=FR#creitem2 (consulté en mai 2014)

DA DE EN ES FI FR IT NL PT SV Total DA 1 114 1 202 705 458 1 984 1 041 1 019 479 2 325 14 327 DE 1 114 863 448 397 735 747 722 376 925 10 327 EN 1 202 863 1 968 527 2 367 2 225 1 174 1 493 1 256 17 075 ES 705 448 1 968 222 1 829 2 234 638 3 750 764 16 558 FI 458 397 527 222 292 481 197 174 617 7 365 FR 1 984 735 2 367 1 829 292 2 120 936 1 350 851 16 464 IT 1 041 747 2 225 2 234 481 2 120 978 1 935 354 16 115 NL 1 019 722 1 174 638 197 936 978 489 893 11 046 PT 479 376 1 493 3 750 174 1 350 1 935 489 579 14 625 SV 2 325 925 1 256 764 617 851 354 893 579 12 564 Total 14 327 10 327 17 075 16 558 7 365 16 464 16 115 11 046 14 625 12 564 136 466

Tableau 2.5 : Nombre de transfuges et cognats identifiés dans les bi-phrases par couples de langues

Pour le grec, nous avons effectué la même comparaison en utilisant une translittération standard21 (on utilisera désormais le code GR pour le grec translittéré, plutôt que EL, et on traitera ce texte comme une version à part entière, afin d’évaluer l’impact de la translittération). Celle-ci (cf. tableau 2.6), montre sans surprise un nombre de cognats beaucoup plus réduit :

DA DE EN ES FI FR IT NL PT SV Total

GR 229 116 245 434 125 188 224 184 183 231 2 159

Tableau 2.6 : Nombre de transfuges et cognats avec le texte grec translittéré

Quand on considère les valeurs marginales, on constate que certaines langues cumulent beaucoup plus de cognats que d’autres : elles occupent en quelque sorte une position plus centrale au sein de ces différentes familles linguistiques, position qui leur confère en moyenne une plus grande ressemblance avec un plus grand nombre de langues – c’est notamment le cas du français et de l’anglais.

Pour mieux s’en rendre compte, il est possible d’adopter des représentations topologiques permettant de synthétiser ces phénomènes de proximité, d’éloignement et de centralité.

Dans un premier temps, nous pouvons construire une visualisation par échelonnement multidimensionnel (en anglais MDS, pour Multi Dimensional Scaling), une technique d’analyse multivariée permettant d’afficher en deux dimensions un ensemble de points définis dans un espace de dimension n, en conservant au mieux les distances entre les points. Pour effectuer le MDS, il faut partir d’une matrice de distance (et non de similarité comme c’est le cas dans le tableau 2.5). Pour ce faire, nous avons utilisé les outils de l’environnement ’R’22, un projet libre réunissant de très nombreux outils pour le calcul statistique et l’analyse de donnée. Nous avons d’abord calculé, au moyen de la fonction dist() de R, les distances euclidiennes entre les vecteurs définis par le tableau 2.523. Nous avons ensuite appliqué la fonction isoMDS() sur cette matrice de distance, afin d’avoir une représentation en 2 dimensions (cf. figure 2.8).

Le degré d’adéquation entre les distances des points projetés sur un plan et les distances initiales dans l’espace de dimension n est ici mesuré par la fonction de stress de Kruskal (1964). On obtient ici un stress d’environ 11,656, ce qui est considéré comme bon (ibid., p. 3).

22 cf. http://www.r-project.org/ (consulté en mai 2014).

23 Pour obtenir une matrice de distance significative, il nous a fallu indiquer une valeur de similarité non nulle pour une langue avec elle-même : en d’autres termes, nous avons rempli la diagonale du tableau 2.5 en utilisant une similarité maximale arbitraire de 4 000 (mais en conservant des valeurs nulles, on obtient à peu près les mêmes résultats finaux - cette valeur n’a donc pas d’impact sur l’interprétation).

Les différentes familles linguistiques concernées apparaissent très clairement sur ce graphique : du côté droit les langues romanes avec le portugais, l’italien et l’espagnol, puis le français qui apparaît un peu décalé, peut-être du fait de sa très forte proximité graphique avec l’anglais. Sur la droite, l’allemand et le néerlandais représentent la branche occidentale des langues germaniques, tandis qu’un peu au-dessus le suédois et le danois représentent la branche nordique de cette même famille. L’anglais, du fait de son grand stock lexical emprunté au français, se situe en position assez centrale, tout à côté de ce dernier, dans une position charnière entre langues romanes et langues germaniques. Le finnois, seul représentant de la famille finno-ougrienne et par conséquent seule langue non indo-européenne, apparaît naturellement comme la plus éloignée de toutes les autres, dans le coin inférieur gauche.

En ce qui concerne la position du français, il faut peut-être considérer l’existence d’un léger biais, lié au fait que lors de cette session parlementaire, le français semble avoir été la langue source la plus utilisée. Chaque orateur s’exprimant dans sa langue, nous avons compté le nombre de mots pour chaque langue source de notre petit corpus :

DE EL EN ES FI FR IT NL PT SV

4 578 843 3 381 4 502 2 108 15 253 598 1 645 741 446

Tableau 2.7 : Répartition des langues sources dans le corpus Europarl-00-01-17 La surreprésentation du français est due aux nombreuses interventions de la présidente du parlement d’alors, Nicole Fontaine. Cela explique peut-être que le français obtient une assez bonne similarité avec la plupart des langues, même parmi les langues germaniques.

Les techniques de classification hiérarchique fournissent un autre type de représentation utile pour synthétiser ces relations de proximités. La figure 2.9 montre les résultats obtenus avec la fonction hclust() de ’R’ . Dans ce type d’arbre, la hauteur du nœud regroupant une classe est inversement proportionnelle à la proximité des points à l’intérieur d’une classe (ici on voit que les points les plus proches sont ES et PT).

Bien entendu, pour en tirer des conclusions d’ordre génétique, il faudrait effectuer des comparaisons sur des corpus bien plus vastes – on pourrait alors apporter des données intéressantes pour la méthodologie – par ailleurs très controversée pour ses approximations – de la mass comparison défendue par Joseph Greenberg (Ruhlen, 1994). Mais notre objectif est plus pragmatique, et plus modeste : nous cherchons seulement à déterminer s’il est possible de s’appuyer sur le réseau très dense des mots apparentés pour tisser un multi-alignement robuste.