• Aucun résultat trouvé

Traitement automatique des autres langues agglutinantes

3.0. Introduction

Pour la linguistique formelle comme pour le traitement informatique des langues, une description aussi exhaustive et explicite que possible est indispensable. Toutes les catégories grammaticales de la langue doivent subir cette description pour aboutir à des résultats à la hauteur des nouvelles technologies actuelles. En effet, si les technologies utilisées avec les langues indo-européennes peuvent actuellement produire des moteurs de recherche, des systèmes de traitement de texte performants, c’est que d’une part, d’énormes travaux de linguistique et d’ingénierie ont été réalisés ; d’autre part, le temps a joué un rôle car il a fallu plusieurs années pour aboutir à ces technologies du langage du monde actuel. Pour les langues agglutinantes, des travaux de recherches dans le domaine du TALN ont été menés en 1983 avec le finnois et ces travaux se sont accrus dans les années 90 avec l’introduction du turc et du coréen dans le TALN. Dans ce chapitre, les états de l’art sur le traitement automatique de ces deux dernières langues sont abordés en commençant par le turc. Nous ne nous intéresserons pas au cas du japonais, car les analyseurs morphologiques pour cette langue sont généralement obtenus par apprentissage automatique, et non à partir de la formalisation de connaissances linguistiques. De plus, l’analyse morphologique du japonais est bien différente, car le radical d’un mot est normalement écrit dans un système graphique (les idéogrammes) et ses suffixes dans un autre (un syllabaire).

3.1. Traitement automatique du turc

Dans l’état actuel de notre connaissance, la langue turque présente trois analyseurs morphologiques. Ces trois analyseurs sont PC-Kimmo, Zemberek et l’analyseur d’Eryiğit. Avant d’entrer dans la présentation sommaire de ces trois analyseurs morphologiques pour le turc, une comparaison entre analyse morphologique et étiquetage morphosyntaxique sera fournie.

D’abord, l’analyse morphologique est différente de l’étiquetage morphosyntaxique en ce sens qu’elle n’inclut aucune opération de désambiguïsation mais consiste uniquement à donner les analyses possibles d’un mot, après l’avoir décomposé en unités minimales porteuses de sens. Si l’étiquetage morphologique

95 fonctionne plutôt avec les langues comme le français ou l’anglais, elle n’est pas compatible avec les langues agglutinantes comme le turc car les combinaisons possibles d’affixes sont pratiquement illimitées et le lexique des formes fléchies aurait une dimension énorme qui n’assurera jamais une couverture satisfaisante de la langue, d’où la réalisation des analyseurs morphologiques principalement pour les langues agglutinantes.

PC-Kimmo (E. ANTWOTH, 1993) est le premier analyseur morphologique du turc. Il a été conçu à l’origine pour l’analyse morphologique du finnois par Kimmo KOSKENNIEMI (K. KOSKENNIEMI, 1983). On dit qu’il reste le travail de référence dans la littérature du domaine de l’analyse morphologique du turc. Cependant, il n’est accessible gratuitement que dans une implémentation très ancienne. De plus, le lexique des racines est limité.

Zemberek56 (A. A. AKIN, M. D. AKIN, 2007), quant à lui, moins documenté, peut-être aussi moins scientifiquement fondé dans sa partie linguistique, est la ressource la plus accessible et facilement réutilisable pour le développement d’une nouvelle application, en tant que bibliothèque open source. Il a été choisi comme outil linguistique de travail dans la représentation du turc en Unitex (A. BISAZZA, 2008), un travail publié dans un mémoire en ingénierie multilingue de l’INALCO, qui est d’ailleurs la source de documentation de ce paragraphe sur l’état de l’art du traitement automatique du turc.

L’analyseur par élimination d’affixes de G. ERYIĞIT et E. ADALI (2004), par ailleurs, est le plus récent et réunissant points forts computationnels et linguistiques. Si les deux analyseurs57 cités ci-dessus utilisent l’approche centrée sur les radicaux consistant à reconnaître les radicaux et/ou racines, il utilise l’approche inverse, la reconnaissance d’affixes, qui consiste à reconnaître et à retirer les suffixes en partant de la fin de la chaîne, jusqu’à ce qu’aucun suffixe ne soit plus reconnu. La partie

56 Zemberek est une bibliothèque Java open source de traitement de texte spécialement conçue pour le turc et les autres langues turques (azéri, tatare et turkmène sont incluses dans la distribution actuelle). Cette bibliothèque assure les fonctions de contrôle orthographique dans la version courante d’OpenOffice pour le turc. Les opérations réalisables par Zemberek incluent analyse et génération morphologique.

57 « L’analyseur de Zemberek, de même que PC-Kimmo, implémente un algorithme root driven (analyse gauche-droite, ou guidé par la racine), par conséquent il ne peut pas prévoir la catégorie d’un mot inconnu » (A. BISAZZA, 2008, p. 15).

96 restante est élue racine. Cet algorithme peut présenter l’inconvénient de ne pas connaître le véritable lemme d’un mot s’il est employé sans dictionnaire. La base linguistique de cet analyseur est une intéressante classification des suffixes selon leur fonction et la catégorie des racines auxquelles ils peuvent être ajoutés.

3.2. Traitement automatique du coréen

La langue coréenne a connu un grand essor dans le domaine du traitement automatique des langues agglutinantes depuis les années 90.

Jee-Sun NAM est l’un des pionniers qui a fait avancer le traitement automatique de la langue coréenne par dictionnaire. Dans ce paragraphe, deux exemples du travail qu’elle a réalisé sur les noms et les verbes en coréen sont fournies. Enfin, un aperçu des travaux de doctorat réalisés récemment est présenté.

Parmi les grands travaux, il y a par exemple, la constitution du lexique électronique des noms simples en coréen (J. S. NAM, 1995) avec la plate-forme Intex puis Unitex. Dans son article au LGC de cette même année, elle classifie les noms58, pose les différents problèmes par rapport au traitement automatique et les étudie un à un pour pouvoir construire les graphes de mots relatifs à la reconnaissance automatique des noms. Elle présente pareillement le problème de la segmentation en unités significatives des textes en remarquant que celle-ci n’est pas la même que dans les langues indo-européennes59. Elle donne une classification des unités séparables par des blancs et étudie également celles qui sont soudées. Elle mentionne que les substantifs n’ont pas de genre et que par conséquent, il n’y a pas non plus de formes adjectivales au masculin ou au féminin. Enfin, elle présente l’architecture du dictionnaire électronique du coréen (DECO) pour les analyseurs syntaxiques et Lexique-grammaire. Ce dictionnaire DECO est constitué de 4 dictionnaires : de noms (DECO-NS), de verbes (DECO-VS), d’adjectifs (DECO-AS) et d’adverbes (DECO-DS). Pour le dictionnaire électronique des verbes simples par exemple (DECO-VS), ses entrées s’élèvent à environ 27,000 à la suite du travail permanent d’ajout des entrées. Les entrées y portent des codes qui donnent des informations sur la classe de

58 Classification des noms en formes autonomes (noms propres, noms communs, termes archaïques, techniques et scientifiques), formes non-autonomes, noms dérivés et noms composés.

59 Dans les langues agglutinantes, les unités séparées par des blancs ne sont pas toujours des formes fléchies d’unités lexicalement simples mais aussi des séquences composées comme partout dans les langues agglutinantes.

97 conjugaison, l’existence et la forme d’un élément morphologique, la catégorie grammaticale de la base dérivationnelle, etc. So Yun KIM (2010, 1.2) décrit ce dictionnaire et note que « le dictionnaire a une couverture excellente dans la mesure où il contient 27,000 verbes sans compter les verbes composés (V+V) ou les syntagmes verbaux (N+V). En plus, précise-t-elle, les verbes dans DECO-VS ont des codes de conjugaison et peuvent être associés automatiquement aux suffixes appropriés en utilisant ces codes, par exemple avec le système Unitex. On peut ainsi obtenir la liste des formes conjuguées d’un verbe donné en remarquant que les dictionnaires imprimés et le dictionnaire électronique SEJONG60 (2007) n’ont pas d’informations sur les formes de conjugaison dans leur version actuelle »61.

Par ailleurs plusieurs travaux ont été réalisés dans le domaine du traitement automatique du coréen par dictionnaire. En 2002, il y avait par exemple une thèse de doctorat en Informatique fondamentale sur les méthodes et applications dans la construction du dictionnaire électronique des séquences nominales figées et de leurs formes fléchies (S. M. BAE, 2002). En 2005, une thèse de doctorat en Linguistique Informatique sur la délimitation et l’étiquetage des morphèmes par ressources linguistiques a été réalisée (H. G. HUH, 2005). De même, un travail plus spécialisé a été effectué sur les adverbes pour la localisation dans des textes des adverbes de durée et de date comme pendant trois heures (nandritra ny adiny telo) , le 6 mai (tamin’ny 6 mey ou amin’ny 6 mey) (E. J. JUNG, 2005).

3.3. Conclusion

Les langues turque et coréenne sont des langues agglutinantes comme la langue malgache. Nous pensons que le traitement automatique du malgache a des chances de présenter des défis communs et des solutions communes aux traitements automatiques du turc et du coréen. Si dans cette étude, notre objectif est de construire un analyseur morphologique du malgache, nous prenons comme modèle le

60 SEJONG est un autre dictionnaire électronique du coréen (Dictionnaire électronique SEJONG 2007) dont voici les principaux caractéristiques. Ce dictionnaire se constitue en 5 sous-dictionnaires : ceux des substantifs, prédicats (verbes et adjectifs), noms composés, expressions figées et mots spéciaux. En ce qui concerne le sous-dictionnaire des prédicats, il contient environ 30,000 entrées : 23,300 verbes et 6,300 adjectifs. Il donne des informations morphologiques, syntaxiques et sémantiques par sens pour les études linguistiques. Ce dictionnaire est librement disponible sur http://kle.postech.ac.kr/demos/SejongWeb/index.php (cf. S.Y. KIM, 2010, p.12)

98 traitement automatique du coréen qui utilise également le système Unitex, notre plate-forme d’annotation linguistique pour la formalisation des verbes simples. En effet, nous pensons que l’analyseur morphologique du malgache signalé au 2.4. constitue un grand pas dans le traitement automatique du malgache mais il nous semble moins fondé dans sa partie linguistique. En construisant notre dictionnaire électronique, nous essayons d’une part de définir formellement les valeurs de chaque affixe et d’utiliser des informations linguistiques scientifiquement admises ; et d’autre part, de surmonter les problèmes posés par le manque de détails sur les informations grammaticales dont auront besoin les transducteurs – un outil mathématique au centre de l’analyseur.

99

Partie 2