Analyseur morphologique des mots inconnus d’un système de traduction automatique

Chapitre 9 : Analyse automatique

9.2 Analyseur morphologique des mots inconnus d’un système de traduction automatique

9.2.1 Principes généraux

Comme le rappellent (Bouillon, Lehman et al. 1998), « un analyseur [est un]

mécanisme informatique qui a la double fonction de déterminer, sur base de la description linguistique, si une phrase fait partie ou non du langage et de lui associer une ou plusieurs représentations ». Dans notre analyseur de mots construits, notre programme doit donc pouvoir décider si le mot inconnu est un mot construit et, si oui, par quel procédé il a été construit.

La première étape essentielle consiste donc à déterminer de quel type est le mot inconnu (mots construits, noms propres, mots erronés) pour décider de son traitement (module I ci-dessous). Dans la deuxième étape (effectuée par le module II), s'il s'agit d’un mot construit, l'analyseur doit pouvoir lui associer les informations sur les éléments qui ont permis sa construction, pour pouvoir alors les traduire.

Mais avant de décrire plus précisément ce que notre analyseur devra traiter (c‘est-à-dire son input), il est intéressant de renverser la perspective et de décrire brièvement l’output attendu. En effet, n’importe quel programme de ce type devra fournir une représentation qui décrit (1) le procédé de construction qui l’a construit, et (2) le ou les éléments qui l’ont construit, accompagnés de toutes les informations nécessaires et/ou disponibles. Par exemple, pour le mot construit iperinflazione, l'analyseur devra fournir deux informations :

1. le mot est issu d’une règle de préfixation en iper, à laquelle est associée une information sémantique d’évaluation positive et une information sur la catégorie du mot construit et de la base ;

2. le mot est formé sur une base inflazione, présente dans le lexique. Toutes les informations (sémantique, catégorielle, syntaxique, ...) sont également prises dans le même lexique (cf. plus loin).

Cette sortie est employée par un programme de génération qui est chargé de traduire les mots construits analysés en les reformant dans la langue cible. Pour ce faire, ce programme tire d’une part les informations constructionnelles de la règle de construction des lexèmes bilingues (cf. chapitre 8), d'autre part, toutes les informations sur la base d’un lexique bilingue permettant de traduire celle-ci dans la langue cible.

9.2.2 Input : les mots inconnus

Nous l’avons déjà montré au chapitre 3, toute application de traitement de la langue qui passe par une analyse des mots d'un texte est confrontée à l'incomplétude de son lexique.

Notre analyseur s’occupe principalement des mots inconnus des systèmes de traduction automatique, qui se présentent sous la forme d’une chaîne de caractères inconnue. La première tâche de l’analyseur est donc de décider si cette chaîne de caractères est un nom propre, un mot erroné ou un mot construit. Nous avons vu que la

première distinction peut s’effectuer, dans les langues de notre travail en tout cas en se basant sur la majuscule, celle-ci étant en effet un indice suffisant pour exclure les noms propres ((Maurel 2004) estime la marge d’erreur à 1 %). Reste alors un ensemble de mots inconnus contenant autant de mots construits que de mots erronés. La tâche à accomplir est alors de distinguer ces deux types de mots, en analysant les uns et en excluant ainsi les autres, comme nous le verrons dans la suite.

9.2.3 Ressources linguistiques exploitables

L’analyseur repose à la fois sur les informations contenues dans le lexique de référence (comme nous l’expliciterons plus bas) et sur la forme de surface de la base des mots inconnus dont les chaînes de caractères peuvent parfois révéler des indices suffisants.

La performance de l’analyseur dépendra donc beaucoup de la qualité du lexique de référence. Dans un système de TA « standard », il pourra avoir accès à toutes les informations du lexique monolingue, comme des informations d’ordre catégoriel ou flexionnel. Certains lexiques sont plus détaillés et fournissent des informations d'ordre sémantique, également exploitables.

Avant de rendre compte de l’analyseur morphologique lui-même, nous présentons ci-dessous les différents phénomènes qu'un analyseur morphologique doit traiter, en nous concentrant sur leur implémentation. Évidemment, nous nous limitons aux phénomènes liés à l’affixation en italien.

9.2.4 Faits linguistiques à traiter

L'analyseur morphologique d’un système de traduction automatique doit évidemment gérer un certain nombre de faits linguistiques. Certains sont inhérents à tous les phénomènes de la morphologie ; d'autres sont propres à un procédé particulier ou sont propres à certaines langues. Dans cette section, nous passons en revue les différents faits linguistiques à traiter, en allant du général au particulier.

9.2.4.1 Généralité

Notre analyseur procède à une décomposition mécanique du mot inconnu, pour individualiser l’affixe et la base. La réussite de l’analyse est donc liée à la présence de la base potentielle dans le lexique. Cette option est théoriquement motivée, étant donné que la plupart des néologismes formels sont construits à partir d’éléments déjà présents dans le lexique. De plus, cette contrainte est relativement facile à mettre en œuvre car la base des mots préfixés ne subit que très peu de modification dans le processus de préfixation (à l'opposé de la suffixation dont la base nécessite parfois un traitement supplémentaire). Cette condition apporte bien des avantages, mais limite également certaines analyses.

Les avantages sont de deux types. D’une part, l’analyse d’un mot préfixé requiert la connaissance de certains traits sémantiques et syntaxiques de la base. C’est le cas notamment des informations concernant la valence (certains préfixes ne pouvant s’appliquer que sur des verbes transitifs). D’autre part, l’utilisation de l’analyseur dans un système de traduction automatique implique que la suite du traitement sera une

traduction-génération d’un néologisme en langue cible, qui s’effectuera selon les informations obtenues par l’analyseur. Si la base est absente du lexique, la traduction sera difficile, voire impossible. L’autre avantage majeur se situe dans le fait que le bruit provoqué par l’analyseur est fortement diminué par cette contrainte, comme nous le verrons plus loin dans la partie évaluation.

Mais cette contrainte sur la présence de la base dans le lexique de référence provoque également des désavantages. En effet, les noms propres (souvent absents des lexiques de référence) peuvent être à la base de nombreux néologismes (comme dans pro-Bush), et sont parfois facilement traduisibles par simple transposition. Une reconnaissance des noms propres dans la base pourrait être envisagée. De plus, certaines bases nécessitent un traitement supplémentaire, comme pour les adjectifs relationnels et les verbes inchoatifs, que nous aborderons dans la section 9.2.4.3 ci-dessous, quand nous présentons les faits à traiter au niveau des bases.

9.2.4.2 Faits inhérents à la préfixation

Nous avons déjà mentionné dans le chapitre 6 les différents comportements morphologiques du préfixe. Nous précisons ci-dessous les différentes spécificités qui doivent être prises en compte dans un analyseur, particulièrement quand il s’agit des préfixes de l’italien.

En effet, nous avions mentionné que le préfixe peut subir des modifications phonologiques (qui se répercutent ensuite sur sa forme) quand il s'applique à une base.

Ces modifications sont liées à la forme de la base, mais l’analyseur doit les prendre en compte en prévoyant les différentes formes de ces préfixes. Par exemple, toute règle contenant le préfixe in doit également gérer tous ses allomorphes (il, im, ir) et le dédoublement de sa consonne devant une voyelle. Dans la perspective des contraintes permettant de sélectionner les bonnes bases (que nous explicitons plus loin), ces modifications impliquent chaque fois une base particulière (le préfixe im ne se trouve que devant des bases commençant par m, b, ou p ).

Un autre phénomène à prendre en compte est celui de la récursivité. Un certain nombre de règles de préfixation peuvent s'appliquer sur une base de manière récursive.

Cette récursivité est présente notamment avec les règles de réitérativité (ririfare, ririmangiare), d’évaluation (iperiperbello) et de position (ex-ex-marito). Même s’il s'agit d'un phénomène davantage présent dans le langage parlé, les règles de préfixation concernées devraient pouvoir analyser ce genre de phénomène. (Iacobini 2004) note cependant que la récursivité se limite habituellement à deux itérations, sûrement pour des raisons pragmatiques et cognitives.

La factorisation concerne les cas où une seule base est préfixée par deux préfixes différents, dans une séquence de plusieurs chaînes de caractères séparées par des espaces (comme dans la séquence pre- e poststrutturalismo). Ce cas ne peut pas être géré par un analyseur qui se concentre uniquement sur les mots inconnus. En effet, les mots inconnus sont généralement délimités selon les mêmes critères que les mots connus (espace, blanc, …). Dans la séquence ci-dessus, nous obtenons ainsi deux mots inconnus pre- et poststrutturalismo. L'attachement du premier mot-forme pre à la base du deuxième nécessite une analyse plus fine au niveau syntaxique.

Enfin, en synchronie, deux préfixes (sopra et sovra) provoquent encore le redoublement de la consonne initiale de la base à laquelle ils s’antéposent. Ce

comportement semble assez aléatoire, et doit donc être pris en compte dans l'analyseur.

Un phénomène très similaire est celui du préfixe ad, dont la consonne est substituée par la première consonne de la base si celle-ci n'est pas un d (comme dans abbassare, alleggerire, appesantire).

A ces différents phénomènes s’ajoute également l’usage du trait d’union, qui est très aléatoire, et qu’il faut donc prévoir.

9.2.4.3 Faits inhérents à la base

Les règles de préfixation (comme toutes les règles morphologiques, si l’on se place dans une perspective lexématique) ne peuvent être réduites, théoriquement du moins, à un agencement d'éléments. Elles agissent sur une structure plus profonde des éléments. D'un point de vue informatique, il est évidemment intéressant de vouloir se contenter de traiter les formes de surface telles qu'elles apparaissent. Mais il est des cas où la prise en compte de la base « formelle » ne suffit pas pour l'interprétation sémantique du mot construit.

Dans le cas des adjectifs relationnels, la base formelle existe (les adjectifs relationnels) et elle sera donc trouvée dans le lexique de référence. L’analyseur devrait cependant être en mesure de trouver la base sémantique pour interpréter correctement le sens du mot construit. Nous verrons plus bas les adaptations qu’il convient de faire au sein du lexique pour pouvoir rendre possible ce type d’analyse.

Le même type de problématique se retrouve dans les préfixations d’éléments déverbaux (adjectifs ou nom). Dans ces cas, il serait particulièrement intéressant que l’analyseur identifie l’aspect déverbal de la base. Pour certaines règles, le repérage des formes nominales déverbales est même essentiel pour désambiguïser la forme construite et la traduire correctement (cf. le cas des préfixations retro, que nous verrons plus bas).

Le traitement des verbes inchoatifs doit également passer par un traitement particulier de leur « base ». En effet, rappelons que ce type de préfixation sert à former des verbes à partir d’adjectifs, avec le sens de devenir les traits de l’adjectif, ou faire prendre les traits de l’adjectif. Il se retrouve aussi sur des bases nominales où il forme des verbes avec le sens mettre dans l’état de N, mettre dans N, faire venir quelque chose à l’état de N, etc. Le verbe formé par le préfixe prend alors évidemment une marque flexionnelle permettant son intégration dans le paradigme verbal (beau embell+ir).

Mais d’un point de vue informatique, la base formelle n’existe pas dans le lexique de référence (*bellir). L’analyseur doit donc être en mesure de calculer, parmi les bases inconnues du lexique de référence, les bases nominales ou adjectivales des verbes inchoatifs.

Enfin, un autre cas problématique auquel l’analyseur est confronté est celui des analyses multiples des bases. En effet, certaines formes peuvent recevoir plusieurs analyses. Par exemple, la forme precontatti est analysée suivant deux bases possibles (pre*contatti (verbe), pre*contatti (nom)). Dans certains cas, les règles de l’analyseur permettent de désambiguïser, grâce aux contraintes catégorielles ou sémantiques. Dans d’autres, les deux analyses sont maintenues et la désambiguïsation devrait avoir lieu dans une étape ultérieure de l’analyse morphosyntaxique de la phrase entière.

9.2.4.4 Ambiguïtés formelles

L’analyseur se fonde donc sur la forme des mots inconnus. Mais nous l’avons vu dans le chapitre 8, certains préfixes sont les exposants de différentes RCL. Cette homonymie peut être source d’ambiguïtés au niveau du traitement automatique, et seules des informations sémantiques sur la base permettront la désambiguïsation.

Ainsi, un certain nombre de préfixes relèvent à la fois d’une règle de préfixation locative et d’une règle de préfixation évaluative (para, sopra/sovra, sub, super). Cette homonymie provient d’un glissement du sens locatif vers le sens évaluatif. Un autre préfixe relève de deux RCL : inter, qui est locatif, mais qui par glissement, entre également dans des règles de préfixation de réciprocité.

A l’intérieur des classes principales de préfixation, certains préfixes se retrouvent dans différentes règles. Ainsi, post et pre sont présents dans les règles de position locative et temporelle. Dans la classe de position locative arrière, le préfixe retro participe à la règle de mouvement arrière et à la règle de position arrière. Notons également que certains préfixes acquièrent d’autres connotations, comme quelques préfixes évaluatifs (iper, super), qui peuvent recouvrir une valeur d’excès.

Si ces « ambiguïtés » formelles sont les mêmes dans les deux langues, elles ne poseront pas vraiment de problème de traduction. En revanche, le problème surviendra avant tout en cas de divergence entre les deux langues ; l’analyseur devra dans ce cas fournir une analyse désambiguïsée. Cette désambiguïsation peut se fonder soit sur la sémantique de la base (si les informations sémantiques sont disponibles), soit sur la réalisation formelle de cette sémantique (comme par exemple, les terminaisons typiques de la déverbalisation nominale, indiquant un aspect processuel). Nous mentionnerons quelques exemples de divergences de ce type dans le chapitre consacré à la génération (cf. chapitre 11).

Dans le document De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue (Page 154-159)