• Aucun résultat trouvé

TiLT est un système avec pivot sémantique interlingue basé sur des règles (Iheddadene, 2006). La phase d’analyse se fait de façon classique : après une étape de segmentation, les informations morphologiques, syntaxiques et sémantiques de chacun des mots de l’énoncé source sont recherchées dans un lexique. Une grammaire de dépendance est ensuite utilisée pour construire le(s) arbre(s) représentant la structure syntaxique de l’énoncé. On compte actuellement sept langues représentées à des niveaux de couverture différents : le français, l’anglais, l’allemand, l’arabe, le polonais, l’espagnol et le portugais.

Triangle de Vauquois, Principe de traduction

Le traitement d’un message donné dans une langue peut être effectué sur plusieurs niveaux. Toutes les applications n’ont pas besoin de procéder à une analyse complète, mais la traduction automatique, par exemple, exige dans l’absolu de passer par un état de connaissance et d’organisation de l’information commun aux deux langues – voire à toutes les langues – et que l’on appelle le pivot. En réalité, cet état reste une vue de l’esprit : il semble même ne pas exister dans l’esprit humain tant les esprits eux-mêmes ne partagent pas la même vision du monde, chacun ayant une compréhension propre de la réalité qu’il perçoit à travers différents filtres : social, géographique, éducatif, psychologique, cognitif, historique, etc. Sur ses différents filtres qui façonnent la perception du monde se rajoute l’organisation de sa représentation à travers le langage qui ne se construit pas de manière uniforme selon les individus mais en fonction du contexte dans lequel chaque mot a été associé à un sens particulier par l’individu. C’est ainsi que si nous poussons le raisonnement, nous pouvons admettre qu’il y a autant de pivots que de personnes. Il est donc vain d’attendre que les systèmes automatiques y parviennent, Néanmoins, les principes mis en place pour la recherche vers la traduction automatique visent à atteindre ce pivot – quand bien même dût-il rester théorique – en passant par toutes les étapes inscrites dans Triangle de Vauquois (Vauquois, 1975) dont une représentation est donnée à la Figure 25.

Schéma empruntéà la documentation interne de France Télécom Figure 25 : Triangle de Vauquois.

La structure de TiLT permet de monter jusqu’à une image du pivot relativement proche du pivot théorique puisque la traduction automatique passe par un graphe conceptuel construit à partir des données sémantiques interlingues (Iheddadene, 2006). La pertinence du dictionnaire sémantique – le thesaurus – devrait permettre la construction de graphes conceptuels totalement indépendants de la syntaxe et uniques quelle que soit la langue source. Dans la réalité, il n’a pas la valeur du pivot théorique parce qu’il ne suffit pas à établir toutes les correspondances entre les langues. En effet, il arrive que l’analyse d’un énoncé formulé dans deux langues différentes donne des différences dans l’établissement du graphe conceptuel. Il est alors nécessaire de compléter les données du thésaurus par des règles de reformulation permettant la connexion entre les deux analyses. Ainsi, certaines structures de pensée – et donc de phrases – conduisent-elles inévitablement à une représentation sémantique différente selon les langues. Par exemple, pour une idée commune de « manquer à l’autre », l’anglais fera porter l’expérience par le locuteur tandis que le français fera du locuteur le bénéficiaire de l’expérience : « I miss you » vs « tu me manques ». Pour passer d’une langue à l’autre, il devient donc parfois nécessaire d’orienter, de réécrire un graphe sémantique pour reformuler ce qui doit être exprimé en fonction des représentations propres à la langue cible. Notre illustration met en lumière une divergence entre l’anglais et le français qui sont deux langues appartenant à la même famille et au sein de laquelle elles sont particulièrement proches. Il existe entre l’anglais et le français de nombreuses autres divergences linguistiques qui dénotent une vision et une compréhension du monde propre à chacune des cultures. Le nombre et la complexité de ces divergences augmentent à mesure que les langues et les

cultures qui les utilisent sont éloignées. L’impossibilité de créer un pivot commun à toutes les langues est contournée par la création de ces règles de reformulation rendant compte des usages idiomatiques et des divergences profondes entre les langues. Ces règles sont relatives aux divergences entre deux langues. Ainsi, en agrégeant dans un thésaurus unique les données sémantiques communes aux langues et en traitant les divergences par des règles de reformulation basées sur l’observation des langues deux à deux dans un fichier spécifique à ces deux langues, il est possible de considérer que l’association du thesaurus et de ce fichier constitue une figure – propre aux deux langues – du pivot.

Application du modèle de Vauquois à TiLT

L’organisation des niveaux de traitements linguistiques pour TiLT est à l’image de celles des niveaux du triangle de Vauquois. Ainsi, comme le montre la Figure 26, le système, pour l’analyse, est organisé suivant trois niveaux principaux – lexical, syntaxique et sémantique – dont les briques89 logicielles constituent une chaîne de traitements linguistiques (qui va du bas vers le haut sur le schéma).

Schéma emprunté à la documentation interne de France Télécom Figure 26 : Briques linguistiques d’analyse de TiLT.

89 Dans le programme global, une « brique » est une partie dévolue à une tâche particulière.