• Aucun résultat trouvé

Nous avons pr´esent´e dans ce chapitre un tour d’horizon de l’extraction de lexiques bilingues `a partir de corpus de textes multilingues parall`eles et comparables. Un premier constat est que les approches utilis´ees pour l’acquisition de lexiques `a partir de corpus parall`eles ne sont pas valables avec ceux utilisant des corpus comparables

et vise versa. Plus int´eressant encore est qu’il existe un large ´eventail de techniques manipulant ces deux types de corpus, dont certaines sont suffisamment simples, tandis que d’autres requi`erent plutˆot des techniques complexes. N´eanmoins, la d´esignation de la technique la plus efficace reste ouverte `a un d´ebat, ce qui souligne l’imp´eratif de poursuivre les recherches et l’exploration de nouvelles approches.

Au cours des premi`eres ann´ees, apprendre `a partir de corpus parall`eles ´etait la tˆache primordiale de l’extraction de lexiques bilingues. Le grand nombre de publica- tions consacr´ees aux textes parall`eles montrent le chemin parcouru en `a peine plus d’une vingtaine d’ann´ees. De nos jours et surtout en extraction de lexiques bilingues de mots simples, les travaux s’appuyant sur ce type de corpus ont d´ej`a enregistr´e des succ`es significatifs. C’est pour cette raison que les recherches actuelles se sont pench´ees vers l’extraction d’unit´es lexicales complexes comme les expressions poly- lexicales, o`u de nombreuses difficult´es subsistent, et que le champ de recherche dans ce domaine est encore largement ouvert. Dans cette ´etude, notre int´erˆet se porte sur cet objet linguistique. Nous pr´esentons dans la deuxi`eme partie de cette th`ese une ´etude sur le traitement d’expressions polylexicales bilingues, allant de leur acquisition automatique `a partir de corpus parall`eles `a leur int´egration dans une application cl´e du TAL : la traduction automatique.

Nous avons ´egalement pr´esent´e les approches utilis´ees pour extraire des lexiques bilingues `a partir de corpus comparables. Actuellement, les approches contextuelles comme l’approche standard sont les plus souvent utilis´ees. Pour construire des lexiques bilingues, ces approches reposent sur les cooccurrences des mots dans chaque langue. N´eanmoins, leur principale diff´erence r´eside dans les informations de cooccurrence qu’elles acqui`erent du contexte. Toutes les recherches men´ees dans ce cadre poss`edent un objectif sp´ecifique. Certaines visent `a traduire des mots issus du domaine g´en´eral (Rapp, 1999a), tandis que d’autres se sont concentr´es sur des termes sp´ecifiques `a des domaines particuliers (Chiao et Zweigenbaum, 2002;Morin et al., 2008). En outre, un grand nombre de ces ´etudes sont ax´ees sur la traduction de mots simples (Haghighi et al., 2008;Diab et Finch, 2000) et de mots compos´es (Daille, 2001;Robitaille et al., 2006). Dans ce cadre, nous pr´esentons dans la troisi`eme partie de ce manuscrit de nouvelles approches d’extraction de lexiques bilingues `a partir de corpus comparables, qui s’int´eressent `a des termes simples.

Extraction de lexiques bilingues `a

Cette partie est consacr´ee `a la pr´esentation de nos contributions qui se portent sur l’extraction de lexiques bilingues `a partir de corpus parall`eles. Comme il a ´et´e mentionn´e dans le chapitre 1, l’extraction de lexiques bilingues de mots simple `a partir de ce type de corpus peut ˆetre consid´er´ee comme une tˆache bien maˆıtris´ee. Or, la faiblesse de ces lexiques est leur manque de couverture pour les expressions polylexicales. Dans cette partie, notre int´erˆet se porte par ce type d’unit´es car, en plus du fait qu’elles soient fr´equemment utilis´ees dans le langage oral et ´ecrit, leur identification est fondamentale pour les applications faisant intervenir les aspects s´emantiques de la langue et surtout la traduction automatique.

Cette partie est organis´ee de la mani`ere suivante : nous pr´esentons dans le chapitre

2 une approche qui identifie et aligne les expressions polylexicales dans un texte parall`ele, et une approche qui ´etudie l’apport de ce type d’unit´es pour un syst`eme de traduction automatique (chapitre3).

Lexique bilingue d’expressions

polylexicales

2.1

Introduction

Depuis les ann´ees 90, les recherches en traitement automatique des langues (TAL) se sont int´eress´ees aux expressions polylexicales (EPL, en anglais MultiWord Expres- sions) et aux probl`emes qu’elles soul`event. Une EPL peut ˆetre d´efinie comme une combinaison de mots pour laquelle les propri´et´es syntaxiques ou s´emantiques de l’ex- pression enti`ere ne peuvent pas ˆetre obtenues `a partir de ses parties (Sag et al., 2002). Les EPL sont fr´equemment employ´ees dans les textes ´ecrits car elles constituent une part significative du lexique d’une langue. (Jackendoff, 1997) estime que la fr´equence de leur utilisation est ´equivalente `a celle des mots simples. Bien qu’elles soient faci- lement employ´ees et reconnues par les humains, leur identification pose un probl`eme majeur pour diverses applications du traitement automatique des langues, `a savoir l’analyse syntaxique (Nivre et Nilsson, 2004; Constant et al., 2011), le r´esum´e au- tomatique (Hogan et al., 2007), l’extraction d’information (Vechtomova, 2005) et en particulier pour la traduction automatique (Carpuat et Diab, 2010;Ren et al., 2009). Dans cette ´etude, notre int´erˆet se porte sur la constitution d’un lexique bilingue dont les entr´ees sont constitu´ees d’EPL en relation de traduction. Ces EPL sont ex- traites `a partir d’un corpus parall`ele fran¸cais-anglais. En extraction lexicale, acqu´erir

des lexiques `a partir de corpus parall`eles est une tˆache bien maˆıtris´ee. Or un des points faibles de ces lexiques est souvent leur manque de couverture pour les EPL (Sagot et al., 2005). L’alimentation de lexiques bilingues par ce type d’unit´es lexicales s’av`ere donc important pour les applications faisant intervenir l’aspect bilingue (traduction automatique et recherche d’information interlingue).

Ce chapitre est organis´e de la mani`ere suivante : nous pr´esentons une m´ethode qui identifie tout d’abord les EPL dans chaque partie du corpus parall`ele pour les mettre en relation de traduction en un second lieu. Avant de pr´esenter cette approche (section2.3), nous discutons dans la section 2.2 de la d´efinition, des propri´et´es et de diff´erentes typologies d’EPL. La section 2.4 est consacr´ee `a la pr´esentation du cadre exp´erimental et `a l’´evaluation men´ee dans ce cadre.