• Aucun résultat trouvé

2.2.1

D´efinition

Les expressions polylexicales, dans le consensus actuel du domaine du TAL, forment des unit´es linguistiques qui contiennent un certain degr´e de non-compositionalit´e lexicale, syntaxique, s´emantique et/ou pragmatique. Les EPL sont g´en´eralement com- pos´ees d’un groupe de deux ou plusieurs mots dans une langue dont le sens ne peut pas ˆetre d´eduit de ses constituants. Dans la litt´erature, les termes idiome, collocation et expression polylexicale ou encore expression multi-mot sont couramment employ´es de mani`ere interchangeable. (Calzolari et al., 2002) d´efinissent les EPL comme suit : [. . . ] Des ph´enom`enes diff´erents mais li´es [. . . ]. G´en´eralement et `a un certain ni- veau d’analyse linguistique, l’ensemble de ces ph´enom`enes peuvent ˆetre d´ecrits comme une s´equence de mots qui agit comme une seule unit´e.

Dans quelques travaux (Ramisch et al., 2013), les auteurs ne donnent pas une d´efinition des EPL mais ´enum`erent des exemples. Dans cette ´etude, nous utilisons la d´efinition propos´ee par (Calzolari et al., 2002) pour caract´eriser une EPL.

Expressions polylexicales

Expressions lexicalisées

Expressions institutionalisées Collocations Expressions flexibles Expressions figées Expressions semi-figées Verbes à particule Idiomes décomposables Entités nommées Mots composés Idiomes non décomposables

Figure 2.1: Typologie des expressions polylexicales selon (Sag et al., 2002).

2.2.2

Typologie d’EPL

Les classifications et terminologies des EPL sont tr`es nombreuses et vari´ees dans la litt´erature linguistique. La classification la plus populaire actuellement dans la com- munaut´e internationale du TAL est celle d´ecrite dans (Sag et al., 2002). Ces derniers proposent de d´ecouper les EPL en deux classes : les expressions lexicalis´ees et les expressions institutionalis´ees (Figure 2.1). Les expressions lexicalis´ees poss`edent un certain degr´e de figement syntaxique et/ou s´emantique, qui peut ˆetre d´etect´e par des crit`eres linguistiques formels. Les expressions institutionalis´ees sont compositionnelles syntaxiquement et s´emantiquement, mais sont statistiquement idiosyncratiques : les mots des expressions apparaissent ensemble soit par convention soit de mani`ere ha- bituelle comme par exemple l’EPL “traffic jam”. Nous pr´esentons dans ce qui suit les types d’EPL de ces deux classes et d´etaillons ceux qui nous seront utiles dans la suite : les collocations, les mots compos´es et les entit´es nomm´ees.

2.2.2.1 Les expressions lexicalis´ees Expressions fig´ees

Les expressions fig´ees sont des combinaisons de plusieurs mots, non-compositionnelles du point de vue s´emantique comme par exemple, l’expression cul de sac d´esignant une impasse. Les crit`eres linguistiques pour d´eterminer si une combinaison de mots est une expression fig´ee sont bas´es sur des tests syntaxiques et s´emantiques. Par exemple, l’expression boˆıte noire est une expression fig´ee car elle n’accepte pas de variations lexicales (boˆıte sombre, caisse noire) et elle n’autorise pas d’insertions (boˆıte tr`es noire).

Expressions semi-fig´ees

Ces expressions respectent ´egalement les contraintes d’ordre des mots et de la non- compositionalit´e, mais elles sont soumises `a un certain degr´e de variation lexicale, par exemple dans la forme de flexion. Il est ainsi possible de les consid´erer comme une unit´e complexe ayant une seule partie de discours mais qui est lexicalement variable `a des positions particuli`eres, comme par exemple la terminaison. Selon (Sag et al., 2002), ces expressions prennent diverses formes, notamment des idiomes non d´ecomposables, des mots compos´es et des entit´es nomm´ees. Les idiomes non d´ecomposables sont des expressions dont les composantes ne contribuent pas `a la signification figur´ee de l’en- semble (par exemple, kick the bucket ou shoot the breeze). Les mots compos´es sont construits par une juxtaposition de deux mots permettant d’en former un troisi`eme qui soit un mot `a part enti`ere et dont le sens ne se laisse pas forc´ement deviner par celui des deux constituants. Ainsi, un garde-fou est, en fran¸cais, un lemme ind´ependant de garde et de fou dont le sens de≪pr`es d’un foss´e, empˆechant de tomber≫ne peut ˆetre

devin´e. Les mots compos´es comme car park, part of speech sont similaire au idiomes non d´ecomposables puisqu’ils sont ´egalement des unit´es non modifiable syntaxique- ment. Les entit´es nomm´ees sont des ph´enom`enes qui ont ´et´e largement ´etudi´es dans le TAL car ce sont des unit´es fondamentales pour plusieurs applications comme l’extrac- tion d’information ou la traduction automatique. Les entit´es nomm´ees comprennent de nombreux ph´enom`enes linguistiques comme les noms propres (noms de personne, d’organisation, etc.), les expressions num´eriques ou les expressions de temps. Dans cette ´etude, nous nous int´eressons plus particuli`erement aux mots compos´es et aux entit´es nomm´ees vu qu’ils apparaissent avec une fr´equence ´elev´e dans un texte et dans les textes du parlement europ´een, la plupart d’expressions sont constitu´es de mots compos´es et d’entit´es nomm´ees.

Expressions syntaxiquement flexibles

Alors que les expressions semi-fig´ees conservent le mˆeme ordre des mots, les expres- sions syntaxiquement flexibles pr´esentent un ´eventail beaucoup plus large de variabi- lit´e syntaxique. Ce type d’expression se compose des verbes `a particule et des idiomes d´ecomposables. Les verbes `a particule sont constitu´es d’un verbe plus une ou plu- sieurs particules comme par exemple write up, look up. Les idiomes d´ecomposables ont tendance `a ˆetre syntaxiquement souples dans une certaine mesure. Des idiomes comme pop the question, ou spill the beans sont d´ecomposables, car chaque composant contribue `a l’interpr´etation figur´ee de l’ensemble. Ce qui importe pour qu’un idiome soit consid´er´e comme d´ecomposable c’est que ses parties poss`edent de la signification, litt´erale ou figur´ee, contribuant de fa¸con ind´ependante `a l’interpr´etation figur´ee de l’expression dans son ensemble.

2.2.2.2 Les expressions institutionalis´ees

Comme elles ont ´et´e d´efinies plus haut, les expressions institutionalis´ees sont constitu´ees essentiellement de collocations. Les collocations sont d´ecrites comme des combinaisons de mots qui pr´esentent des affinit´es et tendent `a apparaˆıtre ensemble (pas forc´ement de mani`ere contig¨ue) (Tutin et Grossmann, 2002), comme par exemple, argument de poids, amour fou. Il existe deux approches principales pour d´efinir les collocations. Tout d’abord, en linguistique de corpus, les collocations sont consid´er´ees comme des combinaisons habituelles de mots au sens fr´equentiel (Sinclair, 1991). Cette d´efinition est celle utilis´ee le plus souvent par les chercheurs en TAL qui sp´ecifient les collocations `a l’aide de mesures associatives statistiques (Smadja et al., 1996; Pecina, 2008). Elle est assez large et couvre toutes les EPL. Certaines collocations sont rela- tivement fig´ees comme par exemple peur bleue. Avec les crit`eres utilis´es dans le cadre du lexique-grammaire qui constitue `a la fois une m´ethode est une pratique effective de description formelle des langues, ce type d’expressions serait consid´er´e comme un mot compos´e : peur (bleue ou rouge ou orange).

Dans cette ´etude, nous nous int´eressons `a l’identification d’expressions institu- tionalis´ees et de certaines expressions lexicalis´ees, plus particuli`erement, nous don- nons plus d’attention aux mots compos´es, collocation, noms propres et certaines ex- pressions fig´ees pr´epositionnelles (en ce qui concerne, par rapport `a, . . . ) puisqu’elle constituent des EPL dont la fr´equence est tr`es ´elev´ee dans les textes.

Corpus source Corpus cible

Identification d'EPL Identification d'EPL

EPL candidates (source)

EPL candidates (cible)

Aligneur

Lexique bilingue d'EPL

Figure 2.2: Vue d’ensemble du syst`eme d’extraction de lexique bilingue d’EPL.