• Aucun résultat trouvé

4.3 M ´ethodologie d’ ´evaluation

4.3.1 R ´ef ´erence a priori

4.4 Synth `ese . . . 112

Introduction

Le but de ce chapitre est d’exposer le cadre m ´ethodologique de nos recherches. La premi `ere section (4.1) d ´efinit notre m ´ethode de traduction ainsi que les notions employ ´ees. Dans la section 4.2, nous nous efforc¸ons de mettre en avant nos contributions. La m ´ethodologie d’ ´evaluation est pr ´esent ´ee en section 4.3. Une synth `ese du chapitre est donn ´ee en section 4.4.

4.1

M ´ethode de traduction morpho-compositionnelle

Nous plac¸ant dans le cadre de la traduction compositionnelle d’unit ´es monolexicales, nous souhaitons proposer une approche inspir ´ee des travaux de Cartoni (2009b); Weller

et al. (2011) et Harastani et al. (2012) qui soit suffisamment g ´en ´erique pour traiter divers

types de constructions morphologiques ainsi que les cas o `u l’unit ´e monolexicale peut ˆetre traduite par une unit ´e polylexicale. De plus, nous souhaitons aussi proposer une m ´ethode d’ordonnancement des traductions produites qui prennent en compte divers crit `eres et pas seulement sa fr ´equence ou la similarit ´e entre sa distribution et celle du terme source.

La m ´ethode de traduction propos ´ee, que nous nommons m ´ethode morpho-compositionnelle se d ´ecompose en cinq ´etapes :

1. D ´ecomposer le terme source en morph `emes ou en ´el ´ements “approchants” :

– post-menopausal est d ´ecoup ´e en post et menopausal

2. Traduire, `a l’aide d’un dictionnaire bilingue, chacun de ces ´el ´ements en langue cible, la

traduction peut faire appel `a desvariantes morphologiques ou `a des synonymes :

– post peut ˆetre traduit par post ou apr`es – menopausal peut ˆetre traduit par m´enopause

3. Recomposer les ´el ´ements traduits de fac¸on `a g ´en ´erer un candidat terme en langue cible

qui peut ˆetre compos ´e d’un ou plusieurs mots :

– post et m´enopause peuvent ˆetre recompos ´es de 4 fac¸ons : postm´enopause, m´enopausepost (1 mot) et post m´enopause, m´enopause post (2 mots).

– apr`es et m´enopause peuvent aussi ˆetre recompos ´es de 4 fac¸ons : apr`esm´enopause, m´enopauseapr`es, apr`es m´enopause, m´enopause apr`es

4. Rechercher une attestation des candidats termes dans un corpus en langue cible :

– seuls postm´enopause, post m´enopause, apr`es (la) m´enopause et m´enopause apr`es peuvent ˆetre attest ´es dans un corpus

5. Ordonner les candidats extraits du corpus `a partir d’un score obtenu par la combinaison

de plusieurs crit `eres : (a) postm´enopause (b) apr`es la m´enopause (c) post m´enopause (d) m´enopause apr`es

Dans la suite de ce m ´emoire, nous employons le terme g ´en ´eration de traduction pour r ´ef ´erer aux ´etapes 1 `a 4 et le terme ordonnancement des traductions pour r ´ef ´erer `a l’ ´etape 5.

La m ´ethode que nous proposons ne s’appuie pas sur des patrons de traductions et ne repose pas sur des a priori quant `a la structure morphologique du terme cible. Les ´etapes 1, 2 et 3 g ´en `erent toutes les hypoth `eses de traduction possibles. `A l’issue de l’ ´etape 3, nous avons donc un grand nombre de traductions candidates, dont certaines sont des “monstres linguistiques” (ex. :m´enopauseapr`es). Les ´etapes 4 et 5 permettent de restreindre le nombre de traductions candidates en s ´electionnant uniquement les traductions attest ´ees en langue cible ( ´etape 4) puis en les ordonnant de la plus `a la moins plausible ( ´etape 5).

Par ailleurs, notre m ´ethode autorise la traduction d’un morph `eme li ´e par un morph `eme libre. Dans notre exemple, il s’agit de la traduction du pr ´efixepost par la pr ´eposition apr`es. Ce type d’ ´equivalences traductionnelles n’a, `a notre connaissance, jamais ´et ´e utilis ´e en ce qui concerne la traduction compositionnelle.

4.1.1

Positionnement

Des ´equivalences entre morph `emes libres et li ´es ont d ´ej `a ´et ´e utilis ´ees par Claveau et Kijak (2011) dans le cadre des approches empiriques. Dans ce travail, ils ´etablissent des familles morphologiques comme{bact´erio-, bact´eri-, bact´erie} qui sont align ´es avec un m ˆeme kanji et peuvent lui servir de traduction. Claveau et Kijak indiquent d’ailleurs que plusieurs traductions g ´en ´er ´ees sont des paraphrases, ce qui montre l’int ´er ˆet de l’ ´equivalence morph `eme li ´e ↔ morph `eme libre pour g ´en ´erer des traductions fertiles.

Dans la m ˆeme veine, D ´el ´eger (2009) g ´en `ere des paraphrases dans le but de faciliter la compr ´ehension des textes m ´edicaux et notamment la compr ´ehension des compos ´es savants. Elle travaille `a partir de corpus comparables monolingues, c’est- `a-dire `a partir de deux corpus de textes appartenant `a un domaine de sp ´ecialit ´e et traitant de la m ˆeme th ´ematique (ex. : tabac, cancer, diab `ete) mais dont un contient des textes destin ´es `a des sp ´ecialistes (corpus scientifique) et l’autre contient des textes destin ´es `a des non sp ´ecialistes (corpus vulgaris ´e). Des compos ´es savants sont extraits du corpus scientifique puis leurs paraphrases sont g ´en ´er ´ees en utilisant l’analyseur morpho-s ´emantique D ´ERIF (Namer, 2005) qui est capable de g ´en ´erer des gloses de mots morphologiquement complexes (par exemple,gastrite est glos ´e en‘inflammation de l’estomac’ ). Les gloses sont ensuite transform ´ees en patrons et projet ´ees sur le corpus vulgaris ´e : les suites de mots appari ´ees avec le patron sont consid ´er ´ees comme des paraphrases.

Pour g ´en ´erer la glose, l’analyseur D ´ERIF proc `ede en deux temps. Tout d’abord, une d ´ecomposition hi ´erarchique du mot morphologiquement complexe est produite et les processus morphologiques ayant contribu ´e `a la cr ´eation du mot sont identifi ´es. Par exemple,gastralgie est d ´ecompos ´e en1:

[ [ gastr N* ] [ algie N* ] NOM ]

etpr´etraitement peut ˆetre d ´ecompos ´e de deux mani `eres : (1) [ pr´e [[ traiter VERBE] ment NOM] NOM] (2) [ [ pr´e [traiter VERBE ] VERBE] ment NOM]

Puis, se basant sur l’hypoth `ese compositionnelle2, D ´ERIF g ´en `ere une pseudo-d ´efinition

(ou glose) `a partir des r ´esultats de l’analyse des mots morphologiquement complexes. Ainsi, gastralgie est glos ´e en ‘douleur (du – li´ee au) estomac’ et pr´etraitement peut ˆetre glos ´e en ‘(P´eriode – Lieu) qui pr´ec`ede le traitement’ (d ´ecomposition 1) ou en ‘(Action - r´esultat de l’action) de pr´etraiter’ (d ´ecomposition 2). Dans le cas de gastralgie, D ´ERIF est capable d’ ´etablir un lien entre une racine classique et son ´equivalent lexical en franc¸ais : gastr a ´et ´e reli ´e `a estomac et algie `a douleur . D ´ERIF traite `a la fois les compos ´es savants commegastralgie mais aussi les mots obtenus par l’affixation d’une racine classique commeh´epatique qui est glos ´e en ‘en relation avec le foie’ .

En recherche d’information crosslingue, Schulz et al. (2006) ont mis au point le syst `eme MORPHOSAURUS bas ´e non pas sur les mots mais sur ce que Schulz et al. appellent des

subwords≫et qu’ils d ´efinissent comme≪la plus petite unit ´e porteuse de sens dans un terme appartenant `a un domaine de connaissance≫3- en somme, des morph `emes sp ´ecialis ´es. Le

1. Les d ´ecompositions ont ´et ´e obtenues sur la version en ligne de D ´ERIF : http ://www.cnrtl.fr/outils/DeriF/requete.php.

2. ≪Les th ´eories en morphologie lexicale permettent de d ´eduire la d ´efinition d’un mot morphologiquement complexe

en fonction de celui de ses constituants. Donc, un syst `eme impl ´ementant une telle approche th ´eorique (comme D ´eriF, cf.§4) est `a m ˆeme de calculer la pseudo-d ´efinition de mots inconnus `a partir des proc ´ed ´es morphologiques mis en

œuvre.(op. cit., p. 65)

3. ≪the minmal meaning-bearing constituent of a domain-specific term(op. cit., p. 1685)

syst `eme MORPHOSAURUSs’appuie sur un lexique multilingue dans lequel chaque subword est

associ ´e `a un identifiant de sens, quelle que soit sa langue. Par exemple,nephr-, ren-, kidney et ri˜non, qui ont le sens de ‘rein’ , sont tous associ ´es au m ˆeme identifiant. Schulz et al. distinguent plusieurs types de subwords selon la fac¸on dont ils se combinent aux autres subwords :

Stems: racines qui portent le contenu s ´emantique principal du mot et qui correspondent

approximativement `a des racines classiques ou `a des mots ind ´ecomposables (hepat, diaphys, head )

Prefixes: ´el ´ements plac ´es avant une racine (de-, re-)

Proper prefixes: pr ´efixes qui ne peuvent ˆetre pr ´efix ´es (peri-, down-)Infixes: ´el ´ements transitionnels (o dans gastrointestinal )

Suffixes: ´el ´ements plac ´es apr `es une racine (-a, -tomy)

Proper suffixes: suffixes qui ne peuvent ˆetre suffix ´es (terminaisons verbales comme -

ing, -ieron)

Invariants: ´el ´ements qui correspondent `a des mots et qui ne doivent pas ˆetre utilis ´es

comme subwords auquel cas ils provoqueraient des ambigu¨ıt ´es lors de la d ´ecomposition (ion, gene)

Certains suffixes d ´erivationnels et flexionnels comme-ation, -s ainsi que les auxiliaires et les verbes modaux ne sont pas pris en compte.

Nous observons que sur les trois travaux de recherche pr ´e-cit ´es, deux ont recours `a des th ´eories de la morphologie : Claveau et Kijak s’appuient sur Mel’ˇcuk (2006) et Namer s’appuie sur Corbin (1987). Schulz et al., quant `a eux, manipulent des notions inspir ´ees de la morphologie et qu’ils ont adapt ´ees `a leurs objectifs : les subwords correspondent dans leur globalit ´e `a des morph `emes `a l’exception de la cat ´egorie≪Invariants≫ et du fait que certains

suffixes et morph `emes grammaticaux sont ignor ´es par le syst `eme MORPHOSAURUS.

La litt ´erature fait ´etat de diverses analyses du fait morphologique, cette diversit ´e de points de vue se traduit aussi par une grande vari ´et ´e terminologique :

– Mel’ˇcuk (2006), par exemple, distingue les morph `emes, ´el ´ement de sens (signifiant), des morphes, segments linguistiques qui sont une r ´ealisation possible d’un morph `eme (signifi ´e). Par exemple, le morph `eme ‘ pluriel’ correspond aux morphes /-z/, /-s/, /-Iz/, /-@n/, en anglais (comme dansgirls, bricks, boxes, oxen).

– Martinet (1985) emploie uniquement le terme de mon `eme qui correspond non pas `a une unit ´e de sens mais `a un≪effet de sens correspondant `a une diff ´erence formelle(op. cit.,

p. 33). Les mon `emes sont identifi ´es par commutation : le test de commutation consiste `a remplacer un ´el ´ement par un autre dans la chaˆıne parl ´ee et `a observer si ce remplacement provoque un changement de sens. Un mon `eme correspond `a la fois `a la r ´ealisation phonique et `a l’effet de sens observ ´e. En anglais, il y a donc un seul mon `eme ‘ pluriel’ de forme /-z/, /-s/, /-Iz/ ou /-@n/.

– Enfin, la grammaire franc¸aise traditionnelle (Riegel et al., 2005) ne distingue qu’un ´el ´ement, le morph `eme qui est `a la fois unit ´e de sens et de forme4. Un morph `eme peut

pr ´esenter plusieurs variantes graphiques ou orales appel ´ees allomorphes : par exemple, le radical du verbe aller pr ´esente quatre allomorphes : all-, i-, v-, aill-. G ´en ´eralement,

4. ≪le morph `eme est g ´en ´eralement consid ´er ´e comme l’unit ´e minimale porteuse de sens obtenue par segmentation

des ´enonc ´es. Il s’agit donc d’un segment pr ´econstruit associant une forme et un sens, mais qui ne peut plus se d ´ecomposer en segments de m ˆeme type(op. cit., p. 533)

c’est la variante la plus fr ´equente ou celle jug ´ee la plus repr ´esentative qui est utilis ´ee pour d ´esigner le morph `eme. En anglais, il y a donc un morph `eme /-z/ dont le sens est ‘ pluriel’ et qui poss `ede trois variantes : /-s/, /-Iz/ et /-@n/.

En ce qui concerne nos travaux, nous avons choisi d’adopter l’optique de Schulz et al. c’est- `a-dire que les ´el ´ements sur lesquels nous nous basons pour effectuer la traduction peuvent parfois correspondre `a des morph `emes et parfois s’en approcher sans pour autant y correspondre totalement. En ce sens, nous avons donc d ´efini plusieurs cat ´egories bas ´ees `a la fois sur des crit `eres linguistiques et graphiques. Nous avons choisi de nous focaliser sur des ´el ´ements avec un sens r ´ef ´erentiel ou susceptibles de changer fortement le sens d’un mot.

4.1.2

D ´efinitions

Unit ´e polylexicale Toute unit ´e compos ´ee de plusieurs mots lexicaux. Cette cat ´egorie inclut les unit ´es polylexicales “classiques”cancer du sein, essai clinique mais aussi toute sorte de syntagmes :apr`es la m´enopause, agir sur le cancer, deux dimensions....

Unit ´e monolexicale Unit ´e compos ´ee d’un seul mot :cancer, sein, apr`es, m´enopause.

Mot Les mots correspondent `a une chaˆıne de caract `eres compos ´ee d’au moins une lettre et ´eventuellement des chiffres ou des traits d’union, ex :anti-p21, bio-rad, cancer, vasomoteur, gastrique... Ces crit `eres graphiques font que nous ne comptons pas comme mots les cat ´egories linguistiques comme les locutions ou encore les mots compos ´es dont les composants sont s ´epar ´es par des espaces (chemin de fer ). Ces ´el ´ements entrent dans la cat ´egorie des unit ´es polylexicales. Les mots sont des unit ´es autonomes : ils peuvent apparaˆıtre de fac¸on isol ´ee dans les textes, i.e. entour ´es de caract `eres autres que un chiffre, une lettre ou un trait d’union. Nous distinguons les mots complexes et les mots simples.

Mot complexe Un mot complexe est un mot d ´ecomposable en plusieurs sous- ´el ´ements appel ´es morph `emes, ex. : anti-p21 → anti+p21, bio-rads → bio+rads, vasomoteur → vaso+moteur . Les mots complexes sont les mots traduits par notre m ´ethode. Nous ne traitons que les mots complexes qui sont des mots lexicaux, c’est- `a-dire qu’ils appartiennent aux cat ´egories grammaticales Nom, Verbe, Adjectif et Adverbe.

Morph `eme Un morph `eme est un ´el ´ement qui n’est pas d ´ecomposable en sous- ´el ´ements. Ce sont approximativement les morph `emes tels que d ´efinis dans la tradition grammaticale, puisqu’ils sont ind ´ecomposables et correspondent `a des ´el ´ements de sens : anti- ‘inverse de’ , -bio- ‘relatif `a la vie, au vivant’ , -vaso- ‘canal, vaisseau’ , moteur ‘qui produit ou transmet le mouvement’ , cancer , gastrique. Nous faisons la distinction entre morph `emes libres (mots simples) et li ´es.

Mot simple ou morph `eme libre Un mot simple est un mot non d ´ecomposable en sous- ´el ´ements : cancer, gastrique, p21, rad, moteur . Dans nos analyses, nous ne retenons que les mots lexicaux. En tant que mot, il peut fonctionner de fac¸on autonome dans les textes. Cette propri ´et ´e le distingue des morph `emes li ´es. Un mot simple peut ˆetre combin ´e `a d’autres morph `emes pour cr ´eer un mot complexe (moteur dans vasomoteur , p21 dans anti-p21 ).

Morph `eme li ´e Un morph `eme li ´e est, comme le mot simple, ind ´ecomposable en sous- ´el ´ements. `A l’inverse du mot simple, il ne peut apparaˆıtre de fac¸on autonome dans les textes, ex. :anti- ‘contre’ , -bio- ‘relatif `a la vie, au vivant’ , -vaso- ‘canal, vaisseau’ . Ils correspondent aux cat ´egories linguistiques suivantes : confixes, pr ´efixes, suffixes. Nous ´eliminons donc d’autres cat ´egories comme les infixes (um dans kum’ain, ‘en parlant de celui qui mange’ , tagalog), circonfixes (ge...t dans gesagt ‘dit’ , allemand) ou interfixes (o dans gastrointestinal ).

Pr ´efixe Un pr ´efixe est un morph `eme li ´e toujours plac ´e en position initiale d’un mot complexe, ex : anti- dans anti-p21 . Dans les langues ´etudi ´ees, plusieurs pr ´efixes peuvent s’agglutiner en d ´ebut de mot (anti-r´e´election) mais nous ne prenons pas en compte cette possibilit ´e5.

Confixe Les confixes correspondent aux racines grecques et latines entrant en jeu dans la cr ´eation des compos ´es savants. On les retrouve sous divers noms dans la litt ´erature : bases suppl ´etives, arch ´eoconstituants, composants n ´eolatins, bases savantes, primitifs suppl ´etifs... (Namer, 2003, cit ´ee par Grabar (2004)). Le terme de confixe, quant `a lui, est emprunt ´e `a Martinet (1979). Les travaux linguistiques (Bauer, 1983; Martinet, 1979; Riegel et al., 2005) ont soulev ´e le fait que certains confixes apparaissent toujours en position initiale (poly-, mono-), d’autres toujours en position finale (-cide, -vore), et d’autres encore apparaissent indiff ´eremment dans les deux positions(-graph-, -phil-). Nous ne faisons pas cette distinction : dans nos analyses, les confixes peuvent apparaˆıtre dans n’importe quelle position6. Toutefois, comme la fronti `ere entre langue de sp ´ecialit ´e et langue g ´en ´erale est poreuse, nous avons ´egalement ´et ´e souples dans nos cat ´egories. Certains ´el ´ements d’origine grecque ou latine que l’on rencontre en position initiale mais dont l’usage est courant en langue g ´en ´erale ont ´et ´e consid ´er ´es comme pr ´efixes (ex :multi-, poly-). D’autres ´el ´ements ont ´et ´e affect ´es aux deux cat ´egories (ex : m´eta- /-m´eta-, micro-/-micro-).

Comme nous n’analysons pas les interfixes7, beaucoup des confixes consid ´er ´es int `egrent

directement l’interfixe : nous consid ´erons par exemple-chondri-, -chondr- et -chondro- comme trois confixes alors que d’un point de vue linguistique, il s’agit du confixe-chondr- interfix ´e avec -i- ou -o- ou sans interfixe.

Les confixes peuvent ˆetre combin ´es entre eux et/ou avec un mot simple pour former un mot complexe. `A cette base lexicale, peuvent venir s’accoler pr ´efixes et suffixes.

Suffixe Un suffixe est un morph `eme li ´e toujours plac ´e en position finale d’un mot complexe, ex : -ment dans histologiquement. Dans les langues ´etudi ´ees (franc¸ais, anglais, allemand), les suffixes sont principalement utilis ´es pour la d ´erivation (incorporer → incorporation ‘action d’incorporer’ ) et la flexion (incorporation → incorporations). Les pr ´efixes flexionnels ne sont pas pris en compte puisque nous travaillons avec les formes lemmatis ´ees des mots o `u les ph ´enom `enes de flexion sont neutralis ´es. Concernant la d ´erivation, nous nous sommes restreints `a un petit jeu de suffixes. Ces suffixes ont ´et ´e choisis car nous les consid ´erons comme fortement susceptibles d’ ˆetre traduits par un morph `eme libre en langue cible, ph ´enom `ene sur lequel nous souhaitions nous pencher en priorit ´e. Il s’agit des suffixes-ability ‘capacit´e’, -able

5. Afin de simplifier l’ ´ecriture de l’algorithme de d ´ecoupage morphologique, nous n’avons pas implant ´e de r `egles analysant les mots comprenant plusieurs pr ´efixes (ce cas n’apparaˆıt pas dans nos donn ´ees).

6. Contrairement `a Harastani et al. (2012) qui distinguentInitial Combining Forms (ICFs) [et] Final Combining

Forms (FCFs)(op. cit., p. 74).

7. Contrairement `a Weller et al. (2011) qui d ´ecoupent Kalorimetrie en Kalor, i et metrie

‘capable’, -hood ‘´etat’, -like ‘similaire’, -ly ‘mani`ere’, -wise ‘sens’ . Par cons ´equent, la majorit ´e des suffixes n’est pas prise en compte. Par exemple, un mot comme gastrique ne sera pas d ´ecoup ´e engastr et ique alors que d’un point de vue purement linguistique, il est bien compos ´e de deux morph `emes.

Notations

L’occurrence d’un mot ou d’un ensemble de mots dans un texte est not ´ee entre guillemets, ex. : ≪breathless≫. Le signifi ´e ou la traduction (glose) d’un mot est not ´e entre apostrophes,

ex. :‘sans souffle’ .

Les pr ´efixes sont not ´es suivis d’un tiret, ex. :anti- ; les confixes sont not ´es entour ´es de tiret, ex. :-gastr- ; les suffixes sont not ´es pr ´ec ´ed ´es d’un tiret ; ex. : -able, les mots n’ont aucun tiret, ex. :cancer .

Dans un mot complexe, les fronti `eres entre morph `emes sont not ´ees par le signe plus, ex. :- gastro-+intestinal, anti-+p21, -histo-+logique+-ment. Dans une unit ´e polylexicale, les fronti `eres de mots sont not ´ees par un espace ex. :contre le p21 , mani`ere -histo-+logique.

La traduction est not ´ee par une fl `eche allant du terme source vers le terme cible :-histo- +logical+-ly → -histo-+logique+-ment.

4.1.3

Hypoth `eses sous-jacentes

La traduction morpho-compositionnelle s’appuie sur les hypoth `eses suivantes :

Sens compositionnel Nous faisons l’hypoth `ese que les mots complexes ont un sens compositionnel calculable `a partir du sens des morph `emes qui les composent : anti-+tarte `a le sens de ‘contre le tartre’ .

C’est une hypoth `ese relativement r ´ealiste. C’est par exemple celle sur laquelle s’appuie l’analyseur D ´ERIF. Il existe des contre-exemples comme dans le cas o `u le sens d’un mot est imag ´e (rose des vents). Toutefois, ces contre-exemples se retrouvent surtout dans la langue g ´en ´erale et c’est une hypoth `ese raisonnable que de consid ´erer que dans la langue technique, le recours `a la m ´etaphore ou `a des sens imag ´es est peu courant.

Traduction compositionnelle Nous faisons l’hypoth `ese d’un parall ´elisme entre les langues : si un terme source a un sens compositionnel, alors sa traduction a aussi un sens compositionnel, qui plus est, il y a bijection entre les morph `emes sources et les morph `emes cibles :anti-1-+abortion2 →anti-1+avortement2, contre1 (l’) avortement2.

Ceci semble une hypoth `ese r ´ealiste dans le cas des compos ´es savants et des pr ´efix ´es puisque comme l’ont observ ´e Namer et Baud (2007) et Cartoni (2009b), ces processus de