• Aucun résultat trouvé

3.6 Contribution à la traduction des composés savants

3.7.2 Listes de racines gréco-latines

La méthode suivie pour construire des listes monolingues et bilingues de racines gréco-latines est présentée dans cette section.

Listes monolingues Les listes monolingues de racines gréco-latines sont construites manuellement et semi-automatiquement, comme suit :

– une liste de racines en français est extraite de Béchade (1992). En- suite, à partir de cette liste, nous construisons manuellement des listes équivalentes en deux langues : l’anglais et l’allemand. L’aligne- ment manuel est effectué à l’aide des listes de racines gréco-latines monolingues trouvées sur le Web.

Nous obtenons donc des listes monolignues de racines gréco-latines en trois langues. La table 3.6 présente les tailles de ces listes.

Langue FR EN DE

Nb. racines 113 100 99

Table 3.6 – Tailles des listes de racines gréco-latines construites manuellement

Certaines racines n’ont pas d’équivalents d’une langue à une autre. Par exemple, la racine -thèque comme dans sérothèque20 n’a pas

d’équivalent en anglais.

– un algorithme est développé pour enrichir les listes de racines gréco- latines monolingues. Cet algorithme se base sur les mots existant dans le corpus (partie monolingue), les listes de racines gréco-latines (construites manuellement), une liste de préfixes21 ainsi que sur les

parties monolingues de nos dictionnaires bilingues.

Pour extraire une liste de racines gréco-latines du type ICF, nous suivons l’algorithme 3.1. Cet algorithme exploite le fait que la plupart des racines d’origine grecque se terminent par o.

Afin d’extraire une liste de racines gréco-latines du type FCF, nous suivons l’algorithme 3.2.

Les deux algorithmes sont appelés consécutivement de manière ité- 20. Se traduit par serum bank en anglais.

21. Nous utilisons une liste de 3 préfixes pour le français et l’anglais qui se terminent par o : hypo-, FR rétro-/EN retro- et pro-.

rative jusqu’à la convergence (aucune racine de plus n’est ajoutée aux listes de racines).

Données : C (corpus), Dico (Dictionnaire monolingue), Lpre f

(préfixes), LFCF (racines finales), LICF (racines initiales) ;

Résultat : LICF;

début

pour chaque adjectif ou nom ou racine finale (M) dans{C∪LFCF}

faire

si il se trouve un autre adjectif ou nom M’ dans le corpus (ex. hématotumoral, lymphocèle), où M’ peut s’écrire de la forme suivante : [élément + M] (ex. hématotumoral, lymphocèle), et si (1) élément se termine par o ; (2) élément∈ {/ Lpre f ∪Dico∪LICF};

(3) |élément| >= 3 & |élément| <= 9 alors Ajouter élément (ex. hémato, lympho) à LICF;

Algorithme 3.1 : Identification des racines gréco-latines initiales (ICF)

Données : C (corpus), Dico (Dictionnaire monolingue), LFCF

(racines finales), LICF (racines initiales) ;

Résultat : LFCF;

début

pour chaque racine initiale R dans LICF faire

si il se trouve un adjectif ou nom Mdans le corpus, où Mpeut

s’écrire de la forme suivante : [R + élément] (ex. aneuploïde), et si (1) élément∈ {/ Dico∪LFCF}; (2) |élément| >= 3 & |élément|

<= 9 alors

Ajouter élément (ex. ïde) à LFCF;

Algorithme 3.2 : Identification des racines gréco-latines finales (FCF) Nous appliquons ces algorithmes sur les corpus français et anglais. Cela mène à extraire, par exemple, une liste de 154 racines pour le corpus cancer du sein français. Les listes des racines ICF ont une précision entre 83 à 85 %. Les listes du type FCF ne sont pas fiables et doivent être vérifiées manuellement.

Dans ces listes, nous trouvons des pseudo-racines, c’est-à-dire des éléments qui ne sont ni d’origine grecque ni d’origine latine (ex. la racine hormono en français dans hormonothérapie est dérivée du mot hormone). Cependant, nous n’ajoutons ces pseudo-racines à notre liste de racines que si elles ont des équivalents graphiquement proches dans d’autres langues (ex. hormonothérapie se traduit par ES hormonoterapia, où hormono est une pseudo-racine commune entre les deux mots).

À noter que l’algorithme 3.1 peut être adapté pour extraire des ra- cines qui se terminent par i (le cas des racines d’origine latine), mais la qualité de la liste de racines extraite sera moins bonne que celle de racines se terminant par o.

En outre, plusieurs racines combinées peuvent être extraites auto- matiquement comme étant une seule racine (ex. histopatho). Pour cela, une condition sur la longueur d’une racine extraite est établie, nous avons fixé le minimum de la longueur d’une racine à 3 parce que nous récupérons les racines qui se terminent par o, celles si ne peuvent pas être de longueur 2. Cette condition ne permet pas de filtrer toutes les fausses racines, un découpage automatique de ra- cines combinées peut être envisagé dans la tâche de l’extraction des racines gréco-latines, mais nous choisissons de nettoyer ces listes ma- nuellement afin d’avoir une précision de 100 %.

Nous obtenons de cette manière des listes de racines gréco-latines mo- nolingues pour chaque corpus français ou anglais. Nous détaillons les tailles de ces listes dans la table 3.7.

FR EN

Cancer du sein 154 94

Énergies renouvelables 7 18

Table 3.7 – Tailles des listes de racines extraites semi-automatiquement des corpus

Nous résumons les tailles des listes de racines monolingues construites manuellement et semi-automatiquement dans la table 3.8. Les préfixes na- tifs qui peuvent préfixer les composés savants et qui sont identiques dans plusieurs langues sont ajoutés à la liste de ICFs : (FR anti, EN anti, DE anti), (FR post, EN post, DE post), (FR trans, EN trans, DE trans), (FR hypo, EN hypo, DE hypo), (FR rétro, EN retro, DE retro).

FR EN DE

Nb. de racines 274 201 105

Table 3.8 – Tailles des listes des racines gréco-latines monolingues

Listes bilingues

Nous alignons d’abord manuellement les listes de racines monolingues construites manuellement (présentées dans la table 3.6). Nous résumons les tailles des listes alignées dans la table 3.9.

FR-EN FR-DE

Taille 100 99

Table 3.9 – Tailles des listes des racines gréco-latines manuellement alignées

Les racines monolingues extraites semi-automatiquement dans une langue sont alignées avec leurs équivalents identiques dans une autre langue (après avoir établi des règles simples comme le remplacement de é par e quand nous alignons les racines du français vers l’anglais, ex. FR séro sera aligné avec EN sero). En procédant de cette manière, nous trouvons que 49 racines sont identiques (ou presque) entre le français et l’anglais. Les équivalents des racines non-alignées seront retrouvés manuellement. Afin de faciliter l’alignement, pour chaque racine, nous extrayons du dic- tionnaire bilingue les mots qui commencent ou se terminent par cette ra-

cine, et nous nous basons sur leurs traductions pour les aligner (voir la table 3.10).

Racine Mot français Mots anglais

hémato hématologique hematological, haematological

rhumato rhumatologie rheumatology

rhumato rhumatologue rheumatologist

chimio chimioluminescence chemiluminescence, chemoluminescence

Table 3.10 – Exemples qui facilitent l’alignement manuel des racines hémato, rhumato et chimio avec leurs équivalents en anglais

Finalement, en combinant tous les alignements des racines gréco- latines trouvés pour chaque paire de langues, nous obtenons des listes bilingues dont les tailles sont présentées dans la table 3.11.

Langue FR-EN FR-DE

Taille 254 105

Table 3.11 – Tailles des listes des racines gréco-latines alignées manuellement et semi- automatiquement

Documents relatifs