• Aucun résultat trouvé

2.2 Conception et exp ´erimentation d’un protocole d’ ´evaluation applicative

2.2.2 Exp ´erimentation du protocole

Cette partie d ´ecrit une premi `ere exp ´erimentation de la m ´ethode d’ ´evaluation. Les donn ´ees utilis ´ees sont d ´ecrites en section 2.2.2.1, le d ´eroulement de l’ ´evaluation est expos ´e en section 2.2.2.2

2.2.2.1 Donn ´ees

Nous avons men ´e l’ ´evaluation sur un sens de traduction (de l’anglais vers le franc¸ais) et deux th ´ematiques : cancer du sein (domaine m ´edical) et sciences de l’eau (domaine de l’environnement).

CANCER DU SEIN SCIENCES DE L’EAU

3 r ´esum ´es d’articles 3 r ´esum ´es d’articles textes scientifiques 508 mots 499 mots

portail Elsevier revue Sciences de l’eau textes de vulgarisation

1 page web 1 page web

613 mots 425 mots

site Soci ´et ´e canadienne

du cancer du seina

site Lenntech sur le traitement des eauxb

ahttp ://www.cbcf.org/ bhttp ://www.lenntech.com/

TABLE2.6 – Taille, origine, th ´ematique et degr ´e de sp ´ecialisation des textes `a traduire

Corpus comparables et lexiques extraits

Le corpus portant sur la th ´ematique CANCER DU SEINcomporte environ 400 000 mots par langue, il a ´et ´e constitu ´e manuellement `a partir de publications scientifiques collect ´ees sur le portail Elsevier4 et d’articles de sites Internet de vulgarisation `a destination des patientes et

de leur proches. Il y a une r ´epartition ´equivalente entre textes scientifiques et vulgaris ´es. Les textes proviennent de sources franc¸aises.

Le corpus portant sur la th ´ematique SCIENCES DE L’EAU comporte deux millions de mots par langue. Il a ´et ´e constitu ´e automatiquement en aspirant les sites de la revue francophone

Sciences de l’eau5 et de la revue anglophone Water Science Technology6. Pour la partie francophone, nous avons pu obtenir les articles scientifiques entiers au format PDF (la conversion a ´et ´e faite `a l’aide de l’utilitaire Unix pdf2txt suivi de quelques heuristiques filtrant les ent ˆetes et pieds de pages). Pour la partie anglophone, nous avons pu r ´ecup ´erer uniquement le r ´esum ´e des articles au format HTML qui a ensuite ´et ´e converti au format texte.

Nous avons mesur ´e la comparabilit ´e des corpus en utilisant la mesure de Li et Gaussier (2010). La comparabilit ´e du corpus CANCER DU SEIN est de 0,74 ; celle du corpus SCIENCES DE L’EAUest de 0,77. Des extraits des corpus sont visibles dans l’annexe B.1.

Les lexiques ont ´et ´e extraits en suivant la m ´ethode d ´ecrite dans le chapitre 1, section 1.3. Ils peuvent ˆetre consult ´es en ligne7.

Textes `a traduire

Nous avons s ´electionn ´e huit textes anglais pour lesquels il existe une traduction en franc¸ais. Les textes `a traduire sont les textes anglais ; la version franc¸aise sera utilis ´ee pour ´evaluer le travail des traducteurs. Les textes sont r ´epartis ´equitablement entre les th ´ematiques et le degr ´e de sp ´ecialisation comme le montre le tableau 2.6. Aucun de ces textes n’apparaˆıt dans les corpus comparables utilis ´es pour extraire les lexiques. Des extraits des textes sont consultables en annexe B.2. Il faut noter

4. http ://www.elsevier.com/ 5. http ://www.rse.inrs.ca/ 6. http ://www.iwaponline.com/wst/

7. http ://80.82.238.151/Metricc/InterfaceValidation/ ; le nom d’utilisateur est test, laisser le champ “mot de passe”

Les textes ont ´et ´e choisis intuitivement, en respectant un crit `ere unique : que leur sujet corresponde `a la th ´ematique du lexique. Les textes scientifiques sont des publications scientifiques et proviennent de la m ˆeme source que les textes du corpus d’acquisition. Les textes vulgaris ´es proviennent, pour la th ´ematique CANCER DU SEIN, d’un site de pr ´evention du cancer du sein ´edit ´e par le gouvernement canadien (nous avons choisi un texte expliquant les avantages et les risques du d ´epistage). Pour la th ´ematique SCIENCES DE L’EAU, les textes proviennent du site d’une entreprise commercialisant des solutions de traitement des eaux (le site comporte des pages de vulgarisation expliquant aux clients le principe d’adsorption par charbon actif).

Ressources employ ´ees dans les situations de traduction

Situation minimale Les textes sont traduits sans aucune ressource sp ´ecialis ´ee. Le traducteur

a uniquement acc `es `a trois ressources g ´en ´eralistes en ligne : – Le Larousse bilingue franc¸ais/anglais8et anglais/franc¸ais9

– Le Larousse monolingue franc¸ais10

– Le Cambridge monolingue anglais11

Situation cible En plus des ressources g ´en ´eralistes de la situation minimale, le traducteur a

acc `es aux lexiques extraits des corpus comparables sp ´ecialis ´es qu’il consulte gr ˆace `a l’interface pr ´esent ´ee dans la section 1.3.3. En plus des ´equivalences traductionnelles, le traducteur a donc acc `es aux fiches terminologiques. Il peut ´egalement v ´erifier une hypoth `ese de traduction en la cherchant dans le corpus.

Situation maximale En plus des ressources g ´en ´eralistes de la situation minimale, le traducteur

a un acc `es total `a Internet o `u il peut consulter les diff ´erentes ressources sp ´ecialis ´ees, concordanciers, forums de traductions, etc. Il peut aussi utiliser les moteurs de recherche pour contextualiser le terme `a traduire ou v ´erifier une intuition. Cependant, on lui interdit les sites dont sont extraits les textes `a traduire et les corpus d’acquisition ainsi que le site de la base de donn ´ees terminologique TERMIUM12qui est utilis ´ee plus tard lors de l’ ´evaluation des traductions.

Traducteurs et juges

Disposant de peu de moyens humains (3 personnes) pour exp ´erimenter le protocole, nous avons d ˆu faire quelques entorses m ´ethodologiques : il y a eu des collisions entre les r ˆoles d’organisateur/traducteur et traducteur/juge. Le traducteur 1, auteure de la th `ese, a aussi organis ´e l’ ´evaluation. Sa seule exp ´erience en traduction sp ´ecialis ´ee consiste en des exercices de traduction de textes journalistiques de niveau L3 LLCE Anglais. Les traducteurs 2 et 3 ´etaient des ´etudiants de derni `ere ann ´ee d’ ´ecole de traduction. Ils ont aussi jug ´e et class ´e les traductions (l’anonymisation emp ˆechant les juges de savoir qui ou dans quelle situation avait ´et ´e produites les traductions). La langue maternelle des trois personnes est le franc¸ais. Aucun des traducteurs n’est familier avec la th ´ematique des sciences de l’eau ou avec celle du cancer du sein.

vide. Utiliser le menu d ´eroulant “Glossaire” pour choisir la th ´ematique. 8. http ://www.larousse.com/en/dictionaries/french-english 9. http ://www.larousse.com/en/dictionaries/english-french 10. http ://www.larousse.com/en/dictionaries/french/ 11. http ://dictionary.cambridge.org/ 12. http ://www.termiumplus.gc.ca/ 56

Situation textes CANCER DUSEIN textes SCIENCES DE L’EAU

minimale traducteur 1 traducteur 1 cible traducteur 2 traducteur 3 maximale traducteur 3 traducteur 2

TABLE2.7 – R ´epartition des textes et situations de traduction entre traducteurs

2.2.2.2 D ´eroulement de l’ ´evaluation

L’ ´evaluation s’est d ´eroul ´ee en deux phases : phase de traduction et phase d’ ´evaluation de la qualit ´e des traductions.

Phase de traduction

Nous avons utilis ´e la personne non sp ´ecialiste de la traduction pour traduire uniquement dans la situation minimale, qui est cens ´ee produire les moins bonnes traductions. Les deux autres traducteurs ont traduit alternativement dans les situations maximale et cible. Cette alternance permet d’ ´eviter qu’un m ˆeme traducteur traduise des textes d’une m ˆeme th ´ematique dans diff ´erentes situations de traductions (effet d’apprentissage ´evoqu ´e dans la section 2.2.1.3).

Chaque traducteur `a rec¸u les textes `a traduire accompagn ´es de l’instruction suivante :

Traduisez chaque texte selon la situation de traduction sp ´ecifi ´ee. Indiquez le temps que vous avez mis pour traduire chaque texte. Une fois la traduction finie, listez les termes ou expressions qui vous ont pos ´e probl `eme. Indiquez quelles ressources vous avez utilis ´ees pour trouver la traduction et notez la traduction finalement retenue.

Chaque situation est d ´ecrite pr ´ecis ´ement au traducteur comme en section 2.2.2.1. La traduction se fait de langue seconde vers la langue maternelle du traducteur, dans notre cas, de l’anglais vers le franc¸ais. Une fois les textes traduits, on collecte tous les termes relev ´es comme probl ´ematiques et la traduction retenue par le traducteur.

Pour l’ ´evaluation, on ne garde que les termes probl ´ematiques communs `a au moins deux situations de traduction (82 % ´etaient communs aux trois situations), ce qui a donn ´e un jeu de 148 termes probl ´ematiques (87 pour la th ´ematique CANCER DU SEIN; 61 pour la th ´ematique SCIENCES DE L’EAU).

Phase d’ ´evaluation de la qualit ´e des traductions

Deux juges notent la qualit ´e des traductions des termes. Ils sont aid ´es par une traduction de r ´ef ´erence, qui correspond au terme trouv ´e dans la version cible du texte. Terme source et traduction de r ´ef ´erence sont contextualis ´es, c’est- `a-dire pr ´esent ´es dans leur phrase d’origine. Les juges ont aussi acc `es aux documents d’origine source et cible. Ils peuvent recourir, en plus de la traduction de r ´ef ´erence, `a la base de donn ´ees terminologique TERMIUM13. Les traductions sont anonymis ´ees et m ´elang ´ees al ´eatoirement, de fac¸on `a ce que le juge ne puisse pas savoir

13. http ://www.termiumplus.gc.ca/

dans quelle situation ont ´et ´e traduits les termes. Le tout est fourni dans un fichier tableur, o `u chaque groupe de traductions est pr ´esent ´e comme dans l’extrait 2.1.

#6 ♠❛♠♠♦❣r❛♠

VG-3 Research has shown that women who have regular mammograms are more likely to survive breast cancer.

#7 ♠❛♠♠♦❣r❛♣❤✐❡

VG-3 La recherche indique que les femmes qui passent r´eguli`erement des mammographies sont plus susceptibles de survivre au cancer.

■❉ tr❛❞✉❝t✐♦♥ r❛♥❣ ❡①❛❝t ❛❝❝❡♣t❛❜❧❡

8 mammogramme 2 0 1

9 mammographie 1 1 0

10 mammographie 1 1 0

Extrait 2.1 – Exemple de traductions annot ´ees Les juges effectuent deux t ˆaches d’ ´evaluation :

T ˆache de classement Les juges ordonnent les traductions de la meilleure `a la moins bonne

(les ´egalit ´es sont autoris ´ees).

T ˆache de jugement : Les juges notent s ´epar ´ement la qualit ´e de chaque traduction selon les

crit `eres d ´efinis plus haut (EXACT,ACCEPTABLE,FAUX).

Afin d’homog ´en ´eiser au maximum l’ ´evaluation, des instructions d’annotation d ´etaill ´ees et quelques exemples d’annotations sur des cas difficiles ont ´et ´e fournis aux juges. Compte-tenu du petit nombre de donn ´ees (seulement 148 groupes de termes probl ´ematiques), nous n’avons pas proc ´ed ´e `a une premi `ere ´evaluation “ `a blanc” qui aurait permis d’am ´eliorer encore plus l’homog ´en ´eit ´e de l’ ´evaluation (Blanchon et Boitet, 2007).