• Aucun résultat trouvé

4) Corpus et systèmes MTH

4.3 Premiers systèmes et résultats

Nos documents parallèles prêts, nous avons pu entraîner un premier système avec MTH.

Ce dernier proposant diverses catégories pour ses projets (General, Medicine, Technology, etc.) (cf. section 2.3.2.1), nous avons d’abord tenté d’entraîner un système de catégorie « Literature » en ajoutant les onze nouvelles alignées au corpus de spécialisation de MTH.

Ce premier test fut un échec : un score BLEU de 15.08 seulement25, et des piètres traductions. Le tableau 2 en montre quelques exemples.

24 Selon le compteur de mots de Microsoft Word 2010

Phrase originale Référence (traduction

publiée) Traduction

automatique

I knew that it was my sister's voice. I sprang from my bed, wrapped a shawl round me, and rushed into the corridor.

Je sus que c’était la voix de ma sœur ; je sautai de mon lit, m’enveloppai d’un châle et me précipitai dans le corridor.

Je savais que c'était ma sœur, je remis ma voix de lit, un autour de moi, wrapped shawl et se Rua dans le corridor.

'You shall learn nothing from me,' said he with a passion such as I should not have thought was in his nature.

– Ne comptez pas sur moi pour vous fournir aucune explication, me riposta-t-il avec un emportement dont je ne l’aurais pas cru capable.

– Vous allons savoir rien de moi, me dit-il avec un rouge telle que j'ai pensé ne était dans sa nature.

They were waiting for me in the drawing-room, which is a very large room, stretching along the entire front of the house, with three long windows reaching down to the floor.

Ils m’attendaient au salon, une vaste pièce, éclairée de trois hautes portes-fenêtres, qui occupent toute la largeur de la façade.

Ils m'attendait dans le salon, qui est une très grande chambre en allongeant la première bordée entire de la maison, avec trois fenêtres long reaching pour le plancher.

Tableau 2 : Exemples de phrases traduites par le premier système entraîné

Ces résultats sont dus principalement au manque de données. En effet, MTH préconise d’avoir au moins 10 000 segments parallèles pour qu’un entraînement soit réussi, et avec nos onze nouvelles nous n’en avions, comme dit précédemment, que 5195.

Cependant, avant de nous lancer à nouveau dans une longue session d’alignement de nouvelles pour agrandir notre corpus, nous avons tenté d’entraîner deux autres systèmes : d’abord un système de catégorie « General », puis un système de catégorie

« Literature » qui n’utilise pas les modèles fournis par Microsoft (cf. section 2.3.2.1). Ce dernier est le seul système où nous ayons tenté de retirer les modèles Microsoft car la baisse du score BLEU nous a convaincue qu’ils étaient bien utiles. Ces deux essais ne furent pas plus concluants que le premier, les scores BLEU obtenus n’étant que de 16.05

25 Score calculé automatiquement par Microsoft Translator Hub.

et 14.38 respectivement et les traductions toujours aussi peu exploitables, comme le montrent les tableaux 3 et 4.

Phrase originale Référence (traduction

publiée) Traduction

automatique

Well, Watson, we shall see who will win in the long run.

Eh bien ! Watson, nous verrons qui gagnera la partie en fin de compte.

Eh bien, Watson, nous verrons qui sera dans le win longtemps couru.

For some years the organisation flourished in spite of the efforts of the United States government and of the better classes of the community in the South.

Pendant quelques années, cette organisation prospéra, en dépit des efforts du gouvernement des États-Unis et des milieux les mieux intentionnés dans la communauté du Sud.

Pendant quelques années, l'organisation flourished malgré le furent récompensés de la United government du Sud et de mieux les classes de la community dans le du Sud.

He walked up to the sideboard, and tearing a piece from the loaf he devoured it voraciously, washing it down with a long draught of water.

Il se dirigea vers le buffet et, arrachant un morceau de pain à la miche, il le dévora, puis le fit suivre d’une grande gorgée d’eau.

Il se dirigea vers le buffet, et un morceau de la voraciously, il'loaf devoured washing on le long d'une longue d'air de l'eau.

Tableau 3 : Exemples de phrases traduites par le système de catégorie « General » entraîné sur un seul recueil de nouvelles

Phrase originale Référence (traduction

publiée) Traduction

automatique

Whatever he wanted he must have, and whatever it was I gave him without question, land, money, houses, until at last he asked a thing which I could not give.

Quoi qu’il me demandât, il fallait le lui donner, et quoi que ce fût, je le lui abandonnais sans aucune question : terre, argent, maison, jusqu’au jour où il me demanda quelque chose que je ne pouvais pas

Ce qu'il voulait, il faut, c'était et ce que je lui donnaient sans question, de genêts, argent, maisons, jusqu'à enfin, il demanda une chose que je ne donner.

donner.

"No doubt you think me mad?" said he.

Vous me prenez sans doute pour un fou, n’est-ce pas ? dit-il.

Sans doute, vous pensez de me folle? dit-il.

The method was no doubt suggested to Clay's ingenious mind by the colour of his accomplice's hair.

C’est indubitablement la couleur des cheveux de son complice qui inspira l’esprit subtil de Clay.

La méthode était sans doute, donnaient à Clay's ingénieux esprit par le train du de ses cheveux accomplice's.

Tableau 4 : Exemples de phrases traduites par le système de catégorie « Literature » entraîné sur un seul recueil de nouvelles et sans les modèles Microsoft

Totalement convaincue qu’il nous fallait bel et bien plus de données dans notre corpus pour que MTH puisse « apprendre » la langue et comment traduire correctement, nous avons aligné un second recueil de nouvelles, The Memoirs of Sherlock Holmes, en totalité cette fois-ci. Tout comme pour le premier recueil, l’alignement des nouvelles a été validé à 100% en une vingtaine d’heures, sans restrictions particulières. Ce second recueil, qui est le deuxième à avoir été publié en 1894, nous a fourni douze nouvelles, pour un total, d’après MTH, de 4820 segments alignés. Nous avions donc atteint, et même dépassé le minimum de 10 000. Le tableau 5 rassemble le nombre de mots pour chacune des douze nouvelles, en anglais et en français, ainsi que le nombre de segments alignés obtenus.

The Memoirs of Sherlock Holmes Anglais Français

Silver Blaze / Flamme d’Argent 9579 mots 9866 mots

The Adventure of the Cardboard Box / La boîte en

carton 8648 mots 8445 mots

The Yellow Face / La figure jaune 7506 mots 7501 mots

The Stock-Broker’s Clerk / L’employé de l’agent de

change 6794 mots 6827 mots

The “Gloria Scott” / Le « Gloria-Scott » 7839 mots 7895 mots The Musgrave Ritual / Le rituel des Musgrave 7588 mots 7686 mots The Reigate Squires / Les propriétaires de Reigate 7206 mots 7003 mots

The Crooked Man / Un estropié 7131 mots 7310 mots

The Resident Patient / Le malade à demeure 6619 mots 6532 mots The Greek Interpreter / L’interprète grec 7019 mots 7196 mots The Naval Treaty / Le traité naval 12 630 mots 13 314 mots The Final Problem / Le problème final 7159 mots 7196 mots

TOTAL 95 718 mots 96 771 mots TOTAL DE SEGMENTS ALIGNÉS: 4820

Tableau 5: Nombre de mots26 de chaque nouvelle du recueil ‘The Memoirs of Sherlock Holmes’ faisant partie du corpus de spécialisation ainsi que nombre de segments alignés au

final.

Après discussion avec notre directrice de mémoire, nous avons également décidé qu’il serait intéressant et préférable de ne faire traduire qu’une moitié de nouvelle à MTH, et de lui fournir l’autre moitié dans son corpus de spécialisation. Ce faisant, nous souhaitions tenter d’améliorer les futurs résultats, le début d’une nouvelle ressemblant généralement à sa fin en ce qui concerne le style, le vocabulaire ou encore les tournures de phrase.

Ainsi, la nouvelle que nous avons choisi de traduire, A Case of Identity, a été coupée en deux à la moitié environ27. Nous avons aligné la première moitié des versions anglaise et française et en avons fait un fichier TMX, comme pour les autres nouvelles, et l’avons ajouté au corpus de spécialisation. Ce faisant, nous lui avons fourni 164 segments alignés supplémentaires.

Ensuite, nous avons, là encore, entraîné deux systèmes sur ce corpus : un de catégorie

« General » et un autre de catégorie « Literature ». Malheureusement, malgré un corpus deux fois plus grand, le score n’a, lui, pas beaucoup augmenté : 17.17 et 17.49, respectivement. De toute évidence, 10 179 segments alignés plus les modèles Microsoft ne suffisaient pas ici à MTH pour apprendre le modèle de traduction et le modèle de langue. Il nous fallait sérieusement agrandir le corpus.