• Aucun résultat trouvé

4. METHODOLOGIE

4.3 Outils mobilisés pour la TA et l’analyse de sentiments

4.3.2 Outils de traduction automatique

Puisque notre travail concerne l’accessibilité d’un contenu ironique et sarcastique généré par les utilisateurs, il nous a paru nécessaire de nous positionner comme un utilisateur francophone n’ayant pas la possibilité d’utiliser des systèmes dits professionnels. C’est la raison pour laquelle nous avons choisi d’utiliser trois systèmes de traduction automatique disponibles en ligne et gratuitement : « Online machine translation systems, mostly general purpose ones, are more suitable for the general public who need to access information written in languages they do not understand or to obtain ad hoc translations

» (Quah, 2006). Ces trois systèmes sont respectivement Google Traduction, Bing (Microsoft Translator) et Deep L. Ces trois systèmes ont des points communs et des différences. Pour ce qui est de leurs similarités, il s’agit comme nous l’avons déjà exposé, de trois systèmes de traduction automatique disponibles en ligne et auxquels l’utilisateur peut avoir accès gratuitement. Ensuite, l’utilisateur n’a absolument pas accès à leur architecture quelle qu’elle soit. Contrairement à certains systèmes commerciaux que l’utilisateur peut façonner selon ses besoins, ces trois systèmes restent complètement opaques. Pour ce qui est des différences, la première chose à noter est que Bing est un système qui est resté statistique et non pas neuronal comme le sont Google Traduction et DeepL. Nous verrons dans la suite de notre travail si cela implique une différence pour ce qui est de la qualité ou de la compréhension des traductions.

Google Traduction : Né le 28 avril 2006 dans la fameuse firme Google, Google Traduction est sans doute le système de traduction automatique en ligne le plus connu. Longtemps statistique, il est devenu neuronal le 15 novembre 2016.12 Multilingue, il se targue aujourd’hui de pouvoir traduire dans 103 langues. À la base disponible uniquement en ligne, Google Translate dans sa version neuronale est désormais aussi disponible hors ligne depuis le 12 juin 2018. Nous ne reviendrons pas sur le fonctionnement des systèmes neuronaux dont Google Traduction fait partie puisque nous avons abordé

12 https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/

[Consulté le 26 Mai 2019]

ces systèmes dans la Section 2.2, mais tenons toutefois à rappeler que cela sous-entend que le système s’est entraîné sur des corpus : « Google Neural Machine Translation (GNMT) [is] an end-to-end learning framework that learns from millions of examples, and provided significant improvements in translation quality»13 - ce qui est une particularité des systèmes data-driven. Nous mentionnions dans notre partie sur les systèmes neuronaux (Section 2.2.2) que ceux-ci sont, d’une certaine manière, les plus proches d’avoir réussi à créer une interlangue fonctionnelle. Les ingénieurs de Google Traduction sont d’accord avec ce postulat puisqu’ils mentionnent le fait que leur système est capable d’aller plus loin que simplement mémoriser des traductions phrases par phrases : il est en effet capable de décoder « quelque chose » au niveau de la phrase, ce qu’ils interprètent comme « a sign of existence of an interlingua in the network.» 14 Pour ce qui est des corpus qui sont utilisés par le système, The Guardian expliquait en 2010 que le système statistique de Google avait pour corpus des retranscriptions des Nations-Unies et du Parlement Européen ce qui constitue des millions de phrases et des milliards de mots15. Nous n’avons pas trouvé cette information telle quelle, mais il est très probable que ces gigantesques corpus soient aussi la base du réseau neuronal de Google de même que Google Book qui alimente le système. La dernière chose que nous noterons vis-à-vis de ce système est que l’utilisateur est capable d’exprimer son ressenti vis-à-vis d’une traduction (si elle est bonne, mauvaise ou même choquante) ainsi que de donner son avis sur celle-ci. Google Traduction aurait également utilisé ses propres ressources communautaires pour valider des traductions ainsi qu’en effectuer certaines humainement afin d’affiner son moteur neuronal. Système toujours compétitif et largement utilisé et notamment grâce à son parti pris : son évolution pour un réseau neuronal ; nous tâcherons de voir si celui-ci est supérieur à DeepL, l’autre système neuronal ou à Bing qui lui, est statistique.

Bing (Microsoft Translator) 16 : Né en 2007 mais dont l’API n’est disponible pour les utilisateurs que depuis 2011, Microsoft Translator est un système de traduction en nuage qui fonctionne grâce aux

13 https://ai.googleblog.com/2016/11/zero-shot-translation-with-googles.html [Consulté le 26 Mai 2019]

14 Idem.

15 https://www.theguardian.com/technology/2010/dec/19/google-translate-computers-languages [Consulté le 26 Mai 2019]

16 La source de cette section émane des sites suivants : https://www.bing.com/translator/help/ ainsi que

statistiques. Capable de traduire dans 45 langues, le service de traduction alimente notamment Bing (le service de traduction en ligne de même que la barre de recherche), ainsi que divers produits Microsoft comme Skype ou Internet Explorer. Afin de déployer son service de traduction, Microsoft Translator a besoin d’un grand nombre de textes de haute qualité (généralement plus d’un million de mots). Bien que Microsoft Translator soit passé en système neuronal en 2016, il semblerait que Bing soit toujours alimenté par un système statistique non-neuronal.17 En effet, d’après nos différentes sources, le système neuronal de Microsoft Translator ne serait disponible que dans sa version business. Disponible en ligne et gratuitement, Bing est l’un des systèmes de traduction les plus connus grâce à ses tentatives d’intégration notamment dans le contenu généré par les utilisateurs. En effet, il est désormais possible de traduire automatiquement des Tweets ainsi que de placer un widget de traduction directement sur son blog pour en faciliter l’accessibilité. Seul système statistique de notre trio, il sera intéressant, dans la suite de notre travail de mesurer s’il existe un écart entre les résultats de Bing et ceux des deux autres.

DeepL18 :Contrairement aux deux systèmes que nous venons de présenter, DeepL est né neuronal en 2017. Ses créateurs sont également à l’origine du site Internet Linguee, qui permet d’avoir accès à une pléthore de textes et à leurs traductions. En effet, la première invention des fondateurs de DeepL a d’abord été de créer les algorithmes qui permettent à Linguee de rassembler des traductions sur Internet, ainsi que des systèmes d’apprentissages qui permettent de vérifier la qualité des dites traductions. Ces algorithmes ont été améliorés à partir de milliards de traductions de haute qualité. En 2016, l’équipe de Linguee se penche sur la question des réseaux neuronaux afin de traduire tout type de texte. C’est ce projet qui deviendra par la suite DeepL traducteur.

Basé sur un réseau neuronal capable de s’entraîner seul sur les milliards de traductions qui avaient déjà été mises au profit de Linguee, DeepL fait une entrée fracassante sur le marché. En effet, en mai 2017, peu avant son lancement officiel, DeepL dépasse tous ses concurrents en matière de traduction automatique et ce pour toutes les paires de langue – nous profiterons de notre travail pour voir si cela se

17 https://taus.net/technologies/34-bing-translator#functionality [Consulté le 24 Mai 2019]

18 La source de cette section émane du site suivant https://www.deepl.com/press.html [Consulté le 27 Mai 2019]

vérifie – et a obtenu le record mondial pour le test BLEU19. Qui plus est, les fondateurs se targuent de voir les traductions effectuées par leur système considérées par les annotateurs humains comme étant meilleures que celles de Microsoft Translator et Google Traduction. DeepL est officiellement lancé en août 2017 et connaît un vif succès qui s’explique, justement, par la qualité des traductions qu’il est capable de proposer aux utilisateurs. Le système fonctionne grâce à un super-ordinateur qui s’entraîne sur une vaste collection de texte multilingues. Grace à Linguee, « le plus grand moteur de recherche de traductions au monde », DeepL a rassemblé des milliards de textes traduits qui sont à la base de son entraînement. En 2018 l’entreprise lance DeepL pro service proposant l’accès à une API et qui fait définitivement entrer le système dans le marché concurrentiel. La dernière nouveauté date de décembre 2018 où le Russe et le Portugais font leur entrée dans les langues disponibles. Les articles de presse de DeepL sont donc absolument catégoriques : DeepL est de loin le meilleur système de traduction automatique actuel et est capable d’« identifier les nuances les plus subtiles [d’un texte] et à les reproduire dans la traduction. »20 Il sera donc intéressant de vérifier si les nuances subtiles de l’ironie et du sarcasme seront prises en charge par le système