Pour 1'orientation de ma recherche j'ai emprunte quelques articles a M.Hassoun, professeur a 1'ENSSIB. Grace a eux j'ai pu connaitre le systeme de traduction automatique et[r]
1.3 Notre approche : Objet et contributions attendues 1.3.1. Objet du mémoire
Le travail dans ce mémoire s’insère dans le cadre des efforts qui consistent à introduire l’information morphologique dans la spécification des modèles de traductionautomatique SMT. Notre approche est similaire en philosophie, à celles de (Chung et Gildea, 2009), et (Clifton et Sarkar, 2011), mais diffère, de façon significative, quant aux algorithmes de segmentations proposés et à la nature même du schéma de combinaison de ces algorithmes avec des modèles statistiques de traductionautomatique à base de phrases PBT. De manière plus concrète, notre approche consiste à tirer profit de l’information bilingue pour poser le problème de traduction de manière générique, c'est-à-dire, non spécifique à une langue particulière donnée, et établir la segmentation des mots pour des langues morphologiquement riches. Pour accomplir cette tâche, nous proposons un nouvel algorithme où la segmentation des mots du vocabulaire de la langue cible est établie à partir des valeurs des probabilités de traduction de mots estimées par le logiciel Moses 3 (Koehn et al., 2007) (nous verrons plus tard, dans la section 2.1, comment les probabilités de traduction de mots sont estimées). Cet algorithme de segmentation est facilement généralisable à d’autres langues. Nous nous basons sur l’approche à base de séquences PBT implémentée dans Moses pour la conception de tous les systèmes de traductions testés dans ce mémoire.
algorithmes nécessitent une opération de saut dans l’espace de recherche qui est difficilement implémentable avec la traductionautomatique. Ils ont généralement des temps d’exécution beaucoup plus grands que les autres algorithmes parce qu’on doit faire plusieurs recherches locales. Considérant le fait que notre recherche locale doublait effectivement le temps de calcul pour la recherche d’une traduction, l’utilisation d’un tel algorithme ferait grandement augmenter les temps de calculs sans améliorer la qualité du résultat obtenu proportionnellement. C’est une autre pour laquelle ce genre d’algorithme ne serait pas très efficace pour la recherche locale a posteriori. Une autre classe de métaheuristiques étudie les algorithmes à mémoire adaptative et les algorithmes à essaims de particules. Un excellent exemple des algorithmes à mémoire adaptative est l’algorithme de colonies de four- mis, qui est d’ailleurs utilisé en désambiguisation lexicale. Les algorithmes à mémoire adaptative utilisent une mémoire centrale pour retenir de l’in- formation sur les itérations précédentes et donc guider l’itération suivante. Ce type d’algorithme pourrait être utilisé pour l’amélioration a posteriori de la recherche locale, mais il requiert souvent beaucoup plus de temps, du fait qu’il faut effectuer plusieurs fois une recherche locale, et ne produirait probablement pas de meilleurs résultats. Les algorithmes à essaims de parti- cules de leur côté vont observer plusieurs solutions (particules) en parallèle à l’intérieur d’un groupe et à chaque itération déplacent les particules en fonction non seulement de la meilleure solution pour cette particule, mais aussi des meilleures solutions trouvées par les autres particules. Encore une fois, ceci ne semble pas adapté pour la traductionautomatique à cause du temps d’exécution et des solutions qui ne seraient probablement que légè- rement supérieures aux meilleures solutions trouvées par les algorithmes simples de recherche locale.
1.3. Présentation du porteur et des partenaires
LIG (organisme d’accueil de notre stage): L’équipe GETALP (Groupe d’Étude en
TraductionAutomatique/Traitement Automatisé des Langues et de la Parole) est née en 2007 lors de la création du Laboratoire d’Informatique de Grenoble (LIG). Issue de l’union vertueuse de chercheurs en traitement de l’écrit et de la parole, le GETALP est une équipe pluridisciplinaire dont l’objectif est d’aborder tous les aspects théoriques, méthodologiques et pratiques de la communication et du traitement de l’information multilingue (écrite ou orale). La méthodologie de travail du GETALP s’appuie sur des allers-retours continus entre collectes de données, investigations fondamentales, développement de systèmes opérationnels, applications et évaluations expérimentales.
Résumé
En Algérie la communauté des sourds-muets compte dans les 80 000 personnes, (environ 71 800 personnes présentant des handicaps auditifs sont recensées en Algérie) et à l’instar des autres pays du monde, simplement une minorité d’entre eux maitrise le langage écrit, alors que la quasi totalité des supports d’information que se soit dans le domaine éducatif où dans les autres domaines de la vie ne prennent pas en charge la spécificité de cette communauté, qui utilise dans la plupart de leurs temps un langage des signes LS comme outils de communication. Ainsi le développement d’un environnement de communication destiné à la communauté des sourds-muets basé essentiellement sur la langue des signes devient une nécessité morale et socio-économique. Notre projet consiste à développer un environnement informatique de traductionautomatique du texte arabe vers la langue des signes algérienne LSA (exploitant le dictionnaire des signes algérien en cours de constitution), comme support de communication accessible via les standards existants en terme de visualisation sur PC (Pages Web, Logiciels de visualisations .Etc.) afin de maximiser l’interopérabilité et facilite l’accès à l’information textuelle arabe par un maximum d’utilisateurs.
<n détaillant les résultats pour la métDode du plus procDe 7oisin- nous constatons que la précision mo=enne est supérieure ou éEale 4 celle obtenue par la meilleure traductionautomatique pour LKM combinaisons de 7ariables d;apprentissaEe8 Ae meilleur résultat- a7ec !L-!!- atteint Nuste une amélioration de O P ce qui nous permet de le considérer comme réellement meilleur8 Qeci est con6irmé par un test statistique- nous a7ons cDoisi le test du siEne a7ec des 7aleurs considérées comme éEales si la di66érence est de moins de 5R P en 7aleur relati7e SQono7er 5MLRT8 Aes 7aleurs de précision qui présentent une amélioration siEni6icati7e sont souliEnées dans le tableau BB8 Ae moins bon résultat obtient une précision mo=enne de KM-5L et présente donc une détérioration de 5O-5 P8
F IGURE 2 – Exemple de sortie de BAMA : chaque solution consiste ici en un identifiant de lemme (LEMMA_ID), une étiquette grammaticale (POS) et une traduction (GLOSS).
3 Évaluation des analyseurs en traductionautomatique statistique
Nous comparons l’analyseur G-LexAr avec BAMA en les utilisant comme outils de pré-traitement sur des tâches de traductionautomatique statistique, à l’aide du système open source Moses (Koehn et al., 2007). Nous utilisons comme données d’entraînement un échantillon de 251 000 couples de phrases parallèles arabe-anglais extraites d’un corpus constitué d’articles de journaux (Arabic-English Automatically Extracted Parallel Text) publié par le LDC (Linguistic Data Consortium). Le corpus ainsi constitué, sous sa forme brute et sans pré-traitement, est appelé « original » par la suite.
{ dokhanh,allauzen,yvon}@ limsi. fr
RÉSUMÉ. Les méthodes utilisées pour entraîner des réseaux de neurones en traitement des langues reposent, pour la plupart, sur l’optimisation de critères qui sont décorrélés de l’ap- plication finale. Nous proposons un nouveau cadre d’apprentissage discriminant pour l’esti- mation des modèles neuronaux en traductionautomatique. Ce cadre s’appuie sur la définition d’un critère d’apprentissage qui prend en compte, d’une part, la métrique utilisée pour l’éva- luation automatique de la traduction et, d’autre part, le processus d’intégration de ces modèles au sein des systèmes de traductionautomatique. Cette méthode est comparée aux critères d’ap- prentissage usuels que sont le maximum de vraisemblance et l’estimation contrastive bruitée. Les expériences menées sur les tâches de traduction des séminaires TED Talks et de textes mé- dicaux, depuis l’anglais vers le français, montrent la pertinence d’un cadre d’apprentissage discriminant et l’importance d’une initialisation judicieuse, en particulier dans une perspective d’adaptation au domaine.
Recherche empirique sur la post - édition de
traductionautomatique en contexte académique
Les effets potentiels induits par la post - édition (PE) de traductionautomatique (TA) effectuée par des étudiants en traduction sur la qualité de textes cibles
La recherche que nous présentons est centrée sur la traduction du français vers l’italien et s’est fixée deux objectifs : il s’agissait en premier lieu de tester l’hypothèse que l’apprentissage d’un système de traductionautomatique peut se faire de manière progressive, selon des modalités comparables à celles de l’apprentissage humain d’une langue étrangère, en adaptant les contenus à ceux du Cadre Européen Commun de Référence pour les Langues ; en second lieu, notre tâche a consisté à dresser un inventaire des erreurs produites par des étudiants au cours d’activités de traduction pédagogique, afin d’orienter la traduction de la machine sur les difficultés les plus significatives à un stade donné de l’apprentissage, puis de comparer les résultats de notre programme de TA avec ceux des traductions fournies par nos étudiants, mais aussi avec ceux d’autres systèmes de TA. Nous focaliserons ici notre attention sur le premier niveau du Cadre Européen, le niveau A1.
En traductionautomatique, la plupart des travaux récents cherchent à améliorer la qualité de la traduction en combinant des moteurs génériques et des moteurs spécialisés pour l’entraînement des modèles (Deng et al., 2017 ; Britz et al., 2019), ou encore en utilisant le contexte étendu (au-delà de la phrase) en langue source et les extensions du contexte bilingue (Tiedemann et Scherrer, 2017 ; Macé et Servan, 2019). Notre travail est plus empirique et s’inscrit dans le cadre d’un projet plus vaste consacré à l’analyse des conditions d’apprentissage optimales pour la traduction. Nous cherchons notamment à identifier des phases caractéristiques de l’entraînement des moteurs de traduction neuronaux en s’appuyant sur l’analyse longitudinale de la progression des résultats d’apprentissage. Appliqué aux sorties des phases d’apprentissage, ce type de recherches permet de comprendre ce qui se passe à chaque étape, qu’il s’agisse de l’identification de problèmes résolus (ou pas), de l’émergence de formes nouvelles (entités nommées, sigles, etc.) ou de propriétés textométriques caractéristiques. Au-delà d’une telle cartographie individuelle des phases, quelle dynamique est-elle à l’oeuvre sur l’ensemble des données produites ? Les expériences présentées dans cette contribution visent à étudier cette question.
Mots clés : Traductionautomatique de la parole, Mesures de confiance,
Reconnaissance automatique de la parole, Traductionautomatique statistique, Corpus enrichi. Résumé
La traductionautomatique de la parole combine deux domaines connexes, à savoir la reconnaissance automatique de la parole et la traduction . En vue d’améliorer la sortie d’un système de traduction et réduire, ainsi, le taux d’erreur, il est évident qu’il faut faire appel à des mesures de confiance qui sont capables de donner une estimation sur l’exactitude de l’hypothèse. Toutefois, jusqu’à présent, il n’y a aucun corpus de systèmes susceptible de prédire les mesures de confiance pour la traductionautomatique de la parole. Pour combler ce vide, nous avons d’une part enrichi un corpus existant à l’aide d’enregistrements oraux et d’autre part effectué des expérimentations avec l’ensemble de nos données. Dans le présent mémoire nous avons suivie une méthode pour classer les étiquettes générées telles que B : (Bon) ou M : (Mauvais). Nous avons obtenu de bons résultats pour les mots considérés comme bons (65,49%) et encourageants pour les mots jugés mauvais (34,51%).
Ch. 1 La TraductionAutomatique 6 .
Chapitre 1. La TraductionAutomatique
Introduction
Depuis les origines, l'homme a eu besoin de communiquer que ce soit à l'aide de si- gnaux visuels ou de signaux sonores. Il a toujours tenté de vaincre les distances et de mettre en place une transmission rapide de l'information. Il a voyagé à travers le monde, il a pris conscience de la nécessité de comprendre la langue de l'autre. Ce besoin est devenu plus ur- gent avec l'élargissement des contacts et des échanges entre les différents peuples. L'évolution intellectuelle qui a eu lieu dans les différentes civilisations a rendu ce besoin encore plus im- portant. Depuis la révolution industrielle, cette tendance à la communication s'est développée à une vitesse vertigineuse, particulièrement avec l'émergence des technologies de l'informa- tion. En effet, l'utilisation généralisée des ordinateurs dans tous les domaines de la vie, l'avè- nement d'Internet et du Web et le phénomène de la mondialisation ont créé plus de besoins en matière de communication.
Au Canada, le Bureau de la traduction a abondamment testé plusieurs systèmes de TA commerciaux pour déterminer si cette technologie l’aiderait à mieux composer avec l’escalade de la demande pour ses services, tout en réduisant parallèlement ses coûts. La plupart de ces tentatives n’ont rien donné. Jusqu’à tout récemment, la traductionautomatique n’avait servi que très peu et de loin en loin à la diffusion. Bien qu’il soit difficile d’obtenir des chiffres fiables, il est indéniable que la part du marché mondial de la traduction détenue par la traductionautomatique était jusqu’à ce jour très modeste, pour ne pas dire infime. La raison pour cela est fort simple : de manière générale, la qualité des textes issus de la traductionautomatique n’est pas assez bonne pour qu’on en autorise la publication ou pour qu’on les exploite de façon rentable. Même lorsqu’on combine la traductionautomatique à une personne qui révisera, corrigera et améliorera méthodiquement le travail après coup, la rentabilité n’est pas au rendez-vous, à moins que le premier jet produit par la machine n’atteigne un certain degré de qualité. Sinon, corriger ce que propose
prenom.nom@unine.ch, initiale.nom@sheffield.ac.uk
Résumé
L’étude des états de langue anciens se heurte à un double problème : d’une part la distance d’avec l’orthographe actuelle, qui empêche de recourir aux solutions standards de TAL, et d’autre part l’in- stabilité des systèmes graphiques, qui complexifie l’entraînement de solutions directement sur le texte original. Reprenant ce problème d’un point de vue des humanités numériques, nous partons du raisonnement philologique qui sous-tend la création du corpus d’entraînement, avant de recourir aux méthodes traditionnelles de TAL pour comparer deux systèmes de traductionautomatique (sta- tistique et neuronale) et offrir un outil fonctionnel pour la normalisation du français classique qui corresponde aux besoins des philologues.
Tableau 5 – Résultats obtenus suivant les métriques BLEU et TER avec deux systèmes entraînés sur les corpus : News-Commentary 7 (nc7) ; Europarl 7 - News-Commentary 7 (eparl7-nc7). Afin de valider notre méthode, plusieurs expériences ont été réalisées. Tout d’abord, nous avons utilisé le corpus COSMAT, qui est un ensemble de bitextes de résumés de thèses de doctorat en français et en anglais. Puis, nos expériences ont été placées dans le contexte de l’évaluation du septième atelier sur la traductionautomatique statistique (WMT12).
Citer ce document / Cite this document :
Salinas Agnès. Traductionautomatique des langues et modélisations des interactions langagières. In: Langages, 35 ᵉ année, n°144, 2001. Psycholinguistique et intelligence artificielle. pp. 99-123 ;
doi : https://doi.org/10.3406/lgge.2001.901
2 La Traduction statistique (SMT)
La traduction statistique (SMT) se base sur la théorie mathématique de distribution et d’estimation probabiliste développée par Frederick Jelinek au IBM T.J. Watson Research Center et—en particulier — sur un article de (Brown et al., 1990), (Carl, 2003). Les systèmes statistiques apprennent un modèle probabiliste de traduction P(t|s) à partir d’un texte bilingue et un modèle probabiliste de la langue cible P(t) à partir d’un texte monolingue. En général, la qualité des traductions générées par un tel système est proportionnelle à la quantité des données sur lesquelles les paramètres du système sont estimés. Par opposition à l’approche traditionnelle de « système expert », l’approche statistique de la traductionautomatique est capable de s’améliorer automatiquement au fur et à mesure que de nouvelles données d’entraînement deviennent disponibles.
En conséquence, le modèle que nous adressons dans le cadre de ces travaux est le réseau de Petri généralisé interprété temporel. La dimension temporelle permet tant la spécification de temporisations (attente, retard) que de chiens de garde (watchdog).
La phase préliminaire de spécification à l’aide de ce modèle formel permet de vérifier le respect de certaines propriétés (vivacité, finitude, invariants, etc.). Garantir que l’implantation (aspect matériel) du modèle spécifié préserve ces propriétés nécessite de concevoir une technique de synthèse automatique, ou plutôt une technique de traductionautomatique dans un langage permettant la synthèse. Notre projet repose sur l’implantation dans des composants électroniques programmables (FPGA par exemple), nous avons donc retenu comme langage cible le VHDL. L’intérêt d’une traductionautomatique des réseaux de Petri dans un langage d’implantation est évidente … et pratiquée déjà depuis quelques années [MAR98].
1. INTRODUCTION
Tandis que l’intelligence artificielle est aujourd’hui au centre des attentions, l’une de ses applications, la traductionautomatique (TA) neuronale, est en train de bouleverser le marché des services langagiers et en particulier le secteur de la traduction. Dès 2017, Google Translate traduisait plus de mots en un jour que tous les traducteurs humains réunis ne le font en un an (Massardo & van der Meer, 2017) et la nouvelle génération de TA est considérée par beaucoup comme une technologie révolutionnaire, capable de concurrencer la traduction humaine (Shoshan, 2018). Le paysage traductionnel ne cesse de se transformer : de nouvelles pratiques, de nouvelles tâches émergent dont la post-édition (PE) de TA. Plus que jamais, le traducteur professionnel doit acquérir de nouvelles compétences afin de « s’adapter aux mutations de la profession et à la révolution technologique qui se déroule sous [ses] yeux » (Fontenelle, 2019).