• Aucun résultat trouvé

TRALOGY -3th and 4th March 2011. Rapport de la session 6 Traduction et traitement automatique des langues (TAL)

N/A
N/A
Protected

Academic year: 2021

Partager "TRALOGY -3th and 4th March 2011. Rapport de la session 6 Traduction et traitement automatique des langues (TAL)"

Copied!
4
0
0

Texte intégral

(1)

HAL Id: hal-02495981

https://hal.archives-ouvertes.fr/hal-02495981

Submitted on 2 Mar 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

TRALOGY -3th and 4th March 2011. Rapport de la

session 6 Traduction et traitement automatique des

langues (TAL)

Sandrine Peraldi

To cite this version:

Sandrine Peraldi. TRALOGY -3th and 4th March 2011. Rapport de la session 6 Traduction et traitement automatique des langues (TAL). Tralogy I. Métiers et technologies de la traduction : quelles convergences pour l’avenir ?, Mar 2011, Paris, France. 3p. �hal-02495981�

(2)

TRALOGY - 3th and 4th March 2011

Rapporteur : Sandrine Peraldi

Session 6 - Traduction et traitement automatique des langues (TAL)

TRALOGY I - Session 6 Date d’intervention : 04/03/2011

Rapport de la session 6 Traduction et traitement

automatique des langues (TAL)

(3)

2

SESSION 6 - TRADUCTION ET TRAITEMENT AUTOMATIQUE DES LANGUES (TAL)

TRADUCTION ET TRAITEMENT AUTOMATIQUE DES LANGUES (TAL) - RAPPORTEUR : SANDRINE PERALDI

Depuis plusieurs années, l’ac�vité même de traduc�on est en pleine phase de muta�on, de par l’émergence d’un puissant arsenal informa�que. Si l’on parle souvent de traduc�on assistée par ordinateur, de traduc�on automa�que ou encore de post-édi�on (ces systèmes faisant de plus en plus par�e intégrante de l’environnement du traducteur), les ou�ls relevant du traitement automa�que des langues par�cipent aussi largement à l’évolu�on de l’ac�vité traduisante. Ce�e sixième session in�tulée Traduction et traitement automatique des langues (TAL) permet précisément de faire le point sur les dernières avancées technologiques en cours et surtout sur l’apport de la no�on de corpus au sein même de la traduc�on.

Ainsi, dans une première conférence in�tulée Improving MT coherence through text-level processing of input texts: the COMTIS project, Bruno Cartoni (Université de Genève) nous présente COMTIS, projet d’une durée de trois ans et dont l’objec�f est d’améliorer la cohérence textuelle de la traduc�on automa�que (TA). Le projet s’appuie sur les moteurs de TA de Google et Moses (Systran). Il s’agit donc plus spécifiquement de traduc�on automa�que sta�s�que qui, comme nous le savons, consiste en l’u�lisa�on de corpus monolingues et bilingues extrêmement volumineux, perme�ant de produire des modèles sta�s�ques auto-construits.

L’objec�f poursuivi ici est d’op�miser la traduc�on des aspects modaux et temporels, des pronoms, du registre et enfin des marqueurs de cohésion, par le biais d’une analyse linguis�que des divergences entre langue source et langue cible. Pour ce qui est de la méthodologie, le projet consiste, en premier lieu, en une annota�on manuelle des marqueurs (ou autres points d’intérêt) relevés afin d’en préciser le sens et d’iden�fier les éventuels phénomènes de polysémie. Ces annota�ons « humaines » sont alors automa�sées, c’est-à-dire « transformées » en classifieurs automa�ques, afin d’être intégrées et mémorisées dans le système, dans un objec�f de désambiguïsa�on des unités lexicales. On évalue alors, par le biais de métriques spécifiques, la traduc�on obtenue, afin de déterminer l’apport des annota�ons notamment en termes de qualité.

Comme l’indique le �tre de la seconde conférence, Que peut apporter au traducteur la linguistique de corpus ?, Nathalie Kübler (Université Paris Diderot, CLILLAC-ARP) s’intéresse à l’apport de la linguis�que de corpus dans la pra�que mais aussi la forma�on des traducteurs. Malgré les apports évidents de la discipline, de nombreuses ré�cences persistent encore chez certains professionnels ou théoriciens de la traduc�on, notamment sous le prétexte qu’un corpus, aussi représenta�f soit-il, cons�tue néanmoins un ensemble de textes biaisé car, de fait, limité. Des ré�cences liées également aux con�ngences extérieures et pra�ques qui pèsent sur les traducteurs (inves�ssement en termes de temps, exigences des commanditaires, nécessité d’une forma�on aux ou�ls, etc.) et au manque de disponibilité de corpus de référence.

Néanmoins, les corpus cons�tuent de véritables ou�ls d’aide et d’appren�ssage de la traduc�on dans la mesure où ils perme�ent d’iden�fier les stratégies traduc�ves (simplifica�on, explicita�on, normalisa�on, etc.), de détecter et de sensibiliser les étudiants aux erreurs récurrentes (lorsqu’il s’agit d’un corpus d’apprenants) et, avant tout, de me�re en exergue les spécificités des discours et/ou domaines de spécialistes (terminologie, marqueurs d’argumenta�on, phraséologie, prosodie séman�que, etc.), qu’il est indispensable de retranscrire dans le texte d’arrivée pour obtenir une traduc�on idioma�que et de qualité.

Dans une troisième conférence, in�tulée Using Alignment to detect associated multiword expressions in bilingual corpora, Violaine Prince et Johan Segura (LIRMM) étudient l’impact et l’exploita�on de l’informa�on syntaxique issue de la traduc�on automa�que. Nous rappelons que la traduc�on automa�que sta�s�que ne recourt à aucune ressource linguis�que ou règle syntaxique. Les auteurs se servent donc du processus d’alignement propre aux modèles sta�s�ques pour extraire et exploiter des données suscep�bles d’être u�les en traduc�on : à �tre d’exemple, pour alimenter des lexiques ou des pré-dic�onnaires. L’analyse de l’alignement se fait à un niveau sous-phras�que, autrement dit via l’u�lisa�on de bi-phrases perme�ant d’associer les segments sources et cibles. Les informa�ons ainsi acquises sont alors stockées dans une base de données et réexploitées, entre autres, à des fins lexicales.

La conférence suivante, Repérage automatique des équivalences traductionnelles pour un système de traduction automatique français - roumain, par Mirabela Navlea and Amalia Todirascu (Université de Strasbourg) porte sur la cons�tu�on de ressources linguis�ques pour un système de TA roumain-français. D’après ses auteurs, la méthode sta�s�que est en mesure de donner, en termes de qualité de traduc�on, des résultats comparables aux méthodes linguis�ques (qui associent dic�onnaires électroniques et règles syntaxiques), mais en déployant des moyens moindres. Le système proposée est donc une combinaison des deux méthodes, avec l’u�lisa�on, d’une part, de corpus parallèles, lemma�sés et é�quetés et, d’autre part, de mémoires de traduc�on. Les domaines de spécialité choisis

(4)

3

TRALOGY I - ANTICIPER LES TECHNOLOGIES POUR LA TRADUCTION

relèvent du juridique et de l’administra�f. La comparaison des segments est bidirec�onnelle. Les chercheurs déplorent essen�ellement des erreurs d’alignement liées à des divergences morphosyntaxiques d’une langue à l’autre.

Enfin, dans la dernière conférence qui s’in�tule Traduction Automatique et multilinguisme : Bonnes pratiques d’intégration des technologies et mise en œuvre dans le programme QUAERO, Nabil Bouzerna (Ber�n Technologies) envisage la traduc�on automa�que dans un contexte beaucoup plus large : celui de l’accès à l’informa�on de documents mul�média. En effet, le projet QUAERO, financé par OSEO, est un programme fédérateur de recherche et d’innova�on industrielle portant sur les technologies d’analyse automa�que, de classifica�on et d’u�lisa�on de documents mul�médias et mul�lingues. Autrement dit, il s’agit de développer des technologies de traitement automa�que des contenus mul�médias, sur lesquelles s’appuieront plusieurs projets applica�fs, tels que l’indexa�on, la recherche d’informa�ons et la naviga�on, le traitement d’images fixes ou vidéo, la transcrip�on parole vers texte et la reconnaissance de locuteurs, la traduc�on écrite ou orale, la classifica�on des caractéris�ques audio, sans ome�re les ques�ons de protec�on de l’informa�on. Ces différents projets impliquent de cons�tuer de grandes bases de données mul�médias et mul�lingues annotées et indexées dans des moteurs de recherche, faisant de la traduc�on automa�que sta�s�que a priori la méthodologie la plus appropriée (technologie mature, respect des formats mul�médias, ges�on de grands volumes). Néanmoins, les ou�ls sta�s�ques ont vite montré leurs limites, augurant d’un retour nécessaire aux méthodes linguis�ques.

Les conférences relevant de ce�e sixième session se caractérisent par leur extrême technicité et diversité. Néanmoins, un fil directeur se dégage clairement de l’ensemble de ces exposés, fil directeur que l’on retrouve notamment au cours de la discussion : la recherche et l’évalua�on permanentes de la qualité. En effet, qu’il s’agisse de traduc�on automa�que ou humaine, il est ques�on ici de trouver les bonnes métriques afin d’évaluer les traduc�ons produites, tant du point de vue de leur gramma�calité que de leur conformité terminologique. Il apparaît clairement qu’à ce jour la traduc�on automa�que, notamment sta�s�que, est insuffisante (problèmes d’idioma�cité, de polysémie, de syntaxe, etc.) et qu’une interven�on humaine est indispensable en amont (ques�on de la représenta�vité du corpus, recherche de règles linguis�ques, ajustement du processus d’alignement) et en aval (typologie d’erreurs, exploita�on des données, post-édi�on). Il ne s’agit, en aucun cas, de remplacer le traducteur humain, mais de faire de ces systèmes, des ou�ls d’aide « Fit for Purposes ».

Références

Documents relatifs

Le terme de gouvernance renvoie aux fonctions et actions de gouvernement, mais sans l’idée d’uniformisation, de rationalité, de standardisation » (1995 : 60)... Pour terminer

‚ Contrôle de la cohérence des traductions ñ Logiciels professionnels (SDL Trados)..

ñ Quelle efficacité, quels biais de traduction. § Mémoires

– Exploitation d'un modèle de langage (dont des ressources : dictionnaires, grammaires, etc.) pour déterminer l'hypothèse la plus probable. ● Applications

Pro & Cons X État de l’art en TAL sur de nombreuse tâches, mais proche d’autres méthodes d’apprentissage X ouverture vers d’autres tâches approches moins supervisées

Les représentants des Fédérations syndicales, invités à s’exprimer en début de séance se sont fait l’écho des sérieuses difficultés rencontrées dans le réseau, la

A chaque commande de Staltolight ® , un plan de pose détaillé ainsi qu'un guide de pose vous seront transmis.

[r]