Conclusion - Systèmes de compréhension et de traduction de la parole : vers une approche unifié

les étiquettes produites par le modèle évalué afin de calculer le nombre d’insertion de substitution et d’omission de concepts.

Pour cela le score CER (Concept Error Rate) peut être utilisé. Le CER est l’équivalent du taux d’erreur en mots (Word Error Rate, WER) mais au niveau des concepts. Le WER est dérivé de la distance de Levenshtein (Levenshtein,1965) en appliquant la compa-raison au niveau des mots au lieu des caractères. Donc le CER peut être défini comme le ratio de la somme des concepts omis, insérés et substitués sur le nombre de concepts dans la référence. Le CER représente un pourcentage d’erreurs, donc il est d’autant meilleur qu’il est petit.

CER = ^count(Ins) +count(Del) +count(Sub) count(concepts de la r´e ference´ ) ∗100

D’autres mesures peuvent être utilisées pour une évaluation globale du message dans les cas où on ne considère pas la notion séquentielle. Dans ces cas les mesures de précision et de rappel sont utilisées pour évaluer les systèmes. La précision représente le pourcentage de concepts corrects trouvés par le système sur la totalité des concepts générés par le système.

precision´ = ^count(concepts corrects trouves´ ) count(concepts trouves´ ) ∗100

Le rappel représente le pourcentage de concepts corrects retrouvés parmi les concepts attendus dans la référence.

rappel= ^count(concepts corrects trouves´ ) count(conceptsa trouver` ) ∗100

Enfin, la F-mesure représente une mesure unique qui permet de combiner à la fois précision et rappel. L’efficacité globale du système selon la F-mesure peut être définie par l’équation suivante :

F−mesure= ²∗precision´ ∗rappel precision´ +rappel

2.6 Conclusion

Dans ce chapitre nous avons introduit les systèmes de dialogue homme-machine de manière générale et nous avons présenté plus particulièrement le module de compré-hension de la parole, objet d’étude principal de cette thèse. Le développement de ce module peut être réalisé par des approches linguistiques ou des approches issues de l’apprentissage automatique.

tel-00818970, version 1 - 30 Apr 2013

Ces dernières ont montré des bonnes performances pour la tâche de compréhension.

Ces approches minimisent le besoin en expertise humaine nécessaire pour développer les modèles linguistiques et nécessitent uniquement un corpus d’apprentissage consti-tué d’énoncés annotés. Le choix d’une approche ou d’une autre dépend énormément de la taille des corpus disponibles et aussi de la complexité de la représentation séman-tique.

Plusieurs travaux ont comparé les performances des différentes approches statis-tiques pour des tâches similaires (Hahn et al.,2008,2010). Les conclusions obtenues par ces travaux montrent que l’approche à base de CRF est (jusqu’à présent) la plus perfor-mante pour une tâche d’étiquetage séquentiel. C’est pourquoi nous avons fait le choix d’utiliser cette méthode dans les expériences réalisées pour cette thèse.

tel-00818970, version 1 - 30 Apr 2013

Chapitre 3

La traduction automatique

Sommaire

3.1 Introduction . . . . 40 3.2 Architectures des systèmes de traduction. . . . 41 3.2.1 Architectures linguistiques . . . . 41 3.2.2 Architectures computationnelles . . . . 42 3.3 La traduction automatique probabiliste. . . . 43 3.3.1 Modèle de langage . . . . 44 3.3.2 Modèle de traduction . . . . 46 3.3.2.1 Traduction à base de mots . . . . 46 3.3.2.2 Traduction à base de segments . . . . 49 3.3.3 Modèle log-linéaire. . . . 52 3.3.4 Décodage . . . . 54 3.3.5 Approche hiérarchique pour la traduction automatique. . . . . 55 3.4 Outils pour la traduction automatique probabiliste. . . . 56 3.5 Evaluation des systèmes de traduction . . . . 57 3.6 Conclusion . . . . 59

tel-00818970, version 1 - 30 Apr 2013

3.1 Introduction

La traduction automatique est un domaine de la linguistique computationnelle qui consiste à traduire un texte (écrit ou oral) depuis une langue source vers une langue cible. Un logiciel de traduction automatique analyse le texte dans la langue source (texte à traduire) et génère automatiquement le texte correspondant dans la langue cible (texte traduit) à l’aide d’un ordinateur.

Dans les années 50, la recherche en traduction automatique portait sur la traduction littérale, à savoir la traduction mot à mot, sans prise en compte des règles linguistiques.

Le système démontré à l’Université de Georgetown (connu sous le nom de l’ “Expé-rience de Georgetown IBM”) en 1950 représente la première tentative systématique visant à créer un système de traduction automatique utilisable.

Des recherches sont également menées en Europe et aux États-Unis, tout au long des années 50 et au début des années 60.

En 1966, aux États-Unis, le rapport ALPAC (Automatic Language Processing Ad-visory Committee) fait une estimation prématurément négative de la valeur des sys-tèmes de traduction automatique, et des perspectives offertes par ceux-ci, mettant fin au financement et à l’expérimentation dans ce domaine pour la décennie suivante.

C’est seulement à la fin des années 70 que des tentatives sérieuses sont à nou-veau entreprises, parallèlement aux progrès de l’informatique et des technologies des langues.

Cette période a vu aussi le développement de systèmes de transfert et l’émergence des premières tentatives commerciales. Des sociétés comme Systran et Metal sont per-suadées que la traduction automatique est un marché viable et utile. Elles mettent sur pied des produits et services de traduction automatique reliés à un serveur central. Mais les problèmes sont nombreux : des coûts élevés de développement, une lexicographie demandant un énorme travail, des difficultés pour proposer de nouvelles combinaisons de langues, et l’inaccessibilité de tels systèmes pour l’utilisateur moyen.

Dans les années 80, beaucoup de travaux sur la représentation morphologique, syn-taxique et sémantique sont réalisés au Japon. En 1991, le premier modèle de traduction automatique statistique est proposé par IBM ; la traduction repose sur des modèles nu-mériques appris à partir de nombreuses phrases alignées source et cibles.

Aujourd’hui la recherche en traduction automatique statistique est extrêmement vaste et devient de plus en plus populaire parmi les chercheurs en traitement auto-matique de la langue. Un historique de la traduction autoauto-matique ainsi qu’une vue globale sur ses différents paradigmes peuvent être trouvés dans (Dorr et al.,1999) et (Hutchins,2007).

Ce chapitre présente un bref état de l’art de la traduction automatique. En premier lieu, nous présentons les différentes architectures des systèmes de traduction tout en distinguant deux catégories d’architectures : architectures linguistiques3.2.1et archi-tectures computationnelles3.2.2. Dans le cadre de cette thèse nous nous intéressons à la

tel-00818970, version 1 - 30 Apr 2013

Dans le document Systèmes de compréhension et de traduction de la parole : vers une approche unifiée dans le cadre de la portabilité multilingue des systèmes de dialogue ~ Association Francophone de la Communication Parlée (Page 37-41)