• Aucun résultat trouvé

Systèmes de traduction de dialogues médicaux : Évaluation de BabelDr et MediBabble

N/A
N/A
Protected

Academic year: 2022

Partager "Systèmes de traduction de dialogues médicaux : Évaluation de BabelDr et MediBabble"

Copied!
123
0
0

Texte intégral

(1)

Master

Reference

Systèmes de traduction de dialogues médicaux : Évaluation de BabelDr et MediBabble

BOUJON, Valérie

Abstract

Dans ce travail, il est question de différentes technologies utilisées pour la traduction de dialogues médicaux. Dans la première partie, qui se veut théorique, la traduction automatique de la parole (TAP) et ses différentes composantes technologiques (reconnaissance vocale, traduction automatique et synthèse vocale) sont discutées, ainsi que l'utilisation de différents types de systèmes de traduction (généralistes, spécialisés, ou « phraselators ») dans le domaine médical, comme alternative aux interprètes professionnels. La deuxième partie de ce travail constitue une étude expérimentale visant à évaluer la facilité d'utilisation (« usability

») et la facilité d'apprentissage (« learnability ») de deux systèmes de traduction de dialogues médicaux : BabelDr et MediBabble. Suite à la présentation de l'élaboration et du déroulement de l'expérience, les résultats sont discutés afin notamment d'évaluer l'utilité de la reconnaissance vocale et de dégager les points forts/faibles propres à chaque système.

BOUJON, Valérie. Systèmes de traduction de dialogues médicaux : Évaluation de BabelDr et MediBabble. Master : Univ. Genève, 2017

Available at:

http://archive-ouverte.unige.ch/unige:96059

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

V ALÉRIE B OUJON

S YSTÈMES DE TRADUCTION DE DIALOGUES MÉDICAUX :

É VALUATION DE B ABEL D R ET M EDI B ABBLE

Mémoire présenté { la Faculté de traduction et d’interprétation (FTI), pour l’obtention de la Maîtrise en traduction,

Mention technologies de la traduction

Directrice de mémoire : Prof. Pierrette Bouillon (FTI) Juré : Marianne Starlander (FTI)

Juré externe : Hervé Spechbach (HUG)

Université de Genève, juin 2017

(3)

Déclaration attestant le caractère original du travail effectué

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la Faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant‐e‐s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide‐mémoire { l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis conscient‐e que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Nom et prénom : BOUJON Valérie

Lieu / date / signature : Toulouse, le 24 mai 2017,

****************************************

Ce formulaire doit être dûment rempli par tout étudiant ou toute étudiante rédigeant un travail substantiel et remis à l’enseignant ou l’enseignante.

(4)

REMERCIEMENTS

Avant toute chose, je tiens à remercier vivement un grand nombre de personnes qui m’ont apporté leur aide, leur soutien et leurs encouragements durant l’élaboration de ce travail.

Merci { Pierrette Bouillon, directrice de ce mémoire, de m’avoir proposé de travailler sur le projet passionnant et prometteur qu’est BabelDr. Grand merci { elle également pour sa disponibilité, ses conseils avisés et sa réactivité. Je tiens aussi { remercier Hervé Spechbach, médecin aux HUG, d’avoir accepté d’être juré externe pour ce travail et pour son aide ponctuelle, ainsi que Marianne Starlander, enseignante à la FTI, d’avoir également accepté d’être jurée, et pour son aide et sa gentillesse.

Merci à la Fondation privée des Hôpitaux universitaires de Genève pour le généreux soutien financier qu’elle a octroyé pour les expériences que j’ai réalisées dans le cadre de ce travail.

Un grand merci { toutes les personnes qui m’ont offert leur soutien face aux nombreux problèmes techniques que j’ai rencontrés au cours de la réalisation de ce travail : Nikos Tsourakis pour sa disponibilité, le temps qu’il m’a accordé et ses précieux conseils ; Jean-Pierre Sossauer de m’avoir aidée { résoudre les complications informatiques auxquelles j’ai été confrontée et pour sa bonne humeur ; Jésus Gonzalez pour son aide avec le matériel audiovisuel et pour sa gentillesse et sa disponibilité ; Lucía Morado et Claudia Baur pour leur aide ponctuelle en matière de logiciels informatiques et Paula Estrella dont le sourire m’a redonné du courage dans des moments où j’ai un peu perdu pied.

Encore merci à mes ami-e-s et collègues de la FTI, Fabienne, Camille et Michele, de s’être prêtés au jeu pour le pré-test. Merci à tous les participants qui ont accepté de prendre part à mes expériences : Valentina, pour sa patience et sa disponibilité ; Fabiola de m’avoir dépannée à la dernière minute ; Clara, Leila, Gloria, Michaël, Lucile, Estelle, Yoann, Taïna, Anaïs et Benoît, pour leur sérieux et leur patience face aux aléas de l’informatique.

Merci à mes médecins préférés, Grazia Nicoloso De Faveri et Yong-Shun Thoo, d’avoir répondu présent et pour les connaissances médicales qu’ils ont partagées avec moi lorsque j’avais besoin d’un coup de pouce.

Merci infiniment { mes parents pour leur présence et leur soutien durant toutes ces années que j’ai passées { l’université, sans eux je ne serais pas l{ où je suis aujourd’hui. Merci { mes camarades de la FTI, dont je ne peux pas citer tous les noms ici, pour les belles années que nous avons partagées. Merci du fond du cœur { ma famille et { tou-te-s mes ami-e-s, que je ne peux également pas nommer tous ici mais qui se reconnaîtront, qui m’ont encouragée et donné la force de traverser ces dernières années particulièrement compliquées. Merci à Chantal pour son accueil et sa grande gentillesse depuis que je suis arrivée à Toulouse, ça n’a pas de prix de se sentir comme { la maison { des centaines de kilomètres de chez soi.

Finalement, merci { ma sœur pour sa relecture attentive de ce travail, pour sa présence constante { mes côtés et pour avoir cru en moi quand je n’y croyais plus. MERCI.

(5)

TABLE DES MATIÈRES

1. INTRODUCTION ... 1

2. LA TRADUCTION AUTOMATIQUE DE LA PAROLE (TAP) ... 3

2.1. Introduction ... 3

2.2. Les technologies en jeu dans le processus de TAP ... 4

2.2.1. La reconnaissance vocale... 4

2.2.2. La traduction automatique... 9

2.2.2.1. Les outils linguistiques ... 10

2.2.2.2. Les outils statistiques ... 15

2.2.2.3. La traduction automatique interactive ... 16

2.2.3. La synthèse vocale ... 18

2.3. Les systèmes de TAP unidirectionnels et bidirectionnels ... 19

2.4. Conclusion ... 20

3. LA TAP POUR LE DOMAINE MÉDICAL ... 21

3.1. Introduction ... 21

3.2. Services d’interprétation pour le domaine médical ... 22

3.3. Systèmes de TAP généralistes ... 23

3.4. Systèmes de TAP spécialisés ... 25

3.5. Problèmes de la TAP pour le domaine médical ... 26

3.5.1. Fiabilité ... 26

3.5.2. Ergonomie ... 27

3.5.3. Contraintes externes ... 29

3.6. Conclusion ... 31

4. PHRASELATORS ... 32

4.1. Introduction ... 32

4.2. MediBabble ... 33

4.2.1. Note introductive ... 33

4.2.2. Accès ... 33

4.2.3. Utilisation ... 34

(6)

4.3. BabelDr ... 36

4.3.1. Note introductive ... 36

4.3.2. Fonctionnement ... 36

4.3.3. Accès ... 38

4.3.4. Utilisation ... 39

4.4. Conclusion ... 41

5. ÉVALUATION ... 42

5.1. Introduction ... 42

5.2. Évaluations précédentes des deux systèmes comparés ... 42

5.3. Méthodologie ... 43

5.3.1. Cadre général, objectifs et questions de recherche ... 43

5.3.2. Sélection des participants ... 44

5.3.3. Élaboration du modèle de qualité ... 45

5.3.3.1. Note introductive... 45

5.3.3.2. Normes ISO/IEC 25000:2014 (SQuaRE)... 46

5.3.3.3. Modèle de qualité ... 47

5.3.3.3.1. Caractéristiques et sous-caractéristiques ... 48

5.3.3.3.2. Métriques ... 50

5.3.4. Élaboration du déroulement de l’expérience ... 51

5.3.4.1. Organisation générale ... 51

5.3.4.2. Matériel et logiciels utilisés ... 52

5.3.4.2.1. BabelDr : Internet et PC ... 52

5.3.4.2.2. MediBabble : Ipad mini ... 53

5.3.4.2.3. Logiciel de capture d’écran : BB FlashBack Express et programme de visionnement des vidéos : FlashBack Express Player ... 54

5.3.4.2.4. Logiciel de réplication d’écran : AirServer ... 55

5.3.4.2.5. Filmage des participants : caméra ... 56

5.4. Pré-test ... 57

5.4.1. Objectifs ... 57

(7)

5.4.2. Déroulement ... 57

5.4.3. Résultats et conclusions ... 58

5.5. Résultats de l’expérience ... 61

5.5.1. Note introductive ... 61

5.5.2. Résultats quantitatifs... 61

5.5.2.1. Temps ... 62

5.5.2.2. Nombre de clics ... 63

5.5.2.3. Écart temps ... 64

5.5.2.4. Écart nombre de clics ... 65

5.5.3. Résultats qualitatifs : questionnaires ... 67

5.5.4. Commentaires des participants et discussion ... 72

5.5.4.1. Commentaires des médecins (questions ouvertes) ... 72

5.5.4.2. Commentaires des patientes ... 76

5.5.5. Observations finales et conclusion ... 77

6. CONCLUSION ... 79

7. BIBLIOGRAPHIE ... 81

8. LISTE DES FIGURES ... 86

9. LISTE DES TABLEAUX ... 87

10. LISTE DES ANNEXES ... 88

(8)

1

1. INTRODUCTION

Les technologies de la traduction constituent un domaine de recherche en plein essor et sont aujourd’hui représentées sous la forme de nombreuses applications pratiques.

Dans ce travail, nous allons nous intéresser en particulier à la traduction automatique de la parole (TAP), plus spécifiquement à son utilisation dans le domaine médical. En effet, nous verrons qu’il s’agit d’un domaine où les barrières linguistiques (par exemple un médecin et un patient ne parlant pas de langue commune) peuvent représenter un obstacle de taille et avoir des conséquences sérieuses pour la santé des patients. Les systèmes de traduction tels que ceux faisant l’objet de ce travail peuvent s’avérer une alternative intéressante aux interprètes professionnels, auxquels les établissements hospitaliers ont couramment recours. Ils permettent en effet de faciliter la communication entre le corps médical et les patients et de contourner certaines difficultés propres { ce type d’interactions et au recours aux interprètes.

L’étude expérimentale réalisée dans le cadre de ce travail a consisté à comparer deux systèmes de traduction de dialogues médicaux, l’un présentant la technologie de la reconnaissance vocale (BabelDr), l’autre pas (MediBabble), par rapport { leur facilité d’utilisation et { leur facilité d’apprentissage. Cette entreprise a permis d’évaluer notamment l’utilité de la reconnaissance vocale pour de telles applications ; nous sommes en effet partie de l’hypothèse qu’un système de traduction de dialogues médicaux doté de la technologie de la reconnaissance vocale permet d’obtenir de meilleures performances dans une situation d’utilisation similaire qu’un système qui n’en est pas doté. Dans ce contexte, nous avons élaboré et réalisé une expérience, avec la participation de dix étudiants de la Faculté de médecine de l’Université de Genève, qui a généré une quantité conséquente de données quantitatives et qualitatives. Celles-ci ont permis de répondre aux questions de recherche de ce travail et d’apporter des pistes d’amélioration { l’équipe travaillant sur le projet BabelDr.

Dans le présent travail, nous nous intéresserons dans un premier temps à la TAP et aux différentes technologies qu’elle recouvre : reconnaissance de la parole, traduction automatique (TA) et synthèse vocale (Chapitre 2). Par la suite, nous nous pencherons sur son utilisation dans le domaine médical, en réponse à différents problèmes soulevés par le recours aux interprètes professionnels (Chapitre 3). Dans ce chapitre, nous verrons

(9)

2 aussi qu’il existe différentes sortes de systèmes de TA (généralistes ou spécialisés) utilisés pour la traduction de dialogues médicaux, avec des fonctionnements très différents et reposant, ou non, sur l’ensemble des différentes technologies énoncées plus haut. Nous nous intéresserons également à différents problèmes, de nature variée (fiabilité, ergonomie, contraintes externes), que soulève l’utilisation de tels systèmes dans le domaine médical. Finalement, nous nous pencherons sur un dernier type de systèmes, appelés « phraselators » (Chapitre 4), qui reposent sur la traduction humaine et qui se prêtent particulièrement bien à une utilisation dans le domaine médical en raison de la fiabilité des traductions qu’ils proposent. Nous étudierons en détail les deux phraselators qui ont fait l’objet de l’expérience réalisée dans le cadre de ce travail : BabelDr (un projet commun entre les Hôpitaux universitaires de Genève et la Faculté de traduction et d’interprétation de l’Université de Genève) et MediBabble (une application utilisée par les professionnels du domaine médical, disponible gratuitement pour une utilisation sur iPhone/iPad).

La deuxième partie de ce travail (Chapitre 5) sera consacrée aux différentes étapes de l’élaboration de l’expérience, à la méthodologie adoptée, aux ressources matérielles et théoriques utilisées, ainsi qu’{ l’analyse des données quantitatives et qualitatives récoltées durant l’étude expérimentale. Les principaux critères d’évaluation (facilité d’utilisation et facilité d’apprentissage) et les métriques (temps et nombre de clics nécessaires pour réaliser une action) choisis orienteront le travail analytique qui sera ensuite mené. Tout en tentant de répondre aux questions de recherche posées au départ, nous discuterons de questions d’ordre plus général liées à l’utilisation des technologies de la traduction pour la médecine telle qu’elle est pratiquée aujourd’hui ; une discipline en accord avec les avancées technologiques de son temps, lesquelles se produisent dans de nombreux domaines, y compris celui du langage.

(10)

3

2. LA TRADUCTION AUTOMATIQUE DE LA PAROLE (TAP)

2.1. Introduction

Les systèmes de traduction automatique de la parole (TAP), qui ont fait leur apparition à la fin des années 801, fonctionnent en plusieurs étapes et englobent plusieurs technologies. Dans son ouvrage sur la reconnaissance automatique de la parole, Haton (2006, pp. 302-305) déclare que la TAP (qu’il appelle « traduction parole-parole ») « est un axe de recherche très prometteur qui pose plusieurs défis scientifiques importants ».

Il poursuit en expliquant dans les grandes lignes son fonctionnement : « le principe [de la TAP] est de permettre { un locuteur de s’exprimer dans sa langue pour s’adresser { un interlocuteur ne parlant pas la même langue. Son message est reconnu, traduit et synthétisé dans la langue de l’interlocuteur, en un temps aussi proche que possible du temps réel ». En d’autres termes, il fait référence aux trois technologies qui entrent en jeu dans le processus de TAP : la reconnaissance de la parole, la traduction automatique et la synthèse vocale.

Au jour d’aujourd’hui, la traduction automatique, composante fondamentale de la TAP, ne permet pas encore d’obtenir des résultats satisfaisants à tous points de vue (linguistique, idiomatique, pragmatique, etc.) pour la langue générale. Zong & Seligman (2006, p. 114), par exemple, expliquent que cette affirmation est également valable pour la TAP, en dépit des progrès réalisés ces dernières années dans le domaine :

« Even neglecting issues of speech input and output, most researchers in MT [machine translation] have already indefinitely postponed the goal of fully automatic high-quality translation for any domain or text type […]. Clearly, if such effortless automatic operation cannot presently be achieved in text-only translation, its achievement in speech-to-speech translation is even less likely. »

La TAP est une technologie qui a connu de grandes avancées ces dernières années et l’on dénombre toujours plus d’applications de TAP utilisées dans de nombreux contextes. La TAP permet d’obtenir des résultats relativement bons, voire très bons, en particulier lorsque son contexte d’utilisation est limité à un domaine particulier. Dans le cadre de ce

1 « SpeechTrans », le premier système de TAP, a été lancé en 1989 (Zong & Seligman, 2006).

(11)

4 travail, nous nous intéresserons { l’utilisation de la TAP dans le domaine médical (traduction de dialogues entre un membre du corps médical et un patient2).

Dans ce premier chapitre, nous ferons un tour d’horizon des différentes composantes technologiques qui entrent en jeu dans le processus de TAP (2.2.) : la reconnaissance vocale (2.2.1), la traduction automatique (2.2.2.) et la synthèse vocale (2.2.3.). Nous verrons qu’il existe différents types de systèmes de traduction automatique, les systèmes linguistiques (2.2.2.1), basés sur des règles, et les systèmes statistiques (2.2.2.2.), basés sur des calculs de probabilités. Nous verrons que l’utilisateur de systèmes de traduction automatique a parfois la possibilité d’intervenir sur le processus de traduction (2.2.2.3). Finalement, nous nous intéresserons brièvement à la distinction entre deux types de systèmes de TAP, unidirectionnels et bidirectionnels (2.3.).

2.2. Les technologies en jeu dans le processus de TAP

2.2.1. La reconnaissance vocale

La reconnaissance vocale (« speech recognition » en anglais) est la technologie au moyen de laquelle les sons sont transformés en chaînes de caractères/mots (Figure 1).

Figure 1 : Représentation du processus de la reconnaissance vocale3

Depuis son apparition à la fin des années 60 (Bernstein & Franco, 1996, p. 410), la reconnaissance vocale a connu de grandes avancées, notamment ces dernières années, avec l’apparition de nouvelles applications. Parmi les systèmes les plus répandus, on citera : le logiciel Skype4 et Siri5, l’assistant vocal d’Apple, tous deux bien connus du grand public, ou encore les outils de Nuance6, par exemple le logiciel Dragon7.

2 Par souci de simplicité, la forme masculine est utilisée par défaut dans ce travail, mais il est évident que des termes tels que ‘médecin’ ou ‘patient’, par exemple, incluent également les personnes de sexe féminin.

3 Illustration tirée de Bernstein & Franco, 1996, p. 410.

4 Site internet (en français) : https://www.skype.com/fr/.

(12)

5 Au sein du processus de TAP, la reconnaissance vocale permet de remplacer la saisie manuelle ({ l’aide d’un clavier et/ou d’une souris, par exemple) d’énoncés { traduire.

Une fois que son utilisation est correctement maîtrisée, elle peut donc représenter un gain de temps important8 (détail non négligeable dans un service médical d’urgences, par exemple) ainsi que, dans certains cas, une amélioration notable d’un point de vue ergonomique. De plus, lorsqu’elle fonctionne de manière optimale, la reconnaissance vocale permet une diminution du nombre de fautes typographiques que l’on serait amené à commettre avec la saisie manuelle.

Nous allons maintenant nous intéresser au fonctionnement relativement complexe et aux différentes étapes de la reconnaissance vocale (Figure 2), lesquels peuvent être représentés de la manière suivante (schéma tiré et adapté de l’ouvrage Putting Linguistics into Speech Recognition, 2006, p. 6).

Figure 2 : Différentes étapes et fonctionnement de la reconnaissance vocale

5 Présentation de l’outil (en anglais) { l’adresse : http://www.apple.com/chfr/ios/siri/.

6 Plus d’informations (en français) sur ces outils { l’adresse : http://www.nuance.fr/index.htm.

7 Page dédiée au produit (en français) : http://www.nuance.fr/dragon/index.htm.

8 Un outil de dictée vocale permettrait de saisir jusqu’{ 160 mots/minute, contre 70 mots/minute lorsque l’on dactylographie (information tirée de : Cours d’ingénierie linguistique, Prof. P. Bouillon, Semestre d’automne 2014, UNIGE-FTI-DTIM).

(13)

6 Dans un premier temps, le signal sonore (l’onde sonore) est transformé en spectrogramme au cours de la phase de traitement du signal. Dans l’introduction de son ouvrage sur la reconnaissance vocale, Haton (2006, p. 7) décrit cette étape dans les grandes lignes :

« La transformation de Fourier permet d’obtenir le spectre d’un signal, en particulier son spectre fréquentiel, c’est-à-dire sa représentation amplitude-fréquence. La parole étant un phénomène non stationnaire, il importe de faire intervenir le temps comme troisième variable dans la représentation. La juxtaposition des spectres obtenus pour des tranches successives permet d’approcher l’évolution du signal au cours du temps sous la forme d’un spectrogramme. »

L’illustration ci-après (Figure 3) permet de se faire une meilleure idée de ce à quoi l’onde sonore et le spectrogramme correspondent au sein de l’étape du traitement du signal.

Figure 3 : Représentations d’une onde sonore et de son spectrogramme9

Dans un deuxième temps, le modèle acoustique, qui spécifie la prononciation des mots de la langue au moyen d’un dictionnaire acoustique (parfois aussi appelé « lexique »10), transforme le spectrogramme en séquence de phonèmes et de mots. En d’autres termes,

« une étape fondamentale en reconnaissance de la parole [le modèle acoustique] est le passage de l’onde semicontinue { une suite discrète d’unités phonétiques ou lexicales » (Haton, 2006, p. 71).

9 Illustration tirée de : http://www.cs.columbia.edu/~julia/courses/CS4706/hw/HW2.htm.

10 Voir p. ex. Haton, 2006, p. 3.

(14)

7 Le dictionnaire acoustique contient plusieurs centaines de milliers d’entrées de la langue générale, ainsi qu’une ou plusieurs prononciations pour chaque entrée11. Un bon dictionnaire acoustique contient donc une énorme quantité de données. Or, on imagine bien que la liste des mots et des différentes prononciations ne pourra pas être exhaustive et que le dictionnaire ne sera donc a priori jamais complet. Il est parfois possible de compléter le dictionnaire acoustique en ajoutant des mots et/ou des prononciations inconnus jusque-là, ainsi que d’entraîner certains outils à un utilisateur en particulier, et ce afin d’obtenir de meilleurs résultats avec la reconnaissance vocale.

Dans son chapitre sur les modèles du langage, Haton (2006, pp. 165-167) introduit et décrit le vocabulaire, composante essentielle du dictionnaire acoustique :

« [Le vocabulaire] désigne l’ensemble des mots pouvant être reconnus par le système de reconnaissance. C’est sur [lui] que les paramètres du modèle vont être appris. Aucun système de reconnaissance de la parole actuel n’est capable de reconnaître un mot qui ne fait pas partie de son lexique […]. Un vocabulaire ne se limite pas { une simple liste de mots mais constitue un véritable lexique comprenant plusieurs sources d’informations, infra- et supra- lexicales. […] [Il] doit être constitué de mots simples et composés, de champs comprenant des informations phonétiques, phonologiques, syntaxiques et éventuellement sémantiques (Smaïli et al., 1992). Pour disposer d’un vocabulaire de ce type, un travail manuel important est évidemment nécessaire. »

Finalement, le modèle du langage, qui spécifie quels mots seront reconnus par l’application ainsi que la combinatoire des mots au sein de la phrase, génère une séquence de mots qui sera ensuite traitée par un système de traduction automatique, par exemple. Le modèle du langage, élément central de la reconnaissance vocale,

« fourni[t] les informations syntaxiques et sémantiques nécessaires à la reconnaissance » (Haton, 2006, p. 12) ; « [son rôle] est d’orienter le système de reconnaissance afin de prendre, à tout moment, les meilleures décisions » (ibid., p. 156).

Le modèle du langage peut fonctionner de deux manières différentes : linguistique ou statistique. Par ailleurs, un fonctionnement hybride combinant des modèles du langage linguistique et statistique est également envisageable (Bernstein & Franco, 1996, p. 431). D’une part, un modèle du langage linguistique se base sur des grammaires syntagmatiques (« context-free grammars » en anglais) et des lexiques, lesquels

11 « Most words [in lexicons] have a single pronunciation, although some words such as homonyms and frequent function words may have more; the average number of pronunciations per word in most LVCSR [Large-Vocabulary Continuous Speech Recognition] systems seems to range from 1 to 2.5. » (Jurafsky &

Martin, 2000, p. 348).

(15)

8 décrivent les mots et les structures syntaxiques correctes d’une langue grâce { des règles formelles (pour en savoir plus sur les grammaires syntagmatiques, consulter le chapitre correspondant dans Jurafsky & Martin (2000), p. ex.). D’autre part, un modèle du langage statistique se base sur la probabilité d’apparition d’une séquence de mots (appelée « N-gramme ») contenue dans une phrase, d’après la probabilité que cette même séquence de mots apparaisse dans un corpus de référence constitué au préalable :

« Les modèles du langage statistiques sont les plus utilisés, en particulier dans les cas de grands vocabulaires […] et de syntaxes proches des langues naturelles. Ces modèles fournissent la probabilité P(W) d’une séquence de mots W { partir d’un corpus de données d’apprentissage. » (Haton, 2006, p. 12)

Une définition simplifiée du concept de corpus est donnée par Jurafsky & Martin (2000, p. 119) : « a computer-readable collection of text or speech ». Selon ces mêmes auteurs, on parlera de modèle statistique « unigramme » si la séquence étudiée consiste d’une seule unité lexicale, de modèle statistique « bigramme » si on étudie la probabilité que deux mots se suivent, et ainsi de suite (modèle « trigramme » si on a affaire à une séquence de trois mots, etc.) (ibid., p. 117) :

« We formalize this idea of word prediction with probabilistic models called N-gram models […]. An N-gram is an N-token sequence of words: a 2-gram (more commonly called a bigram) is a two-word sequence of words like ‘please turn’, ‘turn your’, or ‘your homework’, and a 3- gram (more commonly called a trigram) is a three-word sequence of words like ‘please turn your’, or ‘turn your homework’. »

Ces architectures (statistique et linguistique) présentent toutes deux des avantages et des inconvénients. A l’heure actuelle, la préférence va en général aux systèmes statistiques (Haton, 2006, p. 168) car ils sont plus robustes que les systèmes linguistiques, c’est-à-dire qu’ils s’appliquent à un plus grand nombre de textes et de domaines. Cependant, les systèmes statistiques requièrent de grandes quantités de données textuelles et linguistiques (extraites de corpus), lesquelles ne sont pas toujours disponibles. Un modèle du langage statistique sera plus robuste qu’un modèle linguistique, car il aura davantage tendance à produire des phrases agrammaticales (incorrectes du point de vue de la grammaire) ou asémantiques (incorrectes du point de vue du sens) et des fautes syntaxiques, du fait qu’il ne possède pas de connaissances linguistiques lui permettant d’éviter ce genre d’erreurs. Par ailleurs, comme l’explique Haton (ibid., p. 191) :

(16)

9

« [I]l reste encore beaucoup de chemin { parcourir avant d’arriver { des modèles de langage statistiques couvrant la quasi-globalité de la langue. La recherche dans ce domaine est très active, des modèles intégrant et exploitant des structures linguistiques de la langue ont vu le jour […]. […] une modélisation plus fine des phénomènes linguistiques complexes constitue un défi important que nous devons relever afin d’espérer améliorer les systèmes de reconnaissance de la parole, de dialogue homme/machine et de traduction. »

Même s’il ne reconnaîtra que les phrases qui sont contenues dans sa grammaire, on retiendra qu’un reconnaisseur fonctionnant avec un modèle du langage linguistique, lui, se prêtera mieux { un domaine d’utilisation restreint et { une utilisation par différents locuteurs (comme c’est le cas avec les applications qui font l’objet de ce travail). En d’autres termes, ce type d’outils permettra d’obtenir des résultats plus fiables en raison de leur prédictibilité.

2.2.2. La traduction automatique

La traduction automatique (abrégée TA ; « machine translation (MT) » en anglais) est la technologie au moyen de laquelle on automatise le processus de traduction d’une langue naturelle (par opposition à un langage artificiel, par exemple un langage informatique) vers une autre langue naturelle (Arnold et al., 1994). Une chaîne de caractères d’une langue source (LS) est transformée automatiquement en une chaîne de caractères d’une langue cible (LC). La TA est une technologie extrêmement vaste, qui fait l’objet de nombreuses recherches et qui possède une multitude d’applications et d’architectures possibles, qu’il serait impossible de couvrir dans un travail tel que celui-ci. Nous ferons donc ici un tour d’horizon de différents fonctionnements envisageables pour la TA (linguistique ou statistique), chacun possédant ses avantages et ses inconvénients.

Après avoir fait son apparition au début des années 50, la recherche en TA a connu une perte de vitesse dans les années 60 et 70, avant de finalement susciter un regain d’intérêt au sein de la communauté scientifique au début des années 80 ; dans les années 90, le développement du Web a permis de grandes avancées dans le domaine, notamment grâce à l’exploitation des corpus (L’Homme, 2008, pp. 14-17 et Jurafsky &

Martin, 2000, pp. 941-943). Au jour d’aujourd’hui, on est conscient des limites de la TA, laquelle s’avère toutefois fort utile dans un grand nombre de domaines, notamment pour les applications de TAP.

(17)

10 La difficulté à laquelle se heurte la TA consiste en fait à lever les ambiguïtés lexicales (en lien avec le lexique/vocabulaire) et structurales (en lien avec la syntaxe et le sens) qui sont inévitablement contenues au sein des énoncés, afin de produire la meilleure traduction possible – soit la plus fidèle possible à la langue source et la plus idiomatique possible dans la langue cible.

2.2.2.1. Les outils linguistiques

Les systèmes de TA reposant sur des connaissances linguistiques (« rule based machine translation » en anglais) s’opposent aux systèmes fonctionnant sur la base de connaissances statistiques. Avant de voir plus en détail le fonctionnement des outils linguistiques, il convient de s’intéresser aux différentes architectures envisageables pour ce type de systèmes. Dans leur ouvrage, Jurafsky & Martin (2000, p. 903) présentent les trois architectures les plus courantes pour ce type de systèmes de TA : directe, par transfert ou avec une interlangue. Ils expliquent qu’avec une architecture directe la traduction est d’abord réalisée mot { mot en langue source. Puis, { l’aide d’un dictionnaire bilingue, chaque unité linguistique est traduite dans la langue cible. Avec une architecture par transfert, le contenu en langue source est décomposé et analysé.

Puis, on applique des règles linguistiques pour transposer l’analyse de la langue source en analyse de la langue cible. Finalement, la phrase en langue cible est générée au moyen d’un arbre syntagmatique (nous verrons de quoi il s’agit un peu plus loin). Avec une architecture par interlangue, le texte en langue source est analysé et transposé en une représentation abstraite, appelée interlangue. Celle-ci permet de générer le texte en langue cible. Cette dernière architecture nécessite qu’un grand nombre de connaissances linguistiques soient encodées.

Le schéma suivant (Figure 4), appelé triangle de Vauquois, propose une représentation de ces trois architectures (tiré de Jurafsky & Martin, 2000, p. 903).

(18)

11 Figure 4 : Triangle de Vauquois

Les auteurs expliquent qu’au fur et { mesure que l’on remonte la pyramide depuis la base – en d’autres termes, que l’on passe d’une architecture directe, { une architecture par transfert, à une architecture par interlangue – davantage de connaissances linguistiques sont nécessaires, { la fois au niveau de l’analyse et de la génération de texte en langue cible. En revanche, plus l’architecture se complexifie, plus le nombre de connaissances contrastives est réduit.

Pour en revenir aux outils linguistiques, L’Homme (2008, p. 63) explique que « [l]es techniques linguistiques consistent { doter un traitement automatique d’un ensemble de connaissances sur la langue (ou sur plus d’une langue dans le contexte de la traduction). » Parmi les outils linguistiques, il convient d’emblée de différencier deux types de systèmes possédant des architectures très différentes : les systèmes minimalistes (aussi appelés « systèmes directs ») et les systèmes maximalistes (aussi appelés « systèmes indirects »), lesquels incluent les systèmes avec une architecture par transfert ou par interlangue cités plus haut. Les systèmes minimalistes n’effectuent pas une compréhension complète de la phrase à traduire, mais se limitent à une désambiguïsation syntaxique des mots en effectuant une analyse syntaxique locale, sans réaliser une analyse syntaxique complète de la phrase. Les systèmes de ce genre ne possèdent aucune connaissance grammaticale, ni de la langue source, ni de la langue cible (Jurafsky & Martin, 2000, p. 905). La traduction est effectuée mot { mot { l’aide d’un dictionnaire bilingue (toutefois relativement limité par rapport à un dictionnaire intégré à un outil maximaliste). Dans leur chapitre sur la TA, Jurafsky & Martin (2000, p. 904) expliquent le fonctionnement et l’importance des outils directs :

(19)

12

« In direct translation, we proceed word-by-word through the source-language text, translating each word as we go. We make use of no intermediate structure, except for shallow morphological analysis; each source word is directly mapped onto some target word. Direct translation is thus based on a large bilingual dictionary; each entry in the dictionary can be viewed as a small program whose job is to translate one word. After the words are translated, simple reordering rules can apply […]. While the pure direct approach is no longer used, this transformational intuition underlies all modern systems, both statistical and non statistical. »

Les principales étapes réalisées par un système direct peuvent être représentées comme ci-après (Figure 5). Dans un premier temps, une analyse morphologique du texte en langue source est réalisée, mot à mot. Ceux-ci sont ensuite traduits au moyen d’un dictionnaire bilingue, puis transposés mot { mot dans la langue cible. Il s’agit donc d’un mécanisme fonctionnant à un niveau local de la phrase et ne permettant pas une compréhension globale de celle-ci.

Figure 5 : Étapes du fonctionnement d’un système de TA direct12

Malheureusement, et bien que ce type d’architecture ait été relativement courant par le passé, Arnold et al. (1994, p. 64) expliquent que le résultat obtenu { l’aide de tels outils peut parfois s’avérer décevant :

« Since the system has no detailed knowledge of target language grammar there is no guarantee that the transformed input sentence is actually a grammatical sentence in the target language. […] the result can sometimes be a completely unintelligible ‘word salad’. »

Les systèmes maximalistes, eux, vont plus loin. Grâce à une architecture par transfert ou par interlangue (se référer au triangle de Vauquois, présenté plus haut), ils réalisent toute une série d’analyses : analyse lexicale, syntaxique, sémantique et pragmatique. Ces étapes font traditionnellement appel à des règles linguistiques. Ces dernières sont en fait (L’Homme, 2008, pp. 71-72) :

12 Schéma tiré de Jurafsky & Martin, 2000, p. 904.

(20)

13

« [des] principes d’une linguistique dite formelle, dont l’objet est de décrire l’ensemble des phénomènes linguistiques de façon explicite. […] L’explicitation entreprise par la linguistique formelle est réalisée au moyen d’un langage symbolique sans équivoque. […] Le linguiste- informaticien manipule une langue naturelle chargée d’ambiguïtés au moyen d’un langage qui en est totalement dépourvu ».

La première étape réalisée par les systèmes maximalistes, l’analyse lexicale (aussi appelée « analyse morphologique ») consiste à reconnaître un mot et à lui associer des informations lexicales le concernant, lesquelles sont contenues dans un dictionnaire (aussi parfois appelé « lexique »). Ce processus rencontre toutefois vite des difficultés, en particulier avec les homographes ; ces unités lexicales ont la même orthographe, mais :

- elles peuvent appartenir à des catégories grammaticales différentes. On parle alors d’« homographes catégoriels », par exemple : l’unité lexicale « porte » peut soit être un substantif (ouverture par laquelle on entre dans une pièce, p. ex.), soit une forme verbale (le verbe « porter » à la 1ère/3ème personne du singulier, p. ex.) ;

- elles peuvent avoir des sens différents. On parle dans ce cas d’« homographes sémantiques », par exemple : l’unité lexicale « avocat » est un substantif qui peut soit être un fruit, soit un homme de loi.

Afin de tenter de lever ce type d’ambiguïtés, le système a alors recours { l’analyse syntaxique de la phrase. Il s’agit à ce moment-là de structurer la phrase { l’aide d’une grammaire et d’extraire les différents groupes syntaxiques constituant la phrase ainsi que leur fonction grammaticale au sein de cette dernière (sujet, verbe, objet (in)direct, etc.). On peut également observer la structure des constituants d’une phrase au moyen d’un arbre syntagmatique, une représentation formelle développée par le linguiste Noam Chomsky (se référer à ses ouvrages sur la grammaire générative). Voici un exemple d’arbre syntagmatique13, représentant les constituants de la phrase « Pierre est content. » (Figure 6).

13 Illustration tirée de : http://www.linguistes.com/phrase/representations.html.

(21)

14 Figure 6 : Représentation sous forme d’arbre syntagmatique de la phrase « Pierre est content. »

Ici, on observe que la phrase (Ph) est divisée en un syntagme nominal (SN) et un syntagme verbal (SV). Le SN est composé d’une seule unité lexicale, un substantif (N) :

« Pierre ». Le SV, lui, est composé d’un verbe (V) : « est » et d’un syntagme adjectival (SA), composé { son tour d’un adjectif (A) : « content ». Cet exemple simple permet de mieux comprendre comment la phrase est analysée par ce type de systèmes lorsque les différentes étapes analytiques que nous avons vues précédemment sont effectuées.

L’analyse syntaxique permet de résoudre des cas d’homographie catégorielle mais elle sera toutefois entravée par les cas d’ambiguïté structurale présents dans la phrase.

Le système réalisera donc une autre étape : l’analyse sémantique. Cette étape consiste à comprendre les mots et leurs relations syntaxiques avec les autres éléments de la phrase, et ce au moyen de règles d’interprétation sémantiques, par exemple des restrictions de sélection (Jurafsky & Martin, 2000, p. 908). Pour ce faire, comme pour les indications concernant la catégorie grammaticale d’un mot, des informations concernant la nature sémantique d’une unité lexicale et de ses compléments sont ajoutées à un dictionnaire bilingue compilé au préalable.

Toutefois, au terme de ces différentes étapes d’analyse de la phrase, les systèmes se heurtent encore parfois à des cas où plusieurs interprétations demeurent possibles et où une contextualisation et un raisonnement extra-linguistiques sont nécessaires.

C’est { ce moment-l{ qu’intervient l’analyse du discours, fonctionnant également sur la base de règles pragmatiques établies au préalable. Ce processus peut fonctionner pour un domaine limité, mais on imagine bien qu’il serait impossible de prévoir tous les cas qui pourraient survenir dans la langue générale. L’analyse pragmatique est une analyse particulièrement difficile à encoder et, comme l’affirme également L’Homme (2008, pp. 58-59), un certain nombre de connaissances du monde et de la langue demeurent (et demeureront toujours ?) inaccessibles à la machine.

(22)

15 Au terme de cette brève présentation des deux types de systèmes linguistiques, il apparaît donc que les systèmes maximalistes nécessitent d’encoder une quantité de connaissances bien plus grande que les systèmes minimalistes.

Aujourd’hui, les outils linguistiques ont tendance { être remplacés par les systèmes statistiques, sauf dans les domaines d’utilisation limités.

2.2.2.2. Les outils statistiques

Les systèmes de TA ayant recours à un fonctionnement statistique (aussi appelé

« fonctionnement probabiliste »14) se basent sur des taux de probabilité : la probabilité qu’un phénomène linguistique se produise dans une langue (la « probabilité de traduction »), en se basant sur un corpus de référence contenant une très grande quantité de données linguistiques monolingues ou bilingues. Comme Jurafsky & Martin (2000, p. 910) l’ont dit : « [t]here is another way to approach the problem of translation : to focus on the result, not the process [as it was the case with rule based systems] ».

L’Homme (2008, p. 64), pour sa part, présente les outils de TA statistiques de la façon suivante :

« Le traitement automatique de la langue peut également se faire au moyen de méthodes radicalement différentes, dans leurs principes, des techniques linguistiques. Une stratégie consiste à mesurer les probabilités des phénomènes linguistiques et à opter pour la plus forte lors d’un traitement particulier. »

Avec un système statistique (« statistical machine translation » en anglais), les probabilités permettant de départager les différentes traductions envisageables sont encodées dans différents modèles : le modèle du langage et le modèle de traduction (Jurafsky & Martin, 2000). D’une part, le modèle du langage, qui se base sur des corpus monolingues en langue cible, permet de déterminer statistiquement si une phrase est fluide et idiomatique. Pour ce faire, des algorithmes calculent la probabilité d’apparition de séquences d’unités lexicales, appelées « N-grammes » (unigramme = mot individuel, bigramme = séquence de deux mots, trigramme = séquence de trois mots et ainsi de suite, comme nous l’avons vu précédemment), contenues dans un corpus d’entraînement. D’autre part, le modèle de traduction, basé lui sur des corpus bilingues, permet de déterminer quelle traduction est la plus probable. En d’autres mots (ibid., p. 911) : « [s]tatistical MT is the name for a class of approaches that do just this by

14 Voir p. ex. L’Homme, 2008.

(23)

16 building probabilistic models of faithfulness and fluency and then combining these models to choose the most probable translation ». Les résultats du modèle du langage et du modèle de traduction sont ensuite combinés dans des calculs permettant de déterminer la meilleure traduction (celle qui obtient le meilleur score). En d’autres termes, comme l’explique Somers, « [l]a tâche de la traduction consiste à trouver pour une phrase donnée S [source] la phrase C [cible] dans la langue cible dont la probabilité Pr(S|C) est maximale » (Bouillon & Clas, 1993, p. 157).

Avec un système de TA linguistique, les énoncés qui ne sont pas couverts par la grammaire ne sont pas reconnus et donc pas traduits, alors qu’un système statistique est plus robuste. De plus, les outils statistiques sont plus facilement exploitables car ils nécessitent moins de travail d’encodage avant de pouvoir fournir des résultats satisfaisants. Toutefois, même s’ils s’appliquent mieux { un traitement de la langue générale, les systèmes statistiques reposent sur des corpus qui ne sont pas forcément représentatifs. Par ailleurs, il faut pouvoir avoir accès { des corpus, ce qui n’est pas toujours possible. Du fait qu’ils n’effectuent pas une compréhension syntaxique de la phrase, les outils statistiques auront davantage tendance à commettre des erreurs non locales ainsi que des contre-sens. À l’heure actuelle, l’utilisation de techniques statistiques est parfois combinée { l’utilisation de techniques linguistiques au sein d’un même outil, et ce afin de tenter de tirer profit des avantages des deux méthodes et d’obtenir le meilleur résultat possible (Jurafsky & Martin, 2000 et Zong & Seligman, 2006).

2.2.2.3. La traduction automatique interactive

La traduction automatique interactive consiste en un procédé au cours duquel l’utilisateur d’un système de TA a la possibilité d’intervenir sur le processus de traduction automatique, comme l’explique Wehrli (Bouillon & Clas, 1993, p. 423) :

« Alors qu’un système non interactif fonctionne de façon autonome, ne permettant aucune intervention de la part de son utilisateur en cours de processus, un système interactif suppose une collaboration active, en temps réel, de l’utilisateur. Ainsi, par exemple, lorsqu’il fait face { un problème qu’il est incapable de résoudre par lui-même, un système interactif peut consulter son utilisateur et lui demander de choisir entre des alternatives ou encore de corriger une éventuelle erreur. »

(24)

17 D’autres mécanismes offrent la possibilité { l’utilisateur du système de TA d’intervenir { un moment ou à un autre du processus de traduction ; par exemple pour désambiguïser la phrase source ou pour valider le résultat de la reconnaissance vocale. L’application BabelDr (voir la Section 4.2.2. de ce travail, laquelle lui est consacrée) permet la TA interactive puisque l’utilisateur a la possibilité de vérifier que la reconnaissance vocale a produit un résultat correct avant de demander la traduction automatique de ce dernier.

En effet, le résultat de la reconnaissance vocale (ou la tournure s’en rapprochant le plus) s’affiche dans la langue de l’utilisateur, lequel a ensuite la possibilité de reposer sa question si celle-ci n’a pas été reconnue correctement ou de déclencher l’étape de traduction.

Le système qui fait l’objet de l’article de Seligman & Dillinger (2006) permet également à l’utilisateur d’agir { la fois sur le produit de la reconnaissance vocale et sur le processus de traduction automatique. Les auteurs expliquent le fonctionnement de ces différentes étapes de la manière suivante (p. 3) :

« First, user scan monitor and correct the speaker-dependent speech recognition system to ensure that the text that will be passed to the machine translation component is completely correct. Voice commands (e.g. ‘Scratch that’ or ‘Correct <incorrect text>’) can be used to repair speech recognition errors. […] Next, during the MT stage, users can monitor, and if necessary correct, one especially important aspect of the translation – lexical disambiguation. »

Les auteurs expliquent ensuite que pour lever ces ambiguïtés lexicales, le système fournit une traduction inverse (« back-translation »), soit une re-traduction dans la langue de l’utilisateur de la traduction proposée, afin que celui-ci puisse déjà évaluer si la qualité de la traduction réalisée lui semble adaptée. Par la suite, si le doute n’est pas levé, le système propose des éléments sémantiques (« Meaning CuesMD »), tels que des synonymes ou des définitions, visant { guider l’utilisateur { choisir la meilleure solution parmi différentes traductions proposées. En dernier lieu, la traduction proposée initialement est actualisée selon les spécifications effectuées par l’utilisateur.

(25)

18 2.2.3. La synthèse vocale

La synthèse vocale est la dernière étape effectuée par les systèmes de TAP. Il s’agit de transformer la chaîne de caractères/mots de la langue cible (produite par l’outil de TA, p. ex.) en une onde sonore ; en d’autres mots, transformer du texte en suites de sons (Figure 7).

Figure 7 : Représentation du processus de la synthèse vocale15

Dans leur ouvrage, Jurafsky & Martin (2000, pp. 283-284) expliquent que pour retranscrire un énoncé en une onde sonore lui correspondant, deux étapes sont nécessaires :

« First converting the input text into a phonemic internal representation and then converting this internal representation into a waveform. [We] will call the first step ‘text analysis’, and the second step ‘waveform synthesis’ […]. »

Il s’agit en fait du processus inverse de celui effectué lors de la reconnaissance vocale.

Dans leur chapitre sur la reconnaissance vocale, Bernstein & Franco (1996) décrivent le fonctionnement de la synthèse vocale de la manière suivante : le texte (en l’occurrence, le résultat de la traduction automatique) est transformé en suites de phonèmes par un procédé phonologique, lequel se base sur un lexique contenant des mots accompagnés de leur prononciation (comme nous l’avons vu précédemment, il arrive que plusieurs prononciations soient disponibles dans de tels lexiques). Les séquences de phonèmes obtenues sont ensuite modulées par une composante prosodique, laquelle accentue les séquences de phonèmes et donne un rythme à la phrase. Finalement, le signal acoustique obtenu est reproduit { l’aide d’un synthétiseur vocal.

Dans leur article, Zong & Seligman (2006) établissent la distinction entre deux types de systèmes de synthèse vocale au moment de produire le signal acoustique : ceux fonctionnant tel qu’expliqué ci-dessus (et auxquels ils font référence avec l’expression

« formant-based method ») et ceux liant des courts segments enregistrés au préalable (auxquels se rapporte l’expression « concatenative method »). Jurafsky & Martin (2000,

15 Illustration tirée de Bernstein & Franco, 1996, p. 410.

(26)

19 p. 284) établissent eux la distinction entre trois manières de générer l’onde sonore, dont deux sont les mêmes que chez Zong & Seligman : « concatenative synthesis, formant synthesis, and articulatory synthesis ». Jurafsky & Martin (ibid., p. 284) ajoutent que

« [t]he architecture of most modern commercial TTS [text to speech] systems is based on concatenative synthesis, in which samples of speech are chopped up, stored in a database, and combined and reconfigured to create new sentences ».

La majorité des systèmes de TAP actuels ne permet pas { l’utilisateur de moduler l’aspect prosodique (l’intonation, etc.) des énoncés produits par la technologie de la synthèse vocale, bien que la possibilité existe (Zong & Seligman, 2006). Ceci, bien que ne représentant pas un obstacle majeur au bon fonctionnement d’une application de TAP, peut avoir un impact négatif sur sa facilité d’utilisation. En effet, un produit de la synthèse vocale qui aurait un aspect prosodique inadapté (qui pourrait sembler

« étrange » à son destinataire) ne contribue pas à une expérience optimale pour l’utilisateur { qui l’énoncé s’adresse ; en l’occurrence, dans notre contexte d’utilisation, au patient. Jurafsky & Martin (2000, p. 283) affirmaient que déjà à l’époque : « [s]tate of the art systems in speech synthesis [could] achieve remarkably natural speech for a very wide variety of input situations, although even the best systems still tend[ed] to sound wooden and [were] limited in the voices they use[d]». Cette affirmation est toujours vraie au jour d’aujourd’hui, même si de gros progrès ont été réalisés depuis.

2.3. Les systèmes de TAP unidirectionnels et bidirectionnels

Avant de terminer cet aperçu de la TAP, je souhaiterais encore présenter une distinction pertinente dans le cadre de ce travail : celle entre les systèmes de TAP unidirectionnels et bidirectionnels. D’une part, les systèmes unidirectionnels sont commandés exclusivement par l’une des deux personnes participant au dialogue (dans le contexte d’utilisation des systèmes qui font l’objet de l’évaluation réalisée dans le cadre de ce travail, le médecin), laquelle pose en général des questions « fermées » auxquelles l’autre personne (dans notre contexte d’utilisation, le patient) peut uniquement répondre par oui ou par non, ou par des gestes (indiquer une zone de son corps, un chiffre { l’aide de ses doigts, etc.). D’autre part, les systèmes bidirectionnelspermettent à l’un des utilisateurs de poser des questions « ouvertes », auxquelles l’autre participant au dialogue peut répondre avec des réponses complètes, qui sont ensuite traitées (y

(27)

20 compris traduites) par le système. Google Translate, bien connu du grand public, est un système de TA(P) qui offre cette possibilité.

Bien que l’avancée des technologies rende aujourd’hui possibles les systèmes bidirectionnels, leur utilisation demeure limitée car encore peu fiable. En effet, dans leur article, Chatzichrisafis et al. (2006) expliquent l’une des raisons { l’origine de cette limitation :

« The problem with a bidirectional system is, however, that open questions only really work well if the system can reliably handle a broad spectrum of replies from the patients, which is over-optimistic given the current state of the art. »

De plus, afin de fonctionner de manière optimale, de tels systèmes supposent également une bonne utilisation de la part de tous les utilisateurs (dans notre contexte d’utilisation, le médecin et le patient), ce qu’il n’est pas toujours possible de garantir. En effet, il est plus aisé de familiariser un (ou plusieurs) médecins, qui utiliseront l’application de TAP régulièrement, aux bonnes pratiques permettant l’optimisation des résultats obtenus, qu’un patient qui arriverait pour la première fois dans un service d’urgences, par exemple.

2.4. Conclusion

Au terme de ce premier chapitre, nous avons fait un tour d’horizon des différentes technologies entrant en jeu dans le processus de TAP : la reconnaissance vocale, la traduction automatique (y compris les fonctionnements bien différents des outils linguistiques et statistiques) et la synthèse vocale. Nous avons eu un aperçu des avantages et des limites de ces différentes composantes, et la distinction entre les systèmes de TAP unidirectionnels et bidirectionnels a été établie. Nous avons vu que les systèmes de TAP permettent d’obtenir de bons résultats, voire très bons lorsque leur utilisation est limitée { un domaine particulier ou que l’utilisateur a la possibilité d’intervenir sur le processus de TA. Nous allons maintenant nous pencher sur l’utilisation de la TAP dans le domaine particulier qui nous intéresse dans le cadre de ce travail, le domaine médical ; particulièrement les différents problèmes qui surviennent dans ce contexte avec l’utilisation de tels systèmes, ainsi que les solutions et améliorations envisageables.

(28)

21

3. LA TAP POUR LE DOMAINE MÉDICAL

3.1. Introduction

La traduction automatique de la parole est une technologie toujours plus utilisée dans de nombreux environnements, le domaine médical ne faisant pas exception à la règle. De nombreuses applications de TAP ont ainsi vu le jour afin de faciliter la communication entre les membres du personnel médical/hospitalier et les patients ne parlant pas de langue commune. Les systèmes de TAP, disponibles sur différents supports (Web, téléphones portables, tablettes, etc.) représentent une alternative meilleur marché que le recours à un interprète professionnel, disponible immédiatement, aisée et pratique d’utilisation, facilitant la communication entre les patients et le personnel hospitalier, comme l’affirment Bouillon et al. dans leur article (2007) :

« There is thus a substantial gap between the need for and availability of language services in health care, a gap that could be bridged through effective medical speech translation systems. »

Dans ce deuxième chapitre, nous allons tout d’abord nous pencher sur les différents enjeux et problèmes liés aux interprètes professionnels officiant dans le domaine médical (3.2.). Nous nous intéresserons ensuite aux systèmes de TAP généralistes (3.3.), puis brièvement aux systèmes spécialisés pour le domaine médical (3.4.), lesquels peuvent représenter une alternative aux services d’interprètes professionnels. Par la suite, nous verrons qu’en dépit de leur présence toujours plus importante et des avantages que leur utilisation représente, les systèmes de TAP utilisés pour la traduction de dialogues médicaux soulèvent une série de problèmes spécifiques (3.5.), notamment du point de vue de leur fiabilité (3.5.1.), de leur ergonomie (3.5.2.) et de contraintes externes aux systèmes eux-mêmes (3.5.3.).

(29)

22 3.2. Services d’interprétation pour le domaine médical

Partout dans le monde, les établissements hospitaliers doivent accueillir des patients qui ne parlent pas bien, ou pas du tout, la langue locale (ou l’anglais, qui est souvent utilisé comme langue véhiculaire) ; les communautés de migrants en sont aujourd’hui l’exemple le plus typique. Dans ce genre de situations, la loi exige que les hôpitaux aient recours à des interprètes professionnels, ce qui peut soulever de nombreux problèmes.

Dans l’un de ses articles, Flores (2005) fait un tour d’horizon de la littérature traitant de l’impact des services d’interprétation pour le médical sur la qualité des soins de la santé (l’étude se concentre sur la population non anglophone (ou ne maîtrisant pas bien l’anglais) aux États-Unis). Parmi les conclusions qu’il tire dans son article, l’auteur souligne notamment que la qualité des soins médicaux peut être compromise lorsque la langue représente un obstacle dans la communication entre le médecin et le patient (p. 255) ; que la qualité des soins serait en effet inférieure et davantage d’erreurs seraient commises avec des interprètes ad hoc16 qu’avec des interprètes correctement formés (p. 273) ; que des interprètes professionnels ou des membres du corps médical bilingues amélioreraient considérablement la satisfaction, la qualité et l’issue des soins fournis pour les patients ne parlant pas, ou mal, la langue locale (p. 296). Ce genre d’études met donc en lumière l’importance de surmonter les barrières linguistiques afin d’assurer le bon déroulement et le bon aboutissement des consultations médicales.

Toutefois, les services d’interprètes professionnels représentent une solution qui n’est pas bon marché et il est aussi parfois difficile de trouver des personnes disponibles, en particulier lorsque des patients arrivent dans une situation d’urgence. De plus, les interprètes professionnels demeurent sujets { une marge d’erreur, aussi infime soit-elle, comme souligné par Somers (2006) : « [t]ranslation accuracy is of course crucial in the medical domain, and sometimes problematic even with human interpreters, if not trained properly ». Dans leur article, Patil & Davies (2014) mettent en lumière un autre point qui peut poser problème, le secret professionnel : « […] human translators, who cannot be assumed to be perfect and may be subject to confidentiality breaches ». Par ailleurs, les établissements hospitaliers ont souvent recours à des traducteurs

16 Dans son article (2005, p. 294), Flores donne différents exemples d’interprètes ad hoc non professionnels : membres de la famille du patient, amis, personnel médical et non médical, personnes étrangères.

Références

Documents relatifs

Dans le cadre du projet INRA Systali, les effets de la balance protéique du rumen (BPR = MAT ingérée – MA non NH3 au duodénum, en g/kg MS)) sur les valeurs UF et PDI de la

Articuler les points de vue socio-kconomique, fourrager et zootechnique de l'exploitation dans un objectifde diagnostic global et d'aide au conseil en mati2re de :

Cette séquence, localisée environ 8 à 10 nucléotides en amont du codon d’initiation de la traduction, est reconnue par l’ARNr 16S de la petite sous-unité du ribosome.. B\

Donc dans ce chapitre nous présentons une description générale de notre système, en commençant par le fonctionnement du système puis la représentation interne du texte,

Dans cette thèse, nous proposons plusieurs approches pour porter un système de compréhension d’une langue vers une autre en utilisant les techniques de la traduction automatique..

T ABLE 7 : Exemples de phrases communes au SMT et NMT pour lesquelles une annotation d'erreurs du type Mots Incorrects, Sens, Mauvais Choix Lexical a été associée L'exemple 20

Un système électrique linéaire est un filtre dit passif s’il n’est constitué uniquement que de dipôles passifs : - conducteurs ohmiques de

Ce travail permet de préciser les effets digestifs de l’urée, et leur traduction dans les systèmes rénovés intégrant mieux les effets de la balance protéique du rumen sur