• Aucun résultat trouvé

Ce chapitre décrivant les principes de fonctionnement des systèmes de RAP a mis

en exergue les diérentes étapes nécessaires au décodage de la parole. Les méthodes

gé-néralement utilisées pour faire la relation entre le son et la séquence des mots prononcés

sont essentiellement statistiques. Malgré les dicultés de la transcription dues pour une

grande part à la variabilité des documents à traiter, la RAP est devenue susamment

mature pour être utilisée dans des domaines limités. Toutefois, en décrivant plus

particu-lièrement les modèles de langage, nous avons pu constater que les modèlesN-grammes,

bien que très utilisés en pratique, sont souvent critiqués sur deux points. D'une part,

ils sont basés sur une hypothèse un peu simpliste et arbitraire qui est d'examiner les

N1mots précédents pour prédire le mot courant. D'autre part, malgré des techniques

de lissage perfectionnées, les calculs de probabilité réalisés pour des événements rares

voire absents du corpus sont imprécis. Les performances des systèmes actuels semblent

donc améliorables en recourant à des techniques supplémentaires qui n'auraient pas ces

inconvénients.

Une des possibilités envisagées pour pallier les manques des méthodes statistiques

pour modéliser certains phénomènes consiste à utiliser davantage d'informations sur la

langue. Le chapitre suivant est dédié à un état de l'art sur les techniques employées

pour introduire des connaissances linguistiques au sein des ML.

Connaissances linguistiques en

reconnaissance de la parole :

un état de l'art

C

omme nous l'avons vu en section 1.1, les systèmes de RAP adoptent une

mo-délisation hiérarchique pour décoder la parole. Le MA identie, à partir des

caractéristiques extraites du signal, des phones puis des mots ; le ML est quant

à lui chargé de reconnaître les successions de mots les plus probables pour un groupe

de soue. Ce mode de fonctionnement présente des similarités avec celui de l'être

hu-main qui, pour interpréter le sens véhiculé par la parole, identie successivement des

phones, des syllabes, des mots et des phrases [Allen, 1994]. Cependant, à la

dié-rence de l'être humain qui utilise diérents niveaux de connaissances linguistiques, les

informations sur le langage dans les systèmes de RAP se limitent essentiellement à la

connaissance des phones et des phonèmes d'une langue, à la réalisation d'un

diction-naire de prononciation et à l'apprentissage de ML sur des corpus. Les ML notamment

n'exploitent pas la richesse des informations liées à la langue et assimilent bien souvent

les mots à de simples symboles.

Une justication de l'utilisation de connaissances linguistiques en RAP est qu'il

semble de plus en plus dicile d'améliorer les modèlesN-grammes en étendant la taille

du corpus d'apprentissage. En eet, même si la collecte de nombreux textes de natures

diérentes permet de transcrire des documents issus de domaines de plus en plus ouverts

depuis les débuts d'utilisation de modèles statistiques, il semble, selon une estimation

informelle d'IBM, que les performances des modèles bigrammes n'enregistrent plus de

gain important au-delà de quelques centaines de millions de mots, tandis que les

mo-dèles trigrammes saturent à partir de quelques milliards de mots. Or, dans plusieurs

domaines d'application de systèmes de RAP, de tels volumes de données ont déjà été

collectés [Rosenfeld, 2000b]. Une autre étude menée sur une application du TAL la

désambiguïsation d'un mot parmi un ensemble de mots souvent confondus, e.g. to ,

too et two en anglais conduit à une conclusion contradictoire sur l'intérêt

d'accroître la taille d'un corpus d'apprentissage pour améliorer la performance des

thodes statistiques, les auteurs montrant qu'il n'existe pas de plateau de saturation

des résultats quand on continue à augmenter le nombre de données utilisées [Banko

et Brill, 2001]. Toutefois, malgré ces résultats encourageants, la constitution de corpus

spéciques à chaque type de document à transcrire demeure nécessaire pour

amélio-rer véritablement le WER [Rosenfeld, 2000b]. Or, la collecte de données pertinentes

et en grand volume reste toujours une opération coûteuse et de longue haleine

1

. Pour

toutes ces raisons, il apparaît ainsi nécessaire de recourir à d'autres connaissances pour

permettre d'améliorer la qualité des modèles proposés.

Une expérience menée par Brill et al. corrobore l'hypothèse d'un apport de la

lin-guistique à l'amélioration de la reconnaissance de la parole. Elle a consisté à analyser les

ressources qu'un être humain utiliserait pour corriger des transcriptions automatiques

[Brill et al., 1998]. Trois corpus de parole ont été à cette n traités par un système

de RAP pour produire les listes des dix meilleures hypothèses (cf. section 1.1.6)

as-sociées à chaque groupe de soue. Il a alors été demandé à des sujets humains de

sélectionner parmi chacune de ces listes l'hypothèse qui leur semblait la plus juste. Les

choix eectués par ces personnes se sont souvent révélés judicieux puisqu'ils ont permis

une nette diminution du taux d'erreur par rapport à la meilleure hypothèse désignée

par le système de RAP pour chacun des groupes de soue. Un questionnaire sur les

connaissances utilisées pour faire leur sélection a montré que les humains se basaient

principalement sur des informations linguistiques telles que l'emploi correct des

pré-positions et des déterminants, les accords en genre et en nombre, l'examen du temps

pour les verbes, la connaissance de syntagmes idiomatiques ou encore l'analyse de la

structure des hypothèses proposées.

Ce chapitre se propose de faire un état de l'art sur l'utilisation de connaissances

linguistiques pour améliorer les performances de systèmes de RAP

2

. D'une part,

l'in-tervention de ce type d'informations suppose de les acquérir en examinant les données

manipulées par le système de transcription. Pour cela, le domaine du traitement

auto-matique des langues (TAL) fournit un ensemble de techniques pour analyser

automa-tiquement du texte exprimé en langues naturelles, et la prise en compte de nouvelles

sources de connaissances linguistiques en RAP peut ainsi être vue comme une des

ap-plications de l'utilisation conjointe de la RAP et du TAL. D'autre part, l'emploi des

nouvelles connaissances pour améliorer la transcription nécessite de les inclure dans le

processus de la RAP. Ceci peut demander d'adapter les méthodes usuelles de décodage.

Nous débutons par une présentation des caractéristiques de la langue parlée.

L'em-ploi sur des productions d'un système de RAP de techniques du TAL, appliquées

or-dinairement sur des textes bien écrits , ne va en eet pas de soi et se heurte à

des dicultés. Nous poursuivons en exposant quels types de connaissances linguistiques

peuvent être exploitées pour améliorer la qualité d'une transcription, comment elles sont

obtenues par des techniques du TAL puis utilisées, et à quels résultats elles conduisent.

1

L'utilisation des ressources du Web peut constituer une solution à ce problème comme nous le

verrons au chapitre 6.

Nous précisons enn à quel niveau du décodage peuvent être prises en compte ces

in-formations sur la langue.

2.1 Caractéristiques de la langue parlée

Si l'on excepte le cas particulier des signaux enregistrés lors de la lecture à haute

voix de textes écrits, les documents traités par les systèmes de RAP relèvent du domaine

de la langue parlée. Les corpus oraux qui ont pourtant certaines spécicités par rapport

aux textes écrits, comme les romans ou les articles de journaux, ont globalement été

peu étudiés par la communauté du TAL. Cette constatation a deux explications

prin-cipales [Véronis, 2004]. D'une part, le mode de pensée de la culture occidentale tend

à privilégier l'étude de l'écrit ; alors que les lois, les contrats, les textes religieux

fon-damentaux sont des documents écrits, l'oral ne nécessite pas un apprentissage à l'école

aussi formel que l'écrit. D'autre part, peu de corpus oraux transcrits manuellement sont

actuellement disponibles. Ainsi, si le British National Corpus (BNC) contient 100

mil-lions d'occurrences pour l'anglais, tandis que la base Frantext comporte 210 milmil-lions

d'occurrences pour le français, le plus grand corpus oral, à savoir la partie orale du

BNC, est constitué de 10 millions d'occurrences. Parmi les corpus oraux, on peut citer

pour le français de Belgique le corpus Valibel comptant près de 4 millions d'occurrences

et pour le français de l'hexagone, le corpus Corpaix comptant environ 2,5 millions

d'oc-currences [Campione et al., 2005], et le Corpus de référence du français parlé comptant

440 000 occurrences [Équipe DELIC, 2004]. Le faible volume de données est expliqué

par la diculté d'établir des corpus oraux puisqu'il a été estimé qu'environ 40 heures

de travail sont nécessaires pour faire une transcription orthographique précise d'une

heure de parole, et ce, avec de bonnes conditions d'enregistrement et sans alternance

de locuteurs [Campione, 2001].

Parmi les caractéristiques de la langue parlée, certaines viennent compliquer la

trans-cription de la parole et l'acquisition automatique de connaissances linguistiques. Après

avoir précisé ce qui dénit la langue parlée par rapport à la langue écrite, cette section

présente les principales caractéristiques de cette langue parlée du point de vue de son

vocabulaire et de sa syntaxe. Nous terminons en décrivant les perturbations liées aux

phénomènes d'hésitation, souvent présents à l'oral.

2.1.1 Langue parlée et langue écrite

La langue parlée est dénie comme étant ce qui est prononcé par des locuteurs à

l'oral et fait donc appel à la voix et à l'oreille. La langue écrite représente quant à elle ce

qui s'écrit et implique donc l'usage de la main et des yeux. Les langues parlée et écrite

exploitent ainsi des canaux diérents qui ont des contraintes importantes sur leur mode

de production [Melis, 2000]. Le canal oral est ainsi caractérisé par une certaine linéarité

lors de son émission et de sa réception, même s'il peut être possible d'eectuer des

re-tours en arrière à l'aide de dispositifs d'enregistrement. La production orale ne possède

pas en outre un aussi haut niveau de structuration que l'écrit puisque seules la notion

de tours de parole, dénis comme étant les suites de mots prononcés par un locuteur

avant qu'il ne cède la parole, ou encore celle de groupes de soue sont des unités

faci-lement identiables. La prosodie, recouvrant des informations sur l'intonation, l'accent,

les pauses ou même le débit, joue également un rôle important dans la structuration

mais cet indice est beaucoup plus dicile à analyser que ne le sont les ponctuations

à l'écrit ; les pauses silencieuses se révèlent par exemple imprécises pour détecter des

ponctuations dans un signal correspondant à un texte lu [Campione et Véronis, 2002].

Des méthodes ont été élaborées pour obtenir automatiquement une segmentation plus

linguistique que celles par groupes de soue, ceux-ci étant uniquement basés sur des

indices acoustiques et n'ayant pas la même cohérence que des phrases. Cependant, cela

reste une tâche dicile puisque les meilleurs systèmes détectent les ns de phrases avec

des taux d'erreurs variant entre 30 % et 50 % selon le type de discours à analyser [Liu

et al., 2004].

Le canal écrit quant à lui fait intervenir deux dimensions : la largeur et la hauteur,

facilitant ainsi les retours à des éléments antérieurs. Ceci ore la possibilité d'avoir

une structuration plus importante puisqu'un texte peut être segmenté en chapitres, en

sections, en paragraphes et en phrases. Ce découpage est lui-même choisi par celui qui

écrit et est plus informatif sur l'alternance des points abordés que ne le sont par exemple

les tours de parole.

En sus du format, l'oral et l'écrit s'opposent aussi sur leur contexte d'utilisation.

Ainsi l'oral exclut-il généralement toute forme de préparation préalable ; il permet

da-vantage d'interactivités entre les interlocuteurs, au risque même d'avoir des

chevauche-ments entre des mots prononcés par des personnes diérentes. Le texte a plutôt tendance

à être produit en diéré et peut donc être reformulé avant d'être livré aux destinataires.

Les récepteurs ne sont pas au contact du scripteur, ce qui contraint celui-ci à proposer

un texte désambiguïsé, informatif et structuré. Ces diérences d'utilisation entraînent

des conséquences importantes sur le style plus formel à l'écrit qu'à l'oral. Avec

l'appa-rition de nouvelles formes de documents tels que les courriels ou les blogs, l'opposition

entre langue parlée et langue orale tend cependant à être moins systématique et on

assiste à une hybridation des codes.

D'une manière générale, les diérences observées entre écrit et oral dépendent

tou-tefois du contexte d'utilisation. Le discours télévisé du chef de l'état à la nation sera par

exemple préparé et n'autorisera pas l'intervention des récepteurs, tandis que les

conver-sations de la vie courante seront plus sujettes à des marques d'hésitation et sont très

interactives. On distingue trois grandes catégories de documents étudiés en RAP : la

parole lue, préparée ou encore spontanée. La parole lue est associée à la lecture à haute

voix de textes, typiquement des articles de journaux. La parole spontanée correspond à

des situations de la vie quotidienne où le locuteur parle sans avoir préparé au préalable

ce qu'il allait dire et en s'adaptant constamment à ses interlocuteurs. La parole

prépa-rée est une forme intermédiaire par rapport aux deux précédentes et est plus délicate à

dénir. Elle désigne des prises de parole où le locuteur a rééchi auparavant aux idées

qu'il souhaite transmettre ; il peut même disposer d'un texte contenant une partie de

son discours, qu'il n'ira pas toutefois jusqu'à lire mot à mot pour pouvoir interagir avec

les interlocuteurs. Les questions posées par un journaliste et les entretiens donnés par

un homme politique sont deux exemples de production de parole préparée.

Après avoir déni ce qu'était la langue parlée, nous nous proposons de dégager des

phénomènes revenant plus fréquemment à l'oral qu'à l'écrit et qui complexient une

analyse par des techniques automatiques.

2.1.2 Vocabulaire et syntaxe

Le registre de la langue parlée est généralement moins soutenu dans la mesure où elle

est souvent employée dans des cadres moins formels, ce qui fait qu'elle se fonde en général

sur un ensemble familier de mots, plus restreint que celui de la langue écrite. L'utilisation

des catégories grammaticales semble également diérer puisque la comparaison de deux

corpus, l'un correspondant à des journaux écrits et l'autre à des émissions journalistiques

radiophoniques et télévisées, a montré que l'oral avait tendance à contenir plus de

pronoms et moins de noms qu'à l'écrit [Gendner et Adda-Decker, 2002]. La langue

parlée est également marquée par l'introduction de petits mots, appelés ligateurs,

marqueurs de discours ou encore inserts, comme par exemple quoi , bon , donc ,

enn ou genre .

Au niveau de la syntaxe, il existe des tournures propres à l'oral. Si en français le

pas est parfois facultatif à l'écrit dans la négation ne ... pas , c'est le ne qui

le devient à l'oral. Le il prend également à l'oral un caractère facultatif dans les

formules il faut et il y a . On peut aussi citer l'invariabilité du c'est dans des

expressions telles que c'est les voisins qui sonnaient . Ces expressions sont dues au

contexte d'utilisation de la langue orale qui favorise l'interactivité et impose donc un

temps limité de formulation des idées. Pour la même raison, et même si cela est loin

d'être systématique, les accords du participe passé seront moins respectés à l'oral qu'à

l'écrit [Melis, 2000].

Il semble également que l'ordre des mots soit un peu plus souple dans la langue

parlée qu'à l'écrit, bien que les langues rigides sur l'ordre des mots comme le français

ou l'anglais le soient encore à l'oral [Antoine et Goulian, 2001]. Les éléments régis par

le verbe peuvent, à l'oral, se placer avant le groupe sujet-verbe, comme dans l'exemple

les haricots j'aime pas . On observe aussi davantage de clivées ( c'est le coieur

qui est content ), de pseudos-clivées ( ce qui l'intéresse c'est le pognon ), de doubles

marquages ( moi j'en ai jamais vu en Suisse des immeubles ) ou encore de dislocations

( j'ai choisi la bleue de robe ) [Blanche-Benveniste, 1990].

Ces phénomènes ne justient pas toutefois de proposer une grammaire spéciale pour

la langue parlée ; pour le français, Blanche-Benveniste indique ainsi que la syntaxe de

l'oral ne dière en rien de celle de l'écrit, sauf en termes de proportions

[Blanche-Benveniste, 1990 ; Benzitoun et al., 2004]. Toutefois, ils expliquent l'importance d'avoir

à disposition des corpus oraux pour l'apprentissage des ML. En pratique, les données

recueillies pour la langue parlée n'atteignent pas une taille susante et on utilise

géné-ralement un corpus supplémentaire issu de la langue écrite.

2.1.3 Phénomènes d'hésitation

La fréquence d'apparition des marques d'hésitation est très variable selon le

locu-teur et le contexte d'élocution. Toutefois, elles concernent toutes les productions de

l'oral et sont particulièrement fréquentes à l'oral spontané puisqu'il est estimé qu'elles

représentent entre 5 et 10 % des mots d'une conversation de ce type [Shriberg, 2001].

Les phénomènes d'hésitation correspondent généralement à un travail de formulation

de la part du locuteur, dans la mesure où le discours est composé au fur et à mesure

de sa production. Ils peuvent cependant avoir d'autres rôles tels que la manifestation

d'un doute, l'envoi d'un signal au récepteur pour garder la parole ou au contraire la lui

céder, le marquage de frontières dans le discours, ou bien encore l'expression d'un stress

ou d'une décontraction.

Comme les marques d'hésitation introduisent une rupture dans la continuité du

discours, ou plus exactement dans le déroulement syntagmatique, elles sont également

appelées disuences. Il existe bien d'autres termes utilisés dans la littérature pour les

nommer, certains ne désignant pas exactement les mêmes phénomènes : turbulences, faux

départs, lapsus, inattendus structurels, spontanéités, modes de production de la langue

parlée, marques de réparation, marques du travail de formulation, extragrammaticalités,

etc. Une telle profusion de termes témoigne de la discordance entre certains linguistes

sur ce qui relève ou non de l'hésitation à l'oral. Toutefois, depuis quelques années,

plusieurs études se sont intéressées aux phénomènes d'hésitation et une nomenclature

commence à se dégager.

Ces phénomènes peuvent être de natures diérentes. Ils incluent par exemple les

pauses silencieuses, mais pas toutes, certaines jouant d'autres rôles que l'hésitation

comme la hiérarchisation et la structuration des constituants, ou encore la mise en

valeur stylistique de certains syntagmes. Les pauses remplies, correspondant au um

ou au uh en anglais et au euh en français, ou encore les allongements vocaliques

en n de mots sont des marques d'hésitation très employées [Henry, 2002 ; Candea,

2000]. On peut aussi citer [Shriberg, 2001] :

les répétitions : tous les - les jours

3

,

les suppressions : c'est - il est arrivé lundi ,

les substitutions : tous les jours - toutes les semaines ,

les insertions : je suis convaincu - je suis intimement convaincu ,

les erreurs d'articulation : en jouin - en juin .

Ces quatre derniers types de disuence sont parfois désignés sous le terme

d'autocor-rections [Henry, 2002].

Il est possible de faire une autre classication des phénomènes d'hésitation, en

dis-tinguant [Pallaud et Henry, 2004] :

les bribes, correspondant à une reprise à partir de syntagmes inachevés : il a

quand même un - une bre pédagogique ,

les amorces, associées aux mots inachevés : c'est pas malho - c'est pas

malhon-nête .

Les diérents phénomènes d'hésitation sont rarement produits seuls mais plutôt en

combinaison. Il peut ainsi y avoir des répétitions de fragments de mots ( on le

re-re- revendique encore une fois ) [Henry et Pallaud, 2003]. De même, pour assurer un

rôle d'hésitation, les pauses silencieuses sont généralement associées à des allongements

vocaliques ou à des pauses remplies [Campione et Véronis, 2004].

Les disuences viennent perturber la modélisation acoustique des mots ainsi que le

calcul des probabilités de séquences de mots par les ML. Les amorces et les contractions

de mots sont particulièrement diciles à modéliser puisque le vocabulaire du système de

RAP a une taille limitée et ne les inclut généralement pas. Certaines marques