Ce chapitre décrivant les principes de fonctionnement des systèmes de RAP a mis
en exergue les diérentes étapes nécessaires au décodage de la parole. Les méthodes
gé-néralement utilisées pour faire la relation entre le son et la séquence des mots prononcés
sont essentiellement statistiques. Malgré les dicultés de la transcription dues pour une
grande part à la variabilité des documents à traiter, la RAP est devenue susamment
mature pour être utilisée dans des domaines limités. Toutefois, en décrivant plus
particu-lièrement les modèles de langage, nous avons pu constater que les modèlesN-grammes,
bien que très utilisés en pratique, sont souvent critiqués sur deux points. D'une part,
ils sont basés sur une hypothèse un peu simpliste et arbitraire qui est d'examiner les
N−1mots précédents pour prédire le mot courant. D'autre part, malgré des techniques
de lissage perfectionnées, les calculs de probabilité réalisés pour des événements rares
voire absents du corpus sont imprécis. Les performances des systèmes actuels semblent
donc améliorables en recourant à des techniques supplémentaires qui n'auraient pas ces
inconvénients.
Une des possibilités envisagées pour pallier les manques des méthodes statistiques
pour modéliser certains phénomènes consiste à utiliser davantage d'informations sur la
langue. Le chapitre suivant est dédié à un état de l'art sur les techniques employées
pour introduire des connaissances linguistiques au sein des ML.
Connaissances linguistiques en
reconnaissance de la parole :
un état de l'art
C
omme nous l'avons vu en section 1.1, les systèmes de RAP adoptent une
mo-délisation hiérarchique pour décoder la parole. Le MA identie, à partir des
caractéristiques extraites du signal, des phones puis des mots ; le ML est quant
à lui chargé de reconnaître les successions de mots les plus probables pour un groupe
de soue. Ce mode de fonctionnement présente des similarités avec celui de l'être
hu-main qui, pour interpréter le sens véhiculé par la parole, identie successivement des
phones, des syllabes, des mots et des phrases [Allen, 1994]. Cependant, à la
dié-rence de l'être humain qui utilise diérents niveaux de connaissances linguistiques, les
informations sur le langage dans les systèmes de RAP se limitent essentiellement à la
connaissance des phones et des phonèmes d'une langue, à la réalisation d'un
diction-naire de prononciation et à l'apprentissage de ML sur des corpus. Les ML notamment
n'exploitent pas la richesse des informations liées à la langue et assimilent bien souvent
les mots à de simples symboles.
Une justication de l'utilisation de connaissances linguistiques en RAP est qu'il
semble de plus en plus dicile d'améliorer les modèlesN-grammes en étendant la taille
du corpus d'apprentissage. En eet, même si la collecte de nombreux textes de natures
diérentes permet de transcrire des documents issus de domaines de plus en plus ouverts
depuis les débuts d'utilisation de modèles statistiques, il semble, selon une estimation
informelle d'IBM, que les performances des modèles bigrammes n'enregistrent plus de
gain important au-delà de quelques centaines de millions de mots, tandis que les
mo-dèles trigrammes saturent à partir de quelques milliards de mots. Or, dans plusieurs
domaines d'application de systèmes de RAP, de tels volumes de données ont déjà été
collectés [Rosenfeld, 2000b]. Une autre étude menée sur une application du TAL la
désambiguïsation d'un mot parmi un ensemble de mots souvent confondus, e.g. to ,
too et two en anglais conduit à une conclusion contradictoire sur l'intérêt
d'accroître la taille d'un corpus d'apprentissage pour améliorer la performance des
thodes statistiques, les auteurs montrant qu'il n'existe pas de plateau de saturation
des résultats quand on continue à augmenter le nombre de données utilisées [Banko
et Brill, 2001]. Toutefois, malgré ces résultats encourageants, la constitution de corpus
spéciques à chaque type de document à transcrire demeure nécessaire pour
amélio-rer véritablement le WER [Rosenfeld, 2000b]. Or, la collecte de données pertinentes
et en grand volume reste toujours une opération coûteuse et de longue haleine
1. Pour
toutes ces raisons, il apparaît ainsi nécessaire de recourir à d'autres connaissances pour
permettre d'améliorer la qualité des modèles proposés.
Une expérience menée par Brill et al. corrobore l'hypothèse d'un apport de la
lin-guistique à l'amélioration de la reconnaissance de la parole. Elle a consisté à analyser les
ressources qu'un être humain utiliserait pour corriger des transcriptions automatiques
[Brill et al., 1998]. Trois corpus de parole ont été à cette n traités par un système
de RAP pour produire les listes des dix meilleures hypothèses (cf. section 1.1.6)
as-sociées à chaque groupe de soue. Il a alors été demandé à des sujets humains de
sélectionner parmi chacune de ces listes l'hypothèse qui leur semblait la plus juste. Les
choix eectués par ces personnes se sont souvent révélés judicieux puisqu'ils ont permis
une nette diminution du taux d'erreur par rapport à la meilleure hypothèse désignée
par le système de RAP pour chacun des groupes de soue. Un questionnaire sur les
connaissances utilisées pour faire leur sélection a montré que les humains se basaient
principalement sur des informations linguistiques telles que l'emploi correct des
pré-positions et des déterminants, les accords en genre et en nombre, l'examen du temps
pour les verbes, la connaissance de syntagmes idiomatiques ou encore l'analyse de la
structure des hypothèses proposées.
Ce chapitre se propose de faire un état de l'art sur l'utilisation de connaissances
linguistiques pour améliorer les performances de systèmes de RAP
2. D'une part,
l'in-tervention de ce type d'informations suppose de les acquérir en examinant les données
manipulées par le système de transcription. Pour cela, le domaine du traitement
auto-matique des langues (TAL) fournit un ensemble de techniques pour analyser
automa-tiquement du texte exprimé en langues naturelles, et la prise en compte de nouvelles
sources de connaissances linguistiques en RAP peut ainsi être vue comme une des
ap-plications de l'utilisation conjointe de la RAP et du TAL. D'autre part, l'emploi des
nouvelles connaissances pour améliorer la transcription nécessite de les inclure dans le
processus de la RAP. Ceci peut demander d'adapter les méthodes usuelles de décodage.
Nous débutons par une présentation des caractéristiques de la langue parlée.
L'em-ploi sur des productions d'un système de RAP de techniques du TAL, appliquées
or-dinairement sur des textes bien écrits , ne va en eet pas de soi et se heurte à
des dicultés. Nous poursuivons en exposant quels types de connaissances linguistiques
peuvent être exploitées pour améliorer la qualité d'une transcription, comment elles sont
obtenues par des techniques du TAL puis utilisées, et à quels résultats elles conduisent.
1
L'utilisation des ressources du Web peut constituer une solution à ce problème comme nous le
verrons au chapitre 6.
Nous précisons enn à quel niveau du décodage peuvent être prises en compte ces
in-formations sur la langue.
2.1 Caractéristiques de la langue parlée
Si l'on excepte le cas particulier des signaux enregistrés lors de la lecture à haute
voix de textes écrits, les documents traités par les systèmes de RAP relèvent du domaine
de la langue parlée. Les corpus oraux qui ont pourtant certaines spécicités par rapport
aux textes écrits, comme les romans ou les articles de journaux, ont globalement été
peu étudiés par la communauté du TAL. Cette constatation a deux explications
prin-cipales [Véronis, 2004]. D'une part, le mode de pensée de la culture occidentale tend
à privilégier l'étude de l'écrit ; alors que les lois, les contrats, les textes religieux
fon-damentaux sont des documents écrits, l'oral ne nécessite pas un apprentissage à l'école
aussi formel que l'écrit. D'autre part, peu de corpus oraux transcrits manuellement sont
actuellement disponibles. Ainsi, si le British National Corpus (BNC) contient 100
mil-lions d'occurrences pour l'anglais, tandis que la base Frantext comporte 210 milmil-lions
d'occurrences pour le français, le plus grand corpus oral, à savoir la partie orale du
BNC, est constitué de 10 millions d'occurrences. Parmi les corpus oraux, on peut citer
pour le français de Belgique le corpus Valibel comptant près de 4 millions d'occurrences
et pour le français de l'hexagone, le corpus Corpaix comptant environ 2,5 millions
d'oc-currences [Campione et al., 2005], et le Corpus de référence du français parlé comptant
440 000 occurrences [Équipe DELIC, 2004]. Le faible volume de données est expliqué
par la diculté d'établir des corpus oraux puisqu'il a été estimé qu'environ 40 heures
de travail sont nécessaires pour faire une transcription orthographique précise d'une
heure de parole, et ce, avec de bonnes conditions d'enregistrement et sans alternance
de locuteurs [Campione, 2001].
Parmi les caractéristiques de la langue parlée, certaines viennent compliquer la
trans-cription de la parole et l'acquisition automatique de connaissances linguistiques. Après
avoir précisé ce qui dénit la langue parlée par rapport à la langue écrite, cette section
présente les principales caractéristiques de cette langue parlée du point de vue de son
vocabulaire et de sa syntaxe. Nous terminons en décrivant les perturbations liées aux
phénomènes d'hésitation, souvent présents à l'oral.
2.1.1 Langue parlée et langue écrite
La langue parlée est dénie comme étant ce qui est prononcé par des locuteurs à
l'oral et fait donc appel à la voix et à l'oreille. La langue écrite représente quant à elle ce
qui s'écrit et implique donc l'usage de la main et des yeux. Les langues parlée et écrite
exploitent ainsi des canaux diérents qui ont des contraintes importantes sur leur mode
de production [Melis, 2000]. Le canal oral est ainsi caractérisé par une certaine linéarité
lors de son émission et de sa réception, même s'il peut être possible d'eectuer des
re-tours en arrière à l'aide de dispositifs d'enregistrement. La production orale ne possède
pas en outre un aussi haut niveau de structuration que l'écrit puisque seules la notion
de tours de parole, dénis comme étant les suites de mots prononcés par un locuteur
avant qu'il ne cède la parole, ou encore celle de groupes de soue sont des unités
faci-lement identiables. La prosodie, recouvrant des informations sur l'intonation, l'accent,
les pauses ou même le débit, joue également un rôle important dans la structuration
mais cet indice est beaucoup plus dicile à analyser que ne le sont les ponctuations
à l'écrit ; les pauses silencieuses se révèlent par exemple imprécises pour détecter des
ponctuations dans un signal correspondant à un texte lu [Campione et Véronis, 2002].
Des méthodes ont été élaborées pour obtenir automatiquement une segmentation plus
linguistique que celles par groupes de soue, ceux-ci étant uniquement basés sur des
indices acoustiques et n'ayant pas la même cohérence que des phrases. Cependant, cela
reste une tâche dicile puisque les meilleurs systèmes détectent les ns de phrases avec
des taux d'erreurs variant entre 30 % et 50 % selon le type de discours à analyser [Liu
et al., 2004].
Le canal écrit quant à lui fait intervenir deux dimensions : la largeur et la hauteur,
facilitant ainsi les retours à des éléments antérieurs. Ceci ore la possibilité d'avoir
une structuration plus importante puisqu'un texte peut être segmenté en chapitres, en
sections, en paragraphes et en phrases. Ce découpage est lui-même choisi par celui qui
écrit et est plus informatif sur l'alternance des points abordés que ne le sont par exemple
les tours de parole.
En sus du format, l'oral et l'écrit s'opposent aussi sur leur contexte d'utilisation.
Ainsi l'oral exclut-il généralement toute forme de préparation préalable ; il permet
da-vantage d'interactivités entre les interlocuteurs, au risque même d'avoir des
chevauche-ments entre des mots prononcés par des personnes diérentes. Le texte a plutôt tendance
à être produit en diéré et peut donc être reformulé avant d'être livré aux destinataires.
Les récepteurs ne sont pas au contact du scripteur, ce qui contraint celui-ci à proposer
un texte désambiguïsé, informatif et structuré. Ces diérences d'utilisation entraînent
des conséquences importantes sur le style plus formel à l'écrit qu'à l'oral. Avec
l'appa-rition de nouvelles formes de documents tels que les courriels ou les blogs, l'opposition
entre langue parlée et langue orale tend cependant à être moins systématique et on
assiste à une hybridation des codes.
D'une manière générale, les diérences observées entre écrit et oral dépendent
tou-tefois du contexte d'utilisation. Le discours télévisé du chef de l'état à la nation sera par
exemple préparé et n'autorisera pas l'intervention des récepteurs, tandis que les
conver-sations de la vie courante seront plus sujettes à des marques d'hésitation et sont très
interactives. On distingue trois grandes catégories de documents étudiés en RAP : la
parole lue, préparée ou encore spontanée. La parole lue est associée à la lecture à haute
voix de textes, typiquement des articles de journaux. La parole spontanée correspond à
des situations de la vie quotidienne où le locuteur parle sans avoir préparé au préalable
ce qu'il allait dire et en s'adaptant constamment à ses interlocuteurs. La parole
prépa-rée est une forme intermédiaire par rapport aux deux précédentes et est plus délicate à
dénir. Elle désigne des prises de parole où le locuteur a rééchi auparavant aux idées
qu'il souhaite transmettre ; il peut même disposer d'un texte contenant une partie de
son discours, qu'il n'ira pas toutefois jusqu'à lire mot à mot pour pouvoir interagir avec
les interlocuteurs. Les questions posées par un journaliste et les entretiens donnés par
un homme politique sont deux exemples de production de parole préparée.
Après avoir déni ce qu'était la langue parlée, nous nous proposons de dégager des
phénomènes revenant plus fréquemment à l'oral qu'à l'écrit et qui complexient une
analyse par des techniques automatiques.
2.1.2 Vocabulaire et syntaxe
Le registre de la langue parlée est généralement moins soutenu dans la mesure où elle
est souvent employée dans des cadres moins formels, ce qui fait qu'elle se fonde en général
sur un ensemble familier de mots, plus restreint que celui de la langue écrite. L'utilisation
des catégories grammaticales semble également diérer puisque la comparaison de deux
corpus, l'un correspondant à des journaux écrits et l'autre à des émissions journalistiques
radiophoniques et télévisées, a montré que l'oral avait tendance à contenir plus de
pronoms et moins de noms qu'à l'écrit [Gendner et Adda-Decker, 2002]. La langue
parlée est également marquée par l'introduction de petits mots, appelés ligateurs,
marqueurs de discours ou encore inserts, comme par exemple quoi , bon , donc ,
enn ou genre .
Au niveau de la syntaxe, il existe des tournures propres à l'oral. Si en français le
pas est parfois facultatif à l'écrit dans la négation ne ... pas , c'est le ne qui
le devient à l'oral. Le il prend également à l'oral un caractère facultatif dans les
formules il faut et il y a . On peut aussi citer l'invariabilité du c'est dans des
expressions telles que c'est les voisins qui sonnaient . Ces expressions sont dues au
contexte d'utilisation de la langue orale qui favorise l'interactivité et impose donc un
temps limité de formulation des idées. Pour la même raison, et même si cela est loin
d'être systématique, les accords du participe passé seront moins respectés à l'oral qu'à
l'écrit [Melis, 2000].
Il semble également que l'ordre des mots soit un peu plus souple dans la langue
parlée qu'à l'écrit, bien que les langues rigides sur l'ordre des mots comme le français
ou l'anglais le soient encore à l'oral [Antoine et Goulian, 2001]. Les éléments régis par
le verbe peuvent, à l'oral, se placer avant le groupe sujet-verbe, comme dans l'exemple
les haricots j'aime pas . On observe aussi davantage de clivées ( c'est le coieur
qui est content ), de pseudos-clivées ( ce qui l'intéresse c'est le pognon ), de doubles
marquages ( moi j'en ai jamais vu en Suisse des immeubles ) ou encore de dislocations
( j'ai choisi la bleue de robe ) [Blanche-Benveniste, 1990].
Ces phénomènes ne justient pas toutefois de proposer une grammaire spéciale pour
la langue parlée ; pour le français, Blanche-Benveniste indique ainsi que la syntaxe de
l'oral ne dière en rien de celle de l'écrit, sauf en termes de proportions
[Blanche-Benveniste, 1990 ; Benzitoun et al., 2004]. Toutefois, ils expliquent l'importance d'avoir
à disposition des corpus oraux pour l'apprentissage des ML. En pratique, les données
recueillies pour la langue parlée n'atteignent pas une taille susante et on utilise
géné-ralement un corpus supplémentaire issu de la langue écrite.
2.1.3 Phénomènes d'hésitation
La fréquence d'apparition des marques d'hésitation est très variable selon le
locu-teur et le contexte d'élocution. Toutefois, elles concernent toutes les productions de
l'oral et sont particulièrement fréquentes à l'oral spontané puisqu'il est estimé qu'elles
représentent entre 5 et 10 % des mots d'une conversation de ce type [Shriberg, 2001].
Les phénomènes d'hésitation correspondent généralement à un travail de formulation
de la part du locuteur, dans la mesure où le discours est composé au fur et à mesure
de sa production. Ils peuvent cependant avoir d'autres rôles tels que la manifestation
d'un doute, l'envoi d'un signal au récepteur pour garder la parole ou au contraire la lui
céder, le marquage de frontières dans le discours, ou bien encore l'expression d'un stress
ou d'une décontraction.
Comme les marques d'hésitation introduisent une rupture dans la continuité du
discours, ou plus exactement dans le déroulement syntagmatique, elles sont également
appelées disuences. Il existe bien d'autres termes utilisés dans la littérature pour les
nommer, certains ne désignant pas exactement les mêmes phénomènes : turbulences, faux
départs, lapsus, inattendus structurels, spontanéités, modes de production de la langue
parlée, marques de réparation, marques du travail de formulation, extragrammaticalités,
etc. Une telle profusion de termes témoigne de la discordance entre certains linguistes
sur ce qui relève ou non de l'hésitation à l'oral. Toutefois, depuis quelques années,
plusieurs études se sont intéressées aux phénomènes d'hésitation et une nomenclature
commence à se dégager.
Ces phénomènes peuvent être de natures diérentes. Ils incluent par exemple les
pauses silencieuses, mais pas toutes, certaines jouant d'autres rôles que l'hésitation
comme la hiérarchisation et la structuration des constituants, ou encore la mise en
valeur stylistique de certains syntagmes. Les pauses remplies, correspondant au um
ou au uh en anglais et au euh en français, ou encore les allongements vocaliques
en n de mots sont des marques d'hésitation très employées [Henry, 2002 ; Candea,
2000]. On peut aussi citer [Shriberg, 2001] :
les répétitions : tous les - les jours
3,
les suppressions : c'est - il est arrivé lundi ,
les substitutions : tous les jours - toutes les semaines ,
les insertions : je suis convaincu - je suis intimement convaincu ,
les erreurs d'articulation : en jouin - en juin .
Ces quatre derniers types de disuence sont parfois désignés sous le terme
d'autocor-rections [Henry, 2002].
Il est possible de faire une autre classication des phénomènes d'hésitation, en
dis-tinguant [Pallaud et Henry, 2004] :
les bribes, correspondant à une reprise à partir de syntagmes inachevés : il a
quand même un - une bre pédagogique ,
les amorces, associées aux mots inachevés : c'est pas malho - c'est pas
malhon-nête .
Les diérents phénomènes d'hésitation sont rarement produits seuls mais plutôt en
combinaison. Il peut ainsi y avoir des répétitions de fragments de mots ( on le
re-re- revendique encore une fois ) [Henry et Pallaud, 2003]. De même, pour assurer un
rôle d'hésitation, les pauses silencieuses sont généralement associées à des allongements
vocaliques ou à des pauses remplies [Campione et Véronis, 2004].
Les disuences viennent perturber la modélisation acoustique des mots ainsi que le
calcul des probabilités de séquences de mots par les ML. Les amorces et les contractions
de mots sont particulièrement diciles à modéliser puisque le vocabulaire du système de
RAP a une taille limitée et ne les inclut généralement pas. Certaines marques
Dans le document
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
(Page 41-48)