• Aucun résultat trouvé

Le système de transcription utilisé au cours de nos expérimentations a été

initia-lement développé par l'Irisa et l'ENST pour la campagne Ester. Son vocabulaire

contient 64 000mots ; de manière à lui assurer une bonne couverture lexicale, la casse

est ignorée et les mots composés

3

se limitent aux plus courants comme états-unis .

Suivant les principes exposés à la section 1.1, le fonctionnement du système de RAP

se décompose en plusieurs étapes (Fig. 3.2). Le signal sonore à analyser est tout d'abord

segmenté automatiquement de façon à détecter les zones contenant de la parole. Une

subdivision supplémentaire en tours de parole est réalisée au moyen d'un système de

reconnaissance du locuteur. Le ux audio est nalement partitionné en groupes de soue

en détectant automatiquement les pauses silencieuses selon la variation de l'énergie. An

d'éviter des dicultés liées à des erreurs de segmentation, le partitionnement en groupes

de soue que nous avons utilisé est celui réalisé manuellement lors de l'annotation du

corpus Ester. Ce mode de découpage n'introduit toutefois pas un biais important

quant à la qualité des résultats produits puisqu'il demeure basé essentiellement sur des

informations acoustiques et est beaucoup plus proche d'une segmentation automatique

en groupes de soue que d'une segmentation linguistique s'appuyant sur les signes de

ponctuations annotés.

Chaque groupe de soue est analysé séparément par un système à trois passes. Une

première passe, utilisant un MA assez simple non contextuel

4

et un ML trigrammes de

mots, vise à produire des graphes de mots de taille conséquente. Ces graphes sont ensuite

réévalués dans une seconde passe par un MA plus complexe dépendant du contexte

5

et

un ML quadigrammes de mots. Une dernière passe, basée sur la transcription obtenue

à l'issue de l'étape précédente et la partition en locuteurs, utilise des MA adaptés selon

chaque locuteur suivant la méthode MLLR (Maximum Likelihood Linear Regression).

Cette technique vise à transformer linéairement les gaussiennes du MA en les adaptant à

3

Mots contenant des - ou ' .

4

Modélisant des phones de manière isolée.

5

Modélisant des triphones.

de petit volumes de données propres à chaque locuteur [Leggetter et Woodland, 1995]. Le

ML utilisé dans la dernière passe est le même que celui utilisé dans la précédente. Ce ML

quadrigrammes, de même que le ML trigrammes de la première passe, sont estimés en

interpolant les probabilités calculées sur 350 M de mots du journal Le Monde avec celles

déterminées sur les 1 M de mots de l'extrait du corpus Ester destiné à l'apprentissage

(Tab. 3.1).

Ce sont les graphes de mots produits par la troisième passe que nous utilisons au

cours de nos expérimentations. Ces graphes permettent notamment de produire les

listes desN meilleures hypothèses en extrayant les chemins qui obtiennent les meilleurs

scores (cf. équation (1.11) page 16) et en ne retenant que des hypothèses qui dièrent

d'au moins un mot. Nous avons recouru à deux valeurs diérentes deN au cours de nos

expériences. Les listes correspondant àN = 100ont été obtenues en limitant les graphes

de mots produits à la première passe aux1000meilleurs chemins ; celles correspondant

à N = 1000 ont été construites sans restriction sur la taille de ces graphes.

Le système de RAP employé étant décrit, nous présentons dans la partie suivante de

ce mémoire nos travaux sur l'utilisation des POS en RAP, en débutant par un chapitre

consacré plus particulièrement à l'étiquetage de transcriptions.

Informations morpho-syntaxiques et

reconnaissance de la parole

Étiquetage morpho-syntaxique

de l'oral

L

es étiquettes POS présentent deux intérêts pour la RAP. Elles constituent d'une

part une information a priori intéressante pour corriger des erreurs de

transcrip-tion puisque par rapport aux ML opérant uniquement sur des mots, elles

ap-portent des connaissances explicites sur les catégories grammaticales présentes dans un

groupe de soue, ce qui permet d'introduire des contraintes simples sur la syntaxe. De

plus, si elles sont accompagnées d'informations sur le genre et le nombre, elles peuvent

jouer un rôle important dans la prise en compte des accords. D'autre part, trouver les

étiquettes POS associées à chaque mot d'une transcription est une étape nécessaire à

de nombreux traitements. La construction d'un index à partir de documents sonores

pour ne citer qu'un exemple peut ainsi être réalisée en ne conservant que les noms

communs.

Les premiers pas de l'utilisation des POS en reconnaissance de la parole (cf.

sec-tion 2.2.3.1) remontent aux années 80 et au début des années 90 [Jelinek, 1990 ; Maltese

et Mancini, 1992] ; cette prise en compte est alors intervenue au moyen des modèles N

-classes. Cette méthode, consistant à réaliser une interpolation linéaire avec des ML

N-grammes de mots, n'apporte généralement pas de gain au niveau de la perplexité

et du WER [Weintraub et al., 1996], ce qui fait que l'on privilégie plutôt des classes

basées sur des critères statistiques [Niesler et al., 1998]. Heeman [1999] propose un

nou-veau mode d'intégration des POS en utilisant un ML trigrammes de paires mots/POS

plutôt que de mots et en redénissant le problème de la RAP comme une recherche

de la meilleure séquence conjointe de mots et de POS. Cette technique conduit à une

baisse signicative du WER mais augmente fortement le nombre d'entrées du ML, ce

qui requiert de très nombreuses données d'apprentissage et repose lourdement sur des

techniques de lissage. Les travaux s'intéressant spéciquement aux caractéristiques sur

le genre et le nombre restent en revanche peu nombreux. Lavecchia et al. [2006]

pré-sentent toutefois un modèle à base de cache utilisant cette connaissance en observant

sur le français une amélioration de la qualité de la transcription.

Dans ce mémoire, nous envisageons les POS en RAP avec une approche diérente

puisque nous cherchons dans un premier temps à étiqueter les hypothèses de mots

pro-duites par leur classe grammaticale, avant d'employer cette connaissance pour améliorer

la RAP. Nous introduisons en outre explicitement des informations sur le genre et le

nombre, tout en prenant en compte l'ordre des séquences de POS trouvées, à la

dié-rence des modèles recourant à des mémoires caches. Une autre originalité réside dans

notre mode intégration des POS qui se fait au niveau du calcul des probabilités associées

à un groupe de soue et non à un mot en particulier. Enn, contrairement à la plupart

des études que nous avons pu trouver à ce sujet, nous testons notre méthode avec un

ML quadigrammes appris sur un corpus de grande taille, et donc a priori déjà assez

performant pour modéliser le langage.

La première partie de notre travail a consisté à déterminer la proportion d'erreurs

de transcription corrigeables par la connaissance des POS. Notre objectif était alors de

savoir si cette information présentait un intérêt pour améliorer la qualité des résultats

produits par un système de RAP. La réponse à cette question étant positive, nous avons

dans une deuxième partie étudié le comportement des étiqueteurs morpho-syntaxiques

sur une transcription. Ces outils ont fait l'objet de nombreuses recherches dans le cadre

d'annotation automatique de corpus et il en existe actuellement plusieurs versions

opé-rationnelles sur des textes de la langue écrite. Toutefois, ils ont été très peu étudiés sur

des documents oraux, et notamment sur des transcriptions produites par des systèmes

de RAP, alors que les spécicités de la langue parlée et les erreurs de transcription sont

sujettes à complexier l'étiquetage automatique. Nous avons donc mené diérentes

éva-luations destinées à montrer l'aptitude des étiqueteurs à traiter des documents oraux, en

prévision d'une utilisation des POS en post-traitement d'un système de transcription.

Avant de voir spéciquement dans le chapitre 5 notre emploi des POS dans un

système de RAP, ce chapitre décrit comment obtenir un étiquetage automatique d'une

transcription. Nous établissons tout d'abord une typologie des erreurs de transcription,

en mettant en exergue celles qui sont a priori détectables par des informations

morpho-syntaxiques. Ayant été amené à développer notre propre étiqueteur pour avoir plus

de exibilité sur la prise en compte des POS obtenues dans le système de RAP, nous

donnons les principes de l'étiquetage catégoriel, puis faisons une description de notre

outil. Nous concluons le chapitre par une évaluation des étiqueteurs que nous avons

testés sur l'oral.

4.1 Typologie des erreurs de transcription

An d'évaluer l'apport potentiel des POS pour la transcription, nous avons étudié

en détail un court extrait des transcriptions automatiques produites par le système

Irene, en cherchant à connaître la part des erreurs corrigeables par cette seule

connais-sance. Cet extrait, constitué de 6 500 mots issus du corpus de développement, soit 563

groupes de soue, correspond à un peu plus de 30 minutes d'une émission d'information

diusée sur France Inter. Le WER sur cet extrait est de 17,8%. Parmi les erreurs de

reconnaissance que nous y avons constatées manuellement, trois groupes principaux se

détachent.

Certaines erreurs correspondent à un dérapage du système, généralement dû

soit à une mauvaise acoustique, soit à une mauvaise reconnaissance d'entités nommées,

notamment des noms de personnes (Fig. 4.2, deux premiers exemples). Deux extraits

ayant un bruit de fond gênant pour la compréhension et représentant 19 groupes de

soue, soit moins de deux minutes au total, sont ainsi tout de même responsables de

15,3 % des mots mal reconnus. Les erreurs sur la reconnaissance des entités nommées et

de certains termes techniques, tel que psycho-oncologie , représentent quant à elles

11,3% du nombre d'erreurs de transcription. Il est à noter que l'extrait étudié a été

diusé la même semaine que certaines émissions dont fait partie le corpus

d'apprentis-sage d'Ester et à partir duquel a été construit le dictionnaire de prononciation. Il est

certain que la part de ce type d'erreurs aurait augmenté si le document à transcrire était

produit dans un temps plus lointain, avec des sujets d'actualité qui se seraient depuis

renouvelés. Une autre conguration où le système de RAP produit consécutivement de

nombreuses erreurs concerne les groupes de soue très courts ; la récupération d'une

mauvaise reconnaissance acoustique par le ML est alors rendue dicile du fait de la

taille limitée du contexte. An d'illustrer l'inuence de la longueur du groupe de soue

sur le nombre d'erreurs, nous donnons sur la gure 4.1 la mesure du WER calculée en

fonction de cette variable, sur un corpus étendu représentant 4 heures d'émission

d'in-formation. Ce graphique montre une augmentation signicative du nombre d'erreurs

lorsque les groupes de soue sont constitués d'au plus 5 mots. Sur l'échantillon analysé

manuellement de 6 500 mots, les groupes de soue de cette taille représentent toutefois

une part assez faible (4,4 % des mots et 5,2% des erreurs) des mots mal transcrits.

L'en-semble de ces erreurs se produisant en rafales L'en-semblent en tout cas hors d'atteinte

de la correction susceptible d'être apportée par les POS.

Le deuxième groupe que nous avons identié correspond à des hypothèses de groupes

de soue transcrites avec des agrammaticalités (Fig. 4.2, troisième exemple). Ces

der-nières sont notamment engendrées par des mots grammaticaux courts, notamment les

auxiliaires a , ont et est , les prépositions dans , en , de et à ,

les conjonctions et , ou et que , ainsi que les déterminants les , des ,

ces et ses . Ces mots absents ou présents de manière inopinée dans les hypothèses

de transcriptions sont particulièrement fréquentes puisque plus d'un groupe de soue

sur cinq contient une erreur sur ce type de mots. Outre ces fautes, on retrouve

égale-ment des mots mal reconnus dus à des confusions sur le temps et le mode des verbes,

le présent et l'indicatif étant souvent privilégiés ; ce type d'erreurs représente 2,4 % de

l'ensemble de celles observées sur le corpus étudié. Une autre explication de la présence

d'hypothèses agrammaticales est directement lié au mode de segmentation qui n'est

pas assez linguistique. Ainsi avons-nous remarqué que les groupes de soue débutant

par des verbes étaient souvent sujets à des erreurs de transcription (Fig. 4.2, quatrième

exemple). Nous avons enn pu identier une dernière source de production d'hypothèses

non grammaticales, à savoir la présence de répétitions et de reprises dans le ux de

pa-role. Ces erreurs constituent une part relative de 2,6 %, chire qui serait bien entendu

plus important si l'extrait étudié contenait davantage de parole spontanée. Parmi toutes

15 20 25 30 35 40 45 50 55 60 65 0 5 10 15 20 25 30 WER(%)

taille des groupes de souffle WER(%) moyen

Fig. 4.1:Évolution du WER (%) en fonction de la taille des groupes de soue exprimée en nombre

de mots de la référence. Les barres verticales ont été produites en divisant le corpus en échantillons

contenant des groupes de soue de même taille. Les valeurs données sur ce graphique sont établies

sur un ensemble d'émissions de 4 heures, dont est extrait le corpus étudié de 6 500 mots et sur

lequel est observé un WER égal à 21,7 %. Les groupes de soue d'une taille supérieure à 30 mots

ont été écartés car ils étaient très peu nombreux (0,2 % de l'ensemble des groupes de soue)

les agrammaticalités observées, certaines semblent corrigeables puisque l'étiquetage des

groupes de soue peut conduire à des séquences de POS aberrantes, comme l'apparition

de trois prépositions consécutives. Ce critère est néanmoins à prendre avec précaution,

à cause des répétitions présentes dans la langue parlée. En outre, les POS ne peuvent

prétendre à elles seules corriger des erreurs sur la syntaxe.

Le troisième groupe est formé d'erreurs très vraisemblablement corrigeables grâce

aux POS, à savoir les fautes d'accord en genre et en nombre et les confusions entre

innitif et participe passé. Ces erreurs sont particulièrement nombreuses puisqu'elles

représentent 11,7 % des erreurs. Parmi elles, certaines nécessitent une résolution

d'ana-phores (2,9 % du nombre total des mots mal reconnus, Fig. 4.2, cinquième exemple),

le référant étant dans un autre groupe de soue ; d'autres (1,3 %, Fig. 4.2, sixième

exemple) correspondent à des accords avec une entité qui est absente du groupe de

soue contenant le verbe. Notons que ces erreurs sont inaccessibles en analysant

isolé-ment chaque groupe de soue. Parmi les fautes d'accord, on retrouve de plus des choix

tout à fait valables eectués par le système de RAP mais pourtant considérés comme

erronés (1,0 %, Fig. 4.2, septième exemple). Ceci est expliqué par le fait que dans

cer-taines congurations, plusieurs accords sont possibles alors qu'il n'y en a qu'une seule

qui est proposée dans la transcription de référence

1

. Nous avons nalement dénombré 76

erreurs (6,5 % des mots mal reconnus) rectiables sans avoir à examiner de dépendances

entre des groupes de soue consécutifs (Fig. 4.2, huitième exemple), dont 5 (0,4 %) se

1

Il faudrait indiquer plusieurs transcriptions de référence pour évaluer très précisément le WER.

Les cas de gures où ceci s'avère nécessaire restent cependant rare.

1 - Entités nommées mal transcrites

REF: il y avait ********* ÉGALEMENT BARZAN AL TIKRITI en fait les

principaux ET également TAREK AZIZ PAR exemple

HYP: il y avait TELLEMENT BAS LA PARTIE CRITIQUE en fait les

principaux ** également ***** ARRÊTÉS HISTOIRE exemple

2 - Groupe de soue court mal transcrit

REF: DE L' AMENDE

HYP: ** TELLEMENT MÊME

3 - Hypothèse agrammaticale

REF: bush ** SAIT donc QU' il faudra coopérer

HYP: bush S' EST donc ** il faudra coopérer

4 - Erreur sur un groupe de soue débutant par un verbe

REF: ** FAIT aussi pâle figure ou presque

HYP: C' EST aussi pâle figure ou presque

5 - Accord nécessitant une résolution d'anaphore

REF: ILS POURRAIENT être ANNONCÉS début juin

HYP: IL POURRAIT être ANNONCÉ début juin

6 - Accord avec un sujet absent du groupe de soue

REF: FERMENT nos usines

HYP: FERME nos usines

7 - Accord acceptable détectée comme une erreur

REF: l' ensemble des personnes qui APPARTENAIENT au au parti baath

HYP: l' ensemble des personnes qui APPARTENAIT au au parti baath

8 - Accord interne au groupe de soue

REF: c' est un monstre injuste envers sa soeur si DÉVOUÉE

HYP: c' est un monstre injuste envers sa soeur si DÉVOUÉ

9 - Confusion entre des quasi-homophones

REF: c' est la pathologie de L' INCERTITUDE

HYP: c' est la pathologie de LA CERTITUDE

Fig. 4.2:Exemples d'erreurs dans les groupes de soue

produisent sur des mots pour lesquels la exion correcte est absente du dictionnaire du

système de RAP. Les erreurs corrigeables sans augmenter la taille du vocabulaire et en

se restreignant à une analyse indépendante de chaque groupe de soue représente donc

6,1 % des mots mal reconnus et les corriger représenterait une baisse absolue de 1,1 %

du WER.

Au travers de l'exposé des principales erreurs de décodage, nous avons distingué

trois principales catégories. La classication est arbitraire, les erreurs d'accord

pou-vant être par exemple considérées comme des agrammaticalités, de même que les

hypo-thèses contenant de nombreux mots mal reconnus. Elle n'inclut pas toutes les erreurs,

la correction de certaines nécessitant par exemple des connaissances d'ordre sémantique

ou contextuelle (confusion entre l' incertitude et la certitude , Fig. 4.2, dernier

exemple). D'une manière générale, l'essentiel des erreurs de transcription se produisent

sur des mots monosyllabiques, notamment les mots grammaticaux, ou sur l'emploi d'un

quasi-homophone à la place d'un autre, comme c'est un ordre , au lieu de la séquence

réellement prononcée c'est un ogre . Malgré les dicultés que pose la réalisation d'une

telle classication des erreurs, il apparaît toutefois qu'un nombre signicatif de mots

mal reconnus est lié à une mauvaise prise en compte des phénomènes d'accord, ce qui

positionne les POS comme une source d'information susceptible d'être intéressante pour

améliorer la qualité de la transcription. La particularité du corpus étudié qui explique

le nombre assez élevé de fautes d'accord est qu'il est de langue française ; il est probable

que pour d'autres langues possédant moins de exions homophones comme l'anglais les

observations auraient diéré. Une étude a montré à ce sujet que 23 % des mots d'un

extrait du corpus du Wall Street Journal possédaient au moins un homophone, alors

que ce chire s'élevait à 75 % sur un extrait du corpus Le Monde [Gauvain et al., 1994].

L'analyse des erreurs de transcription ayant établi l'intérêt des POS, l'étape suivante

de notre travail a consisté à examiner si nous pouvions obtenir un étiquetage able de

transcriptions automatiques.