Le système Irene

L

15 20 25 30 35 40 45 50 55 60 65 0 5 10 15 20 25 30 WER(%)

taille des groupes de souffle WER(%) moyen

Le système de transcription utilisé au cours de nos expérimentations a été

initia-lement développé par l'Irisa et l'ENST pour la campagne Ester. Son vocabulaire

contient 64 000mots ; de manière à lui assurer une bonne couverture lexicale, la casse

est ignorée et les mots composés

se limitent aux plus courants comme états-unis .

Suivant les principes exposés à la section 1.1, le fonctionnement du système de RAP

se décompose en plusieurs étapes (Fig. 3.2). Le signal sonore à analyser est tout d'abord

segmenté automatiquement de façon à détecter les zones contenant de la parole. Une

subdivision supplémentaire en tours de parole est réalisée au moyen d'un système de

reconnaissance du locuteur. Le ux audio est nalement partitionné en groupes de soue

en détectant automatiquement les pauses silencieuses selon la variation de l'énergie. An

d'éviter des dicultés liées à des erreurs de segmentation, le partitionnement en groupes

de soue que nous avons utilisé est celui réalisé manuellement lors de l'annotation du

corpus Ester. Ce mode de découpage n'introduit toutefois pas un biais important

quant à la qualité des résultats produits puisqu'il demeure basé essentiellement sur des

informations acoustiques et est beaucoup plus proche d'une segmentation automatique

en groupes de soue que d'une segmentation linguistique s'appuyant sur les signes de

ponctuations annotés.

Chaque groupe de soue est analysé séparément par un système à trois passes. Une

première passe, utilisant un MA assez simple non contextuel

et un ML trigrammes de

mots, vise à produire des graphes de mots de taille conséquente. Ces graphes sont ensuite

réévalués dans une seconde passe par un MA plus complexe dépendant du contexte

et

un ML quadigrammes de mots. Une dernière passe, basée sur la transcription obtenue

à l'issue de l'étape précédente et la partition en locuteurs, utilise des MA adaptés selon

chaque locuteur suivant la méthode MLLR (Maximum Likelihood Linear Regression).

Cette technique vise à transformer linéairement les gaussiennes du MA en les adaptant à

Mots contenant des - ou ' .

Modélisant des phones de manière isolée.

Modélisant des triphones.

de petit volumes de données propres à chaque locuteur [Leggetter et Woodland, 1995]. Le

ML utilisé dans la dernière passe est le même que celui utilisé dans la précédente. Ce ML

quadrigrammes, de même que le ML trigrammes de la première passe, sont estimés en

interpolant les probabilités calculées sur 350 M de mots du journal Le Monde avec celles

déterminées sur les 1 M de mots de l'extrait du corpus Ester destiné à l'apprentissage

(Tab. 3.1).

Ce sont les graphes de mots produits par la troisième passe que nous utilisons au

cours de nos expérimentations. Ces graphes permettent notamment de produire les

listes desN meilleures hypothèses en extrayant les chemins qui obtiennent les meilleurs

scores (cf. équation (1.11) page 16) et en ne retenant que des hypothèses qui dièrent

d'au moins un mot. Nous avons recouru à deux valeurs diérentes deN au cours de nos

expériences. Les listes correspondant àN = 100ont été obtenues en limitant les graphes

de mots produits à la première passe aux1000meilleurs chemins ; celles correspondant

à N = 1000 ont été construites sans restriction sur la taille de ces graphes.

Le système de RAP employé étant décrit, nous présentons dans la partie suivante de

ce mémoire nos travaux sur l'utilisation des POS en RAP, en débutant par un chapitre

consacré plus particulièrement à l'étiquetage de transcriptions.

Informations morpho-syntaxiques et

reconnaissance de la parole

Étiquetage morpho-syntaxique

de l'oral

L

es étiquettes POS présentent deux intérêts pour la RAP. Elles constituent d'une

part une information a priori intéressante pour corriger des erreurs de

transcrip-tion puisque par rapport aux ML opérant uniquement sur des mots, elles

ap-portent des connaissances explicites sur les catégories grammaticales présentes dans un

groupe de soue, ce qui permet d'introduire des contraintes simples sur la syntaxe. De

plus, si elles sont accompagnées d'informations sur le genre et le nombre, elles peuvent

jouer un rôle important dans la prise en compte des accords. D'autre part, trouver les

étiquettes POS associées à chaque mot d'une transcription est une étape nécessaire à

de nombreux traitements. La construction d'un index à partir de documents sonores

pour ne citer qu'un exemple peut ainsi être réalisée en ne conservant que les noms

communs.

Les premiers pas de l'utilisation des POS en reconnaissance de la parole (cf.

sec-tion 2.2.3.1) remontent aux années 80 et au début des années 90 [Jelinek, 1990 ; Maltese

et Mancini, 1992] ; cette prise en compte est alors intervenue au moyen des modèles N

-classes. Cette méthode, consistant à réaliser une interpolation linéaire avec des ML

N-grammes de mots, n'apporte généralement pas de gain au niveau de la perplexité

et du WER [Weintraub et al., 1996], ce qui fait que l'on privilégie plutôt des classes

basées sur des critères statistiques [Niesler et al., 1998]. Heeman [1999] propose un

nou-veau mode d'intégration des POS en utilisant un ML trigrammes de paires mots/POS

plutôt que de mots et en redénissant le problème de la RAP comme une recherche

de la meilleure séquence conjointe de mots et de POS. Cette technique conduit à une

baisse signicative du WER mais augmente fortement le nombre d'entrées du ML, ce

qui requiert de très nombreuses données d'apprentissage et repose lourdement sur des

techniques de lissage. Les travaux s'intéressant spéciquement aux caractéristiques sur

le genre et le nombre restent en revanche peu nombreux. Lavecchia et al. [2006]

pré-sentent toutefois un modèle à base de cache utilisant cette connaissance en observant