Ecole doctorale IAE´ + M D´epartement de formation doctorale en informatique
Contributions ` a la reconnaissance robuste de la parole
M´ emoire
pr´esent´e et soutenu publiquement le 8 d´ecembre 2005
pour l’obtention de
l’habilitation ` a diriger les recherches de l’Universit´ e Nancy 2
(sp´ecialit´e informatique)
par
Irina Illina
Composition du jury
Rapporteurs : R´egine Andr´e-Obrecht, Professeur, Universit´e Toulouse 1 Jean-Pierre Martens, Professeur, Universit´e de Gent, Belgique
Jean-Fran¸cois Bonastre, HDR, Maˆıtre de conf´erences, Universit´e d’Avignon
Examinateurs : Jean-Fran¸cois Mari, Professeur, Universit´e Nancy 2 Jeanine Souqui`eres, Professeur, Universit´e Nancy 2
Directeur d’habilitation : Jean-Paul Haton, Professeur, Universit´e Henri Poincar´e, Nancy 1
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Table des matières
Avant-propos 1
1 Introduction 3
1.1 Des systèmes à base de connaissances vers l’approche stochastique . . . 3
1.2 A propos de ce document . . . 5
I Dossier de présentation 7 2 Curriculum Vitæ 9 2.1 Études et diplômes . . . 9
2.2 Fonctions . . . 10
2.3 Recherche . . . 10
2.4 Enseignement . . . 12
2.5 Liste des publications . . . 13
3 Résumé des recherches 17 3.1 Introduction . . . 17
3.2 Travaux de thèse . . . 18
3.3 Robustesse au bruit et au locuteur . . . 19
3.4 Exploration de documents radiophoniques . . . 21
3.5 Collaborations extérieures et implication dans des projets . . . 21
3.5.1 Projet STIC-SHS RAIVES . . . 21
3.5.2 Campagne d’évaluation ESTER . . . 22
3.5.3 Collaboration avec PRESSE+ . . . 23
3.5.4 Projet Européen HIWIRE . . . 23
3.6 Conclusion . . . 24 i
ii Table des matières
II Synthèse de recherches 25
4 Modélisation acoustique de la parole 27
4.1 Le problème de la reconnaissance . . . 27
4.2 Développement d’un modèle acoustique . . . 27
4.3 Conclusion . . . 36
5 Vers la reconnaissance robuste au bruit 39 5.1 Introduction à la reconnaissance robuste . . . 39
5.1.1 Bruit additif et convolutif, stationnaire et non stationnaire . . . 40
5.1.2 Prise en compte des différences entre les conditions de test et celles d’apprentissage . . . 41
5.2 Modélisation de la parole bruitée dans le cadre de la compensation . . . 43
5.2.1 Génération des vecteurs acoustiques . . . 44
5.2.2 Modélisation de la parole bruitée . . . 44
5.2.3 Les méthodes de compensation . . . 45
5.3 Notre contribution à la compensation du bruit stationnaire . . . 48
5.3.1 Introduction . . . 48
5.3.2 Compensation en temps réel basée sur leStochastic Matching . . . 49
5.3.3 Égalisation par histogrammes . . . 51
5.4 Notre contribution à la compensation du bruit non stationnaire . . . 51
5.4.1 Introduction . . . 51
5.4.2 Compensation temps réel fondée sur le Stochastic Matching . . . 52
5.4.2.1 Détection de changement d’environnement . . . 52
5.4.2.2 Méthodes de surveillance . . . 53
5.4.2.3 Comparaison des approches de surveillance . . . 55
5.4.3 Masquage du bruit . . . 55
5.5 Conclusion et perspectives . . . 60
6 Vers la reconnaissance robuste au locuteur 63 6.1 Introduction . . . 63
6.2 La reconnaissance robuste au locuteur . . . 63
6.2.1 Modèles dépendant du locuteur . . . 64
6.2.2 Modèles indépendant du locuteur . . . 64
6.2.3 Adaptation au locuteur . . . 64
6.2.4 Adaptation basée sur la classification des locuteurs d’apprentissage . . 66
6.3 Notre contribution à la reconnaissance robuste au locuteur . . . 67
6.4 Reconnaissance de la parole des locuteurs non natifs . . . 70
iii 6.5 Notre contribution à la reconnaissance de la parole des locuteurs non natifs . 72
6.6 Conclusion et perspectives . . . 75
7 Cas réel : un système de transcription d’émissions radiophoniques 77 7.1 Introduction . . . 77
7.2 La transcription d’émissions radiophoniques . . . 77
7.3 ESTER . . . 80
7.3.1 Une campagne d’évaluation . . . 80
7.3.2 La campagne d’évaluation ESTER . . . 80
7.3.3 Le corpus ESTER . . . 81
7.4 Le système ANTS du LORIA . . . 82
7.4.1 Le module de segmentation en événements sonores . . . 83
7.4.2 Le module de reconnaissance . . . 86
7.5 Mise en œuvre du système . . . 87
7.5.1 Apprentissage des modèles acoustiques . . . 87
7.5.2 Apprentissage des modèles de langage . . . 88
7.5.3 Validation du système . . . 88
7.5.4 Résultats expérimentaux . . . 89
7.6 Conclusion et perspectives . . . 89
8 Conclusion et perspectives 93 8.1 Conclusion . . . 93
8.2 Perspectives . . . 93
8.2.1 Perspectives en reconnaissance de la parole . . . 94
8.2.2 Perspectives en reconnaissance robuste de la parole . . . 95
9 Annexe 97 9.1 Corpus VODIS . . . 97
9.2 Corpus Aurora3 . . . 97
9.3 Corpus HIWIRE . . . 98
9.4 Le modèle acoustique utilisé dans notre travail . . . 98
9.5 F-mesure . . . 99
Bibliographie 101
Table des figures
4.1 Processus de génération des observations. . . 28 4.2 Exemple des modèles. . . 29 4.3 Histogrammes des durées des observations réelles du phonème anglais /ae/ et de
celles générées par son modèle HMM à un état. Le corpus d’apprentissage est TIMIT. . . 30 4.4 Histogrammes des durées des observations réelles du phonème anglais /ae/ et de
celles générées par son modèle HMM à trois état. Le corpus d’apprentissage est TIMIT. . . 31 4.5 Histogramme des durées des observations réelles (en nombre de trames de 10ms)
du phonème anglais /B/ et son approximation par une distribution normale et la distribution Gamma. Le corpus d’apprentissage est Wall Street Journal. . . 31 4.6 Histogramme du 2-ème coefficient de cepstre d’un ensemble de vecteurs d’obser-
vations associés au deuxième état du HMM et son approximation à l’aide d’une gaussienne. . . 33 4.7 Histogramme du 2-ème coefficient de cepstre d’un ensemble de vecteurs d’observa-
tions associés au deuxième état du HMM et son approximation à l’aide du mélange de deux gaussiennes. . . 34 4.8 Schéma d’apprentissage des paramètres d’un HMM en utilisant la méthode de
Baum-Welch. . . 35 4.9 Exemple de partage des paramètres au niveau d’un état entre différents triphones
du phonème anglais /ih/. . . 37 5.1 Spectrogrammes du morceau de phrase « Six cent cinquante-huit », prononcé par
un homme dans l’habitacle d’une voiture en mouvement (parole bruitée). . . 41 5.2 (a) - Spectrogramme du morceau de phrase « Il ne fallait pas que le vote sur la Tur-
quie... », prononcée par une femme dans un environnement calme (parole propre).
(b) - Spectrogramme du morceau de phrase « C’est occasionnel, les vacances ... », prononcé par une femme au téléphone. . . 42 5.3 Spectrogramme de la partie de phrase « France Info à Amiens », prononcée par
une femme sur fond musical. . . 43 5.4 Distribution de δ pour la deuxième dimension cepstrale pour la parole propre
(close-talk) et bruitée (far-talk). . . 53 5.5 Exemples de spectrogrammes de phrases de test VODIS artificiellement corrom-
pues par les bruits de façonéchelon et aléatoire. . . 56 5.6 Réduction du taux d’erreur en mots pour l’épreuve échelon en fonction de l’ap-
proche de surveillance utilisée : sans approche de surveillance (biais, Shewart, BIC et SVF. Le corpus VODIS. . . 57
v
vi Table des figures 5.7 Réduction du taux d’erreur en mot pour l’épreuve aléatoire en fonction de l’ap-
proche de surveillance utilisée : sans approche de surveillance (biais, Shewart, BIC
et SVF. Le corpus VODIS. . . 57
5.8 Modèle de phonèmes et modèle de masques. . . 59
6.1 Schéma général de l’adaptation des modèles acoustiques. . . 65
6.2 Schéma général d’un algorithme génétique. . . 69
6.3 Schéma d’extraction de règles de confusion de phonèmes. . . 74
6.4 Structure de HMM modifié pour la diphtongue anglaise /t /. . . 74
7.1 Architecture du système ANTS du LORIA. . . 83
7.2 Exemple de segmentation parole/musique. Le corpus ESTER, système ANTS. . . 86
9.1 Topologie utilisée du HMM. . . 99
Avant-propos
Ce document est constitué de deux parties indépendantes : le dossier de présentation et la synthèse de travaux de recherche.
La première partie contient une présentation de mes activités : un bref curriculum vitæ, le résumé de mes travaux de recherche et de mes encadrements suivi par la liste de publications.
La deuxième partie est consacrée à la description plus détaillée des domaines dans lesquels se situent mes travaux de recherche ainsi qu’à la présentation de contributions dans ce domaine.
1
Chapitre 1
Introduction
La reconnaissance automatique de la parole est le processus par lequel un ordinateur trans- forme un signal acoustique de parole en texte ou en action. Plusieurs problèmes font de la recon- naissance automatique de la parole un domaine difficile et résolu de façon seulement partielle à l’heure actuelle :
– Le signal de parole présente différents types de variabilité : variabilitéintra-locuteur due au mode d’élocution, variabilité inter-locuteur due aux différences entre locuteurs, variabilité due au moyen d’acquisition du signal (type de microphone), de transmission du signal ou aux différences entre environnements acoustiques (présence de bruits, etc.).
– Chaque son élémentaire ou phonème peut être modifié par son contexte : le phonème qui le précède et celui qui lui succède.
– Il est difficile de déterminer combien de mots sont présents dans la phrase et où se trouvent les frontières entre eux.
– Il est nécessaire de traiter une grande quantité de données ce qui entraîne une grande complexité des calculs ou bien l’utilisation d’algorithmes de traitements sélectifs.
Ces problèmes font de la reconnaissance automatique de la parole un domaine particulier, utilisant des méthodes informatiques spécifiques et un formalisme mathématique adapté.
Ce domaine est étroitement lié à ceux du traitement du signal, de l’intelligence artificielle (IA) et de la reconnaissance de formes. Selon [Zavaliagkos, 1995], les spécificités de la reconnaissance de la parole par rapport au problème de reconnaissance des formes en général sont les suivantes :
– La forme à reconnaître est un signal temporel.
– Plutôt que de reconnaître un événement isolé, il faut reconnaître une séquence d’événements dont chacun est de durée inconnue.
– Il faut intégrer différentes sources de connaissances, à des niveaux différents (lexical, syn- taxique, etc.)
1.1 Des systèmes à base de connaissances vers l’approche sto- chastique
La naissance de la reconnaissance automatique de la parole comme domaine scientifique remonte aux années cinquante. A cette époque, les premiers systèmes de reconnaissance étaient très rudimentaires et reconnaissaient juste quelques sons prononcés de façon isolée. Ils utilisaient les moyens de l’électronique analogique de l’époque et se fondaient sur le traitement du signal exclusivement.
3
4 Chapitre 1. Introduction L’apparition des premiers ordinateurs dans les années soixante a permis de numériser le signal, d’automatiser le processus de reconnaissance et de traiter des problèmes plus complexes : plus grand nombre de sons ou des mots à reconnaître, plus grand nombre de locuteurs pris en compte, etc. A cette époque l’approche expert et à base de connaissances de l’IA sont largement utilisées.
Dans les années quatre-vingts, après un passage par la programmation dynamique, l’utilisa- tion de l’approche stochastique devient de plus en plus prépondérante dans la reconnaissance.
Cela est motivé en grande partie par la possibilité d’automatiser complètement le processus de reconnaissance. De plus l’approche probabiliste est bien formalisée et justifiée mathématiquement (différentes méthodes d’apprentissage de modèles, preuves de convergence, etc.). Cette approche a été utilisée tant au niveau acoustique qu’au niveau de la modélisation du langage. Malgré une charge de calcul importante, elle a permis de passer à la reconnaissance de la parole continue, c’est-à-dire à la parole prononcée sans pauses entre des mots. Cette approche actuellement est le plus utilisée.
Le passage de l’approche à base de connaissances vers l’approche stochastique a été effectuée de façon assez radicale : les systèmes experts ont été remplacés par des modèles stochastiques à tous les niveaux du processus de reconnaissance. Bien évidemment, l’expérience et certaines connaissances de l’approche expert ont servi à mettre au point les systèmes probabilistes. Mais l’idée de connaissances a été remplacée par les modèles probabilistes.
A l’heure actuelle, l’approche probabiliste est considérée comme mûre et ces dernières années n’ont pas vu d’avancées significatives dans ce domaine. Les principaux progrès de ces dernières années peuvent être classés en trois catégories :
– La modélisation est devenue très détaillée au niveau acoustique et au niveau du modèle de langage. Une quantité importante de logiciels « libres » sont disponibles pour mettre facilement en place les mélanges de gaussiennes pour les modèles acoustiques et les n- grammes pour les modèles de langage. De plus des bases de données de plus en plus volumineuses sont disponibles pour apprendre ces modèles.
– La modélisation est devenue adaptative. Différentes méthodes d’adaptation au bruit et au locuteur ont été proposées récemment. Ces méthodes sont efficaces même pour l’adaptation incrémentale et avec une petite quantité de données d’adaptation.
– La modélisation discriminante est souvent utilisée. Pour apprendre les modèles, différentes méthodes d’apprentissage de paramètres sont disponibles. Elles permettent d’améliorer la séparabilité entre les modèles et donc d’augmenter la performance de la reconnaissance.
Actuellement, les meilleurs systèmes de reconnaissance sont capables de reconnaître la parole radiophonique et télévisée avec un taux d’erreur de l’ordre de 10% [Nguyen et al., 2004], [Gal- liano et al., 2005]. Ce type d’application est difficile puisqu’il s’agit d’un très grand vocabulaire (plusieurs centaines de milliers de mots), de phrases qui ne sont pas toujours grammaticale- ment correctes et de paroles prononcées parfois sur fond musical, avec des bruits ou par téléphone.
Comme dit précédemment, l’approche probabiliste est suffisamment universelle dans le sens où avec un mélange de lois gaussiennes il est possible de modéliser beaucoup de phénomènes.
En revanche, en modélisant la parole comme une boîte noire probabiliste avec des paramètres qui sont appris complètement automatiquement, il est difficile de voir ce qui est appris en réalité et de vérifier si les paramètres appris sont vraiment représentatifs du signal modélisé. On arrive au moment où le potentiel des modèles stochastiques commence à atteindre ses limites et il est temps d’introduire des connaissances dans les systèmes de reconnaissance. Ces connaissances
1.2. A propos de ce document 5 peuvent concerner tous les niveaux de la modélisation : l’analyse du signal, sa modélisation, la représentation du modèle de langage, etc. La conférence ICSLP de 2004 en témoigne : Chin-Hui Lee, du Georgia Institut of Technology, chercheur invité de la conférence, propose de « revenir » vers l’approche à base de connaissances en introduisant différents types de connaissances dans les systèmes de reconnaissance actuels [Lee, 2004].
L’équipe Parole du LORIA travaille en reconnaissance de la parole depuis plusieurs dizaines d’années (en constituant la partie de l’équipe RFIA jusqu’à 1998). En commençant par l’approche expert, l’équipe est passée à l’approche stochastique vers 1986 grâce à Jean-François Mari, cher- cheur de l’équipe à l’époque. Le travail des chercheurs et plusieurs thèses ont permis de mettre en place différents outils de reconnaissance. L’idée de l’utilisation de connaissances pourrait être intéressante pour nous mais pour l’instant elle n’est pas encore suffisamment aboutie. Nous en reparlerons à la fin de ce document en décrivant nos perspectives, le but de cette « introduction
» étant juste de décrire l’évolution de la reconnaissance automatique de la parole.
1.2 A propos de ce document
L’objectif de ce document est de présenter mes travaux de recherches effectués au cours des sept dernières années, c’est-à-dire depuis ma nomination à un poste de maître de conférences en informatique. Ceux-ci portent sur la modélisation acoustique en utilisant l’approche stochastique dans le cadre de la reconnaissance automatique de la parole. Mes travaux peuvent se résumer essentiellement à l’étude de trois domaines de recherches complémentaires :
– Reconnaissance robuste en présence de bruits de fond ;
– Reconnaissance robuste quand le système de reconnaissance est utilisé par différents locu- teurs ;
– Utilisation du système de reconnaissance dans les cas réels, par exemple, la transcription de documents sonores et plus particulièrement d’émissions radiophoniques de bulletins d’information.
Le document est organisé de la façon suivante : – Partie 1:
– Ce chapitre 1est une brève description de l’évolution des travaux en reconnaissance de la parole.
– Chapitres 2 et 3sont consacrés à la présentation de mon parcours personnel et au bref résumé de mes travaux de recherches. Mon implication dans les projets sera également décrite.
– Partie 2donne une description de manière plus détaillée de mes recherches :
– Chapitre 4: Nous introduisons quelques notions et notations concernant la modélisation acoustique de la parole. Ces notions sont utiles pour la compréhension de la suite de ce document.
– Chapitre 5: Nous présentons la problématique de la reconnaissance robuste au bruit.
Puis nous développons nos contributions dans les deux domaines principaux de la re- connaissance robuste : la robustesse au bruit stationnaire et la robustesse au bruit non stationnaire.
– Chapitre 6 : Nous étudions le problème de la robustesse au locuteur. Les cas des locuteurs natifs et des locuteurs non natifs sont étudiés de façons distinctes, car ils demandent une utilisation de méthodes différentes. Nous nous sommes focalisés sur le niveau acoustique de la modélisation.
6 Chapitre 1. Introduction – Chapitre 7: Nous décrivons un cas réel d’utilisation d’un système de reconnaissance : la transcription d’émissions radiophoniques de bulletins d’information en français. Le développement de différents modules comme le module de segmentation parole/musique, la segmentation parole téléphonique et non téléphonique, le moteur de reconnaissance, etc. sont décrits du point de vue des problèmes rencontrés et des choix effectués.
– À la fin de ce document, je pose le bilan et discute les perspectives.
Première partie
Dossier de présentation
7
Chapitre 2
Curriculum Vitæ
Situation actuelle
Depuis septembre 2004 :
En détachement INRIA, équipe Parole LORIA et INRIA - Lorraine
Campus Scientifique - BP 239 54506 Vandœuvre-lès-Nancy cedex tél : 03 83 59 20 27
http ://www.loria.fr/illina e-mail : [email protected]
2.1 Études et diplômes
– 1983 : Baccalauréat à Kazan, Russie, mention excellent.
– 1983 - 1988 :Diplôme d’ingénieurde l’Université de Kazan, Russie. Spécialité Informa- tique Appliquée à la Gestion de la Production, mention excellent.
– 1992 - 1994 : DEAd’informatique de l’Université Henri Poincaré Nancy 1, mention assez bien.
Titre : « Ordonnancement stochastique : processus de décision markovien et indices de Gittins »
Responsables : René Schott, professeur à l’Université Henri Poincaré Nancy 1 ; Marie-Claude Portmann, professeur à l’École des Mines de Nancy.
– 1994 - 1997 : Doctorat de l’Université Henri Poincaré Nancy 1, mention très honorable avec félicitations
Titre : « Extension du modèle stochastique des mélanges de trajectoires pour la reconnais- sance automatique de la parole continue ».
Laboratoire : Centre de recherche en informatique de Nancy et INRIA-Lorraine (actuelle- ment unité mixte LORIA). Boursière de l’équipe RFIA.
Thèse soutenue le 23 octobre 1997 devant le jury suivant :
Président et rapporteur interne : René Schott, professeur à l’Université Henri Poincaré Nancy 1 ;
Rapporteurs : Régine André-Obrecht, chargée de recherche CNRS, IRIT, Toulouse ; 9
10 Chapitre 2. Curriculum Vitæ Jean-Pierre Martens, professeur à l’Université de Gent, Belgique ;
Examinateur : Mohamed Afify, chercheur invité, LORIA, Nancy ;
Directeurs de recherches : Jean-Paul Haton, professeur à l’Université Henri Poincaré Nancy 1 ;
Yifan Gong, chargé de recherche CNRS.
– 1997 - 1998 :Recherche post-doctorale (bourse INRIA) à Carnegie Mellon University Robust Recognition, Computer Science Department, Pittsburgh, USA.
2.2 Fonctions
– 1988 - 1992 : Enseignante à plein temps en Informatique Appliquée à la Gestion de la Production et Mathématiques Appliquées à l’Université de Kazan, Russie.
– Novembre 1995 :Séjour à l’Université de Gent, Belgique, collaboration dans le cadre du projet européen COST 249 (1 mois).
– depuis 1998 : Maître de conférences, Département Informatique, IUT Charlemagne, Université Nancy 2.
– 2004-2006 :En détachement INRIA, équipe Parole.
2.3 Recherche
Mots-clés
reconnaissance de la parole continue, modélisation acoustique,
approche stochastique,
reconnaissance robuste aux bruits, reconnaissance robuste au locuteur,
reconnaissance avec des données manquantes, segmentation,
indexation de documents sonores,
transcription d’émissions radiophoniques.
Axes de recherche
– La reconnaissance robuste au bruit et la reconnaissance robuste au locuteur Les systèmes de reconnaissance automatique de la parole commercialisés actuellement ne donnent pas des performances satisfaisantes lorsque les conditions d’utilisation sont « dif- ficiles » : présence d’un fort bruit ambiant, musique, locuteur étranger, etc. Ce manque de performance est principalement dû à la différence entre les conditions d’apprentissage du système et les conditions réelles d’utilisation. Le problème est donc le suivant : étant donné un système de reconnaissance entraîné à partir de signaux de parole propre, quelles méthodes et techniques utiliser pour que le système reconnaisse correctement la parole prononcée en environnement réel,a priori inconnu.
Mes travaux portent sur la recherche et le développement de différentes méthodes de transformations au niveau acoustique pour rapprocher l’espace d’apprentissage et l’espace de test. Ces transformations peuvent être effectuées dans l’espace d’apprentissage ainsi que dans l’espace de test. Ces travaux nous ouvrent des perspectives de recherche dans le
2.3. Recherche 11 domaine de la reconnaissance d’émissions radiophoniques, dans le domaine de la recherche d’information dans des documents radiophoniques, dans le domaine de transcription des réunions de travail, etc.
– Cas réel : la transcription de documents sonores
Pour pouvoir accéder aux différentes informations disponibles sur l’Internet, la radio, la télévision, il est nécessaire d’avoir des logiciels de transcription, de recherche et d’indexation de documents audio. La difficulté de ce domaine est que la parole n’est pas supposée être grammaticalement correcte, peut contenir un vocabulaire étendu, provenir de différents locuteurs, appartenir à plusieurs dialectes, être prononcée par des locuteurs non natifs, être enregistrée avec différents microphones, avec différents fonds sonores (musique, bruits, etc.). Ce domaine ouvre différentes directions de recherche comme la segmentation du signal en parole et en musique, la détection de la parole téléphonique, l’identification du locuteur, la robustesse aux bruits et aux locuteurs, etc. Mes recherches portent sur le développement d’un système complet de transcription.
Encadrements
– 1998 - 2004 Encadrement de plusieurs stages de maîtrise d’Informatique et d’IUT d’Infor- matique (au total entre 5et 7).
– 2000 Encadrement du stage de DEA de Djamel Mostefa sur le sujet « Adaptation aux conditions de test pour le modèle stochastique des mélanges de trajectoires ».
– 2002 Encadrement d’un stage de DESS « Ingénierie du Logiciel » sur le sujet « Optimisation de l’apprentissage des modèles de Markov ».
– 2000 - 2004 Co-encadrement1 avec Jean-Paul Haton, professeur à l’Université Henri Poin- caré Nancy 1 et Dominique Fohr, chargé de recherche CNRS, de la thèse de Fabrice Lauri sur le sujet « Adaptation au locuteur des modèles acoustiques markoviens pour la recon- naissance automatique de la parole », soutenue le 11 octobre 2004.
– 2001 - 2004 Co-encadrement avec Jean-Paul Haton, professeur à l’Université Henri Poincaré Nancy 1, de la thèse de Vincent Barreaud sur le sujet « Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole », soutenue le 9 novembre 2004.
– depuis 2003 Co-encadrement avec Jean-Paul Haton, professeur à l’Université Henri Poin- caré Nancy 1, de la thèse d’Emmanuel Didiot sur le sujet « Détection des mots clés dans les émissions radiophoniques ».
– depuis 2004 Co-encadrement avec Jean-Paul Haton, professeur à l’Université Henri Poin- caré Nancy 1 et Dominique Fohr, chargé de recherche CNRS de la thèse de Ghazi Bouselmi sur le sujet « Reconnaissance de la parole des locuteurs non natifs ».
Gestion de la recherche et projets
– 2001 - 2002 : Participation au contrat avec l’entreprise SEXTANT sur le sujet « Recon- naissance des commandes dans un cockpit d’avion ».
– 2002 - 2004 : Participation au projet STIC-SHS du CNRS « RAIVES » (Recherche Auto- matique d’Informations Verbales Et Sonores).
1Cet encadrement bien que non officiel s’effectue de très près à travers les réunions et les discussions que nous faisons toujours à quatre avec le thésard. Les publications en témoignent.
12 Chapitre 2. Curriculum Vitæ – depuis 2003 : Participation à la campagne d’évaluation ESTER (évaluation des perfor- mances des systèmes de transcription d’émissions radiophoniques) dans le cadre du projet EVALDA-Technolangue.
– depuis 2003 : Prise en charge d’une partie importante de la rédaction de la proposition STREP (Special Targeted Research Project) HIWIRE (Human Inputs That Work In Real Environment) dans le cadre du 6-ème PCRD/IST. Responsable de ce projet au LORIA.
Pour plus de détails voir la section 3.5.
Rayonnement scientifique
– 1998 - 2004 Relecture occasionnelle de plusieurs articles pour les journaux« Speech Com- munication »et « IEEE Transaction on Speech and Audio Processing ».
– 2004 Membre de jury de thèse de Vincent Barreaud (LORIA, Nancy).
– depuis 2005 Membre élue du bureau de l’Association Francophone de la Communication Parlée (AFCP), secrétaire de l’association.
– depuis 2005 Membre élue de la Commission d’Evaluation de l’INRIA.
2.4 Enseignement
– 1988 - 1992 Université de Kazan, Russie : 4 ans d’enseignement de l’informatique (TD et TP) à plein temps département d’Informatique Appliquée à la Gestion de la Production et département de Mathématiques Appliquées. Matières enseignées :
– algorithmique,
– programmation en C, – bases de données,
– programmation linéaire et non linéaire, – théorie des jeux,
– modélisation de problèmes économiques, – suivi des stages,
– projets en groupe.
– 1994 Bibliothèque Universitaire de Nancy 1 :12 heures de cours de programmation en C.
– 1995, 1996 École des Mines de Nancy (INPL) : – 30 heures de TD et TP de Pascal (1èreannée),
– 30 heures de TD de recherche opérationnelle (2èmeannée) ;
– 1998 - 2004 département d’Informatique, IUT Charlemagne, Université Nancy 2. En moyenne 250 heures d’enseignement par an (TD et TP, IUT) :
– algorithmique et programmation, – structures de données,
– programmation en C, – programmation en Java, – systèmes d’exploitation, – compilation,
– architecture d’ordinateurs,
– suivi des stages et de projets tutorés.
– 2004 - 2005 département d’Informatique, IUT Charlemagne, Université Nancy 2.48heures de TD et TP de programmation en C.
2.5. Liste des publications 13 Responsabilités pédagogiques
– 1988 - 1992 Responsable de différents cours au département d’Informatique Appliquée à la Gestion de la Production et au département de Mathématiques Appliquées, Université de Kazan, Russie.
– 1998 - 2001 Responsable du module algorithmique et programmation.
– 2001 Président d’un jury de baccalauréat.
– 2000 - 2004 Responsable du module de programmation en C.
Responsabilités administratives
– 2001 - 2004 Participation à la sélection des dossiers pour l’admission à l’IUT Charlemagne.
– 2002 Participation à l’organisation de Journées d’Etude sur la Parole, JEP-2002. Produc- tion des actes de la conférence.
2.5 Liste des publications
Thèse et DEA
1. Illina I. – Ordonnancement stochastique : processus de décision markovien et indices de Gittins. Memoire de DEA d’informatique, Université Henri Poincaré Nancy I, 1994.
2. Illina I. – Extension du modèle stochastique des mélanges de trajectoires pour la recon- naissance automatique de la parole continue.Thèse de doctorat, Université Henri Poincaré, Nancy I, 1997.
Journaux internationaux avec comité de sélection
3. Verhasselt J., Illina I., Martens J.-P. Y. Gong et Haton J.-P. – Assessing the Importance of the Segmentation Probability in Segment-Based Speech Recognition. Journal Speech Communication, 24(1), p. 51-72, 1998.
4. Illina I., Afify M. et Gong Y. – Environment Normalisation Training and Environment Adaptation using Mixture Stochastic Trajectory Model. Journal Speech Communication, 26(4), p. 245-258, 1998.
5. Chassaing P., Illina I., Portmann M.-C. et Schott R. – On a Stochastic Maintenance Problem with Multiple Constraints.Journal Applied Stochastic Models and Data Analysis, 1998.
Colloques internationaux avec actes et comité de sélection
6. Illina I. et Gong Y. – Stochastic Trajectory Model with State-Mixture for Continuous Speech Recognition. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’96, vol. 1, pp. 338–341, octobre 1996.
7. Illina I. et Gong Y. – Improvement in N-best Search for Continuous Speech Recognition.
Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’96, vol. 4, pp. 2147–2150, octobre 1996.
8. Gong Y. et Illina I. – Modeling Long Term Variability Information in Mixture Stochastic Trajectory Framework. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’96, vol. 1, pp.330–333, octobre 1996.
14 Chapitre 2. Curriculum Vitæ 9. Illina I. et Gong Y. – Speaker Normalization Training for Mixture Stochastic Trajectory Model.Dans Proceedings of European Conference on Speech Communication and Techno- logy, EuroSpeech’97, vol. 4, pp. 1855–1858, septembre 1997.
10. Verhasselt J., Illina I., Martens J.-P., Gong Y. et Haton J.-P.. – The Importance of Segmentation Probability in Segment Based Speech Recognizers.Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP’97, vol. 2, pp. 1407–1410, avril 1997.
11. Illina I. et Gong Y. – Elimination of Trajectory Folding Phenomenon : HMM, Trajec- tory Mixture HMM and Mixture Stochastic Trajectory Model.Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP’97, vol. 2, pp. 1395–1398, avril 1997.
12. Cerisara C., Fohr D., Illina I., Lauri F. et Mella. O. – Comparison of Different Methods for Noise Adaptation in a HMM-Based Speech Recognition System. Dans Proceedings of International Conference on Acoustics, ICA’2001, pp. 112–115, septembre 2001.
13. Illina I. et Mostefa D. – Structural Maximum a Posteriori Adaptation for Mixture Sto- chastic Trajectory Framework.Dans Proceedings of Isca ITR - International Workshop on Adaptation Methods for Speech Recognition, pp. 147–150, aout 2001.
14. Illina I. – Tree-Structured Maximum a Posteriori Adaptation for a Segment-Based Speech Recognition System. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’02, pp. 1405–1408, septembre 2002.
15. Barreaud V., Illina I., Fohr D. – Compensation for Non-Stationary Noise Dans Procee- dings of IEEE Automatic Speech Recognition and Understanding Workshop, IEEE ASRU 2003, pp. 375–378, 2003.
16. Lauri F., Illina I., Fohr D. et Korkmazski F. – Using Genetic Algorithm for Rapid Speaker Adaptation Dans Proceedings of European Conference on Speech Communication and Technology, EuroSpeech’03, pp. 1497–1500, 2003.
17. Barreaud V., Illina I., Fohr D. et Korkmazski F. – Structural State-Based Frame Synchro- nous Compensation Dans Proceedings of European Conference on Speech Communication and Technology, EuroSpeech’03, pp. 1501–1504, 2003.
18. Cerisara C. et Illina I. – Robust Speech Recognition to Non-Stationary Noise Based on Model-Driven ApproachesDans Proceedings of European Conference on Speech Communi- cation and Technology, EuroSpeech’03, pp. 3053–3056, 2003.
19. Farinas G., Fohr D., Illina I., Magrin-Chagnolleau I., Mella O., Parlangeau-Valles N., Pellegrino F., Pinquier J., Sénac C., Smaili K. – Audio Indexing On The Web : A Preli- minary Study of Some Audio Descriptors.Dans Proceedings of 7th World Multiconference on Systemics, Cybernetics and Informatics, SCI 2003, 2003.
20. Barreaud V., Illina I. et Fohr D. – On-Line Frame-Synchronous Noise Compensation.
Dans Proceedings of International Congress of Phonetic Sciences, ICPhS’2003, 2003.
21. Barreaud V., Illina I. et Fohr D. – On-Line Frame-Synchronous Compensation of Non- Stationary Noise.Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP’2003, vol. 1, pp. 652–655, 2003.
22. Lauri F., Illina, I. et Fohr, D. – Combining Eigenvoices and Structural MLLR for Speaker AdaptationDans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP’2003, vol. 1, 580–583, 2003.
23. Fohr D., Mella O., Illina I., Cerisara C. – Experiments on the Accuracy of Phone Models and Liaison Processing in a French Broadcast News Transcription SystemDans Proceedings of International Conference on Spoken Language Processing, ICSLP’04, octobre 2004.
24. Cerisara C., Fohr D., Mella O., Illina I. – Exploiting Models Intrinsic Robustness for Noisy
2.5. Liste des publications 15 Speech Recognition Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’04, octobre 2004.
25. Korkmazsky F., Fohr D., Illina I. – Using Linear Interpolation to Improve Histogram Equalization for Speech RecognitionDans Proceedings of International Conference on Spo- ken Language Processing, ICSLP’04, octobre 2004.
26. Korkmazsky F., Deviren M., Fohr D., Illina I. – Hidden Factor Dynamic Bayesian Net- works for Speech Recognition Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’04, octobre 2004.
27. Illina I., Fohr D., Mella O., Cerisara C. – The Automatic News Transcription System : ANTS, Some Real Time Experiments Dans Proceedings of International Conference on Spoken Language Processing, ICSLP’04, octobre 2004.
28. Bouselmi G., Fohr D., Illina I. – Fully Automated Non-Native Speech Recognition Ap- proach Using Confusion Based Acoustic Model IntegrationDans Proceedings of Interspeech, European Conference on Speech Communication and Technology, 2005.
Colloques internationaux sans comité de sélection
29. Verhasselt J., Illina I., Martens J.-P., Gong Y. et Haton J.-P. – The Importance of the Segmentation Probability in Segment Based Speech Recognition. Dans Proceedings of COST 249, 1996.
Colloques nationaux avec comité de sélection
30. Illina I. – Modeling the Diagnostic Information for Medecin. Conférence nationale de recherche opérationnelle, avril 1988, pp. 21–23. – En russe.
31. Illina I. et Gong Y. – Modélisation de la variabilité de long terme dans le modèle sto- chastique de trajectoires. Dans Proceedings de Premières Journées de Jeunes Chercheurs en Parole, pp. 58–61, novembre 1995.
32. Lauri, F., Illina, I. et Fohr D. – Adaptation MLLR pour des HMMs.Dans Proceedings de Quatrièmes Journées de Jeunes Chercheurs en Parole, 2001.
33. Fohr D., Mella O., Illina I., Lauri F., Cerisara C., Antoine C. – Reconnaissance de la parole pour les locuteurs non natifs en présence de bruit. Dans Proceedings de XXIV Journées d’Etude sur la Parole, JEP’2002, 2002.
34. Lauri F., Illina I., Fohr D. – Comparaison de SMLLR et de SMAP pour une adaptation au locuteur en utilisant des modèles acoustiques markoviens. Dans Proceedings de XXIV Journées d’Etude sur la Parole, JEP’2002, 2002.
35. Barreaud V., Illina I., Fohr D. – Un algorithme de compensation de bruit en ligne synchrone à la trame. Dans Proceedings de Journées de Jeunes Chercheurs en Parole, 2003.
36. Brun A., Cerisara C., Fohr D., Illina I., Langlois D., Mella O., Smaili K. – ANTS : le système de transcription automatique du LORIA. Dans Proceedings de XXV Journées d’Etude sur la Parole, JEP’2004, 2004.
37. Barreaud V., Illina I., Fohr D., Colotte V. – Compensation en milieu variant abruptement.
Dans Proceedings de XXV Journées d’Etude sur la Parole, JEP’2004, 2004.
38. Brun A., Cerisara C., Fohr D., Illina I., Langlois D., Mella O. – ANTS le système de transcription automatique du LORIA.Dans Proceedings de WorkShop ESTER, 2005.
16 Chapitre 2. Curriculum Vitæ Rapports techniques
39. Illina I. – Résolution du problème d’identification en utilisant des techniques d’optimisa- tions. Résultats expérimentaux. Rapport technique du groupe de recherche, Neftechimpro- mavtomatica, pp. 118–125, 1988. – En russe.
40. Afify M., Gong Y., Haton J.-P. et Illina I. – Issues in Acoustic Modelling for Robust Speech Recognition.Rapport interne, 1998.
41. Illina I. et Fohr D. – Adaptation au locuteur et à l’environnement.Journée sur l’adapta- tion, INRA Champenoux, juin 2000.
42. Parlangeau-Vallès N., Magrin-Chagnolleau I., Fohr D., Illina I., Mella O., Smaili K., Sénac C., Farinas J., Pinquier J., Rouas J-L., André-Obrecht R., Pellegrino F., Janiszek D. – Projet RAIVES (Recherche Automatique d’Informations Verbales Et Sonores) vers l’extraction et la structuration de données radiophoniques sur Internet.Rapport technique, 2002.
43. Parlangeau-Vallès N., Magrin-Chagnolleau I., Fohr D., Illina I., Mella O., Smaili K., Sénac C., Farinas J., Pinquier J., Rouas J-L., André-Obrecht R., Pellegrino F. – Projet RAIVES (Recherche Automatique d’Informations Verbales Et Sonores) vers l’extraction et la structuration de données radiophoniques sur Internet. Rapport technique, 2003.
Chapitre 3
Résumé des recherches
3.1 Introduction
Le développement d’un système de reconnaissance automatique de la parole commence par la création d’un système simple et qui fonctionne sous des hypothèses simplificatrices. Un exemple de tel système peut être un système reconnaissant la parole prononcée par un seul locuteur avec un vocabulaire limité. Pour attaquer les problèmes plus difficiles, comme la reconnaissance de la parole spontanée, en mode multi-locuteurs ou indépendant du locuteur avec un grand vocabulaire (plusieurs dizaines de milliers de mots), une étude approfondie des différents problèmes et les nombreuses façons de les résoudre est nécessaire. Cette étude est un point essentiel pour permettre
le développement d’applications en conditions réelles et à un coût non prohibitif.
Mes travaux de recherche s’inscrivent dans ce cadre de recherche. Plus précisément, je me focalise sur lamodélisation acoustique utilisant une approche stochastique et je m’intéresse aux problèmes de robustesse et au problème de reconnaissance dans des conditions réelles d’utilisationde systèmes de reconnaissance.
Le domaine de reconnaissance de la parole est un domaine pluridisciplinaire. Pour construire un système de reconnaissance, différentes compétences sont sollicités ainsi que les efforts de nombreuses personnes. J’effectue mes travaux de recherche dans l’équipe « Parole » du LORIA en collaboration avec les autres membres de l’équipe. Dans ce document j’utiliserai souvent le mot « nous » pour montrer l’effort de recherche qui implique souvent plusieurs personnes : moi en tant que thésarde et mon encadrant, moi en tant que maître de conférences et mes collègues, thésards, stagiaires. Tout au long de ce document, le lecteur rencontrera les noms de mes collègues
et de mes étudiants :
– Vincent Barreaud, a soutenu sa thèse en 2004, actuellement ATER à l’ESIAL ; – Christophe Cerisara, chargé de recherche CNRS ;
– Emmanuel Didiot et Ghazi Bouselmi, doctorants, actuellement en thèse ; – Dominique Fohr, chargé de recherche CNRS ;
– Jean-Paul Haton, professeur à l’Université Henri Poincaré Nancy 1 ; – Odile Mella, maître de conférences à l’Université Henri Poincaré Nancy 1 ; – Filipp Korkmazsky, chercheur invité dans notre équipe entre 2002 et 2004 ;
– Fabrice Lauri, a soutenu sa thèse en 2004, actuellement ATER à l’Université Henri Poincaré Nancy 1.
Notre équipe possède différents systèmes de reconnaissance. Cette diversité vient du fait que nous avons voulu étudier différentes modelisations et réaliser différentes applications. Voici la liste de
17
18 Chapitre 3. Résumé des recherches ces systèmes. Elle facilitera la lecture de ce document :
– ESPERE, système de reconnaissance moyen vocabulaire (quelques milliers de mots), fondé sur les modèles de Markov cachés [Fohret al., 2000] ;
– VINICS, système de reconnaissance moyen vocabulaire, fondé sur les modèles stochastiques de trajectoires [Gong, 1997; Illina et Gong, 1996b] ;
– un système de reconnaissance, utilisant le formalisme multi-bandes et fondé sur les modèles de Markov cachés [Cerisara et Fohr, 2001] ;
– un système de reconnaissance de mots connectés utilisant les réseaux bayésiens [Daoudiet al., 2002] ;
– ANTS, système de transcription automatique d’émissions radiophoniques de bulletins d’in- formation [Brunet al., 2005].
3.2 Travaux de thèse
J’ai effectué ma thèse sous la direction de Jean-Paul Haton et de Yifan Gong, chargé de recherche CNRS (depuis 1995 chercheur aux USA, chez Microsoft). Pendant ma thèse, je me suis intéressée tout d’abord à la modélisation acoustique de la parole continue à l’aide du modèle stochastique des mélanges de trajectoires (Mixture Stochastic Trajectory Model, MSTM). C’est un modèle fondé sur les segments (Segment-Based Model, SBM), qui se différencie des traditionnels modèles de Markov cachés (Hidden Markov Model, HMM) fondés sur les trames (Frame-Based Model, FBM). Nous avons proposé différentes extensions du modèle MSTM dans le cadre de la résolution des problèmes liés aux propriétés segmentales des phonèmes et à la représentation des probabilités d’observations acoustiques de la parole :
– Nous avons mené une étude expérimentale d’un phénomène propre aux modèles FBM : le phénomène de recouvrement des trajectoires. Ce phénomène introduit une perte de la continuité des trajectoires et diminue la discriminabilité des modèles. Nous avons montré qu’il peut être atténué dans les modèles SBM [Illina et Gong, 1997a].
– Dans la suite de cette thèse, nous avons souligné l’importance du modèle de segmentation pour les modèles SBM. Nous avons montré que l’incorporation du modèle de segmentation dans les modèles SBM améliore sensiblement le taux de reconnaissance [Verhasselt et al., 1997a], [Verhasseltet al., 1997b].
– Dans le MSTM, chaque état est modélisé par une distribution gaussienne. Or une distribu- tion n’est pas suffisante pour bien représenter un état, parce que la distribution au niveau d’un état ne correspond pas bien à une gaussienne. Pour prendre en compte la distribu- tion complexe de chaque état et augmenter le pouvoir discriminant du modèle, nous avons proposé de représenter la distribution de chaque état par un mélange de distributions gaus- siennes. Les expériences montrent que le nouveau modèle permet d’augmenter l’efficacité du MSTM [Illina et Gong, 1996b].
– Dans le cadre de l’adaptation aux conditions de test, j’ai développé une approche de la normalisation des environnements pendant l’apprentissage et une approche de l’adaptation du modèle acoustique issu de l’apprentissage, à l’environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l’aide de transformations linéaires. Le but est de diminuer la variabilité de la parole due aux différents environnements non seulement pendant l’adaptation, mais également pendant l’apprentissage [Illina et Gong, 1997b], [Illinaet al., 1998].
– La fin de cette thèse a été consacrée à une étude de techniques heuristiques destinées à diminuer la partie explorée de l’espace de recherche pendant la reconnaissance [Illina et
3.3. Robustesse au bruit et au locuteur 19 Gong, 1996a].
Depuis le début de ma nomination au poste de maître de conférences j’utilise comme approche de modélisation acoustique les modèles de Markov cachés (Hidden Markov Models). La décision de passer du système fondé sur les segments au système fondé sur les trames est motivée par les faits suivants. Plusieurs années de travail sur le MSTM nous ont montré que ce modèle possède un bon potentiel au prix d’une complexité un peu plus importante. Malheureusement ce potentiel est resté comparable à celui de HMM ou légèrement supérieur pour certaines applications. Il est possible qu’en y consacrant plus de temps et plus d’effectif humain (j’étais toute seule après le départ d’Yifan Gong aux USA) nous aurions pu obtenir des performances significativement supérieures aux ceux de HMM. Mais j’ai préféré passer aux HMM, car ils constituent l’état de l’art du domaine et me permettent de travailler en équipe et ainsi d’avancer plus vite. De plus, les modèles HMM sont utilisés par mes collègues comme une plate-forme de départ à partir de laquelle nous développons nos algorithmes de robustesse et notre système complet de transcription. Et au final, en utilisant les HMM nous pouvons bénéficier d’échanges fructueux et établir une collaboration intéressante avec les autres équipes de recherche, qui utilisent le même type de modélisation.
3.3 Robustesse au bruit et au locuteur
Depuis ma thèse, je m’intéresse beaucoup à la robustesse de systèmes de reconnaissance, c’est-à-dire aux situations dans lesquelles la différence entre les conditions de test et les condi- tions d’apprentissage devient un facteur majeur de dégradation des performances du système de reconnaissance dans une situation réelle.
Pendant ma thèse j’ai proposé quelques méthodes d’adaptation à un nouvel environnement qui agissaient dans le domaine des modèles acoustiques. Depuis, j’ai élargi mon activité de recherche en m’orientant également vers le domaine de la transformation de paramètres acous- tiques d’un système de reconnaissance. Mon objectif dans ce contexte reste le développement de nouvelles méthodes pour améliorer la robustesse au bruit.
Robustesse au bruit
En collaboration avec Jean-Paul Haton j’ai encadréla thèse de Vincent Barreauddans le domaine de la robustesse au bruit. Cette thèse a débuté en 2001 et a été soutenue en novembre 2004 sur le sujet « Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole » [Barreaud, 2004]. Dominique Fohr a également travaillé avec nous sur ce sujet. La thèse de Vincent etait consacrée à l’étude et au développement d’algorithmes de compensation, c’est-à-dire aux techniques transformant les paramètres acoustiques en vue d’at- tenuer l’influence du bruit. Nous étudions le cas des bruits stationnaires et non stationnaires. En effet, les bruits stationnaires et non stationnaires sont ceux que l’on rencontre le plus souvent en pratique (voiture en mouvement, musique en bruit de fond, etc.). Nous avons étudié l’algorithme de compensation de Delphin-Poulat [Delphin-Poulat et al., 1998] et proposé une amélioration en lui intégrant des statistiques calculées pendant la reconnaissance [Barreaud et al., 2003c;
Barreaud et al., 2003b]. Nous avons validé l’approche proposée sur un corpus de parole enregis- trée en voiture dans des conditions réelles de circulation.
Nous avons travaillé également sur la structuration des paramètres de compensation [Bar- reaud et al., 2003d]. Cette structure utilise un arbre des paramètres et compense les bruits en
20 Chapitre 3. Résumé des recherches fonction de la quantité de données disponibles dans chaque nœud de l’arbre : si cette quantité de données est faible, nous utilisons le nœud-père et tout ce qui est lié avec ce nœud pour la compensation.
Nous avons travaillé aussi sur le problème de reconnaissance de la parole dans des conditions de bruits abrupts, comme, par exemple, le claquement d’une porte ou la musique de fond. La difficulté de ce problème provient du fait qu’aucune information n’est disponible sur le moment d’apparition, le niveau ou la nature du bruit. Dans ce cadre, nous avons proposé plusieurs méthodes pour détecter automatiquement les instants où se produisent les changements des caractéristiques du bruit [Barreaud et al., 2004;
Barreaud et al., 2003a].
Dans le cadre du bruit non stationnaire, je m’intéresse également aux méthodes de reconnais- sance avec desdonnées manquantes(Missing Data Recognition, MDR). Ces méthodes permettent d’utiliser seulement quelques dimensions de l’espace temps-fréquence pendant la reconnaissance en considérant que les autres dimensions sont manquantes à cause du bruit dominant [Barker et al., 2000; Cooke et al., 2001]. Christophe Cerisara et moi-même, avons proposé un algorithme MDR utilisant la probabilité a posteriori pour la normalisation et masquant les différentes bandes de spectre [Cerisara et Illina, 2003]. Ce travail se poursuit actuellement dans le cadre du projet européen HIWIRE. Nous en reparlerons dans la section suivante.
Robustesse au locuteur
En collaboration avec Dominique Fohr et Jean-Paul Haton j’ai encadréla thèse de Fabrice Lauri dans le domaine de la robustesse au locuteur. Cette thèse a débuté en 2000 et a été soutenue en octobre 2004 sur le sujet « Adaptation au locuteur des modèles acoustiques marko- viens pour la reconnaissance automatique de la parole » [Lauri, 2004]. Avec Fabrice nous avons étudié les algorithmes MLLR (Maximum Likelihood Linear Regression) et MAP (Maximum A Posteriori) [Lauri et al., 2001] dans le cadre de l’adaptation non supervisée et de l’adaptation incrémentale des modèles acoustiques. L’adaptation non supervisée signifie qu’on ne dispose pas de la transcription exacte des données d’adaptation et l’adaptation incrémentale signifie que les modèles sont adaptés à chaque phrase prononcée par le locuteur.
Nous avons proposé une version structurée de MLLR et MAP : SMLLR (Structural MLLR, SMLLR) et SMAP (Structural MAP) : un arbre de modèles est construit à partir des modèles acoustiques. Le nombre de transformations de l’adaptation est défini en fonction de la quantité de données disponibles : plus il y a de données, plus on descend profondément dans l’arbre [Lauri et al., 2002].
L’inconvénient de l’adaptation MLLR est que cette méthode dégrade les performances du système lorsque très peu de données d’adaptation sont disponibles. Nous avons développé une nouvelle méthode d’adaptation qui nécessite peu de paramètres à estimer et donc permet une adaptation efficace même si le corpus d’adaptation est de très petite taille. Cette approche est fondée sur l’utilisation de vecteurs propres (Eigenvoice-Based Adaptation approach [Botterweck, 2000; Lauri et al., 2003a]) :
– l’apprentissage revient à entraîner un modèle spécifique par locuteur ; – les vecteurs propres des modèles issus de l’apprentissage sont calculés ; – l’adaptation se fait dans l’espace des vecteur propres.
Nous avons étudié également la combinaison de l’adaptation SMLLR avec l’adaptation fondée sur les vecteurs propres dans le contexte de l’adaptation incrémentale [Lauriet al., 2003a]. Nous avons collaboré avec Filipp Korkmazsky sur ce sujet. Pour enrichir et diversifier les modèles de
3.4. Exploration de documents radiophoniques 21 départ utilisés pour l’adaptation nous avons proposé d’utiliser des algorithmes génétiques [Lauri et al., 2003b; Lauriet al., 2005].
Le problème de robustesse au locuteur non natif est en cours d’étude actuellement. Nous en parlerons un peu plus en détail dans le cadre du projet européen HIWIRE (voir 3.5.4).
3.4 Exploration de documents radiophoniques
Je m’intéresse également à un contexte applicatif réel : la transcription et l’indexation des documents sonores et plus particulièrement des émissions radiophoniques. L’exploration de do- cuments sonores, domaine abordé par notre équipe depuis début 2002, est un sujet ambitieux et novateur pour notre équipe. En 2002, notre équipe a débuté le projet RAIVES pour créer un sys- tème d’indexation des documents radiophoniques disponibles sur le Web. Par indexation sonore, nous entendons l’extraction des descripteurs sonores dans le but d’indexer et de structurer des documents sonores et de permettre la navigation dans ces documents [Gauvain et Lamel, 2000].
Depuis 2003, notre équipe participe à une campagned’Evaluation de Systèmes de Transcrip- tion Automatique d’Emissions Radiophoniques (ESTER, projet Technolangue). Mes collègues et moi-même avons développé notre propre système de transcription et dépuis le début de l’année 2004 je m’investis beaucoup dans ce sujet.
Je présenterai le résumé de mes recherches effectuées dans le domaine de l’exploration de documents sonores dans la section suivante.
3.5 Collaborations extérieures et implication dans des projets
3.5.1 Projet STIC-SHS RAIVES
Le projet Recherche Automatique d’Informations Verbales Et Sonores, RAIVES concerne l’indexation automatique de documents radiophoniques sur le Web. Ce projet est financé dans le cadre du programme STIC-SHS « Société de l’information » du CNRS. Le but est d’enrichir les moteurs de recherche, disponibles sur le Web, en leur ajoutant une nouvelle fonctionnalité : l’indexation des documents sonores. Ce projet a débuté en janvier 2002 et s’est terminé en juillet 2004. Il a été effectué en collaboration avec l’Institut de Recherche en Informatique de Toulouse (IRIT) et le laboratoire Dynamique Du Langage (DDL) de Lyon. Ce projet a été dirigé par Nathalie Parlangeau-Vallès, maître de conférences à l’Université Toulouse 1 et Ivan Magrin-Chagnolleau, chargé de recherche CNRS au DDL de Lyon.
Pour indexer et structurer les documents sonores il faut détecter si l’information clé a été prononcée et quand. Un point de vue intéressant est de rechercher non seulement l’information verbale mais également les informations non verbales : segments de musique, jingles, identité d’un locuteur, thèmes d’une émission, etc. Ce projet s’est articulé autour de trois axes :
– Segmentation des documents sonores en musique, parole et parole sur fond musical. Le laboratoire IRIT s’est occupé de cette tâche.
– Recherche dans les segments contenant de la parole, d’informations sur les locuteurs [Chen et Gopalakrishnan, 1998; Seck et al., 2001]. Pour cette tâche, le DDL a mis en place le premier prototype d’un système de suivi de locuteurs.
– Détection des mots clés. Nous avons effectués cette tâche avec Dominique Fohr, Odile Mella et Nathalie Parlangeau-Vallès au LORIA.
22 Chapitre 3. Résumé des recherches Pour la tâche de détection des mots clés nous avons envisagé deux approches [Farinas et al., 2003] :
– La première approche nécessite la reconnaissance complète de la parole. Les mots clés sont extraits du texte généré par le système de reconnaissance. Pour cela, il est nécessaire d’avoir un système de reconnaissance de très grand vocabulaire, entraîné sur un corpus important de parole. Nous avons développé un tel système en nous limitant à un vocabulaire de60 000 mots.
– La deuxième approche consiste à détecter les mots clés directement dans la parole : étant donnés les modèles des mots clés et le ou les modèles des autres mots, nous les « déplaçons
» le long de la phrase et calculons les probabilités correspondantes. Nous avons mis en place le moteur de détection qui s’appuie sur le système de reconnaissance de notre équipe, le système ESPERE.
Nous avons comparé ces deux approches et nous avons observé que la reconnaissance en utilisant un grand vocabulaire donne des résultats bien meilleurs. Nous expliquons cela par le fait qu’en utilisant la deuxième approche, le mot clé que l’on « déplace » le long de la phrase conduit souvent à de nombreuses confusions, car le modèle de langage n’est pas utilisé dans cette approche. Par exemple, si notre mot clé à trouver est « action », il sera détecté dans les morceaux suivants de parole « réaction », « effraction », « contraction », etc.
Dans le cadre de ce projet un corpus d’émissions radiophoniques a été collecté.
3.5.2 Campagne d’évaluation ESTER
Un autre projet en cours et qui rejoint sur certains points le projet RAIVES est la cam- pagne d’évaluation ESTER (Evaluation de Systèmes de Transcription Automatique d’Emissions Radiophoniques). La campagne ESTER est organisée dans le cadre du projet EVALDA, financé par le Ministère de la Recherche dans l’appel d’offres Technolangue. Cette campagne (2003 - 2005) vise l’évaluation des performances des systèmes de transcription d’émissions radiopho- niques. L’objectif principal de cette transcription est de fournir automatiquement le texte d’une émission radio à partir de son enregistrement. Les transcriptions sont enrichies par un ensemble d’informations annexes, comme le découpage automatique en tours de parole, l’identification des locuteurs, la détection des thèmes, etc. La transcription enrichie vise donc à obtenir d’une part une transcription lisible et d’autre part une représentation structurée du document à des fins d’extraction d’informations.
La transcription automatique d’émissions radiophoniques est un problème difficile et qui ouvre différentes directions de recherche intéressantes : segmentation de la parole (parole té- léphonique/non téléphonique, parole/musique/bruits), détection des changements de locuteurs, détection de la superposition parole et musique, de la parole simultanée, de la parole bruitée, etc. [McTait et Adda-Decker, 2003], [Gauvainet al., 2002]. Certaines de ces directions sont com- plètement nouvelles pour nous, comme, par exemple, la détection de la superposition parole et musique ou de la parole simultanée. Pour les autres, comme la robustesse, nous avons une bonne expérience de recherche. Par rapport au projet RAIVES, où nous sommes chargés de trouver les mots clés étant donné la parole déjà segmentée en blocs homogènes (les segmentations en pa- role/musique et en locuteur sont fournies par les laboratoires IRIT et DDL), pour la campagne ESTER nous avons développé un système complet.
La première version du système de transcription est mise en place et évaluée sur le corpus de parole distribué dans le cadre de cette campagne. Sur ces données, notre système a donné des
3.5. Collaborations extérieures et implication dans des projets 23 résultats très satisfaisants [Brunet al., 2004], [Fohr et al., 2004], [Brun et al., 2005]. Nous avons développé également la version « temps réel » du système [Illina et al., 2004] : pour une heure d’émission et au prix de perte de quelques pour cents de taux de reconnaissance, notre système fournit les résultats au bout d’une heure de calcul.
La collaboration et l’échange avec les équipes participant à cette campagne nous permet d’enrichir notre savoir-faire. Depuis le début de 2004, j’ai consacré une grande partie de mon temps de recherche à ce projet.
3.5.3 Collaboration avec PRESSE+
En automne 2003, nous avons commencé une étude avec une entreprise parisienne sur la détection en temps réel des mots clés dans les émissions radiophoniques. Dans ce cadre, une thèse CIFRE a débuté en novembre 2003 sous la direction de Jean-Paul Haton et de moi-même.
C’est lathèse d’Emmanuel Didiot sur le sujet « Détection des mots clés dans les émissions radiophoniques ». Cette thèse est la suite logique de notre travail sur l’indexation. Elle se fait en collaboration avec Dominique Fohr et Odile Mella.
Pour septembre 2004, nous avons mis en place le premier prototype du système d’indexation, utilisant la reconnaissance de grand vocabulaire. Nous avons effectué une évaluation de ce système sur les données réelles fournies par PRESSE+ (corpus de test et liste de mots clés). Les résultats de cette évaluation, présentés à PRESSE+, sont très encourageants.
3.5.4 Projet Européen HIWIRE
En automne 2003, notre équipe « Parole » a participé à l’appel d’offre STREP (Special Targeted Research Project) dans le cadre du 6-ème PCRD/IST. Avec plusieurs partenaires euro- péens (Thales-Avionics (France), Loquendo (Italie), Institut des Systèmes de Télécommunication (TSI, Grèce), Université de Grenade (Espagne), Institut de Communication et de Systèmes Informatiques (ICCS, Grèce), ITC-IRST (Italie)) j’ai rédigé la proposition HIWIRE (Human Inputs That Work In Real Environment) qui a été acceptée. Ce projet a commencé au mois de juin 2004 et durera3ans. Je suisresponsablede ce projet au niveau du LORIA et j’y participe activement au niveau de mes recherches. Dans ce projet un ingénieur et un thésard sont recrutés et je les encadre en collaboration avec Christophe Cerisara et Dominique Fohr.
Ce projet, à la fois théorique et applicatif, vise l’amélioration significative de la robustesse, de l’ergonomie et de la flexibilité des systèmes d’interaction homme-machine. Ce projet correspond parfaitement à mon axe de recherche sur la robustesse.
Dans le cadre de ce projet, je m’investis dans l’étude des points suivants :
– Développement de nouveaux algorithmes pour la reconnaissance robuste avec des condi- tions de bruits non stationnaires. Dans ce cadre nous sommes en train de mettre en place un système de reconnaissance avec données manquantes. Ce système détecte les bandes de fréquence bruités en utilisant le rapport signal/bruit. Pour ces bandes, les masques sont calculés en modifiant les probabilités d’émissions (voir la section 5.4.3 plus loin). Je tra- vaille en collaboration avec Christophe Cerisara et Christophe Antoine, ingénieur-expert recruté dans le cadre de ce projet pour un an.
– Développement de nouvelles techniques pour améliorer la tolérance d’un système de recon- naissance à certaines spécificités des locuteurs, comme les accents et la parole non native.
24 Chapitre 3. Résumé des recherches En effet, le taux de reconnaissance chute de façon spectaculaire quand les systèmes créés pour des locuteurs natifs sont utilisés pour la reconnaissance de la parole de locuteurs non natifs. Plusieurs directions de recherche sont envisageables ici et elles seront étudiées dans la section 6.4 de notre document. Actuellement, j’encadre en collaboration avec Jean-Paul Haton, Dominique Fohr et Odile Mella lathèse de Ghazi Bouselmi, débutée en octobre 2004 dans le cadre de ce projet sur le sujet « Reconnaissance de la parole des locuteurs non natifs ». Avec Ghazi, nous avons enregistré un corpus de locuteurs non natifs et nous avons développé la première approche de reconnaissance avec des locuteurs non natifs [Bouselmi et al., 2005] : nous extrayons les règles de confusion à partir du corpus des locuteurs non natifs et les modèles acoustiques natifs. Puis nous utilisons ces règles pour modifier les modèles acoustiques natifs en y ajoutant des modèles acoustiques non natifs.
– Évaluation des techniques proposées dans les conditions réelles d’un cockpit d’avion.
3.6 Conclusion
Ce chapitre a décrit mes principales activités de recherche depuis le début de ma thèse et jusqu’à maintenant. Mes recherches consistent à étudier des problèmes liés à la création de sys- tèmes de reconnaissance robustes aux bruits et aux locuteurs. J’effectue cette étude au niveau de la modélisation acoustique du signal et j’utilise l’approche stochastique. Mon but est de déve- lopper des nouvelles approches pour améliorer les performances d’un système de reconnaissance.
Par ailleurs, je m’intéresse à la création de systèmes complets, permettant une exploration des documents sonores.
Deuxième partie
Synthèse de recherches
25
Chapitre 4
Modélisation acoustique de la parole
Le but de ce chapitre est d’introduire quelques notions et quelques notations utiles pour la compréhension de la suite de ce document. Plus précisément, nous donnons une description brève de la modélisation acoustique pour la reconnaissance automatique de la parole. Nous présentons le problème de reconnaissance du point de vue formel et nous décrivons les choix qu’il est nécessaire d’effectuer en développant un modèle acoustique pour la reconnaissance. Nous présentons ces notions en nous concentrant sur les modèles de Markov cachés (Hidden Markov Models, HMM), car toutes les recherches décrites dans ce document ont été fait dans ce cadre.
4.1 Le problème de la reconnaissance
Dans l’approche stochastique, le problème général de la reconnaissance est le suivant. Soit O = (o1, . . . , oT)2une séquence de vecteurs acoustiques deT trames issues de l’analyse acoustique et représentant la parole à reconnaître. Il s’agit de trouver la suite W = (w1, . . . , wK) de mots la plus probable, associée à la suite d’observationsO :
cW = argmax
W
P r(W|O) (4.1)
Le termeP r(W|O)peut être calculé de la façon suivante : P r(W|O) =p(O|W) P r(W)
p(O) (4.2)
oùP r(W) est unmodèle de langage etp(O|W) est un modèle acoustique.
Dans ce document nous nous intéressons exclusivement à la modélisation acoustique.
4.2 Développement d’un modèle acoustique
Pour développer un modèle acoustique il faut répondre aux questions suivantes : – Quelle unité de parole modéliser : un phonème, un mot, etc ?
– Quoi modéliser : une trame ou un groupe de trames ? – Quel modèle choisir ?
– Quelle distribution est la plus appropriée ?
2Nous utilisons la notation X pour une séquence etxipour un élément de la séquenceX.
27
28 Chapitre 4. Modélisation acoustique de la parole
état état
O
iO
i. . . O O
(a) (b)
i + 1 i + L
Fig. 4.1 – Processus de génération des observations : (a) — un état du modèle fondé sur les trames engendre une trame ; (b) — un état du modèle fondé sur les segments engendre une séquence de trames de longueur L(d’après [Ostendorf et al., 1996]).
– Comment prendre en compte la corrélation entre les trames de la parole ? – Comment apprendre les paramètres du modèle ?
– Comment réduire le nombre de paramètres du modèle ?
Dans la suite de ce chapitre nous présenterons brièvement les différentes voies proposées dans la littérature pour répondre aux questions ci-dessus.
Choix des unités de parole
La recherche dans le domaine de la reconnaissance automatique de la parole concerne actuellement la reconnaissance utilisant un grand vocabulaire. Pour une telle tâche, le choix des phonèmes comme unité à modéliser est le plus approprié. En effet, alors que le nombre de phonèmes reste constant, le nombre de mots augmente avec la taille du vocabulaire.
Type de modèles
À partir du processus de génération des observations, nous distinguons deux types de modèles : – les modèlesfondés sur les trames : un état du modèle engendre une trame ;
– les modèlesfondés sur les segments : un état du modèle engendre une séquence de trames de longueur variable ou segment.
La figure 4.1 illustre ces processus.
La modélisation fondée sur les trames est le plus souvent effectuée à l’aide du modèle de Markov caché [Baum et Petrie, 1966], [Baum et al., 1970]. Un HMM est un automate d’états dont les états sont reliés entre eux par des transitions. Un HMM est défini par :
– Un ensemble de distributions associées à chaque état j : {bj|j ∈J}. Chaque distribution d’un état donne la probabilité d’observation d’un événement aléatoire conditionné par cet état.
– Un ensemble de probabilités reflétant les transitions entre états :{ai,j|i, j ∈J}.
– Un ensemble{πj|j∈J}où πj est la probabilité de commencer par l’étatj.