Décodage acoustico-phonétique et applications à l'indexation audio automatique

(1)

T

H

_H

È

_È

S

_S

_E

En vue de l'obtention du

D

O

C

T

O

R

A

T

D

E

L

’

U

N

I

V

E

R

S

I

T

É

D

E

T

O

U

L

O

U

S

E

Délivré par l'Université Toulouse III – Paul Sabatier Discipline ou spécialité : Informatique

JURY

Rapporteurs : M. Jean-François Bonastre LIA Avignon

M. Paul Deléglise Université du Maine

Examinateurs : Mme Lori Lamel LIMSI Paris M. Guillaume Gravier _{IRISA Rennes} Ecole doctorale : Mathématiques, Informatique, Télécommunications de

Toulouse

Unité de recherche : IRIT / SAMOVA

Directeurs de Thèse : Mme Régine André-Obrecht Université Toulouse III M. Patrice Collen _{Orange Labs Rennes}

Présentée et soutenue par Olivier Le Blouch Le 12 Juin 2009

Titre : Décodage acoustico-phonétique et applications à l'indexation audio automatique

(2)

(3)

REMERCIEMENTS

En premier lieu, je souhaite remercier chaleureusement mes deux encadrants, Régine André-Obrecht et Patrice Collen. Je tiens à remercier Régine pour sa disponibilité, ses conseils judicieux, sa réactivité et son aisance à faciliter les différentes étapes de cette thèse, qualités qui me font regretter de n'avoir pas eu davantage affaire à elle durant ses trois années. C'est également en toute sincérité que je remercie Patrice pour m'avoir donné l'opportunité de travailler dans un environnement idéal pendant plus de quatre ans, et ce malgré des circonstances pas toujours simples. Il m'a mis le pied à l'étrier après l'obtention de mon diplôme et a toujours été présent ensuite lorsqu'il s'agissait de me donner un coup de main, ce qui fait de lui un encadrant/chef/collègue que je souhaite à tout le monde.

Je suis tout particulièrement reconnaissant aux rapporteurs de cette thèse, Jean-François Bonastre et Paul Deléglise, pour l'attention qu'ils ont portée à mes travaux. Je remercie également Lori Lamel pour m'avoir fait l'honneur de présider mon jury, ainsi que Guillaume Gravier pour avoir examiné mon manuscrit avec précision et pour avoir levé les bonnes questions.

Ces années à France Telecom R&D furent également le théâtre de nombreuses rencontres enrichissantes, tant au point de vue professionnel qu'amical. Commençons l'énumération par la catégorie "collègues" avec un grand merci à Jean-Bernard, toujours disponible pour aider, Pierrick, Benoit, Paul, Christophe, Jean-Yves, Henri et les autres. Poursuivons par ceux qui sont devenus de véritables amis au fil des déjeuners sur l'herbe et des soirées rigolardes : Typhaine, Julie, Sébastien, Michaël, Alexey, Julien et Benjamin. Pour terminer, un merci tout particulier à Alexandra et à ma famille pour leur soutien permanent.

(4)

TABLE DES MATIERES

REMERCIEMENTS... III TABLE DES MATIERES ...IV TABLE DES FIGURES...VI TABLE DES TABLEAUX ...VIII

CHAPITRE 2 INTRODUCTION GENERALE ... 1

2.1. INTRODUCTION... 2

2.2. ETAT DE L'ART... 7

2.2.1. Reconnaissance automatique de la parole... 7

2.2.2. Détection de mots-clés ... 9

2.2.3. Recherche de termes parlés... 14

2.2.4. Recherche documentaire audio ... 19

2.3. ORGANISATION DU DOCUMENT... 25

CHAPITRE 3 DECODAGE ACOUSTICO-PHONETIQUE... 27

3.2. ETAT DE L'ART DU DECODAGE ACOUSTICO-PHONETIQUE... 29

3.3. ARCHITECTURE GENERALE D'UN SYSTEME DE TRANSCRIPTION PHONETIQUE... 35

3.4. LES SYLLABES... 43

3.5. DESCRIPTION DES SYSTEMES DEVELOPPES... 47

3.5.1. Description des corpus... 47

3.5.2. Paramétrisation acoustique ... 51

3.5.3. Modèles de langage... 53

3.5.4. Présentation des systèmes ... 53

3.5.5. Mise en oeuvre ... 63

3.6. EXPERIMENTATIONS ET RESULTATS... 64

3.6.1. Récapitulatif des systèmes ... 64

3.6.2. Résultats ... 65

3.7. CONCLUSION... 68

CHAPITRE 4 DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE ... 69

4.2. ETAT DE L'ART DE LA DETECTION DE MOTS-CLES BASEE PHONEMES... 73

4.3. CONTEXTE EXPERIMENTAL... 76

4.3.1. Corpus d'évaluation ... 76

4.3.2. Liste de mots-clés ... 76

4.3.3. Méthode d'évaluation ... 76

4.4. UN PREMIER MOTEUR DE DETECTION... 78

4.4.1. Organisation des mots-clés ... 78

4.4.2. Arbre de mots-clés et détection exacte ... 79

4.4.3. Arbre de mots-clés et détection approximative ... 79

(5)

4.4.5. Bilan ... 90

4.5. UN DICTIONNAIRE ENRICHI POUR UNE DETECTION EXACTE... 91

4.6. TAUX DE PRECISION ET EXPANSION PHONETIQUE... 95

4.6.1. Aperçu des erreurs récurrentes... 96

4.6.2. Améliorations proposées ... 96

4.6.3. Expansion des requêtes par contexte phonétique ... 97

4.7. EXPANSION ETENDUE DU CONTEXTE PHONETIQUE... 103

4.8. DESCRIPTION D'UN SYSTEME COMPLET DE DETECTION DE MOTS-CLES... 109

4.9. CONCLUSION... 113

CHAPITRE 5 CONCLUSION ET PERSPECTIVES ... 115

CHAPITRE 6 ANNEXES ... 119

BIBLIOGRAPHIE ... 149

(6)

TABLE DES FIGURES

Figure 1 : Exemple de mots hors vocabulaire face au critère de maximum de vraisemblance . 5

Figure 2 : Historique du traitement de la parole, extrait de [JUA 05]... 7

Figure 3 : Exemple de sortie d'un moteur de détection de mots-clés... 10

Figure 4 : Utilisation de modèles poubelles dans un système de détection de mots-clés ... 11

Figure 5 : Architecture générale d'un système de Spoken Term Detection ... 14

Figure 6 : Interface de recherche... 18

Figure 7 : Structure globale d'un système de Spoken Term Detection basée phonèmes ... 18

Figure 8 : Groupes de souffle ... 19

Figure 9 : Spoken Document Retrieval et reconnaissance grand vocabulaire ... 21

Figure 10 : Panorama des briques applicatives implémentées ... 25

Figure 11 : Architecture d'un système de reconnaissance acoustico-phonétique... 35

Figure 12 : Etapes de calcul des MFCC ... 36

Figure 13 : Filtres triangulaires à échelle Mel (20 bandes)... 37

Figure 14 : HMM gauche-droite à trois états ... 37

Figure 15 : Exemple de graphe de Viterbi pour une séquence de huit observations et un HMM à 3 états ... 42

Figure 16 : Exemple de syllabe ... 44

Figure 17 : Composants d'une syllabe... 44

Figure 18: Construction des corpus d'apprentissage pour les modèles de langage... 45

Figure 19 : Procédure d'alignement forcé ... 49

Figure 20 : Topologie d'un monophone ... 54

Figure 21 : Exemple de graphe généré par un bigram sur un vocabulaire constitué de deux termes indépendants du contexte A et B... 55

Figure 22 : Exemple de phonèmes modélisés par des monophones et concaténés en syllabe. 55 Figure 23 : Topologie d'un triphone... 56

Figure 24 : Exemple de transcription du mot "Elvis" en triphones... 57

Figure 25 : Exemple de graphe généré par un bigram sur un vocabulaire constitué de deux termes dépendants du contexte A et B ... 58

Figure 26 : Triphones concaténés en syllabes avec expansion totale pour le mot "Elvis"... 59

Figure 27 : Triphones concaténés en syllabes avec expansion interne uniquement ... 60

Figure 28 : Création d'une syllabe à partir d'unités transitoires ... 61

Figure 29 : Partage d'états entre syllabes ... 62

Figure 30 : Différents étiquetages du mot "Elvis" ... 63

Figure 31 : Détection de mots-clés sur flux phonétique... 70

Figure 32 : Exemple de phénomène de coarticulation apparu lors du décodage ... 71

Figure 33 : Architecture du système de reconnaissance ELVIRCOS ... 74

Figure 34 : Processus de recherche sous-vocabulaire du système ELVIRS ... 74

Figure 35 : Exemple d'arbre de mots-clés ... 78

Figure 36 : Exemple de calcul de similarité ... 80

Figure 37 : Triangle vocalique des voyelles du français, selon la fréquence des deux premiers formants F1 et F2 ... 80

Figure 38 : Extrait d'une matrice de confusion phonétique... 81

(7)

Figure 40 : Exemple de calcul approximatif ... 82

Figure 41 : Détections approximatives en termes de taux de rappel/précision ... 83

Figure 42 : Détection de mots-clés en fonction du seuil de tolérance (OK=nombre de détections correctes, FA=nombre de fausses alarmes) ... 84

Figure 43 : Exemple de court-circuit en début de parcours approximatif avec gestion des substitutions ... 86

Figure 44 : Génération des combinaisons "3 phonèmes sur 5" pour la suppression... 87

Figure 45 : Exemple de courts-circuits gérant substitutions et suppressions ... 87

Figure 46 : Exemple d'insertion d'un phonème "O" dans le flux phonétique ... 88

Figure 47 : Gestion des insertions par génération des combinaisons 3/5 sur le flux ... 88

Figure 48 : Evaluation de la détection approximative de mots-clés dans un arbre avec courts-circuits... 89

Figure 49 : Pourcentage de fausses alarmes en fonction de la taille des requêtes phonétiques97 Figure 50 : Extrait de CXT_CORPUS ... 98

Figure 51 : Construction des "pro-contextes" et "anti-contextes" à partir des mots-clés du corpus textuel CXT_CORPUS ... 99

Figure 52 : Influence de l'expansion sur les transcriptions propres et bruitées... 101

Figure 53 : Exemple de grammaire, extrait de [YOU 05]... 103

Figure 54 : Exemple de grammaire sur les noms de pays ... 104

Figure 55 : Exemple d'arbre de mots compatible avec la grammaire. ... 105

Figure 56 : Exemple de parcours de règles ... 106

Figure 57 : Evaluations BNF, précision/rappel en fonction de la taille minimale des séquences phonétiques ... 108

Figure 58 : Plateforme MediaSearch... 111

Figure 59 : Algorithme basique de détection de mots-clés ... 125

Figure 60 : Algorithme de détection exacte de mots-clés dans un arbre... 125

Figure 61 : Distance de Levenshtein ... 126

Figure 62 : Pseudo-code de la distance de Levenshtein modifiée... 127

Figure 63 : Exemple d'arbre de suffixe généralisé ... 128

Figure 64 : Exemple de suffix trie sur le mot "BANANAS" ... 134

Figure 65 : Structure réelle d'un arbre de suffixes ... 134

Figure 66 : Exemple d'arbre de suffixes généralisé... 135

Figure 67 : Transcriptions phonétiques et arbre de suffixes généralisé ... 136

Figure 68 : Nombre de noeuds de l'arbre de suffixes généralisé en fonction du nombre de phonèmes lus dans le corpus de test... 137

Figure 69 : Structure générale pour la recherche exacte ... 143

Figure 70 : Fonction récursive de détection de termes avec indexation par trigrammes ... 144

Figure 71 : Espace mémoire en fonction du nombre d'heures d'audio traitées ... 145

Figure 72 : Temps de mise en mémoire du corpus en fonction du nombre d'heures d'audio traitées ... 145

Figure 73 : Temps moyen d'une recherche en fonction du nombre d'heures d'audio traitées 145 Figure 74 : Fusion en classes phonétiques ... 146

Figure 75 : Génération des "3 phonèmes sur 5"... 146

(8)

TABLE DES TABLEAUX

Tableau 1 : Liste des 35 phonèmes du français pour le décodage ... 39

Tableau 2 : Tâches de la campagne ESTER 1 ... 48

Tableau 3 : Répartition des corpus acoustiques, extrait de [GRA 04] ... 48

Tableau 4 : Répartition des données du corpus audio d'apprentissage ... 50

Tableau 5 : Influence de l'énergie sur le décodage acoustico-phonétique ... 52

Tableau 6 : Influence de la normalisation par la moyenne des cepstres sur le décodage acoustico-phonétique ... 52

Tableau 7 : Récapitulatif des systèmes de décodage acoustico-phonétique ... 64

Tableau 8 : Complexité des systèmes de décodage acoustico-phonétique ... 65

Tableau 9 : Résultats du décodage sur Test_Ester ... 65

Tableau 10 : Vitesse d'exécution du décodage acoustico-phonétique (x plus long que le Temps réel) ... 67

Tableau 11 : Répartition des 35 phonèmes en classes de substitution ... 85

Tableau 12 : Phénomènes de coarticulation ... 92

Tableau 13 : Extrait de la liste de 151 mots-clés avec variantes de prononciations ... 93

Tableau 14 : Details des résultats de détection sur transcriptions exactes ... 96

Tableau 15 : Détection du mot-clé "Irak" selon la règle grammaticale "La guerre en Irak" et un nombre minimal de phonèmes variant de 3 à 10 ... 107

Tableau 16 : Extrait du dictionnaire de reconnaissance vocale partielle ... 109

Tableau 17 : Extrait de la grammaire pour le système de reconnaissance vocale partielle ... 110

Tableau 18 : Exemple de reconnaissance vocale partielle ... 110

Tableau 19 : Exemple de parcours approximatif dans un arbre de suffixes généralisé ... 131

(9)

CHAPITRE 1

(10)

1.1. Introduction

Depuis le premier enregistrement sonore connu, daté de 1860 et attribué à un typographe français, Edouard-Léon Scott, la masse de documents audio n'a cessé de croître à travers le monde. La profusion des types de supports et des moyens d'acquisition toujours plus nombreux en est un parfait exemple. Ces documents audio peuvent contenir de la parole, de la musique ou d'autres sons divers et sont de plus en plus répandus en particulier au travers des différents médias majeurs : radio, télévision et internet. L'essor du web a d'ailleurs provoqué ces dernières années un véritable raz de marée au niveau de la production numérique de contenus multimédias professionnels et amateurs par le biais notamment des podcasts ou de sites comme Youtube1 ou Dailymotion2.

Pour accompagner cette évolution, les productions sont la plupart du temps enrichies de métadonnées décrivant le contenu pour en permettre une classification sommaire et un accès aux contenus. Celles-ci, définies manuellement par les créateurs des contenus et/ou par des utilisateurs, peuvent être constituées d'un titre, de mots-clés, un nom d'auteur, un résumé, voire des sous-titres dans le cas de flux télévisuels. Néanmoins ces informations, souvent réduites au strict minimum, s'avèrent souvent insuffisantes pour une classification efficace et retrouver les documents a posteriori. En outre, le nombre de documents nouveaux ou archivés et non annotés, associé au temps nécessaire de traitement de l'annotation rend l'indexation manuelle fastidieuse. Aujourd'hui, près de 600 radios et télévisions couvrant 40 langues différentes sont indexées à travers le monde. Les annotations manuelles de ces contenus, que ce soit les transcriptions ou les traductions, prennent au minimum cinq fois la durée des contenus considérés. C'est pour faciliter et accélérer ces opérations que de nombreux travaux sont menés dans le domaine de l'indexation automatique des documents parlés.

L'indexation automatique de documents parlés couvre plusieurs tâches applicatives différentes, dont la recherche de termes parlés, la détection de mots-clés et la recherche documentaire audio.

- La recherche de termes parlés, ou Spoken Term Detection (STD), d'après la définition proposée par le NIST3, consiste à trouver toutes les occurrences d'un terme, aussi efficacement que possible, dans des sources audio hétérogènes. Un terme est défini comme une séquence de mots adjacents, contenant au minimum un seul mot. Il s'agit d'un processus divisible en deux parties distinctes : l'indexation des archives et la recherche effective des termes;

- La détection de mots-clés, ou Keyword Spotting (KWS), sous-entendu dans un flux audio, est l'application "complémentaire" à la recherche de termes parlés. Son but est d'analyser les flux audio d'émissions et d'y détecter des mots-clés. Il s'agit d'un processus fonctionnant à la volée, analysant le flux si possible en temps réel et si possible avec un faible retard afin d'indexer des mots en direct;

1 http://www.youtube.com/ 2 http://www.dailymotion.com/ 3

(11)

- La recherche documentaire audio, ou Spoken Document Retrieval (SDR) consiste à effectuer des requêtes textuelles dans de grandes archives de données audio, à l'image d'un moteur de recherche internet permettant d'effectuer des requêtes textuelles dans un ensemble de sites web. Cette dernière tâche est très proche de la tâche de recherche de termes parlés, l'objectif commun étant la recherche rapide d'informations dans de grandes archives de documents audio. La différence fondamentale se situe au niveau du type des résultats retournés. En recherche documentaire audio, l'utilisateur attend une liste de documents pertinents triés contenant la ou les requêtes alors qu'en recherche de termes parlés, il obtient la liste de segments de parole extraits des documents et sensés contenir uniquement les requêtes formulées. Notons pour terminer qu'une campagne d'évaluation internationale a été mise en place par le NIST : les Text REtrieval Conferences, ou TREC4. Pionnières dans l'évaluation des systèmes d'indexation depuis 1997, elles servent de référence dans l'évaluation des systèmes de recherche documentaire audio.

L'approche générale la plus intuitive, et également la plus courante concernant ces moteurs d'indexation consiste tout d'abord en l'application d'un moteur de reconnaissance vocale grand vocabulaire sur le signal de parole. Un tel moteur produit une transcription de l'audio en mots, à l'image d'une dictée vocale où l'on cherche à reconnaître l'intégralité des mots prononcés. Cette transcription peut être utilisée par la suite dans une indexation au niveau mot. Parmi les systèmes actuels, citons par exemple la collaboration entre les sociétés françaises Vecsys Research5 et Exalead6 dans le cadre du projet Quaero. De cette association est né un moteur complet d'indexation nommé Voxalead7. Difficile en outre de ne pas parler du Dragon Audiomining de Nuance8, logiciel d'indexation basé sur le produit Dragon Naturally Speaking. Parmi les solutions complètes existantes, le centre de recherche et développement de la télévision italienne RAI, a développé un logiciel complet d'annotation automatique de programmes télévisés baptisé ANTS [DIM 08], ou Automatic Newcast Transcription System. Google a également fait une entrée remarquée dans le domaine avec Gaudi9. Notons que pour l'instant, cette application est uniquement dédiée aux sujets politiques, c'est-à-dire un type de contenu assez fermé avec des conditions plutôt favorables aux systèmes de reconnaissance grand vocabulaire (parole préparée, vocabulaire ciblé). Société pionnière dans les technologies de reconnaissance vocale, BBN10 propose pour sa part le BBN Broadcast Monitoring System, un système permettant la transcription et la traduction vers l'anglais de contenus broadcastés, ainsi qu'une interface de recherche de mots-clés et ce en arabe, perse/farsi, mandarin, et espagnol. Cette société développe également EveryZing11, une interface complète de recherche dans des vidéos basée sur une transcription automatique de la parole. Pour terminer, évoquons la société israëlienne LNTS12, fondée en 2007 et basée sur approche complètement phonétique.

4 http://trec.nist.gov 5 http://www.vecsysresearch.com/ 6 http://www.exalead.fr 7 http://voxalead.labs.exalead.com/SpeechToText 8 http://www.nuance.com 9

Google Audio Indexing. http://labs.google.com/gaudi

10 http://www.bbn.com 11 http://www.everyzing.com 12 http://www.lntstech.com

(12)

L'objectif général de nos travaux est le développement de technologies s'insérant dans le processus d'indexation de tout type de contenus. Il peut tout aussi bien s'agir de journaux télévisés que de contenus non maîtrisés, professionnels ou amateurs, aux conditions d'enregistrements diverses et contenant éventuellement d'autres langues que le français. Comme exposé dans le paragraphe précédent, la majorité des travaux relatifs à l'indexation audio se résument à l'application préalable d'un moteur de reconnaissance vocale grand vocabulaire sur les documents parlés avant d'y appliquer des outils d'indexation textuelle au niveau mot. Cette méthode offre de bons résultats mais elle fait face à deux problèmes majeurs : la difficulté de reconnaître un discours spontané et les mots hors vocabulaire. En effet, la reconnaissance d'un discours sans connaissance préalable demande un traitement complexe requérant par exemple une détection de la langue et une adaptation des modèles acoustiques et des modèles de langage. En outre, malgré des processeurs toujours plus rapides et des algorithmes de décodage performants, la complexité de la reconnaissance reste un facteur critique selon les besoins des systèmes.

La reconnaissance grand vocabulaire atteint malgré tout aujourd'hui de très bons taux de reconnaissance : le système développé par le LIMSI, par exemple, atteint environ 14% d'erreurs sur la campagne d'évaluation française ESTER [GAL 05] sans contrainte de temps de décodage. Notons cependant que des systèmes industriels opérationnels tels que ceux développés par Vecsys Research et le LIMSI ou Sail Labs13 proposent un fonctionnement en temps réel. Les évaluations telles que celles effectuées pour la campagne ESTER sont la plupart du temps effectuées sur des données broadcast, peu hésitantes et peu bruitées, c'est-à-dire encore loin des conditions du discours spontané, du commentaire sportif, et surtout des "Contenus Générés par des Utilisateurs", ou CGU, proposés sur des sites tels que YouTube14 ou Dailymotion15. Sur ce type de données, les modèles de langage associés à la reconnaissance, spécialisés et paramétrés sur des conditions favorables, tentent vainement de s'adapter et engendrent de forts taux d'erreur rendant la reconnaissance inutilisable; l'enchaînement des termes et la façon de parler sont trop éloignés des modèles appris, aboutissant à des résultats incongrus.

C'est l'utilisation quasi généralisée de l'algorithme de Viterbi [YOU 89] et du critère du maximum de vraisemblance [FED 98] comme cœur des systèmes de reconnaissance qui impose au système d'adapter une transcription continue sur le signal audio quelque soit le contenu. Il en résulte un déséquilibre entre des portions de phrases parfaitement reconnues et d'autres très éloignées de ce qui a été effectivement prononcé. En choisissant de se focaliser uniquement sur des zones de parole transcrites avec une meilleure précision, on peut donc s'attendre à optimiser les taux de rappel et de précision au niveau local.

Autre point important : dans le cadre d'un moteur d'indexation audio, les informations traitées doivent être porteuses de sens. En effet, lors de l'indexation, il est important de s'intéresser essentiellement aux mots pertinents en s'affranchissant des mots "vides", ou stop words, à l'apport sémantique faible. Il a été montré, par exemple, que 50% des mots contenus dans un court texte en anglais typique appartenaient à une liste de 135 mots communs "vides" [HAR 94]. Or, malgré cette proportion, mots vides et mots porteurs de sens restent

13 http://www.sail-labs.at 14 http://fr.youtube.com 15 http://www.dailymotion.com

(13)

nécessaires à l'élaboration des modèles de langage classiquement utilisés dans la reconnaissance de la parole continue.

En considérant ces écueils de la reconnaissance grand vocabulaire, nous proposons dans cette thèse de nous concentrer davantage sur l'élaboration d'un outil de détection de mots-clés. Par ce biais, nous privilégions les termes et les entités nommées aux mots de liaisons tout en tentant de s'affranchir des modèles de langage. Notons également que l'utilisation classique des modèles de langage empêche une mise à jour simple et rapide du vocabulaire. C'est pourquoi, par le choix de cette piste de recherche, nous nous fixons en outre l'objectif suivant : le développement d'un outil souple permettant une mise à jour simple du dictionnaire de mots-clés.

Autre inconvénient majeur des systèmes basés sur une reconnaissance vocale grand vocabulaire : les requêtes de mot hors-vocabulaire. Ces mots hors-vocabulaire, ou OOV pour "out of vocabulary", sont tous les termes et entités nommées, c'est-à-dire les noms propres de personnes, de lieux, d'organismes, etc, n'apparaissant pas dans le dictionnaire utilisé pour la reconnaissance vocale, comme illustré par la Figure 1. Dans cet exemple, le système ne connaît pas le nom du nouveau président des Etats-Unis. Il a été prouvé expérimentalement par Logan [LOG 96] que près de 10% des requêtes utilisateurs pouvaient contenir de ces OOV, en particulier au niveau des entités nommées. Woodland a d'ailleurs étudié la question de leur impact sur la recherche documentaire audio [WOO 00]. Cet écueil est connu comme étant potentiellement évitable en utilisant, à la place des mots, des unités plus courtes comme le phonème, permettant le cas échéant de reconstruire des mots inconnus. L'état de l'art dans ce domaine met en évidence la possibilité d'obtenir des résultats proches des systèmes basés reconnaissance par mots tout en autorisant la recherche de mots hors-vocabulaire [CLE 02], [SEI 04]. Une solution industrielle orientée phonèmes est par exemple proposée par la société Nexidia16 implantée aux Etats-Unis et inspirée des travaux de Clements et Cardillo [CLE 01]. Basée sur des transcriptions de l'audio en phonèmes, cette technologie permet l'indexation de documents et la recherche de n'importe quel mot-clé dans un panel de 33 langues différentes. Outre le phonème, plusieurs travaux envisagent des systèmes basés sur d'autres unités linguistiques plus courtes que le mot telles que les graphèmes ou les syllabes [WEC 98a].

Figure 1 : Exemple de mots hors vocabulaire face au critère de maximum de vraisemblance

L'utilisation de phonèmes comme unités basiques des moteurs d'indexation audio cumule plusieurs avantages. Premièrement, l'utilisation d'une unité basique inférieure aux mots permet d'éviter l'écueil majeur des mots hors-vocabulaire et concrètement, l'unité phonétique s'est avérée efficace dans les travaux de Wechsler [WEC 98], Moreau [MOR 05] ou Szoke [SZO 06]. Deuxièmement, le fait de transcrire le signal audio en phonèmes est un

16

http://www.nexidia.com/

Barack Obama

Baraque aux Bahamas Ce qui est prononcé :

(14)

préalable efficace pour toute application d'indexation, que ce soit pour la détection de mots-clés à la volée ou pour la recherche de termes dans des archives. En effet, il est théoriquement possible de retrouver rapidement n'importe quel mot ou phrase prononcée dans une transcription phonétique, sans avoir à revenir sur une analyse du signal. Ceci allège la répétition des processus ou la recherche de nouvelles requêtes. Dans le cas d'une détection basée sur le critère du maximum de vraisemblance appliqué au signal, réitérer un processus intégral pour de nouvelles requêtes est obligatoire et coûteux. Troisièmement, l'implémentation complète d'un décodeur acoustico-phonétique efficace est un bon compromis face à la complexité de développement d'un moteur de reconnaissance grand vocabulaire. Notons malgré tout que privilégier l'utilisation des phonèmes fait apparaître des obstacles. Le premier est la disparition des frontières de mots engendrant une complexité supplémentaire lors de la recherche dans le flux phonétique afin d'éviter l'apparition de nouvelles fausses alarmes, c'est-à-dire des détections incorrectes. En y associant les erreurs typiques du décodage acoustico-phonétique, de nombreuses erreurs de détection sont attendues de la part d'un système uniquement phonétique. Concernant les inconvénients d'un tel système, notons que l'efficacité des transcriptions phonétiques est moindre que les transcriptions par mots, les meilleurs décodeurs acoustico-phonétiques aboutissant à des taux d'erreur phonétiques d'environ 25% alors que les meilleurs décodeurs par mots atteignent près de 10% d'erreurs par mots. Ajoutons également que la phonétisation des requêtes pour l'indexation déporte le problème des prononciations multiples et du maximum de vraisemblance au niveau mot.

Suite à ces considérations, l'approche choisie dans cette thèse est donc le développement d'applications d'indexation audio basée sur les phonèmes. Dans nos travaux nous mettons en particulier l'accent sur des résultats de détections précis et robustes, probablement au détriment du nombre réel de détections à effectuer. D'un point de vue utilisateur, il nous a semblé plus cohérent de privilégier la précision au détriment du taux de rappel. Concrètement, les objectifs des travaux réalisés tout au long de cette thèse concernent le développement d'un moteur de transcription phonétique du français et son utilisation pour des applications à l'indexation audio. Cette thèse présente nos contributions portant sur :

- La conception et l'évaluation d'un moteur complet de décodage acoustico-phonétique robuste et performant permettant l'application de futurs outils de recherche et de détection;

- L'implémentation d'un moteur de détection de mots-clés basé sur les transcriptions phonétiques afin d'indexer les flux audio à la volée; cette application consiste à analyser un flux en direct et à y détecter des mots-clés contenus dans une liste de mots-clés prédéfinie;

- Dans une moindre mesure, le développement d'un système basique de recherche de termes parlés dans des archives audio réutilisant lui aussi les transcriptions phonétiques et autorisant un utilisateur à effectuer rapidement des requêtes dans de grandes archives de données audio.

Avant de présenter un plan détaillé de ces travaux à la section 1.3, nous détaillons dans la section suivante un état de l'art concernant les domaines évoqués dans cette thèse.

(15)

1.2. Etat de l'art

Cette section expose plus précisément l'existant concernant nos deux champs d'action principaux. Nous présentons donc dans un premier temps l'existant en matière de reconnaissance automatique de la parole puis, dans une seconde partie les différentes méthodes de détection de mots-clés. Bien que les domaines de recherche de termes parlés et de recherche documentaire audio aient été peu abordés dans nos travaux, l'étude de certains articles nous a tout de même donné quelques pistes de recherche. C'est pourquoi les troisième et quatrième parties dressent un panorama des approches existantes concernant ces deux domaines respectifs.

1.2.1. Reconnaissance automatique de la parole

Depuis les années 50 et le premier système de reconnaissance automatique de la parole par Davis, Biddulph, et Balashek [DAV 52], de nombreux autres systèmes ont vu le jour. Un bref historique en a été établi par Juang et Rabiner en 2005 [JUA 05], expliquant les fondements et directions prises pour la recherche et l'industrie dans ce domaine. Un panorama chronologique retraçant l'évolution des systèmes de reconnaissance de la parole, extrait de cet ouvrage, est proposé en Figure 2.

Figure 2 : Historique du traitement de la parole, extrait de [JUA 05]

Mots isolés Mots isolés; Nombres connectés; Parole continue Mots connectés; Parole continue Parole continue Dialogue parlé; Multimodalité Vocabulaire court, méthodes basées connaissance Vocabulaire de taille moyenne, méthodes basées templates Grand vocabulaire, méthodes statistiques Grand vocabulaire, syntaxe, sémantique Très grand vocabulaire, sémantique, dialogue multimodal, synthèse vocale Analyse par bancs de filtres; normalisation temporelle; programmation dynamique Reconnaissance de formes; analyse LPC; algorithmes de classification Chaînes de Markov Cachées; modélisation stochastique du langage Compréhension stochastique du langage; machines à états finis; apprentissage statistique Synthèse par concaténation; apprentissage artificiel; dialogue à changement d'initiative 1962 1967 1972 1977 1982 1987 1992 1997 2002

(16)

Ce sont les années 70 qui ont vu l'émergence des premiers véritables systèmes de reconnaissance de la parole soutenus par les fonds SUR17 du projet ARPA18, section du département de la défense américaine. Il s'agit des systèmes HARPY du CMU19 [LOW 76], "Hear What I Mean" de BBN [WOO 76], et Hearsay II du CMU [RED 77], proposant des taux de reconnaissance phonétique de l'ordre de 40 à 50%. Il est également intéressant d'évoquer DRAGON [BAK 74], le premier système à utiliser une modélisation basée sur des machines de Markov.

En parallèle à ARPA, deux directions différentes furent prises par deux entreprises américaines bien connues : IBM et AT&T Bell Laboratories. IBM, grâce aux travaux dirigés par Fred Jelinek [JEL 76], mirent au point un système baptisé Tangora, dépendant du locuteur, ayant pour objectifs principaux tout d'abord la gestion d'un grand vocabulaire et ensuite la mise au point d'une structuration du langage, représenté par une liste de règles de syntaxe statistiques décrivant les probabilités des séquences de symboles (mots ou phonèmes). Ces recherches introduisirent les termes de modèle de langage et de modèles n-gram, toujours d'actualité aujourd'hui. Chez AT&T Bell Laboratories, les recherches en reconnaissance de la parole étaient plutôt dédiées au dialogue et aux services téléphoniques pour une majorité d'utilisateurs, initiant les travaux des moteurs de reconnaissance indépendants du locuteur, capables de gérer les variations interlocuteurs, c'est-à-dire les variations vocales possibles d'une personne à une autre. Les efforts en ce domaine ont permis la découverte de mesures de distances spectrales, comme celle d'Itakura [ITA 75], ou encore l'avènement des méthodes statistiques en premier lieu desquelles : les chaînes de Markov cachées. En outre, ces laboratoires ont donné le jour à un concept très important, celui de détection de mots-clés, utilisé comme forme primitive d'un système de compréhension de la parole [WIL 90]. Les travaux très différents menés par ces laboratoires ont ouvert la voie à la plupart des domaines de recherche encore en activité aujourd'hui.

Dans les années 80-90, plusieurs autres systèmes ont vu le jour, caractérisés principalement par un changement de méthodologie impliquant des approches orientées reconnaissance de formes et ce grâce à des méthodes de modélisation plus rigoureuses. Cette période s'avère surtout importante par l'avènement d'un outil important pour la reconnaissance de la parole : les chaînes de Markov cachées. Bien que le concept de base soit connu depuis déjà quelques années, il aura fallu attendre le milieu des années 80 pour voir émerger une méthodologie complète. Parmi les outils utilisant cette technologie, citons par exemple :

- BYBLOS, de BBN [SCH 89];

- SPHINX, développé par le CMU [LEE 88], qui est parvenu à intégrer avec succès les chaînes de Markov cachées avec le moteur de recherche du système HARPY, aboutissant à des résultats remarquables pour un système de reconnaissance de la parole à grand vocabulaire. Certains laboratoires français comme le LIUM20 participent aujourd'hui au développement de cet outil;

- DECIPHER, du SRI [MUR 89]; - TANGORA, d'IBM [AVE 87]; - La boîte à outils HTK [YOU 05];

17

Speech Understanding Research Program

18

Advanced Research Projects Agency

19

Carnegie Mellon University

20

(17)

- Julius [LEE 01];

- Sirocco, de l'IRISA21 [GRA 02]

De nos jours, les recherches se poursuivent sur ces systèmes, la plupart encore d'actualité, avec toujours davantage d'expérimentations de nouvelles méthodes afin de confronter les résultats sur des données d'évaluation de plus en plus importantes et des tâches de plus en plus complexes. Les travaux actuels relatifs à HTK et Julius, par exemple, ont pour objectif la gestion de dictionnaires et de modèles de langage de plus en plus grands. Parmi les systèmes contemporains, citons également la société française Vecsys Research22 qui, en étroite collaboration avec le LIMSI23, propose un système de reconnaissance vocale du français et d'autres langues telles que l'anglais ou l'espagnol. Parmi les autres concepteurs de systèmes de reconnaissance grand vocabulaire existants et commercialisés, évoquons Dragon Naturally Speaking de Nuance24 ou encore la technologie développée par l'entreprise autrichienne Sail Labs. Celle-ci permet entre autres la transcription automatique de la parole en texte pour neuf langues dont le français.

L'état de l'art concernant le décodage acoustico-phonétique, sur lequel se reposent nos premiers travaux, est présenté dans le chapitre suivant.

1.2.2. Détection de mots-clés

Un état des lieux concernant les méthodes de détection d'un ensemble de mots dans un flux audio ayant déjà été exposé par Philippe Gelin en 1997 [GEL 97], nous nous contenterons ici d'une liste non exhaustive. Avant de décrire chronologiquement les techniques usuelles de détections de mots-clés dans un signal de parole, nous ferons la distinction entre les systèmes utilisant ou non un type de modèle particulier appelé modèle poubelle. Enfin, nous nous intéresserons à l'existant en matière de détection de mots-clés dans un flux phonétique.

Des techniques de programmation dynamique pour la détection de mots-clés ont été initialement proposées par Bridle [BRI 73], pour lesquelles un score était calculé pour chaque mot-clé associé à toutes les portions acoustiques d'un signal audio possibles en entrée, chaque chemin de programmation dynamique étant considéré comme une détection probable d'un mot-clé. Une seconde étape permettait de filtrer les recouvrements et de normaliser les probabilités afin de séparer les bonnes détections des fausses alarmes.

Quatre ans plus tard, une méthode basée sur la mise en correspondance entre un flux de parole continue et des séquences de référence afin d'en extraire les mots-clés fut mise au point par Christiansen et Rushforth [CHR 77]. Le processus s'articulait autour d'une comparaison de chaque mot avec une fenêtre de taille identique glissant le long du flux d'entrée. Cette comparaison était évaluée par une distance calculée à l'aide d'un algorithme d'alignement temporel appelé Dynamic Time Warping, ou DTW. Une détection était levée lorsque la distance enregistrée était suffisamment faible pour plusieurs fenêtres, engendrant

21

Institut de recherche en informatique et systèmes aléatoires

22

http://www.vecsysresearch.com/

23

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur. http://www.limsi.fr

24

(18)

un grand nombre de calculs, sans compter la gestion des prononciations multiples des mots-clés.

En 1985, Higgins et Wohlford [HIG 85] introduisirent le terme de modèles poubelles, ou filler templates, sensés représenter tous les mots hors vocabulaire, c'est-à-dire tous les "non-mots-clés", au sein d'un système de reconnaissance de la parole également basé sur de la DTW. La sortie d'un tel système est un flux continu de mots-clés considérés comme correctement détectés et de portions poubelles, comme indiqué en Figure 3.

Figure 3 : Exemple de sortie d'un moteur de détection de mots-clés

Méthodes de détection de mots-clés basées sur les modèles poubelles

A l'instar de la reconnaissance vocale, l'utilisation des chaînes de Markov cachées dans le domaine de la détection de mots-clés a rapidement supplanté les systèmes basés sur la DTW. En outre, ces outils s'accordant particulièrement bien à l'utilisation de modèles poubelles, de nombreux systèmes associant HMMs et modèles poubelles ont été développés pour la détection de mots-clés. C'est en 1989 que Wilpon et al. [WIL89] proposèrent une approche markovienne pour détecter des mots-clés quasi-isolés dans des appels téléphoniques. Ce système, encore très inspiré de la DTW, fonctionnait sur la base d'un alignement temporel des segments générés par toutes les paires de début et de fin possibles d'un mot-clé, en s'appuyant sur son modèle markovien. Un post-traitement associant durée moyenne du mot-clé et énergie du signal permettait de réduire le taux d'erreur. De façon à éviter ce parcours de toutes les paires début/fin de mot-clé, le concept de mot poubelle dans la modélisation markovienne a été introduit par Wilpon en 1990 [WIL90], ce qui a permis en outre d'améliorer le taux de reconnaissance. Ce mot poubelle, modélisé par un HMM d'une dizaine d'états interconnectés, était appris sur toutes les sections de parole ne contenant pas de mots-clés. Citons également le cas des travaux de Rose [ROS 90], ou Bourlard [BOU 94a] qui effectuèrent une étude approfondie sur l'utilisation des mots poubelles et montrèrent l'importance de leur apprentissage. La Figure 4 représente un exemple de syntaxe d'automate couramment utilisé comme moteur de détection de mots-clés.

En 1992, Rose [ROS 92] introduisit un type d'entraînement discriminant permettant une meilleure séparation des modèles de mots-clés et non-mots-clés. Le cœur de cette méthode se reposait sur un ensemble discret de distributions gaussiennes utilisées et pondérées dans la représentation de chaque état du mot-clé. Il présenta une méthode de maximisation globale des probabilités de détection de chaque mot-clé par la modification des pondérations des états du mot-clé.

(19)

Mot-clé 1

Mot-clé N

Filler 1

Filler M

Figure 4 : Utilisation de modèles poubelles dans un système de détection de mots-clés

En 1993, Boite et al. [BOI 93] proposèrent un modèle de mot poubelle dynamique afin de réduire le nombre de calculs à effectuer par rapport aux mots poubelles classiques. Les mots-clés étaient construits par enchaînement de phonèmes alors que le mot poubelle était composé par un état dynamique. Sa probabilité d'émission était la moyenne de celles des N meilleurs états à l'instant considéré, et il pouvait ainsi modéliser tout le vocabulaire, mais avec une qualité moindre que le modèle de mot clé. Citons également, la même année, la tentative de Rose et al. [ROS 93] pour la création d'un système de détection de mots-clés indépendant de la tâche. Le cœur du système était une utilisation des triphones et une réduction du nombre de classes d'apprentissage par arbre de décision. Le modèle poubelle était lui aussi construit par le biais de cet arbre de décision. Ils en firent un modèle plus général que les modèles de mots-clés en réduisant la profondeur de l'arbre.

En 1995, El Meliani et O'Shaughnessy [ELM 95] concrétisèrent le fait que la différence entre un mot-clé et un mot hors vocabulaire soit uniquement d'ordre lexical et non phonétique. Ils proposèrent donc de construire un modèle poubelle au niveau lexical plutôt qu'au niveau d'une modélisation phonétique par chaînes de Markov. Au final ils aboutirent à un système indépendant de la tâche utilisant un algorithme de type Viterbi en deux passes basé sur un arbre lexical et permettant à la fois une détection de mots-clés et une détection de nouveaux mots. L'un des intérêts majeurs de cette méthode est une modification simplifié des tâches de détection de mots-clés. En 2005, pour sa part, Silaghi [SIL 05] proposait un modèle poubelle explicite ré-estimé à chaque segment et basé sur la moyenne des probabilités d'observation acoustiques.

Malgré des résultats très encourageants, ces travaux montrent la difficulté d'apprendre les modèles poubelles ainsi que celle d'équilibrer les poids entre ces modèles et les mots à détecter. De plus, de tels systèmes sont très dépendants de la tâche demandée, et deviennent complexes lorsqu'il s'agit de relancer la détection sur des listes de mots-clés différentes.

(20)

En outre, comme exposé dans [SUN 97], les systèmes utilisant des modèles poubelle ne permettent pas de réduire à la fois le taux de rejet et le taux de fausses alarmes. En effet, pour qu'un mot-clé soit reconnu lorsqu'il apparaît dans un flux audio, il est nécessaire d'avoir la relation d'ordre probabiliste suivante :

) ( )

(Oi _i P Oi _g

P

λ

>

λ

1≤i≤M (1)

Où

λ

_i est le HMM du mot-clé i, Oi l'observation du mot-clé i, λ_g le HMM filler et M le nombre de mots-clés du vocabulaire. De plus, pour prévenir les fausses alarmes, on doit avoir : ) ( ) ( g _i g g O P O P λ > λ 1≤i≤M (2)

Où Og est une observation "poubelle". Or, comme l'ensemble des "non-mots-clés" est bien plus grand que l'ensemble des clés, les scores correspondants aux segments mots-clés et fillers pour le modèle poubelle sont comparables, c'est-à-dire :

) ( ) ( g _g g i O P O P λ ≈ λ 1≤i≤M (3)

En conséquence, on fait apparaître la relation suivante :

) ( ) ( ) ( ) (Oi _i P Oi _g P Og _g P Og _i P λ > λ ≈ λ > λ 1≤i≤M (4)

La première inégalité détermine le nombre de rejets alors que la seconde détermine le nombre de fausses alarmes. L'inégalité (4) montre quant à elle que les modèles poubelle ne peuvent pas réduire simultanément les taux de rejets et de fausses alarmes. En effet, si on tente de réduire ( i _i)

O

P

λ

de façon à obtenir un taux de rejet plus faible, cela réduirait également P(Og λ_g) ce qui aurait pour conséquence de faire accroître le taux de fausses alarmes. De la même manière, si on tente d'augmenter ( g _i)

O

P

λ

de façon à obtenir un taux de fausses alarmes plus faible, cela augmenterait également P(Oiλ_g) ce qui aurait pour conséquence d'accroître le taux de rejet. En conclusion, on ne pourra améliorer le système sur ces deux tableaux qu'en augmentant la séparation entre P(Oi

λ

_i) et P(Og

λ

_i), ce qui montre que les modèles poubelle ne sont peut être pas la solution idéale aux problèmes de détection de mots-clés.

Finalement, ces méthodes populaires grâce à la rapidité de développement de systèmes de détection de mots-clés basiques, s'avèrent finalement compliquées à rendre efficaces, voilà pourquoi sont menés d'autres travaux dans le but de s'affranchir des modèles poubelles.

(21)

Méthodes de détections de mots-clés s'affranchissant des modèles poubelles

Les algorithmes les plus courants pour la détection de mots-clés sans modélisation des non-mots-clés requièrent un relâchement des états d'entrée et de sortie de l'algorithme de Viterbi, ainsi qu'une normalisation temporelle, comme proposé dans [WIL 89] engendrant une programmation dynamique très complexe en termes de calculs et/ou d'espace mémoire.

Déjà évoquée ci-dessus, la méthode initiale de Bridle [BRI 73] permettait de détecter des mots dans un flux de parole grâce à un algorithme de DTW, ce dernier autorisant le relâchement des contraintes de points de départ et de fin de l'algorithme de Viterbi.

En 1991, Morgan et al. [MOR 91] utilisèrent des réseaux de neurones dans la détection de mots-clés, afin d'améliorer un système standard à base de DTW [MYE 81]. Les régions trouvées par la DTW comme étant susceptibles de contenir un mot-clé sont validées par un réseau de neurones. Pour cela, ils présentaient un vecteur de taille fixe correspondant à un segment à analyser en entrée du réseau, ce vecteur contenant les variations basse fréquence des coefficients acoustiques extraits tout au long du segment.

En 1992, Zeppenfeld et Waibel [ZEP 92] proposèrent une idée similaire pour combiner les méthodes classiques de programmation dynamique à un réseau de neurones à délai, ou Time Delay Neural Network. Un réseau de neurones modélisait chaque mot-clé, représenté par un nombre fixe d'états correspondant aux sorties du réseau utilisées dans l'algorithme de programmation dynamique pour la détection des mots-clés. Ce système fut amélioré dans [ZEP 93] par l'ajout des contextes gauches et droits les plus communs, en particulier pour les mots courts, afin de réduire les fausses alarmes.

En 1998, Bernardis et Bourlard [BER 98] ont montré, dans le cadre de systèmes hybrides HMM/ANN25, que l'utilisation de probabilités postérieures, comme celles obtenues en sortie de perceptrons multi-couches, normalisées par la longueur du mot-clé permettait d'obtenir des mesures de confiance et des scores jugés pertinents pour la ré-estimation d'hypothèses N-best. Ces résultats sont réutilisés par Silaghi et Bourlard [SIL 99] pour de la détection de mots-clés, associés à une version itérative de l'algorithme de Viterbi permettant de ne pas avoir à calculer toutes les paires d'entrées/sorties. D'autres moteurs de détection basés sur des algorithmes de Viterbi modifiés avaient été proposés auparavant par Junkawitsch [JUN 96] ou Sunil [SUN 97].

En 2003, Benayed [BEN 03] compare les performances obtenues d'un côté par un système basique utilisant des mixtures de gaussiennes comme modèles poubelles, et de l'autre côté par une approche alternative sans modélisation des mots hors vocabulaire mais utilisant à la place une grammaire basée sur une boucle de phonèmes. Il en conclut qu'un système sans modèle poubelle peut être aussi bon voire meilleur qu'un système en utilisant.

En 2007, Fernandez [FER 07] présente une nouvelle application des réseaux de neurones à la détection de mots-clés, discriminative, basées non pas sur l'utilisation des probabilités postérieures d'unités inférieures aux mots, mais sur un calcul sur un long segment temporel des probabilités postérieures au niveau mot.

25

(22)

Au-delà de l'utilisation des HMM et des réseaux de neurones, Lehtonen [LEH 05] cherche à détecter les mots-clés grâce à leurs "target sounds", ici les phonèmes, par le biais de la méthode TRAP-NN, déjà utilisée avec succès par Szöke [SZO 05]. Et Keshet [KES 07], quant à lui, affirme qu'une approche par SVM améliore les résultats comparés aux systèmes basés HMM.

Un cas particulier de ces méthodes s'affranchissant des modèles poubelles est la détection des mots-clés non plus directement dans le flux audio mais dans un flux ou treillis phonétique généré par décodage acoustico-phonétique. Ces méthodes seront détaillées dans la section 4.2.

Après avoir décrit les différents systèmes de détection de mots-clés existants, intéressons-nous aux techniques de recherche automatique de termes parlés dans des archives de documents parlés.

1.2.3. Recherche de termes parlés

La détection de termes parlés, ou STD pour Spoken Term Detection consiste, d'après le NIST, à trouver toutes les occurrences d'un terme de requête, aussi efficacement que possible, dans des sources audio hétérogènes. Un terme est défini comme une séquence de mots adjacents, la séquence pouvant être réduite à un seul mot.

L'architecture des systèmes de STD, illustrée par la Figure 5 est admise comme reposant sur deux phases :

- une phase d'indexation effectuée une fois pour toute, indépendamment des requêtes à venir. Cette étape doit être rapide et doit aboutir à un archivage relativement compact;

- une phase de recherche rapide autorisant n'importe quel terme de requête.

Documents parlés INDEX Transcription Indexation Phase d'indexation Requêtes Phase de recherche Dictionnaire phonétique Analyse des requêtes Recherche Résultats

(23)

Phase d'indexation

Cette étape consiste à traiter les documents audio pour générer un fichier d'index. Celui-ci est une représentation du document audio en unités (mot, graphème, syllabes, phonèmes) généralement associées à des marqueurs temporels et des indices de confiance. Les approches les plus courantes sont basées sur l'indexation de treillis de mots issus d'une reconnaissance vocale grand vocabulaire. Il existe également des méthodes issues de la détection de mots-clés, où on ne cherche pas à retranscrire la parole continue, ou encore des méthodes se basant sur une indexation en unités plus courtes que les mots, en particulier les phonèmes. Bien entendu, quelque soit la méthode, la qualité de l'index dépend de la qualité du moteur de transcription et en particulier du taux d'erreur par mots (ou WER : Word Error Rate).

Phase de recherche

Cette étape consiste à rechercher les termes d'une requête dans l'index préalablement construit. On peut distinguer deux types d'approches, la recherche exacte et la recherche approximative.

Dans le cas de la recherche exacte, on recherche l'apparition exacte du terme dans l'index. Pour cela, des algorithmes très efficaces de gestion de listes peuvent être utilisés, les réponses sont alors obtenues très rapidement. Cependant, seuls les termes indexés seront atteignables : en considérant une indexation par mots appartenant à un vocabulaire limité, aucun mot OOV ne pourra donc être détecté.

C'est en passant à une recherche approximative, que l'on pourra potentiellement retrouver des termes qui ne sont pas dans l'index. Pour cela, on définit généralement une "distance d'édition" entre les mots, ou toute autre unité décodé, et on calcule la distance entre les termes de l'index et ceux de la requête. Ce calcul supplémentaire peut entraîner un temps de réponse inacceptable pour une requête utilisateur. Dans certains cas, ces calculs peuvent être préprocessés lors des mises à jour de l'index afin de ne pas trop ralentir la recherche.

Détails de quelques systèmes existants

Concernant l'évaluation de cette tâche de détection de termes parlés, The NIST Speech Group's Spoken Term Detection (STD) Project est une campagne d'évaluation ouverte à tous dont le but est de rechercher les occurrences de termes parlés dans des archives audio vastes et hétérogènes. Une première campagne a eu lieu en 2006 [NIS 06] et doit se poursuivre en 2009. Les buts sont à la fois de comprendre les compromis technologiques, les compromis vitesse/précision mais également les problématiques liées aux langues traitées. La campagne s'appliquait à trois types de contenus audio : les conversations téléphoniques, les informations broadcast, et les meetings. Chaque contenu pour chaque langue couvrait environ une à trois heures d'audio, pour environ 1000 termes à rechercher par langue.

(24)

Les participants à l'évaluation STD NIST 2006 étaient:

- IBM (IBM - USA)

- IDIAP (Institut Dalle Molle d’Intelligence Artificielle Perceptive -Suisse) - OGI (Oregon Graduate Institute, School of Science & Technology -USA) - QUT (Queensland University of Technology - Australie)

- SRI (Stanford Research Institute International -USA)

- STBU (Stellenbosch & Brno University Collaboration -Afrique du Sud et République Tchèque)

- STELL (Stellenbosch University -Afrique du Sud) - TUB (Technischen Universit ¨ at Berlin - Allemagne) - BBN (BBN Technologies -USA)

- DOD (Department of Defense -USA)

Parmi cette dizaine de participants, sont arrivés en tête IBM, l'Oregon Graduate Institute, School of Science & Technology (OGI) et le Stanford Research Institute International (SRI).

Les approches les plus courantes sont basées sur l'indexation de treillis de mots issus d'une reconnaissance vocale grand vocabulaire. Un treillis de mots est une représentation compacte des hypothèses multiples émises pour une phrase parlée donnée. La probabilité postérieure d'un mot conditionné sur une phrase entière peut être calculée en utilisant un algorithme de réestimation "forward-backward". Cette probabilité postérieure, tout d'abord proposée comme mesure de confiance dans les moteurs de reconnaissance a ensuite été appliquée avec succès pour l'évaluation NIST STD 2006, par exemple dans les travaux de BBN Technologies ou d'IBM.

L'approche de BBN Technologies [MIL 06] est basée sur une génération d'un index par mot à partir d'un treillis de mots. De ce treillis, on ne stocke finalement que les hypothèses de mots, diminuant notablement la taille de stockage. Les requêtes de mots uniques et multiples sont autorisées selon des contraintes temporelles. Cette technique n'a été évaluée que sur des données de conversation téléphonique, et les auteurs considèrent que les données hors vocabulaire ne présentent pas, sur cette tâche, un problème fondamental. Concernant les travaux d'IBM [MAM 07], ils sont également basés sur une indexation par mot à partir d'un treillis de mots, mais un index phonétique est également généré à partir d'un décodage acoustique en fragments de mots. Ces fragments sont des séquences de phonèmes, de type syllabes, déterminées automatiquement par un calcul d'entropie sur les séquences phonétiques. Mots et phonèmes sont indexés, de façon à couvrir à la fois les mots du vocabulaire et les OOV. Pour ces derniers, les listes d'hypothèses pour chaque phonème de la requête sont recherchées puis croisées pour ne retenir que celles correspondant aux mêmes critères temporels. Les phonèmes pour la recherche des OOV sont également utilisés dans les travaux du STBU [SZO 06] qui combinent un système de reconnaissance vocale pour la recherche de termes présents dans le vocabulaire et des transcriptions phonétiques pour les termes OOV. L'index est créé à partir des treillis de mots d'un côté, en ne conservant que les unigrammes, tandis que les phonèmes sont indexés par trigrammes. Pour la recherche, un ensemble de détections est levé à partir de l'index inversé pour chaque terme "connu par le vocabulaire" de la requête en respectant les contraintes temporelles. Concernant les mots OOV, ils sont tout d'abord phonétisés puis convertis en séquences de trigrammes recherchées dans l'index. Les mots OOV contenant moins de trois phonèmes ne sont pas recherchés. Il

(25)

n'est pas ici question de gestion des erreurs phonétiques, seules les séquences phonétiques permises par les treillis étant analysées à l'état brut.

Finalement, les enseignements de cette évaluation sont un gain notable dû à une indexation à partir des N-meilleures solutions de la reconnaissance vocale plutôt qu'à partir de la seule meilleure. Il a également été montré que conserver la topologie des treillis de mots N-Best était dispensable, et que l'utilisation des phonèmes était recommandée pour la recherche de requêtes OOV. Outre les systèmes d'IBM et du STBU combinant recherche par mots et recherche phonétique, nous décrivons maintenant quelques systèmes principalement basés phonèmes.

Proposé lors de la campagne d'évaluation du NIST en 2006, le système du QUT [WAL 07] utilise un décodage phonétique et une recherche dynamique dans les treillis pour localiser rapidement les termes, combiné à une étape de vérification basée sur un réseau de neurones. L'indexation est effectuée sur des séquences de 11 phonèmes issues des treillis auxquelles sont adjointes une correspondance en classes phonétiques (voyelles, nasales, etc.). La recherche utilise ensuite ces informations afin de gérer l'une des trois erreurs habituelles de phonétisation : les substitutions par un algorithme de distance d'édition minimale. Le rôle du réseau de neurones est de fusionner différentes données telles que le nombre de phonèmes des termes ou le nombre de voyelles afin de normaliser le score de confiance.

En dehors des performances, les objectifs sont d'ordre taille d'index, temps d'indexation, et temps de recherche. Les systèmes basés treillis de mots requièrent un index large pour une recherche quasi-instantanée. D'un autre côté, l'utilisation de phonèmes inverse la situation en rendant les tâches d'indexation relativement rapide pour une recherche lente. Pinto [PIN 08] tente un compromis en utilisant le 1-best phonétique pour l'indexation et un modèle de prononciation probabiliste issu de la matrice de confusion phonétique associé à un modèle poubelle. Les résultats sont moins bons que l'état de l'art mais plus rapides et moins coûteux en mémoire.

Quelques travaux personnels…

La recherche de termes parlés dans des archives audio est un domaine que nous avons abordé au début de nos travaux qui ont été rapidement réorientés en direction de la détection de mots-clés. L'évaluation des systèmes développés n'ayant pas été suffisamment étoffés, ils ne seront pas présentés directement dans ce document. Les deux systèmes implémentés sont malgré tout consultables en annexe H et J. Nous décrivons ici brièvement le contexte de ces travaux.

La problématique de nos travaux se situe au niveau de la réalisation d'un moteur de STD basé sur les transcriptions phonétiques issues d'un décodeur acoustico-phonétique et permettant à l'utilisateur d'effectuer des recherches rapides, de l'ordre de quelques secondes au maximum. L'objectif initial de nos travaux était l'implémentation d'un système complet de recherche permettant effectuer des requêtes dans les flux audio de journaux télévisés. Ces fichiers audio, longs d'environ 30 minutes, correspondaient à des séquences d'environ 12K phonèmes. Le tout premier système-test implémenté était basé sur une recherche de type détection de mots-clés, et une interface graphique adaptée avait été implémentée. Cette dernière est présentée en Figure 6.

(26)

Figure 6 : Interface de recherche

Cette interface propose, outre une fenêtre de visualisation des fichiers multimedia traités, une barre permettant d'entrer manuellement des requêtes textuelles, lesquelles sont phonétisées en direct dans une seconde barre où des corrections manuelles sont ensuite tolérées. La fenêtre inférieure indique les résultats de la recherche triés par scores avec indications temporelles et phonétisation associée. Chaque résultat est cliquable et écoutable, voire visualisable dans le moniteur intégré en haut à droite.

Dans un souci d'évaluation propre et d'accélération des recherches, nous avons ensuite décidé de nous rapprocher des systèmes STD traditionnels. Dans cette optique, nous avons étudié la faisabilité d'un moteur de recherche de termes parlés basé sur des transcriptions phonétiques. La structure globale de notre système est donnée en Figure 7.

Figure 7 : Structure globale d'un système de Spoken Term Detection basée phonèmes

Documents parlés Requêtes textuelles Décodage acoustico-phonétique (offline) Transcription Texte Phonèmes Transcriptions phonétiques, découpage en groupes de souffle Requêtes phonétiques Moteur de Recherche de termes parlés Résultats

(27)

De façon à pouvoir éventuellement utiliser cette application dans le cadre d'une système de recherche documentaire audio, et surtout dans un souci de normalisation des données, les transcriptions phonétiques ont été converties en "documents". Ces documents sont fixés comme étant les groupes de souffle, c'est à dire les séquences phonétiques comprises entre deux silences, comme illustré par la Figure 8 qui décrit deux documents.

Figure 8 : Groupes de souffle

A titre indicatif, les systèmes développés mais non évalués sont décrits en annexes H et J. On y présente deux implémentations de moteur de STD différentes. Les difficultés concernant les choix de structure se situent principalement au niveau de la rapidité de recherche et de la recherche approximative. En annexe H, nous proposons un système basé sur une organisation des archives en arbre de suffixes, structure permettant des recherches rapides et une application relativement simple du calcul de distance phonétique. Un second principe est ensuite présenté en annexe J, inspiré par les travaux de Szöke [SZO 06] et de Moreau [MOR 05] et reposant sur une indexation des données par trigrammes phonétiques.

Après avoir exposé ces aspects de la recherche des termes parlés, intéressons-nous maintenant au dernier aspect de l'indexation automatique des documents parlés : la recherche documentaire audio.

1.2.4. Recherche documentaire audio

Parmi les campagnes d'évaluation des systèmes de recherche d'information, les TExt Retrieval Conferences, ou TREC, organisées par le NIST sont les plus connues; pionnières dans l'évaluation des systèmes SDR, les pistes TREC-6 à TREC-8 et leurs résultats sont des références depuis 1997.

Plus en détails, TREC-6, en tant qu'évaluation pionnière de moteurs de SDR, proposait une recherche de documents connus, c'est-à-dire que l'on considérait l'utilisateur comme ayant certaines connaissances a priori sur les données, celui-ci recherchant un document dont il avait déjà pris connaissance auparavant. L'objectif était donc de retrouver un document unique parmi une collection, non pas une liste de documents triés. La piste TREC-7 adressait quant à elle plus directement le problème en proposant une tâche de recherche ad-hoc, dont les résultats étaient une liste de documents pertinents. Enfin, la piste TREC-8 permit par la suite l'évaluation de ces moteurs ad-hoc sur de larges bases de données audio.

Ces évaluations ont prouvé [GAR 00] que malgré des transcriptions automatiques souvent bruitées par de nombreuses erreurs, les systèmes de recherche dans des documents

sil B ON J OU R sil EI B Y IN V EU N U sil "Bonjour, et bienvenue !"

Groupe de souffle n°1

Groupe de souffle n°2

(28)

parlés peuvent obtenir une efficacité très proche de celle de systèmes basés sur des transcriptions manuelles, et ce même avec des taux d'erreur par mots avoisinant les 40%. Ces performances non affectées par les erreurs de reconnaissance automatique s'expliquent par la répétition des mots, offrant assez de redondance pour que certaines de ces répétitions ne soient pas mal reconnues par le système. Les mots sémantiquement proches apportent également un soutien substantiel [ALL 01]. En conséquence, cette piste est considérée comme un succès au regard des performances obtenues, et le problème est considéré, pour les termes de l'évaluation proposée, comme résolu. Néanmoins, l'évaluation abordée par la campagne TREC, c'est-à-dire sur un corpus de données broadcast, est un scénario très favorable. En effet, les données test sont pour la plupart des textes lus par des locuteurs professionnels, avec très peu d'artefacts de la parole spontanée et un langage similaire au matériau écrit. Sur de telles données, les meilleurs systèmes de reconnaissance automatique atteignent des performances de l'ordre de 10% de taux d'erreur par mot. En outre, les requêtes proposées par TREC sont longues, environ 10 mots, et contiennent peu de mots hors-vocabulaire, mots qui ont un impact important sur les performances [WOO 00].

Intéressons-nous maintenant aux différentes techniques existantes. Une première méthode possible de SDR est l'utilisation d'un moteur de détection de mots-clés sur l'ensemble des documents en mémoire comme exposé dans le chapitre précédent. Notons par exemple les travaux préliminaires de Wechsler [WEC 95] ou encore ceux de James [JAM 94] proposant une approche basée sur des treillis de phonèmes au lieu d'une reconnaissance 1-Best. Cette technique s'avère peu optimale dans le sens où pour chaque requête il est nécessaire de relancer un processus fonctionnant dans les cas favorables en temps réel. Sachant que l'on souhaite pouvoir traiter quelques centaines d'heures de données tout en proposant des résultats rapides, cette solution est à proscrire. Il existe cependant dans la littérature plusieurs autres méthodes qui seront évoquées dans ce chapitre, au premier rang desquelles l'association d'une reconnaissance vocale grand vocabulaire à certaines techniques éprouvées d'indexation textuelle. Une autre approche, plus proche de nos travaux, propose d'utiliser des unités plus courtes comme termes d'indexation de façon à tolérer la recherche de mots hors vocabulaire.

Reconnaissance grand vocabulaire et indexation textuelle

Dans cette section sont exposées les techniques d'indexation textuelle les plus courantes permettant l'indexation de documents parlés transcrits en mots par une reconnaissance vocale grand vocabulaire. Il s'agit de systèmes prenant en entrée les transcriptions textuelles pour les organiser de façon à effectuer des recherches rapides et efficaces au sein de grandes bases de données, comme illustré par la Figure 9.

Le premier moteur de ce genre couplant une reconnaissance textuelle à une recherche textuelle a été proposé par l'Université de Cambridge en 1995 [JON 95] dans le cadre d'une recherche de messages vidéo. Ce système permettait de reconnaître 35 mots différents dans les messages vidéo, et ce quelque soit le locuteur. Dans sa thèse, Wechsler expose les résultats et l'évolution de tels systèmes jusqu'en 1998 [WEC 98a]. Ce type de système a été largement développé pour les évaluations de la campagne TREC. Parmi les participants, notons par exemple les travaux du LIMSI [GAU 99], ou ceux de l'Université de Cambridge [JOH 99], tous deux basés sur des moteurs de reconnaissance automatique de la parole et sur un système de recherche d'information très usité, Okapi [JON 97a].