• Aucun résultat trouvé

Introduction

Dans le document En vue de l'obtention du (Page 78-81)

DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE

3.1. Introduction

Comme développé dans le chapitre I, la reconnaissance automatique de la parole est un domaine qui suscite l'intérêt depuis de nombreuses années pour ses applications dans de nombreux domaines. Parmi les nombreux objets de recherche liés à ce domaine, la détection de mots-clés constitue une branche importante. Cette technique consiste à détecter dans un flux continu audionumérique certaines zones de la parole où des mots-clés ont été susceptibles d'avoir été prononcés. En 1997, Philippe Gélin [GEL 97] en liste quelques applications importantes telles que la reconnaissance de mots-clés appliquée à la téléphonie [WIL90], le tri des messages vocaux [ROS 91] ou encore la numérotation téléphonique dans les GSMs [NAK 93]. Dans ce chapitre, nous nous intéressons plus particulièrement à son application à l'indexation automatique de tout type de contenus audiovisuels : télévision "broadcastée", radio, contenus autoproduits, web, etc. Concrètement, nous étudions ici la faisabilité d'une détection de mots-clés à partir des transcriptions phonétiques issues de notre moteur de DAP décrit dans le chapitre précédent, comme illustré en Figure 31.

… sil J A K CH I R A K AI T AN N I R A K sil … DAP

Flux de phonèmes 1-Best

Chirac CH I R A K Irak I R A K France F R AN S

tn Chirac tn+1 Irak tn+9 Irak

Moteur de

détection

Mots-clés phonétisés Détections

Figure 31 : Détection de mots-clés sur flux phonétique

Avant toute chose, revenons un instant sur la reconnaissance de la parole continue à grand vocabulaire. Celle-ci consiste à reconnaître l'enchaînement le plus probable de mots correspondant à un signal de parole donné. De façon à reconnaître des phrases, les mots sont classiquement construits par concaténation de modèles acoustiques puis injectés dans des modèles de langage définissant l'univers grammatical du décodage. Plus précisément, ces mots sont issus d'un dictionnaire fini définissant de multiples prononciations pour chaque mot afin de prendre en compte les règles de prononciation régissant le langage telles que les liaisons, l'accent régional ou encore les diverses prononciations des noms étrangers. Les effets de coarticulation, c'est-à-dire la variabilité des réalisations des phonèmes en fonction du contexte phonétique et prosodique, sont pris en charge par l'utilisation de triphones dans les modèles acoustiques. Finalement, lors du décodage, le calcul du maximum de vraisemblance permet d'aligner au mieux, selon la modélisation acoustique et le modèle de langage, les mots du vocabulaire sur le signal de parole, en gérant automatiquement ces variantes de prononciations. Ces dernières sont prises en compte par une modélisation statistique des

paramètres acoustiques et par un décodage de type Viterbi qui détermine l'alignement optimal de la forme acoustique sur un modèle de Markov. En d'autres termes, cet alignement détermine le chemin qui conduit à la plus forte probabilité d'émission de la forme considérée.

Ainsi, même si le dictionnaire ne contient pas toutes les variantes phonétiques possibles, le système proposera l'alignement le plus proche car le modèle de langage compensera les probabilités acoustiques.

Dans notre cas, c'est-à-dire celui d'une détection de mots-clés sur un flux textuel phonétique, l'approche est plus contrainte et engendre des problèmes. En effet, en se focalisant uniquement sur les meilleures transcriptions issues de notre DAP, on fixe une seule hypothèse de séquence phonétique sur ce qui a été prononcé. Cette unique hypothèse est de surcroît bruitée par les erreurs inhérentes à notre système qui rappelons le, présente un taux d'erreur phonétique de l'ordre de 25% sur des contenus de type "radio broadcast". Pour détecter correctement un mot-clé dans ce flux phonétique, il faudra donc pallier à ces erreurs phonétiques. En effet, les insertions, substitutions et suppressions de phonèmes altèrent la transcription du flux, et il suffit qu'un phonème diffère entre une requête et la transcription pour empêcher la détection exacte d'un mot-clé. Dans le cas de nos travaux, la sortie phonétique est unique et la méthode statistique utilisée en reconnaissance de la parole continue à grand vocabulaire n'est plus applicable directement sur les unités acoustiques.

En dehors de ces erreurs de phonétisation, il faudra également pallier aux multiples variantes de prononciations dues en premier lieu à la coarticulation. Les triphones appliqués dans le cadre de la reconnaissance grand vocabulaire ne pouvant plus être utilisés directement pour gérer ces phénomènes, il faudra leur trouver une alternative adaptée. L'exemple de la Figure 32 met en évidence un décodage acoustico-phonétique faisant apparaître un phénomène de coarticulation lors de la prononciation du mot "absent". Il s'agit plus spécifiquement ici d'une assimilation de dévoisement dite "régressive" et due au phonème B se transformant en P. L'utilisation d'un triphone "A-B+S" contient intrinsèquement l'information du phonème P, ce qui n'est pas le cas dans notre approche et dans l'application recherchée. Les variations de prononciations, développées dans la section 3.5, peuvent altérer les performances en empêchant certaines détections.

Figure 32 : Exemple de phénomène de coarticulation apparu lors du décodage

Outre ces problèmes de non-détection, il faudra également gérer l'écueil classique des fausses alarmes. Une fausse alarme est une détection incorrecte d'un mot-clé correspondant à un segment de parole où ce mot-clé n'a pas été prononcé. Un exemple typique de fausse alarme est l'inclusion de la séquence phonétique "I R A K" dans le mot Chirac, ce qui engendre une zone ambiguë où le mot Irak sera détecté si aucune technique d'analyse du contexte (sémantique ou autre) n'est appliquée. La technique classique utilisée en

… être absent … Décodage

acoustico-phonétique

… AI T R A P S AN … Ce qui est prononcé :

Ce qui est décodé :

reconnaissance vocale grand vocabulaire pour lever ce type d'ambigüités est l'application de modèles de langage. Les mots du vocabulaire sont ainsi contextualisés sur un horizon de plusieurs mots, typiquement deux ou trois, ce qui permet de choisir la meilleure séquence de mots.

Au final, se posent deux types majeurs de problèmes relatifs à la détection de mots-clés dans des transcriptions phonétiques :

- les non-détections dues aux variantes de prononciations, aux phénomènes de coarticulation et aux erreurs de phonétisation, quantifiées taux de rappel;

- les fausses alarmes, en partie quantifiées par le calcul du taux de précision.

C'est à la gestion de ces deux problèmes que nous nous sommes plus particulièrement intéressés dans cette partie. Dans un premier temps, nous avons étudié le comportement d'un système de détection basique permettant de mettre concrètement en exergue ces problèmes.

Suite à cela, nous avons expérimenté d'une part une technique permettant de réduire le nombre de non-détections par distance phonétique, et d'autre part des méthodes d'élargissement des requêtes phonétiques dédiées à la réduction du nombre de fausses alarmes. Au vu des résultats obtenus, il a été finalement décidé d'intégrer certaines parties de nos travaux dans une plateforme de démonstration.

Ce chapitre s'articule donc autour du développement d'un moteur de détection de mots-clés basé sur le flux phonétique et est organisé comme suit : dans la section 3.2, nous décrivons l'état de l'art de la détection de mots-clés basée phonèmes; nous exposons en section 3.3 le contexte expérimental de nos travaux et en particulier la liste de mots-clés utilisée dans les évaluations; dans la section 3.4, nous présentons des méthodes dédiées au problème des non-détections alors que dans la section 3.5 nous définissons des méthodes d'enrichissement du dictionnaire par variations des prononciations; finalement, nous introduisons dans les sections 3.6 et 3.7 des techniques visant à réduire le nombre de fausses-alarmes par expansion du contexte phonétique, avant de conclure en section 3.8 sur le système concrètement implémenté dans la plateforme de démonstration d'Orange Labs dédiée à la recherche et à la navigation dans les contenus multimédias.

3.2. Etat de l'art de la détection de mots-clés basée

Dans le document En vue de l'obtention du (Page 78-81)