DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE

Conclusion et apport des travaux

Dans le contexte de l'indexation automatique des documents parlés, nous avons étudié la faisabilité d'applications de détection et de recherche de mots-clés sur les meilleures transcriptions du signal de parole en phonèmes.

Les techniques existantes, majoritairement basées sur de la reconnaissance grand vocabulaire, offrent de très bons résultats sur des données propres, mais sont encore loin de pouvoir manipuler avec autant de succès du discours spontané et les contenus CGU. Avec un système de détection de mots-clés dans un flux de phonèmes, on propose une méthode simple, rapide et robuste aux fausses alarmes grâce à un enrichissement des séquences phonétiques à détecter. Un intérêt majeur de cette méthode est l'utilisation de grammaires permettant l'ajout rapide de nouveaux mots au dictionnaire de détection, évitant l'apprentissage lourd généralement inhérent aux modèles de langage classiques.

Dans cette thèse, nous proposons dans un premier temps une architecture de décodage acoustico-phonétique construite selon une modélisation statistique standard de l'acoustique par modèles de Markov cachés. Les systèmes implémentés permettent de mettre en évidence l'intérêt d'injecter l'information syllabique dans la modélisation acoustique, ainsi que dans la modélisation du langage. Grâce à cet apport, on obtient des taux d'erreur phonétique oscillant entre 20 et 25% sur le corpus de test ESTER. S'il n'atteint pas la limite basse de nos systèmes avec ses 23.19% de taux d'erreur phonétique, l'un de ces systèmes se démarque plus particulièrement des autres : il se caractérise par une complexité réduite obtenue par le biais de nouvelles unités dites "transitoires", permettant une construction de modèles syllabiques avec un nombre minimum d'états. Ce système a été choisi comme décodeur de référence pour la suite de nos travaux.

Suite à l'implémentation de ce moteur, une étude a été menée concernant la possibilité de détecter des mots-clés dans ces meilleures transcriptions phonétiques. Différents écueils ont été mis en évidence : tout d'abord un taux de rappel altéré par des erreurs de phonétisation et de nombreuses variantes de prononciations, et un faible taux de précision principalement dû à certaines requêtes phonétiques trop courtes et peu discriminantes. Plus précisément, le taux de rappel obtenu sans gestion de ces problèmes est de 55.2% et le taux de précision associé d'environ 41.4%.

Nous nous sommes intéressés à l'augmentation du taux de rappel pour une détection de mots-clés dans un flux phonétique grâce à l'application d'un algorithme de distance phonétique. Il en résulte une hausse du taux de rappel, près de 30 points supplémentaires, mais au prix d'une augmentation importante du nombre de fausses alarmes. Ce flou trop important rendant notre système inutilisable, nous avons finalement préféré nous affranchir de ce calcul de distance. Après avoir proposé un enrichissement du dictionnaire par prononciations multiples permettant entre autre la gestion des effets de coarticulation, nous avons développé quelques techniques d'augmentation du taux de précision. Deux méthodes ont été évaluées : l'expansion de contextes phonétiques et l'application de grammaires. La première, limitée à des contextes courts, permet d'obtenir un gain substantiel sans altérer le taux de rappel mais le taux de précision obtenu n'est pas suffisant pour un système efficace. La seconde, étendue à des contextes larges, a quant à elle montré qu'il était envisageable de détecter un mot sur trois, et ce avec une précision d'environ 90% à condition d'étendre les requêtes à un minimum de huit phonèmes. Le système actuel implémenté dans une plateforme

de démonstration d'Orange Labs suit ce principe et permet la détection efficace de 26K mots sur un flux audio en temps réel.

Une application dédiée à la recherche de termes parlés dans des archives de transcriptions phonétiques a également été conçue au cours de nos travaux, mais n'apparaît pas dans ce document autrement qu'en annexes. En effet, même si les méthodes de gestion du calcul de distance phonétique sont intéressantes, les développements et évaluations ont été jugées insuffisants pour en faire un chapitre à part entière. En annexe, on retrouve donc deux implémentations, l'une basée sur une organisation des données en arbre de suffixes généralisés et l'autre sur une indexation par trigrammes phonétiques.

En conclusion, cette thèse peut être appréhendée comme une tentative de mise en place d'un système complet d'indexation audio basé phonèmes. D'un point de vue applicatif, elle couvre les différents aspects du domaine, en mettant en exergue les difficultés relatives à une telle approche, ainsi que quelques pistes de travail. Ces pistes sont un enrichissement de l'existant, en particulier au regard des propositions d'expansion du contexte phonétique et de la gestion des erreurs phonétiques dans la détection et la recherche.

Les avantages de l'approche considérée sont nombreux. Tout d'abord, il s'agit d'un système scindé en deux modules distincts, l'un de décodage, l'autre de détection, ce qui en fait un processus simple et modulaire. Chaque module peut être évalué indépendamment, et l'amélioration de l'un influera sur le système complet. Concernant le décodage acoustique, se limiter à une reconnaissance des phonèmes guidée par un modèle de langage syllabique nous affranchit de l'apprentissage complexe d'un modèle de langage au niveau mot. On aboutit donc à un moteur de reconnaissance plus simple et plus rapide. Ce décodage phonétique effectué une fois pour toute, cela permet de relancer autant que souhaité de nouveaux dictionnaires sans avoir à refaire une analyse complète du flux audio. Ensuite, en se concentrant uniquement sur des détections de séquences phonétiques "exactes" dans le flux phonétique, la structure arborescente proposée pour modéliser la liste de mots-clés permet un processus de détection très rapide et quasi-indépendant du nombre de mots-clés. La complexité de détection est renvoyée au nombre de règles grammaticales instanciées pour l'augmentation du taux de précision. De plus, ces règles, utilisées pour enrichir les séquences phonétiques à détecter, permettent d'obtenir un taux de précision supérieur à 90% rendant ce système robuste en termes de filtrage des fausses alarmes. Enfin, ces règles grammaticales basées sur des classes de mots permettent de mettre à jour rapidement le dictionnaire de mots- clés, évitant ainsi des réapprentissages intempestifs comme c'est le cas pour les modèles de langage N-gram classiques.

Malgré l'efficacité constatée d'un tel système, des inconvénients majeurs sont à noter. En effet, dans l'état actuel des implémentations, la détection de mots-clés est encore contrainte par une gestion complexe des prononciations multiples et des erreurs phonétiques. Le taux de rappel pour un point de fonctionnement à 90% de précision est uniquement d'un mot sur trois sur des contenus de type ESTER. On peut donc s'attendre à un faible taux de rappel sur des contenus plus difficiles. Ces résultats s'expliquent tout d'abord par une transcription phonétique pas suffisamment robuste, malgré ses 25% de taux d'erreur. Ensuite, les techniques de détection proposées n'ont pas la souplesse des modélisations statistiques pour pallier ces erreurs.

Ajoutons pour terminer que ces travaux nécessiteraient des comparaisons supplémentaires avec des systèmes standards tels qu'une indexation par mot basé sur un moteur de reconnaissance grand vocabulaire ou encore sur un moteur hybride mots/phonèmes. De tels systèmes réclamant de longs développements, il était difficile de les insérer dans le temps imparti.

Perspectives

Des perspectives propres à chaque sujet abordé dans cette thèse peuvent être envisagées. Dans un premier temps, les pistes de recherche concernant le décodage acoustico- phonétique sont nombreuses. Outre le fait d'enrichir les apprentissages par un élargissement des corpus d'entraînement, acoustique et de langage, il serait intéressant d'approfondir davantage l'impact de syllabations différentes et des modèles de langage associés. Un autre point est l'application de modèles trigrammes voire quadrigrammes sur les modèles syllabiques, permettant théoriquement une hausse significative du taux de reconnaissance. Cela apporterait des informations acoustiques supplémentaires utiles dans la correction des erreurs phonétiques. Pour terminer, une piste de reconnaissance des phonèmes par quantification vectorielle avait été un temps envisagée, pour aboutir à une accélération significative de la reconnaissance.

Concernant la détection de mots-clés, il serait important de généraliser les règles de grammaires avec un apprentissage sur un corpus plus important. Ensuite, il faudrait inclure de façon optimale la détection approximative à l'expansion phonétique par BNF afin de prendre en compte les non-détections en particulier des mots-longs. Pour ce faire, il est envisageable d'améliorer les méthodes de courts-circuits exposés en partie 3.4, ou bien d'appliquer les algorithmes de détection sur des treillis phonétiques ou syllabiques N-Best au lieu des simples transcriptions 1-Best, en s'inspirant des travaux de James et Young [JAM 94]. Dans un même ordre d'idée, le calcul de distance phonétique pourrait également être amélioré par la création d'une matrice de confusion prenant en compte les contextes triphones. Cela permettrait notamment d'indiquer clairement la similarité de certains triphones, à l'exemple de "A-V+G" et "A-F+G".

Une autre piste de recherche concerne les travaux sur les améliorations potentielles pour un meilleur taux de précision. Parmi les points suggérés en section 3.6.2, on s'intéresserait notamment à la thématisation, c'est-à-dire étudier la possibilité de contextualiser les requêtes avec d'autres termes proches sémantiquement pour lever les ambigüités, en se basant sur les travaux de [ROS 05].

De façon à valider clairement notre système complet, il serait également nécessaire de mettre en place une procédure d'évaluation à grande échelle et en conditions réelles sur des contenus difficiles de type UGC.

Pour finir, dans le cadre d'un système différent où un décodage par mots serait utilisé en lieu et place du décodage phonétique, il serait également intéressant d'intégrer la validation par BNF sur des treillis de mots. Ceci pourrait être étudié aussi bien pour une application de reconnaissance grand vocabulaire que pour de la détection de mots-clés.

Dans le document Décodage acoustico-phonétique et applications à l'indexation audio automatique (Page 123-127)