Les contraintes de l’indexation

Nouvelles Requêtes

4.1 Les contraintes de l’indexation

La détection de mots clés ne représente qu’un outil parmi d’autres pour réaliser l’indexation de documents multimédia. Comparé aux outils cités préalablement, il offre l’avantage de rester applicable dans de multiples configurations pour autant qu’il soit indépendant du locuteur, indépendant du vocabulaire et d’utilisation rapide.

4.1.1 Indépendance vis-à-vis du locuteur

Il va sans dire que dans le cadre d’une indexation de bande vidéo, l’utilisation d’un système multilocuteur s’impose.

On pourrait cependant imaginer, dans le cas de journaux télévisés par exemple, que certains locuteurs (les présentateurs réguliers) induisent un entraînement spécifique du système de reconnaissance, de façon à augmenter les taux de reconnaissance, qui sont bien sur plus faibles dans le cas multilocuteur que dans le cas monolocuteur. Cette dernière remarque doit cepen-dant être nuancée par le fait que l’on possède généralement moins de données d’apprentissage pour des personnes particulières, que de données issues de locuteurs quelconques (voir à ce sujet la discussion sur le travail de E. M. Hofstetter et R. C. Rose [HOFS92]).

4.1.2 Indépendance du contenu lexical du signal à indexer

Si l’on désire que l’outil d’indexation puisse être appliqué sur des tâches les plus diverses pos-sible et non sur des tâches précises contenant un vocabulaire restreint, nous devons élaborer un détecteur de mot clé pouvant fonctionner sur le plus grand vocabulaire possible.

Dans ce cas, deux solutions existantes sont envisageables.

La première consiste à utiliser un détecteur de mots clés dont les modèles associés aux mots clés concourent contre les modèles de poubelles. Effectivement, dans ce cas, le système est indépendant du vocabulaire utilisé et ne dépend que des mots clés recherchés.

La seconde solution consiste à utiliser un reconnaisseur de parole continue travaillant sur de grand vocabulaire. De grandes améliorations ont étés apportées sur ces systèmes qui obtien-nent maintenant de bons résultats, même pour des vocabulaires de plusieurs dizaines de mil-liers de mots. De plus, on voit arriver depuis quelques années des systèmes à grand vocabulaire pouvant gérer les mots hors vocabulaire (“Out Of Vocabulary words”,”O.O.V.”). Dans le cas ou un tel mot est présent, il est simplement classé en tant que mot hors vocabulaire. Dans le cas de

reconnaissance de parole continue, vus la taille du vocabulaire, il n’est plus envisageable de travailler en modèle de mots, et on est obliger d’utiliser des modèles plus courts comme les modèles de triphones, de diphones ou de phonèmes. Le choix entre les différents modèles repose le plus souvent sur la taille de la base de données d’apprentissage et sur la complexité du système que l’on peut mettre en oeuvre.

4.1.3 Connaissance du mot clé à rechercher au moment même de la requête.

Dans le problème d’indexation, on peut différencier trois étapes importantes : La premier con-siste à l’entraînement du modèle de parole qui sera utilisé lors de la reconnaissance, la seconde est le moment ou l’on réceptionne le signal de parole et la dernière étape est celle où on lance la requête d’indexation proprement dite.

D’autre part, nous sommes informés du mot clé à rechercher à des moments divers. Soit au moment de l’entraînement, soit au moment ou on rentre en possession de la bande sonore, soit au moment même de la requête. En fonction de ces trois cas, les solutions envisageables sont différentes.

Si nous connaissons le mot clé avant l’entraînement, nous pouvons utilisé un modèle de mot spécifique à ce mot clé, pour autant que nous ayons en notre possession un nombre suffisant d’occurrence pour entraîner ce mot. Dans ce cas, la détection standard par mot clé concourant avec des mots poubelles est suffisant. Nous pouvons également envisager un reconnaisseur de parole continue dont le vocabulaire contient le mot clé recherché.

Si nous ne connaissons pas le mot clé avant l’entraînement mais lorsque nous possédons la bande sonore et avant la requête, nous pouvons toujours effectuer la recherche au préalable, mais nous devons nous baser sur une description du mot clé en terme d’unités plus petites que le mot et qui peuvent ainsi être entraîné indépendamment du mot clé. Il est clair que cette con-trainte nous conduira dans le cas de détecteur de mots clé à des résultats plus faible, mais nous acceptons ce prix contre la flexibilité offerte. Dans le cas de la reconnaissance de parole conti-nue, il suffit d’ajouter dans le vocabulaire du langage, la transcription phonétique représentant le nouveau mot recherché. Cette modification de grammaire peut être rapide, et la qualité des résultats ne se trouvent pas modifiée.

Maintenant, si nous ne connaissons le mot clé qu’au moment même de la requête, nous ne pou-vons pas nous permettre de relancer la reconnaissance de parole continue, qui est un processus long si l’on désire une bonne qualité. De même, la détection de mots clés demande un effort de calcul non négligeable qui implique une durée de traitement importante.

Pour conserver un outil capable d’indexer rapidement dès que l’on a choisi le mots clés, il est nécessaire de séparer la tâche d’indexation en deux parties. La première partie doit effectuer le

réception de la bande sonore. La deuxième partie est effectuée dès que l’on connaît le mot clé, et doit indexer le signal sonore en conséquence et le plus rapidement possible.

4.1.4 Solution

Nous nous sommes donc attachés à la création d’un système d’indexation rapide, indépendant du locuteur et de la tâche. Ce système est basé sur la recherche de mots clés inconnus avant la requête de l’utilisateur, en considérant que l’on disposait du signal sonore préalablement à la requête.

Pour atteindre ce but, la seule possibilité était de travailler à l’aide de modèles inférieurs aux mots, et de séparer la tâche en deux parties : la première consistait à pré-traiter le signal de parole, et la seconde, au moment de la requête, consistait à rechercher le mot clé sur le signal pré-traité.

Pour rejeter le maximum de calcul dans le pré-traitement, nous avons décidé de générer lors de ce pré-traitement un treillis d’hypothèse phonétique qui est utiliser lors de la requête pour trou-ver la séquence acoustique du mot clé désiré.

Nous avons développé trois méthodes différentes, caractérisées par la modélisation du signal et du langage utilisé :

• La première méthode consiste à analyser le signal de parole trame par trame.

• La seconde utilise un approche markovienne.

• La troisième utilise une approche basée sur l’algorithme REMAP.

Dans le document Détection des mots-clés dans un flux de parole : application à l'indexation de documents multimédia (Page 116-119)