• Aucun résultat trouvé

3.3 Identification de sujets

3.3.2 Dragon System

La mise en commun des deux informations se révélait nécessaire car les modèles indépen-dants, quoique non optimaux pour la tâche envisagée, étaient suffisamment définis grâce à la grande taille de la base de données, tandis que les modèles dépendants de la tâches étaient construits à partir d’une base de données trop petite pour être fiable.

La détermination des et s’appuyait empiriquement sur les résultats de reconnaissance obtenus. Cette modification augmenta la probabilité de détection à 73% pour le modèle hybride alors qu’elle atteignait 44% pour le modèle indépendant et 68% pour le modèle dépen-dant.

Pour l’adaptation à un locuteur précis, ils modifièrent les moyennes et variances associées aux 128 probabilités gaussiennes.

Une première approche consistait à d’abord estimer les probabilités d’utilisation de chaque distribution gaussienne pour chaque état et chaque vecteur acoustique , à par-tir de la séquence phonétique de la base de données mono-locuteur. Ensuite, il suffisait de pon-dérer les nouveaux paramètres en tenant compte de ces probabilités. Par exemple, pour les moyennes, cela donnait :

Cette méthode permettait de passer à une probabilité de détection de 69% pour le modèle mixte alors qu’elle atteignait 65% pour le modèle indépendant du locuteur et 57,8% pour le modèle entraîné sur la base mono-locuteur.

3.3.2 Dragon System

La société “Dragon System” se pencha aussi, en 1993, sur le problème de l’indexation de sujets, mais en partant d’un système de reconnaissance de parole continue sur large vocabu-laire, [GILL93] [PESK93]. Cette approche lui permettait d’utiliser la séquence de mots obte-nue par le système de reconnaissance pour classer les phrases.

Leur but était de classer correctement 120 phrases de 4.5 minutes parmi 10 sujets d’actualité (“pollution”,”musique”,”délinquance”,...).

Chaque sujet, , possédait son propre modèle markovien, , construit à partir de mots clés représentatifs du sujet et d’un sous-modèle utilisé pour les autres mots. Pour la sélection des mots clés, ils choisirent 2 approches différentes.

La première reposait sur les hypothèse que chaque mot avait la même probabilité d’occurrence dans chaque sujet et que l’apparition de chacun de ces mots suivait une distribution binomiale.

Ensuite, ils effectuèrent le test de pour trier ces hypothèses en fonction de leur validité, et ils gardèrent les mots ayant le plus faible taux de validité. L’inconvénient de cette méthode était qu’elle conservait les mots de liaison (“the”,”of”,...) qu’ils enlevèrent manuellement.

La seconde méthode utilisait le même schéma, mais chaque mot était préalablement trié sui-vant sa fréquence d’apparition (“rare”,”moyenne”,”fréquente”) dans chaque phrase d’entraîne-ment. Ensuite, le test de était utilisé pour trier les mots suivant la validité de l’hypothèse que ces classes de fréquences étaient identiques pour chaque sujet.

Pour estimer le sujet associé à une séquence acoustique test, , les auteurs se basèrent sur le critère suivant :

.

Or, si l’on injecte les séquences de mots pouvant être générées par le modèle , on peut écrire :

.

Pour réduire la charge de calculs, ils firent alors successivement l’hypothèse que la somme pouvait être approximée par la meilleure séquence obtenue avec le modèle associé au sujet donné :

,

puis l’hypothèse que cette meilleure transcription pouvait être obtenue par un modèle générique :

,

et enfin l’hypothèse que l’émission des vecteurs acoustiques, connaissant la séquence de mots associée, était indépendante du sujet :

Si Mi

Les résultats obtenus étaient les suivants :

en utilisant tous les mots du vocabulaire pour générer les modèles, ils atteignaient un taux de 72% de bonne classification pour les 120 phrases;

lorsqu’ils utilisaient la première méthode de sélection des mots clés, ils obtenaient un taux de 67,5% avec 211 mots clés;

la deuxième méthode de sélection conduisit à des taux de 70% avec 203 mots clés et de 74% avec 4600 mots clés.

3.3.3 Ensigma

La société “Ensigma Ltd.” présenta en 1995 [CAR95], un système d’identification de sujets reposant sur l’utilisation de mots clés.

La génération de modèles de sous mots était basée sur l’emploi d’un arbre de décision utilisant des mesures de dissimilarité pour séparer les classes ayant la plus grande dispersion.

La construction des modèles représentant les mots clés utilisait les contextes gauche et droit de chaque mot clé pour obtenir une meilleure représentation. Chaque prononciation différente générait un modèle spécifique.

La détection de mots clés s’effectuait en regardant le cheminement dans le modèle de langage.

Ce dernier était construit à partir de modèles phonétiques simples, représentant les non mots clés et les modèles contextuels représentant les mots clés. La pondération des transitions entre modèles phonétiques simples permettait de faire varier le taux de détection vis-à-vis du taux de fausses alarmes.

Le système de sélection des sujets utilisait la métrique suivante : ,

où était le nombre d’occurrences du jème mot clé dans la phrase à classer, la pro-babilité, a priori, de détecter ce mot clé dans le mème sujet et la probabilité, a priori, de détecter ce mot clé dans les autres sujets.

Les tests étaient réalisés sur une base de données générée à partir des journaux parlés de la BBC contenant 15 heures de parole. Chaque sujet était composé de 10 mots clés choisis

arbi-P X M( i) = P W( max Mi)P X W( max)

Vm nj

P w( j Sm) P w( j Sm) ---log

j

=

nj P w( i Sm)

P w( i Sm)

trairement. Le taux de reconnaissance des modèles de sous mots était d’environ 30%, tandis que le taux moyen de reconnaissance de mots clés était de 46%.

Les détections correctes de sujet variaient comme indiqué à la figure 36.

Le bon comportement de la détection du sujet “météo” était dû à la fréquence d’occurrence élevée des mots clés sélectionnés pour ce sujet.

Documents relatifs