Expansion étendue du contexte phonétique - DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE

DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE

3.7. Expansion étendue du contexte phonétique

Par la classification de mots en ensembles nommés et règles de logique, cette grammaire définit un univers de phrases autorisées et permet ainsi de valider ou d'interdire certaines séquences de mots.

Quelques exemples de phrases validées par cette grammaire : o Dial three three two six five four

o Phone Woodland o Call Steve Young

Quelques exemples de phrases interdites par cette grammaire : o Call Elvis Presley

o Dial Woodland

La classification des mots en ensembles nommés autorise une généralisation simple de la grammaire vers tout terme nouveau. En reprenant l'exemple précédent, il est simple d'ajouter un nouveau nom de famille à la liste, permettant de lui appliquer directement les règles prédéfinies.

Dans cette section, nous proposons d'appliquer ces grammaires à la détection de mots-clés dans des transcriptions phonétiques afin d'améliorer la précision dans le cas d'une détection exacte de mots-clés uniquement. Par cette méthode, on ne cherche pas à modéliser le langage dans son intégralité ni à proposer une solution de reconnaissance grand vocabulaire continue basée sur le flux phonétique, ce qui serait extrêmement complexe vue la complexité du langage - c'est d'ailleurs pourquoi les meilleures technologies sont basées sur des modèles de langage statistiques. Néanmoins, nous souhaitons pouvoir détecter les segments de parole les plus longs autorisés par une grammaire que nous aurons définie au préalable. Dans la suite, nous présentons tout d'abord le fonctionnement général d'un tel système en prenant comme base notre liste de 151 noms de pays, puis les évaluations effectuées.

Organisation et fonctionnement

Tout d'abord, la grammaire proprement dite est composée d'un ensemble de règles grammaticales constituées soit de classes grammaticales soit de mots. Pour nos évaluations, nous nous baserons encore une fois sur la liste de 151 noms de pays définie ci-dessus et instanciée dans une classe nommée PAYS. Cette classe est subdivisée selon trois critères influençant le contexte grammatical : le genre, le nombre et le type de son premier phonème, consonne ou voyelle.

# Ensembles nommés PAYS,M,S,C = Laos;

PAYS,S,V = Iran | Irak;

# Règles grammaticales

( Le PAYS,M,S,C | L' PAYS,S,V | En(n) PAYS,S,V ) Figure 54 : Exemple de grammaire sur les noms de pays

Dans l'exemple de grammaire donné en Figure 54, ces critères sont notés ainsi : M(asculin) ou F(éminin) pour le genre, S(ingulier) ou P(luriel) pour le nombre et C(onsonne) ou V(oyelle) pour le type du premier phonème.

Concrètement, une règle grammaticale est représentée par un vecteur d'ensemble de classes qui décrit la suite des classes autorisées. Cette grammaire est associée à un dictionnaire de prononciations multiples contenant en plus son ensemble de classes. Ces mots sont rangés dans un arbre de phonèmes dans lequel chaque nœud correspondant à une fin de mot est associé à une liste de mots et à leur correspondance en classe. Dans notre cas, l'arbre contient les 151 noms de pays, ainsi que tous les autres mots décrivant les règles. La Figure 55 présente l'arbre de phonèmes associé au dictionnaire associé à la grammaire de la Figure 54.

Figure 55 : Exemple d'arbre de mots compatible avec la grammaire.

Le moteur de détection de mots-clés basé grammaire fonctionne de la façon suivante : dès qu'un mot est détecté dans l'arbre, on réalise les 2 tests suivants :

o est-ce que ce mot peut démarrer l'une des règles grammaticales ? Si oui, alors une requête de règle est instanciée.

o est-ce que ce mot peut continuer une règle démarrée ? Si oui, alors une requête de règle est poursuivie.

Une "requête" de règle non terminée alors que le processus est en cours est supprimée.

A contrario, lorsqu'une règle est terminée on vérifie qu'elle ne chevauche pas une autre séquence validée et le cas échéant, on supprime celle qui est incluse dans l'autre. Un exemple de parcours de règles est détaillé en Figure 56, selon l'arbre de la Figure 55. On y suit les requêtes de règles effectuées sur un flux phonétique où a été prononcé le texte "J'irai en Iran". Au total, cinq mots et une règle sont instanciés, mais seule une règle de deux mots est validée : "En(n) PAYS,S,V" avec PAYS,S,V=Iran.

Irak PAYS,M,S,V

Iran PAYS,M,S,V A

I R A

K AN

L' EU

Le O

Laos PAYS,M,S,C

AN N

En(n)

FLUX PHONETIQUE J I R EI AN N I R AN

En(n) AN N

Irak I R I R

Iran I R I R AN

L' Laos Le

Règle validée Règle supprimée Début de règle "En (n) PAYS,S,V"

Figure 56 : Exemple de parcours de règles

Un paramètre est imposé lors de la détection : le nombre minimal de phonèmes pris en compte pour chaque requête, afin d'analyser l'impact d'une taille minimale de requête.

Lorsque l'on fixe un nombre minimal de phonèmes N, cela signifie qu'on ne conserve que les mots et règles grammaticales correspondant à des séquences phonétiques au moins de longueur N. Comme vu au paragraphe 1.6.3 et en particulier sur la Figure 49 qui présente le taux de fausses alarmes, rappelons qu'avec une valeur de N supérieure ou égale à huit phonèmes en fixant, on peut s'attendre à un taux de précision proche de 100%.

Evaluations

Grâce à des règles grammaticales instanciées sur un horizon phonétique large, nous pouvons étendre progressivement la longueur des requêtes de façon à constater une taille minimale permettant d'obtenir un taux de précision élevé. Pour l'évaluation d'un système de détection de mots-clés utilisant des requêtes enrichies de cette manière, deux grammaires et leurs dictionnaires associés ont été construits :

- une grammaire ORACLE, issue de l'extraction de tous les contextes au niveau mot présents dans les transcriptions propres du corpus de test ESTER; il s'agit donc d'une grammaire de référence, toutes les règles grammaticales à détecter dans les transcriptions propres y étant présentes. Elle contient une règle par occurrence de pays, c'est-à-dire 756 règles.

- une grammaire AUTO, construite automatiquement sur les données du corpus textuel d'entraînement ESTER. Elle contient 3170 règles.

Ces deux grammaires ont été bâties de la même manière. Tout d'abord, tous les noms de pays présents dans le corpus textuel considérés (transcriptions propres ESTER ou transcriptions du corpus d'entraînement ESTER) ont été remplacés par leur valeur de classe (Ex : Irak PAYS,M,S,V), puis toutes les séquences de cinq mots maximum avant et après l'une de ces classes PAYS ont été extraites. Ce contexte arbitraire de cinq mots maximum a été choisi de façon à pouvoir manipuler des contextes pouvant aboutir à des requêtes dont la longueur peut atteindre plus de dix phonèmes. Le Tableau 15 donne un exemple de détection du mot-clé "Irak" contextualisé par la règle grammaticale "La guerre en(n) Irak" et en imposant un seuil sur le nombre minimal de phonèmes variant de trois à dix. Notons de plus

que, dans un souci de cohérence du langage, les séquences de mots se limitent obligatoirement aux groupes de souffle, c'est-à-dire qu'un silence n'est jamais inclus entre deux mots d'une règle; par contre un silence peut apparaître comme premier ou dernier terme d'une séquence³¹.

NB MIN PHONEMES

SEQUENCE DE MOTS ACCEPTEE

SEQUENCE PHONETIQUE ASSOCIEE

3 Irak I R A K

4 Irak I R A K

5 en(n) Irak AN N | I R A K

6 en(n) Irak AN N | I R A K

7 guerre en(n) Irak G AI R | AN N | I R A K

8 guerre en(n) Irak G AI R | AN N | I R A K

9 guerre en(n) Irak G AI R | AN N | I R A K

10 La guerre en(n) Irak L A | G AI R | AN N | I R A K

Tableau 15 : Détection du mot-clé "Irak" selon la règle grammaticale "La guerre en Irak" et un nombre minimal de phonèmes variant de 3 à 10

L'évaluation à proprement dite consiste en l'application de ces deux grammaires sur le processus de détection exacte de mots-clés selon le fonctionnement exposé dans la section précédente. La grammaire ORACLE représente les limites hautes d'un tel système, du moins pour les transcriptions propres, tandis que la grammaire AUTO indique les résultats que l'on peut obtenir en conditions d'apprentissage automatique réelles. Les résultats sont calculés sur les transcriptions propres du corpus de test ESTER ainsi que sur les transcriptions bruitées.

Les courbes taux de rappel/taux de précision sont tracées en faisant varier le nombre de phonèmes minimal des séquences phonétiques contextualisées de trois à dix phonèmes.

La Figure 57 présente les résultats obtenus sur les transcriptions propres et bruitées.

Concernant les transcriptions propres, on y retrouve les valeurs des précédentes évaluations, c'est-à-dire un taux de rappel attendu de 100% et un taux de précision de 48.2% pour les deux grammaires, ce pour des requêtes d'au minimum 3 phonèmes. Le fait d'augmenter la taille minimale des séquences phonétiques se traduit par une baisse du taux de rappel et une hausse du taux de précision. Finalement, on atteint 100% de précision pour les deux grammaires pour une taille minimale de 8 phonèmes. Avec la grammaire calculée automatiquement, on obtient à ce niveau 41% de taux de rappel, alors qu'on atteint 72% dans le cas de la grammaire oracle.

Concernant les résultats obtenus sur les transcriptions bruitées, on y retrouve les performances obtenues précédemment pour des séquences phonétiques d'au minimum 3 phonèmes, c'est-à-dire 56.6% de rappel et 41.4% de précision. En augmentant le nombre de phonèmes, on constate la même évolution que sur les transcriptions propres : une baisse du taux de rappel combinée à une hausse du taux de précision. Pour une taille d'au minimum 8 phonèmes, on obtient 30% de rappel et 96% de précision grâce à la grammaire oracle et 20%

de rappel et 94% de précision dans le cas de la grammaire calculée automatiquement.

31 Lors de la phonétisation automatique d'un corpus de texte, les ponctuations de type points ou virgules sont retranscrites en silences.

Figure 57 : Evaluations BNF, précision/rappel en fonction de la taille minimale des séquences phonétiques

Notons que l'on s'attend à obtenir 100% de rappel quelque soit le nombre de phonèmes minimal dans le cas des transcriptions propres. La baisse du taux de rappel lorsque l'on augmente le nombre minimum de phonèmes provient principalement de la construction des règles limitées à l'intérieur des groupes de souffles. Aucun silence n'apparaît dans les séquences à détecter. Si le flux contient par exemple la séquence phonétique "sil I R AN sil", elle sera indétectable si le nombre minimum de phonèmes fixé est supérieur à cinq phonèmes.

Bilan

Dans cette partie, nous mettons en avant un système basé sur une recherche phonétique exacte avec une phonétisation des requêtes. Cette dernière est basée sur un dictionnaire enrichi et une expansion enrichie du contexte phonétique, notamment par le biais d'une grammaire de type BNF. Nous avons mis au point une technique réduisant le nombre de fausses alarmes pour notre système initial de détection de mots-clés, malgré une baisse importante du taux de rappel. En privilégiant un système robuste aboutissant à des résultats d'une précision élevée, nous avons mis au point un moteur complet de détection de mots-clés permettant de détecter correctement un mot sur trois avec une précision de l'ordre de 90% à condition d'étendre les requêtes phonétiques à une taille minimale de huit phonèmes. Ce système, n'effectuant que des parcours d'arbre exact, est très rapide et permet de gérer plusieurs dizaines de milliers de mots-clés. De plus, l'ajout de nouveaux mots-clés dont on connaît la classe grammaticale est aisé, sachant qu'il suffit de l'intégrer à sa classe pour qu'il soit intégré immédiatement et pris en compte par la grammaire. C'est un point très important car cela simplifie l'intégration de nouveaux mots-clés par rapport à une approche classique par modèles de langage statistique où le modèle doit être réappris pour chaque nouveau terme.

3.8. Description d'un système complet de détection de

Dans le document En vue de l'obtention du (Page 111-117)