Expansion des requêtes par contexte phonétique

DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE

3.6. Taux de précision et expansion phonétique

3.6.3. Expansion des requêtes par contexte phonétique

Sur la Figure 49, on indique le pourcentage de fausses alarmes obtenu lors de la détection des 151 mots-clés en fonction de la taille des requêtes phonétiques.

0 10 20 30 40 50 60 70

3 4 5 6 7 >8

Nombre de phonèmes par requêtes

% de fausses alarmes

Figure 49 : Pourcentage de fausses alarmes en fonction de la taille des requêtes phonétiques

On y remarque que les requêtes très courtes, de trois à quatre phonèmes, génèrent près de 85% des fausses alarmes alors que les requêtes de plus de huit phonèmes n'en génèrent aucune. La longueur des séquences phonétiques à détecter joue donc un rôle très important dans la précision du système. Dans cette section, on propose d'étendre les requêtes phonétiques, et en particulier les plus courtes afin de réduire le nombre élevé de fausses alarmes, sans altérer le taux de rappel.

Concrètement, on s'intéresse à une approche uniquement phonétique basée sur l'agrégation de phonèmes aux extrémités des requêtes afin de désambigüiser en particulier les plus courtes. On propose d'extraire cette information d'un corpus de texte afin d'apprendre les contextes phonétiques fréquents. L'idée maîtresse est d'ajouter quelques phonèmes à droite et à gauche de la requête phonétique, les rendant de ce fait plus longues et plus discriminantes.

Tout d'abord, nous décrirons le corpus textuel duquel nous extrairons l'information, puis nous évoquerons les deux types d'utilisations suggérées.

Un corpus d'apprentissage pour l'expansion phonétique

Pour extraire les contextes phonétiques, nous proposons un corpus d'entraînement présentant en parallèle des phrases et leurs transcriptions phonétiques. Pour ce faire, une transcription phonétique automatique du corpus d'entraînement d'ESTER a été effectuée en construisant le dictionnaire de 65K mots correspondants et au total, environ 300K formes phonétiques différentes nécessaires à un alignement forcé. Finalement, ce corpus, que nous appellerons CXT_CORPUS dans la suite de ce document, met en parallèle 545K mots avec 1.6M de phonèmes. Un extrait en est donné en Figure 50.

Figure 50 : Extrait de CXT_CORPUS

Fonctionnement général

L'objectif principal de cette méthode est d'allonger les requêtes courtes de façon à réduire les nombreuses fausses alarmes générées par ces dernières. Pour cela, on cherche à agréger des phonèmes fréquents aux extrémités des séquences phonétiques courtes associées aux mots courts.

Pour cela, tous les contextes phonétiques gauche et droite existants pour une requête sont extraits du corpus textuel CXT_CORPUS, et ce dans la limite de N phonèmes de chaque côté avec N fixé au préalable. Une nouvelle requête phonétique plus longue peut ainsi être construite par agrégation des contextes gauche et droit et de la séquence phonétique courte initiale. Chaque nouvelle requête étendue est alors recherchée dans CXT_CORPUS afin de lever l'un des trois cas suivants :

Transcription par mots Transcription phonétique

[SILENCE] sil

Chirac CH I R A K

est AI T

en AN N

Irak I R A K

[SILENCE] sil

- la recherche de la requête étendue génère uniquement des fausses alarmes : dans ce cas, la requête étendue est considérée comme un élément négatif de la détection : nous nommons le contexte phonétique associé "anti-contexte". Un exemple d'anti-contexte apparaît dans le corpus présenté en Figure 50 : le phonème

"CH", en contexte gauche de la séquence "I R A K". En effet, la requête étendue par ce contexte, "CH I R A K" n'entraînera que des fausses alarme pour la détection du mot "Irak";

- la recherche de la requête étendue génère des détections correctes et aucune fausse alarme : dans ce cas, la requête est considérée comme un élément positif de la détection dont le contexte est nommé "pro-contexte". En reprenant le même exemple de la Figure 50, le phonème "N" en contexte gauche de la séquence "I R A K" permet une détection correcte du mot "Irak" et aucune fausse alarme;

- la recherche de la requête étendue entraîne à la fois détections correctes et fausses alarmes : ce troisième type de requête étendue n'est pas pris en compte car il ne permet de désambigüiser aucune situation, même si cela aurait pu être pondéré par le rapport détections correctes / fausses alarmes.

La Figure 51 récapitule les différentes étapes de construction de ces nouvelles requêtes phonétiques "étendues" ou "contextualisées".

Mot-clé

Phonétisation, prononciations multiples

Séquences phonétiques

CXT_CORPUS Recherche de contexte phonétique

Séquences phonétiques + contextes associés

Filtrage des

"pro-contextes"

Filtrage des

"anti-contextes"

Requêtes phonétiques étendues ne générant aucune

fausse alarme

Requêtes phonétiques étendues suffisantes ne générant que des fausses

alarmes

Ex : Irak

Ex : I R A K

Ex : AN N I R A K CH I R A K

L I R A K

Ex : AN N I R A K

L I R A K Ex : CH I R A K Dictionnaire

phonétique

Figure 51 : Construction des "pro-contextes" et "anti-contextes" à partir des mots-clés du corpus textuel CXT_CORPUS

On y mentionne tout d'abord la phonétisation des requêtes suivant la description de la section 3.5, puis la recherche des différents contextes existants à partir du corpus CXT_CORPUS et enfin les deux type de filtrages des contextes : "pro-contextes" et "anti-contextes". Dans la suite, nous détaillerons plus particulièrement les modules de recherche et de filtrage des contextes.

Recherche de contexte phonétique

Après avoir phonétisé les mots-clés à partir d'un dictionnaire phonétique et de CXT_CORPUS, la recherche de tous les contextes phonétiques relatifs aux séquences phonétiques présents dans CXT_CORPUS est effectuée. Pour cela, toutes les prononciations d'un mot-clé sont recherchées puis l'horizon est étendu autour des régions détectées afin d'en extraire les contextes gauche et droit.

En reprenant l'extrait de la Figure 50 et en fixant comme nombre maximal de phonèmes à droite et à gauche N=2, la recherche des contextes du mot "Irak" aboutit aux contextes suivants : sil CH I R A K AI T / AN N I R A K sil. Ces séquences phonétiques contextualisées sont ensuite filtrées selon deux catégories : les "pro-contextes" et les "anti-contextes".

Filtrage des "pro-contextes"

Ce premier filtre consiste à ajouter suffisamment de phonèmes à droite et/ou à gauche de la requête phonétique pour désambigüiser les détections. Ajouter un nombre trop important de phonèmes aura pour effet de trop spécialiser la requête étendue et altérer le taux de rappel.

En reprenant l'exemple de la Figure 50, il est suffisant d'ajouter un phonème "N"

comme contexte gauche de "I R A K" pour ne plus détecter le mot "Chirac".

Un algorithme de génération automatique de ces contextes a été développé et lancé sur CXT_CORPUS pour nos 151 noms de pays. Finalement, nous nous sommes aperçus que l'ajout de contexte, même court, engendrait une baisse non négligeable du taux de rappel, c'est pourquoi nous nous sommes limités à une expansion très simple : l'ajout d'un unique phonème

"N", "L" ou "D" devant chaque mot commençant par une voyelle, excepté les noms pluriels (Ex : Etats-Unis).

Filtrage des "anti-contextes"

Ce filtre prend le contre-pied du précédent en proposant d'étendre les requêtes phonétiques par des contextes phonétiques générant bien plus de fausses alarmes que de détections correctes. Ces challengers pourront alors être détectés parallèlement aux mots-clés initiaux pour empêcher certaines fausses alarmes.

En reprenant encore une fois l'exemple de la Figure 50, un contexte gauche "CH" pour la séquence "I R A K" sera toujours associé à la fausse alarme "Chirac".

Un algorithme de génération automatique de ces anti-contextes a été développé et lancé sur CXT_CORPUS pour identifier tous les contextes ne générant que des fausses alarmes pour nos 151 noms de pays. Un nombre maximal de deux phonèmes à droite et à gauche à été fixé. Au final, pour chaque mot-clé est construite une liste de challengers qui seront recherchés en parallèle de façon à filtrer et supprimer les zones où ces challengers sont plus favorablement détectés que la requête elle-même. Cette liste est consultable en annexe G.

Evaluations

L'influence de ces deux types d'expansion sur les performances de détection est présentée ici en termes de rappel et précision. Les résultats de ces évaluations sont présentés sur les transcriptions propres et sur les transcriptions bruitées du corpus de test ESTER. Sur la Figure 52 sont exposées les performances comparées du système référence utilisant le dictionnaire basique, et des deux systèmes utilisant les dictionnaires enrichis, l'un par les "pro-contextes", ProCxtExp, et l'autre par les "anti-"pro-contextes", AntiCxtExp.

La Figure 52 montre que dans les deux cas le taux de rappel reste stable quelque soit l'expansion proposée alors que la précision est notablement augmentée. Concernant les transcriptions propres, la précision augmente de 9 points grâce à l'expansion par "pro-contexte", et près de 13 points pour l'expansion par "anti-contexte". Sur les transcriptions bruitées, la précision est augmentée de 3 points dans le cas de l'expansion par "pro-contextes"

et d'environ 11 points pour l'expansion par "anti-contextes".

Transcriptions propres

0 10 20 30 40 50 60 70 80 90 100

Référence ProCxtExp AntiCxtExp

Rappel Precision

Transcriptions bruitées

0 10 20 30 40 50 60 70 80 90 100

Référence CxtExp AntiCxtExp

Rappel Precision

Figure 52 : Influence de l'expansion sur les transcriptions propres et bruitées

Notons pour terminer que la coopération entre ces deux dictionnaires aboutit à des résultats très proches de ceux obtenus pour l'expansion par "anti-contextes". L'analyse des détections indique que cette expansion permet d'éviter la plupart des fausses-alarmes gérées par l'expansion par "pro-contextes". Le dictionnaire des "anti-contextes" donnant en outre les meilleures performances, nous supposons donc qu'il est inutile de faire coopérer ces deux dictionnaires.

Bilan

Dans cette partie, nous avons présenté une méthode permettant d'augmenter le taux de précision d'une détection de mots-clés. Il s'agit d'étendre automatiquement les requêtes phonétiques, et en particulier les plus courtes, en extrayant des contextes d'un corpus textuel phonétisé sur un horizon très court. Deux types d'expansion ont été proposés : le premier permet d'enrichir les requêtes de façon à les rendre plus robustes alors que le second permet de filtrer des contextes engendrant principalement des fausses alarmes.

D'après les évaluations, ces expansions courtes du contexte phonétique apportent un gain significatif au niveau du taux de précision, et ce sans affecter le taux de rappel. En conditions réelles, ces améliorations augmentent, dans le meilleur des cas, le taux de précision de plus de 10 points.

Les tests d'expansion ont été effectués sur des contextes courts de façon à ne pas trop affecter le taux de rappel. Néanmoins, au vu des résultats, cette contextualisation courte n'est pas suffisante pour valider un système robuste aux fausses alarmes. Le taux de précision reste faible, aux alentours de 50%, et il est donc nécessaire d'opter pour d'autres stratégies, notamment afin d'étendre la taille des requêtes à huit phonèmes et plus, ce qui semble une longueur judicieuse d'après la Figure 49. En outre, l'apprentissage requis pour chaque nouveau mot-clé renvoie aux problèmes de complexité évoqués pour les calculs de modèles de langage, et c'est un écueil que l'on souhaite éviter. Dans la suite, nous nous intéresserons donc à l'impact d'une expansion phonétique plus large et permettant des mises à jour du dictionnaire rapide et peu complexe.

Dans le document En vue de l'obtention du (Page 105-111)