• Aucun résultat trouvé

Nouvelles Requêtes

4.2 Indexation par étiquetage de trames

4.2.3 Génération du treillis

Pour chacune des trois méthodes précédentes nous pouvons estimer la probabilité, à chaque instant, d’être en présence d’une prononciation du phonème , connaissant le vecteur acousti-que émis à cet instant, . Cette probabilité, , n’est rien d’autre que la probabilité a posteriori qui peut être estimée, soit directement par la méthode neuronale, soit en passant par la loi de Bayes pour les deux autres méthodes. Ces probabilités fluctuent au cours du temps. Il existe des zones dans lesquelles ces probabilités sont particulièrement élevées (supérieures à la moyenne) et il est fort probable que ces zones correspondent à l’émission d’un phonème. Ces zones, une fois repérées, sont appelées hypothèses. Elles sont définies par les bornes délimitant ces zones, par la probabilité qui leur est associée ainsi que le phonème supposé émis.

4.2.3.1 Intégration temporelle

Lorsque l’on considère, pour un même phonème, l’évolution de la probabilité a posteriori au cours du temps, on remarque de fortes variations entre les valeurs de trames suc-cessives. Ces variations sont principalement dues au fait que l’on n’a pas tenu compte de la durée des phonèmes lors de la construction de cette courbe. Ceci met en évidence une diffé-rence majeure avec l’approche markovienne qui modélise, bon gré mal gré, la durée des pho-nèmes. Pour atténuer cet effet, nous filtrons ces courbes de probabilité suivant une fréquence de coupure dépendant de la durée moyenne de chaque phonème. Pour ce faire, nous effectuons une intégration temporelle des valeurs contenues dans un intervalle de longueur égale à la durée moyenne du phonème :

, (EQ 64)

où représente la durée moyenne du phonème .

En effectuant un tel traitement, nous réduisons fortement les pics erratiques pour les phonèmes de durée moyenne élevée, tout en conservant la possibilité de détecter les phonèmes de courte durée. Ce filtrage offre en outre l’avantage de faciliter la détection des bornes de début et de fin de phonème.

Pour illustrer l’efficacité de cette méthode, nous traçons ici les probabilités non filtrées et fil-trées issues des 50 premiers vecteurs acoustiques de la base de données pour l’approche multi-gaussienne.

En comparant les deux approches de la figure 38 , il est aisé de constater que les probabilités associées aux phonèmes “longs” sont effectivement moins sensibles aux différences entre deux vecteurs acoustiques successifs. Nous pouvons également remarquer que les probabilités asso-ciées aux phonèmes “courts” conservent un temps de réponse court. Observons par exemple le comportement du premier silence (“h#” entre la première et la 15ème trame) et du “t” aux environs de la 22ème trame.

0 5 10 15 20 25 30 35 40 45 50

4.2.3.2 Niveau multiple d’hypothèses

Comme on peut le constater sur les dernières figures, il n’est pas aisé de déterminer le début et la fin des hypothèses, ni de déterminer les transitions entre deux phonèmes successifs, surtout dans le cas d’une transition entre un phonème court et un long. Pour permettre plus de flexibi-lité vis-à-vis de la transition entre deux hypothèses, nous générons celles-ci à l’aide de diffé-rents seuils.

Pour un seuil donné et pour chaque phonème , nous pouvons détecter les zones où la courbe passe au dessus de ce seuil.

Si l’on dénote par un segment où la probabilité est supérieure au seuil, la probabilité que l’on soit en présence de la prononciation d’un phonème alors que la séquence de vecteurs acoustiques a été émise s’écrit . En utilisant la lois de Bayes, on peut développer cette probabilité sous la forme :

(EQ 65)

En faisant l’hypothèse que les vecteurs acoustiques sont indépendants : ,

Nous pouvons développer (EQ 65) en :

FIGURE 39. Génération multiple d’hypothèses.

temps

Et en appliquant de nouveau la lois de Bayes sur chaque facteur, nous avons :

,

qui se réduit finalement à :

(EQ 66)

Cette dernière relation a pour avantage d’offrir des valeurs peu sensibles à la longueur du seg-ment, et peut donc être utilisée pour comparer des segments de différentes longueurs. Cette probabilité est notée lorsque qu’aucune confusion n’est possible.

L’hypothèse générée par la détection d’un tel segment se compose donc de l’indice de la trame délimitant le début de l’hypothèse , l’indice de la trame délimitant la fin de l’hypothèse , le phonème associé , et la probabilité que le segment ait été émis lors de la prononciation du phonème . Nous notons cette hypothèse :

.

Nous notons, par ailleurs, , la probabilité associée à l’hypothèse , et , le pho-nème associé à l’hypothèse .

En appliquant cette méthode de détection d’hypothèses pour différents seuils et pour chaque phonème, on récolte un ensemble d’hypothèses qui, une fois triées suivant un ordre croissant de leur trame initiale, , constituent un treillis d’hypothèses avec , le nombre d’hypothèses générées. Ce nombre d’hypothèses peut être contrôlé en modifiant la valeur des seuils.

Ce treillis contient finalement toute l’information nécessaire à l’extraction future de mots clés.

Il sera conservé jusqu’à son utilisation pour la recherche de mots clés.

Dans le tableau ci-dessous, nous affichons le contenu des hypothèses générées dans les 50 pre-mières trames, dans le cas de l’utilisation de modèle monogaussien.

b e P b e P

pcl 0 6 0.449 jh 28 30 0.143

h# 0 19 0.186 t 29 31 0.113

pau 3 10 0.051 k 29 32 0.115

epi 4 6 0.110 ey 32 44 0.195

pcl 5 16 0.506 iy 33 37 0.086

kcl 8 10 0.236 ae 34 44 0.119

s 13 21 0.148 ih 35 44 0.102

z 14 19 0.112 eh 36 42 0.100

t 14 18 0.189 hv 39 45 0.136

sh 15 22 0.104 dh 43 45 0.172

ch 15 23 0.235 th 43 47 0.105

jh 17 21 0.150 pcl 43 47 0.08

hh 20 23 0.082 z 44 51 0.155

t 20 23 0.301 s 44 52 0.244

y 21 30 0.368 tcl 45 47 0.116

iy 22 30 0.187 t 48 51 0.189

hv 24 36 0.193 ch 48 51 0.135

hh 27 33 0.115 jh 49 51 0.108

TABLEAU 8.Extrait de treillis.

ϕ ϕ

Documents relatifs