• Aucun résultat trouvé

Méthodes Proba. Locales 1 occ 2 occ 3 occ 4 occ 5 occ 6 occ 7occ Moy

5.2.6 Association à d’autres outils d’indexation

Comme nous l’avons signalé au début de cette thèse, cet outil d’indexation quoique viable en tant que tel, gagnerait beaucoup à être intégré dans un système global reprenant l’ensemble des outils d’indexation : Reconnaissance de locuteur, reconnaissance de caractères, suivit d’objet, détecteur de visage, etc.

Ces dernières sections donnerons, nous l’espérons, des directions possible à un travail futur qui permettrait d’améliorer les résultats obtenus jusqu’à présent.

‘Eh bien indexez maintenant...

Dans cette annexe sont reproduites la preuve de convergence, vers un maximum local de la vraisemblance et l’estimation des paramètres con-duisant à cette optimisation.

Elle est reproduite ici pour facilité le lecteur dans la comparaison des preuves de convergences des algorithmes de Baum-Welch et REMAP.

, et l’estimation des paramètres conduisant à cette optimisation.

En considérant un modèle, comme la concaténation de tous les modèles et la séquence acoustique correspondant à la concaténation de toutes les séquences acoustiques

, le problème se résume à

(EQ 89)

La preuve de convergence est basée sur l’utilisation de la fonction auxiliaire de Baum, définie par :

(EQ 90)

où est un chemin dans M pouvant être associé à la séquence . La première partie de la démonstration consiste à prouver :

(EQ 91)

La seconde partie consiste à calculer les paramètres maximisant P X( E,i ME,i,Λ)

i

maxΛ

M ME,i

X XE,i

P X M( ,Λ) maxΛ

F(Λ′ Λ, ) P X( ,γ M,Λ′)log(P X( ,γ M,Λ))

γ Γ

=

γ X

F(Λ′ Λ, )≥F(Λ′ Λ′, )⇒P X M( ,Λ)≥P X M( ,Λ′)

λi∈Λ (Λ′ Λ,

. Montrons rapidement la concavité de cette fonction et énonçons cette inégalité.

A.2.1 Concavité de “x log(ax)”

Montrons que la dérivée seconde est toujours positive, .

A.2.2 Inégalité de Jensen Enoncé.

Soit la fonction : convexe

Soit une variable aléatoire telle que et Alors,

.

Cette relation est stricte si est strictement convexe et que n’est pas concentrée en un point.

Le même raisonnement peut être tenu pour concave, et dans ce cas, on a :

Preuve.

Le développement de en série de Taylor autour du point peut s’écrire :

où est un point quelconque entre et . xlog( )αx

x>0

( )

x d

d xlog( )αx = log( )αx +1

x2

2

d

d xlog( )αx 1 x

---=

g Ω ℜ∈ M→ℜ

X E[ X ] ∞< P X( ∈Ω) = 1

g E X( [ ])≥E g X[ ( )]

g X

g

g E X( [ ])≤E g X[ ( )]

g x( ) µ = E X[ ]

g x( ) g( )µ g'( )µ (x–µ) g''( )ξ (x–ξ)2 ---2

+ +

=

ξ x µ

En prenant les espérances, on trouve :

, ce qui montre l’inégalité.

A.2.3 Utilité de la fonction auxiliaire

Montrons que si un nouvel ensemble de paramètres, , entraîne un accroissement de la fonc-tion auxiliaire, alors la probabilité condifonc-tionnelle s’en trouvera également augmentée.

Dans le cas d’un tel ensemble, , on a :

Or, la probabilité sur un chemin donné est inférieure ou égale à celle sur tous les chemins : .

On peut donc minorer chaque produit :

et sachant que , la somme est donc également minorée.

Donc

Or, , et ainsi :

. Compte tenu du domaine positif de , on a :

Et finalement :

0 P X( ,γi M,Λ′)

γ Γ

 

 

P X( ,γ M,Λ′)

γ Γ

P X M( ,Λ)

--- 

 

 

 

 

log

P X M( ,Λ′) P X M( ,Λ′) P X M( ,Λ)

--- 

 

log

P X M( ,Λ′)≥0

0 P X M( ,Λ′) P X M( ,Λ)

--- 

 

log

logx

1 P X M( ,Λ′) P X M( ,Λ)

---≥

P X M( ,Λ)≥P X M( ,Λ′)

.

A.3.1 Définition des paramètres

Les paramètres sont de deux types : ceux définissant les probabilités d’émission et ceux définissant les probabilités de transition.

Pour les probabilités de transitions, le modèle markovien permet de les définir directement, et on les notera :

avec les contraintes suivantes :

. (EQ 92)

Pour les probabilités d’émission, on considérera ici chaque état associé à une densité de proba-bilité gaussienne d’ordre N où la matrice de covariance est supposée diagonale :

. (EQ 93)

Dès lors, les paramètres des probabilités d’émission seront les et ,

et .

A.3.2 Optimisation

On utilise les multiplicateurs de Lagrange, , pour insérer les contraintes (EQ 92) dans la maxi-misation de et la nouvelle relation à maximiser est définie par :

F(Λ′ Λ, )

λi

λtr i k(, ) = P q( kt qit1) ∀t P q( k qi-)

=

λtr i k(, )

k= 1

K = 1 i = 1, , K

p x q( k) 1 σk n,---e

xnµk n,

( )2

2σk n2, ---–

n= 1

N

=

µk n, σk n,n = 1, ,… N

k = 1, ,… K

lι F(Λ′ Λ, )

paramètres :

(EQ 95)

(EQ 96)

(EQ 97)

A.3.3 Estimation des paramètres de transition

Pour les probabilités de transition, on a successivement :

(EQ 98)

Si l’on note , on a :

(EQ 99)

Or, si on note par , tout chemin passant par et ,

la probabilité associée à ce chemin peut se décomposer en :

.

Sa dérivée s’exprime directement par :

Pour tous les chemins, on peut écrire;

,

(EQ 101)

peut donc s’exprimer en fonction du lagrangien et vaut :

(EQ 102)

En sommant sur pour exprimer les contraintes, on a :

.

, (EQ 106)

où , signifie employé en .

En notant tous les chemins, passant par ,

où le dernier état de sera noté , et le premier état de sera noté , le logarithme de peut être développé en :

et sa dérivée conduit directement à :

en se basant sur l’équation (EQ 93), on trouve directement : µk n,

Et en injectant cette dernière équation dans (EQ 105), en tenant compte de (EQ 106), on a :

On en déduit aisément :

(EQ 107)

A.3.5 Estimation des variances Un schéma identique, mène à

(EQ 108)

Si l’on remarque que :

µk nt,

Dans cette annexe sont repris la preuve de convergence vers un maximum local de la probabilité globale a posteriori et l’estimation des paramètres conduisant à cette optimisation.

Cette preuve de convergence est issue des travaux de H. Bourlard, Y.

Konig et N. Morgan, [BOU95].

Elle est reproduite ici pour facilité le lecteur dans la comparaison des preuves de convergences des algorithmes de Baum-Welch et REMAP.

, et l’estimation des paramètres conduisant à cette optimisation.

En considérant un modèle comme la concaténation de tous les modèles et la séquence acoustique correspondant à la concaténation de toutes les séquences acoustiques

, le problème se résume directement à

. (EQ 109)

Le schéma utilisé est identique à celui de l’annexe A.

La preuve de convergence est basée sur l’utilisation de la fonction auxiliaire définie par :

, (EQ 110)

où peut être réduit à l’ensemble des chemins de M pouvant être associés à la séquence . La première partie de la démonstration consiste à prouver :

(EQ 111)

La seconde partie consiste à montrer que la nouvelle estimation de par :

(EQ 112)

maximise .

La troisième partie montre que le réseau de neurones peut être utilisé pour estimer correcte-ment les probabilités de transition conditionnelles.

P M( E,i XE,i,Λ)

i

maxΛ

M ME,i

X XE,i

P M X( ,Λ) maxΛ

F(Λ′ Λ, ) 1 P M X( ,Λ′)

--- P(γ,M X,Λ′)log(P(γ,M X,Λ))

γ Γ

=

Γ X

F(Λ′ Λ, )≥F(Λ′ Λ′, )⇒P M X( ,Λ)≥P M X( ,Λ′)

P q( it xt,qkt1, ,M Λ) P q( it xt,qkt1, ,M Λ) = P q( it X q, kt1, ,M Λ′)

F(Λ′ Λ, )

Montrons que si un nouvel ensemble de paramètres entraîne un accroissement de la fonction auxiliaire, alors la probabilité a posteriori s’en trouvera également augmentée.

,

. (EQ 113)

Dans le cas d’un tel ensemble on a :

La probabilité étant positive, on a directement :

(EQ 114)

Or, la probabilité sur un chemin donné est inférieure ou égale à celle sur tous les chemins : .

On peut donc minorer chaque produit :

.

Sachant que , la somme de l’équation (EQ 114) est également minorée, et on a :

Or, , et on a ainsi :

. Compte tenu du domaine positif de , on a également :

, et finalement :

0 P(γ,M X,Λ′)

γ Γ

 

 

P(γ,M X,Λ′)

γ Γ

P M X( ,Λ)

--- 

 

 

 

 

log

P M X( ,Λ′) P M X( ,Λ′) P M X( ,Λ)

--- 

 .

log

P M X( ,Λ′)≥0

0 P M X( ,Λ′) P M X( ,Λ)

--- 

 

log

logx

1 P M X( ,Λ′) P M X( ,Λ)

---≥

P M X( ,Λ)≥P M X( ,Λ′)

Documents relatifs