• Aucun résultat trouvé

3.4 Modélisation des durées dans les modèles CRF

3.4.2 Transitions semi-markoviennes

Nous avons vu dans la section précédente qu'une fonction de transition markovienne conduit à un  score de transition  qui est une fonction exponentielle de la durée de chaque agrégat. Cette forme ne permet donc pas de favoriser une durée particulière pour un agrégat (à moins que cette durée ne soit égale à 1 trame). Pour pouvoir modéliser de façon plus souple les durées des étiquettes, d'autres types de structures ont été introduites, comme généralisations des MMC.

Pour une modélisation explicite des durées, ces structures introduisent une variable cachée supplémentaire, représentant la  position  à l'intérieur de l'état (l'agrégat dans notre cas) courant. Cette nouvelle variable d'occupation d'agrégat est notée D. Comme elle rend compte uniquement de la dimension temporelle, cette variable n'a pas d'inu- ence sur la fonction d'observation, mais seulement sur la fonction de transition. Diérents noms ont été donnés à ces types de modèles (MMC à durée explicite [Ferguson, 1980], MMC inhomogène [Ramesh et Wilpon, 1992], MMC à états développés [Cook et Russell,

1986]. . . ), suivant les transitions possibles entre les valeurs de la variables d'occupation. Nous les regroupons cependant sous l'appellation de modèles semi-markoviens [Yu,2010]. Une comparaison des diérentes structures couramment utilisées est menée par Johnson

[2005].

Pour une interprétation plus intuitive de la variable d'occupation, on peut représen- ter les transitions entre les diérentes valeurs possibles de cette variable à l'intérieur d'un même agrégat par un automate, comme illustré gure3.9. La structure de l'automate des occupations de chaque agrégat détermine alors la modélisation temporelle. Cependant, les contraintes temporelles résultant d'une structure arbitraire peuvent avoir une formulation très compliquée [Bonafonte et al.,1996] et être dicilement interprétables. Les deux topolo- gies présentées gure3.9, déjà étudiées par Russell et Cook[1987], permettent néanmoins d'exprimer des modèles de durée explicitement calculables.

Structure de type A : modèle temporel

La topologie de type A est exploitée dans la plupart des modèles probabilistes pour l'alignement audio-sur-partition, par exemple dans les travaux de Raphael [1999], Orio

[2002], Cont[2006] et Montecchio et Orio[2009]. Cette structure a en eet, l'avantage de pouvoir représenter des durées arbitrairement grandes avec relativement peu de  sous- étiquettes  d'occupation, grâce aux auto-transitions. De plus, dans le cadre des MMC, où la condition λ0+ λ1= 1 est vériée, seuls deux paramètres (la probabilité λ0 et le nombre

end

1 1

end

2 3

. . .

r 2 3

. . .

r λ0 λ1 λ0 λ1 λ0 λ1 λ0 λ1

Type A

Ferguson

λ0 2 λ3 λ1 λ 2 λr λ0 1 λ 0 3

Figure 3.9  Deux sous-structures courantes pour la modélisation des durées d'étiquettes. de sous-étiquettes r) contrôlent le modèle temporel associé.

Pour étudier les contraintes s'appliquant aux durées d'étiquettes dans un modèle de type semi-markovien, il est nécessaire de prendre en compte le critère de décodage choisi. En eet, si l'on décode conjointement toutes les variables du modèle, c'est-à-dire si l'on cherche à déterminer la séquence (ˆc1:N, ˆd1:N)dénie par :

(ˆc1:N, ˆd1:N) = arg max (C1:N,D1:N)

P (C1:N, D1:N|Y1:N), (3.34)

alors le score de transition correspondant à la durée l c'est-à-dire aecté a toute séquence telle que la longueur de l'agrégat considéré soit l est égal à λl−r

0 λr1, pour l ≥ r. Ce score

est une fonction dépendant de façon exponentielle de la durée. L'utilisation de la structure de type A avec ce critère de décodage ne présente donc pas vraiment d'intérêt puisque la seule diérence avec un modèle markovien est la contrainte que la durée de l'agrégat soit supérieure à r trames.

En revanche, si l'on marginalise les scores de transition associés à une durée l d'agrégat, on obtient alors l−1

r−1λ l−r

0 λr1, ce qui correspond à une loi de probabilité binomiale négative

dans le cas λ0+ λ1 = 1. Si le paramètre λ0 est inférieur à 1, ce score considéré comme une

fonction de l présente un maximum à la valeur l = br−1 1−λ0c.

Il est donc possible de favoriser cette durée grâce à la structure étudiée, en décodant uniquement les étiquettes de haut niveau (les agrégats), c'est-à-dire en marginalisant sur les variables d'occupation. La séquence optimale ˆc1:N cherchée est donc :

ˆ c1:N = arg max C1:N P (C1:N|Y1:N) = arg max C1:N X D1:N∈D P (C1:N, D1:N|Y1:N) (3.35)

où D est l'ensemble des séquences de variables d'observations possibles. Une stratégie de programmation dynamique permet de calculer ecacement cette séquence optimale [Cook et Russell,1986].

Structure de Ferguson

La structure précédente permet donc d'introduire des contraintes temporelles favorisant une durée précise. Cependant, cette contrainte est limitée à une forme binomiale négative. Pour palier à cette limitation, la topologie de Ferguson représentée gure 3.9 peut être utilisée, car elle permet l'expression d'un score arbitraire associé à la durée d'un agrégat. D'après la construction de l'automate correspondant, la valeur de la variable d'occupation est égale au nombre de trames écoulées depuis le début de l'agrégat courant.

Ferguson [1980] exploite cette propriété pour construire un MMC permettant la mod- élisation d'une forme quelconque de la loi de probabilité a priori de la durée Lcd'un état c

(sous réserve que le support de cette loi soit borné). On xe donc r à la plus grande valeur admissible, et les λl sont dénis par :

∀l ∈ {1, . . . , r}, λl(c) = P (Lc= l|Lc≥ l). (3.36) Les valeurs des λ0

l découlent alors de la contrainte de normalisation des probabilités de

transition.

Il est à noter que dans une sous-structure de ce type, il existe au plus un chemin de longueur l reliant l'état initial à l'état nal, quel que soit l. Il est donc équivalent de décoder conjointement toutes les variables ou de marginaliser les probabilités selon les variables d'occupation.

En pratique, au lieu d'utiliser les paramètres dénis en (3.36), on peut xer des valeurs dont l'interprétation est encore plus intuitive. En eet, comme le cadre CRF ne nécessite pas de normalisation des fonctions de transition, on peut poser :

∀l ∈ {1, . . . , r}, λ0l(c) = 1, (3.37)

λl(c) = ρ(l, c) (3.38)

où ρ est la fonction de score que l'on souhaite appliquer aux durées de l'agrégat. Cette forme peut être équivalente à la précédente en posant ρ(l, c) = P (Lc= l) où P désigne la

probabilité a priori du MMC. On a alors une formulation simple et intuitive des contraintes temporelles introduites.