Clustering incrémental de signaux audio

(1)

HAL Id: hal-01196455

https://hal.inria.fr/hal-01196455

Submitted on 9 Sep 2015

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Maxime Sirbu

To cite this version:

(2)

Partitionnement incrémental

de signaux audio

Maxime S

IRBU

encadré par

Arshia C

ONT

– MuTant, Ircam

Mathieu L

AGRANGE

– Irccyn

Mars – Juillet 2015

Master ATIAM

(3)

(4)

Ce rapport de stage vise à l’étude de méthodes de partitionnement incrémentales, principalement appliquées à des signaux audio. Nous détaillons tous d’abord les algo-rithmes de partitionnement classiques de la littérature, ainsi que les bases théoriques permettant d’y aboutir. Puis nous présentons des méthodes étendant ces algorithmes de partitionnement au calcul en ligne. Nous utilisons pour cela les hmm, qui sont une modélisation classique de données et états latents en traitement du signal. Nous utili-sons aussi les hsmm, qui sont une extension des hmm, permettant une représentation semi-markovienne des états cachés. Ces algorithmes sont présentés dans le cadre de la segmentation audio – visant à séparer un fichier en fragments homogènes – et de la classification – visant à identifier les différents fragments – pouvant être appliquées à la détection d’événements sonores. On proposera aussi un protocole d’évaluation pour ces méthodes, afin de comparer leurs performances par rapport à une autre méthode de l’état de l’art en leur faisant effectuer les mêmes tâches.

Abstract

This report aims to study different methods of online clustering, mainly applied to audio signals. We will first detail the state-of-the art algorithms for clustering, as well as the theory behind them. Then we will extend this methods to incremental clustering, and present different online algorithms. These algorithms are based on the hidden markov models, which are classic art representations of data and hidden states in signal processing, and hidden semi-markov models, which extend them to a semi-markov representation of the states. We present this within the context of audio segmentation – the task of segmenting audio sources in homogenous chunks – and classification – the task of identifying these chunks – applied to audio event detection. We will also set an experimental protocol, with a view to evaluate them and compare the result to a state-of-the art algorithm for the same task.

Mots-clés : partitionnement, segmentation audio, apprentissage statistique, apprentissage in-crémental, modèle semi-markovien caché, détection d’événements audio

(5)

Abréviations

tfct – Transformée de Fourier à Court Terme mfcc – Mel-Frequency Cepstrum Coefficients

kl – Kullblack-Leibler is – Itakura-Saito

em – Espérance-Maximisation em – Espérance-Maximisation hmm – Hidden Markov Models hsmm – Hidden Semi Markov Models

ebr – Event to Background power Ratio v.a. – variable aléatoire

i.i.d. – indépendantes et identiquement distribuées

Notations mathématiques

ˆ

x – Transformée de fourier dex v, M – Un vecteur, une matrice

MT – Transposé de M

h·, ·i – Produit scalaire P(·) – Probabilité E[·] – Espérance p(·) – Densité de probabilité A – Un ensemble |·| – Cardinal ¯ A – Fermeture de l’ensemble A

(6)

Introduction 1

I Modélisation et partitionnement hors-ligne 3

I-1 Divergences de Bregman . . . 3

I-2 Partitionnement « Dur » . . . 5

I-3 Familles exponentielle et divergence de Bregman . . . 8

I-4 Modèle de mélange et partitionnement . . . 12

I-5 Modèles de Markov Caché . . . 16

I-6 Modèles semi-markoviens cachés . . . 20

II Partitionnement incrémental 27 II-1 Algorithme en ligne, modèle de mélange . . . 27

II-2 HMM en ligne . . . 29

II-3 HSMM en ligne . . . 31

II-4 Algorithme incrémental, modèle de mélange . . . 36

II-5 HMM incrémental . . . 37

II-6 HSMM incrémental . . . 39

III Résultats expérimentaux 43 III-1 Segmentation de données synthétiques . . . 43

III-2 Segmentation d’un signal audio . . . 48

III-3 Évaluation des algorithmes . . . 52

III-4 Résultats . . . 55

Conclusion 62

Bibliographie 65

Annexe 67

A Distributions de durées utilisées 68

B Résultats expérimentaux : valeurs numériques 70

(7)

(8)

Le partitionnement, ou clustering en anglais, est une tâche classique en apprentissage statis-tique. Ce terme regroupe des méthodes permettant de séparer un ensemble de données en différents groupes homogènes et dont les éléments présentent une certaine similarité – tout cela de manière non supervisée. En traitement du signal appliqué au son, ces méthodes peuvent servir à la classification de signaux audio (reconnaissance de phonème, classification de genres musicaux,...).

De plus, ces méthodes peuvent aussi servir à la segmentation de signaux audio. Cette tâche consiste en la séparation d’un signal d’entrée en blocs contigus, de sorte que deux blocs adjacents présentent des contenus audio que l’on jugerait différents à l’écoute. Chaque bloc correspondra alors en général au son émis par une certaine source (e.g. note jouée par un instrument à une certaine hauteur, bruit percussif,...), cela peut servir, notamment pour les outils de transcription automatique de note, ou à la détection d’événements sonores particuliers.

Certaines méthodes de segmentation audio n’utilisent cependant pas les méthodes de partition-nement, mais se basent sur la détection de changements abrupts dans le contenu audio, ou change detection (Dessein et al.2013_{; Tzanetakis et al.}1999). Si ces méthodes segmentent bien le signal en différents segments, elles ne permettent cependant pas de détecter les similarités entre blocs non contigus. Il faut alors les calculer après la segmentation, en utilisant des outils tels que des matrices de similarité. On peut cependant citer Cont et al. (2011_{) et Lostanlen (}2013), qui proposent une méthode de segmentation permettant de calculer une mesure de similarité entre segments, basée sur la géométrie de l’information. Ces méthodes sont supervisées dans la plupart des cas : le bon fonc-tionnement des algorithmes implique donc une connaissance a priori du signal audio. Cela se fait en utilisant une base de données d’apprentissage, ce qui implique que les performances des algorithmes dépendent fortement de l’apprentissage, et cela en fait des méthodes peu robustes à la détection d’événements nouveaux. Cependant elles peuvent être en général utilisées en ligne : l’algorithme considère les données au fur et à mesure que celles-ci sont disponibles, et non pas l’ensemble des données en tant que lot (ou batch). Cela présente un avantage certain pour des applications en temps réel.

Nous proposons ici d’utiliser au contraire des méthodes de partitionnement plus classiques pour la segmentation de signaux audio, permettant de segmenter et classifier les blocs dans un même processus. Ces méthodes présentent l’avantage d’être non supervisées. Nous utiliserons pour cela les modèles cachés semi-markoviens (hsmm), qui sont une extension des modèles cachés markoviens classiques (hmm) (Guédon2003_{; Yu} 2010). Cependant ces modèles opèrent classiquement de ma-nière hors-ligne, nous utilisons alors des extensions des algorithmes pour le calcul en ligne, introduit par (Bietti2014). Ceux-ci proposent un calcul des valeurs d’intérêt de manière récursive, amenant la possibilité d’une mise à jour de ces valeurs à partir des données à l’instant du calcul. On parle alors aussi d’algorithme d’apprentissage incrémental.

Le partitionnement audio incrémental présente un intérêt majeur, en effet il ouvre la voie à des applications temps réel. On peut par exemple citer le logiciel de suivi de partition Antescofo. Celui-ci se base actuellement sur des modèles (template) pour chaque note et accord observés. Les méthodes proposées pourraient permettre un apprentissage plus robuste, et étendre la détection à des événements sonores non stationnaires.

Dans lechapitre I, nous présenterons les méthodes de classification et partitionnement classiques, appliquées dans le cas de l’audio. Nous introduirons aussi le concept de divergences de Bregman,

(9)

per-mettant d’utiliser de nombreuses mesures de similarités différentes pour les algorithmes (Banerjee, Guo et al.2004).

Dans le chapitre II, nous présenterons des algrothimes étendant les méthodes hors-ligne à un calcul en ligne du partitionnement. Plus précisément nous introduirons les travaux de Bietti et al. (2015_{), proposant des algorithmes en ligne pour hsmm, basés sur Cappé et Moulines (}2009) et Neal et al. (1998).

Les algorithmes présentés feront l’objet d’une évaluation dans le chapitre III. Nous introduirons l’implémentation de ces méthodes, ainsi que quelques résultats succincts sur des exemples simples. Nous évaluerons aussi les algorithmes en utilisant des métriques appropriées, en comparant les ré-sultats obtenus à des valeurs de références de l’état de l’art.

Ce travail de stage a été l’occasion de mettre en application les résultats théoriques obtenus par Bietti, stagiaire dans l’équipe MuTant de l’Ircam en 2014, et ayant proposé les algorithmes en ligne pour hsmm présentés dans ce rapport. Tout d’abord en travaillant sur l’implémentation des algorithmes, puis en les évaluant sur des jeux de données de l’état de l’art. Plus précisément, les principales contributions ont été :

— Remaniement formel des méthodes, notamment pour l’apprentissage des durées de séquences du modèle hsmm (voir section I-6.4).

— Travail sur l’implémentation des méthodes de partitionnement, hors-ligne et en ligne à l’aide du language python et du cadriciel de calcul scientifique numpy/scipy. L’ensemble des mé-thodes présentées ont été developpées en reprenant le code de Bietti. Les algorithmes déjà implémentés ont été revus et corrigés, et leur performances améliorées.

— Mise en place d’un protocole et d’un cadre d’évaluation des algorithmes, en utilisant les mêmes métriques qu’une référence concurrente afin de comparer les performances des mé-thodes proposées face à des résultats préexistants. Analyse des différents résultats obtenus.

(10)

Modélisation et partitionnement

hors-ligne

Le partitionnement de signaux est un problème très fréquent en traitement du signal et en apprentissage statistique. De nombreux modèles et algorithmes ont été mis en œuvre pour le résoudre dans de nombreux contextes différents.

Nous nous appuyons ici tout d’abord sur le modèle proposé par Banerjee, Merugu et al. qui utilise les divergences de Bregman(Banerjee, Merugu et al. 2005). Celui-ci énonce deux al-gorithmes pour résoudre ce problème, en utilisant les divergences de Bregman : l’algorithme des k-moyennes, et l’algorithme Espérance-Maximisation appliqué aux modèles de mélange. Nous mon-trerons ensuite comment utiliser les modèles de markov cachés (hmm), offrant une modélisation plus performante de signaux, et nous introduirons enfin les modèles semi-markoviens cachés (Guédon

2003_{; Yu}2010)

1. Divergences de Bregman

1. Mesures de similarité

Les algorithmes de clustering sont utilisés pour effectuer des tâches de classification ou de segmen-tation. Dans tous les cas, ils ont pour but la séparation d’atomes en différents groupes homogènes. Pour ce faire on doit utiliser une mesure de similarité afin de comparer les atomes deux à deux. Si l’on cherche à partitionner des éléments appartenant à un espace Rd, d _{∈ N}∗, une mesure de similarité triviale est la distance euclidienne :d(x, y) =_{kx − yk}2

Cependant, le fait d’utiliser la distance euclidienne comme mesure de similarité implique un espace à géométrie euclidienne, ce qui n’est pas le cas pour les représentations temps-fréquence de signaux audio. En traitement du signal appliqué à l’audio, on préfèrera en général utiliser des mesures alternatives telles que les divergences de Kullblack-Leibler (kl) et de Itakura-Saito (is) (Cont et al.

2011_{; Kemp et al.}2000) :

Définition I.1Divergence de Kullblack-Leibler

Soit deux vecteurs x, y _{∈ R}d tels que x et y représentent des distributions de probabilité discrètes, i.e.Pd

i=1xi=Pdi=1yi = 1, on définit alors la kl-divergence entre x et y par :

d_kl(x, y) = d X i=1 xiln( xi yi )

Définition I.2Divergence de Itakura-Saito

Soit deux vecteurs x, y_{∈ R}d, on définit alors la is-divergence entre x et y par : d_is(x, y) = d X i=1 xi yi − ln( xi yi )− 1

(11)

On remarquera que ces divergences ne sont en revanche pas des distances au sens mathématique du terme. Elles possèdent bien la propriété de séparation d(x, y) = 0⇔ x = y, en revanche elles ne respectent ni la symétrie d(x, y) = d(y, x), ni l’inégalité triangulaire.

2. Divergences de Bregman

La plupart des algorithmes de clustering peuvent être adaptés pour utiliser l’une de ces mé-triques comme mesure de similarité. Banerjee, Merugu et al. (2005) montre cependant que ces divergences peuvent être généralisées par le concept de divergence de Bregman (Bregman 1967) : Définition I.3Divergence de Bregman

Soit φ : Ω _{7→ R une fonction strictement convexe définie sur un ensemble convexe Ω ⊂ R}d _et

différentiable, on définit la divergence de Bregmandφ: Ω2 7→ [0, +∞[ par :

dφ(x, y) = φ(x)− φ(y) − hx − y, ∇φ(y)i (I.1)

où _{∇φ(y) est le gradient de φ en y.} Exemple I.1 Distance Euclidienne

La distance euclidienne est l’exemple le plus simple de divergence de Bregman. On pose φ(x) = hx, xi, définie et différentiable sur Rd_.

dφ(x, y) = φ(x)− φ(y) − hx − y, ∇φ(y)i

=hx, xi − hy, yi − hx − y, 2yi =_{hx, xi + hy, yi − 2 hx, yi} =hx − y, x − yi = kx − yk2 Exemple I.2 kl-divergence

On définit pour x_{∈ {x|}P ixi= 1}, φ(x) =Pixiln xi. dφ(x, y) = φ(x)− φ(y) − hx − y, ∇φ(y)i =X i xiln xi− X i yiln yi− X i (xi− yi)(ln yi− 1) =X i xi(ln xi− ln yi)− X i xi+ X i yi =X i xilnxi yi = d_kl(x, y) Exemple I.3 is-divergence

Soitφ(x) =₋P iln xi définie sur R+∗d. dφ(x, y) = φ(x)− φ(y) − hx − y, ∇φ(y)i =₋X i ln xi+ X i ln yi+ X i (xi− yi) 1 yi =X i xi yi − ln xi yi − 1 = d_is(x, y)

(12)

2. Partitionnement « Dur »

1. Centroïde

Si on pose un ensemble de points _{x_i_}n_i=1 _{⊂ Ω ⊆ R}d, on peut poser le problème du meilleur représentant, ou plus proche voisin de l’ensemble de ces points. Intuitivement on considère que le centroïde de ces points, défini par µ= _n1P

ixi ∈ Ω (car Ω est convexe), est le meilleur représentant.

On peut montrer que le centroïde correspond bien au plus proche voisin, non seulement au sens de la distance euclidienne, mais aussi au sens de toute divergence de Bregman définie par (I.1) (Banerjee, Merugu et al.2005_{; Nielsen et al.} 2009).

Proposition I.1 Soit un v.a. X à valeurs dans un ensemble _{xi}ni=1 ⊂ Ω et suivant une mesure

discrète ν et soit dφ une divergence de Bregman définie par (I.1). On pose µ = Eb ν[X] = P iνixi. On a alors : µ= arg min c∈Ω Eν [dφ(X, c)] (I.2) Preuve : Eν[d(X, c)] = X i νidφ(xi, c) =X i νi(φ(xi)− φ(c) − hxi− c, ∇φ(c)i = Eν[φ(X)]− φ(c) − hµ − c, ∇φ(c)i = Eν[φ(X)] + dφ(µ, c)− φ(µ)

Minimal pourdφ(µ, c) = 0, i.e. c = µ.

On a généralisé ici à tout centroïde pondéré, pour les problèmes de partitionnement, on se restreindra en général au casνi= _n1,∀i ∈ [[1; n]].

Il faut aussi bien prendre en compte le fait que µ ne minimise en général que E[dφ(X, c)] et pas

E[dφ(c, X)] puisque les divergences de Bregman ne sont pas forcément symétriques. On appelle donc

µ le centroïde de type droit. Nielsen et al. (2009) définissent aussi un centroïde de type gauche, ainsi qu’un centroïde symétrique.

2. Information de Bregman

La valeur minimisée par le centroïde est dénommé information de Bregman par Banerjee, Merugu et al. (2005).

Définition I.4Information de Bregman

Soit dφ une divergence de Bregman et X une v.a. à valeurs dans {xi}n_i=1 ⊂ Ω et suivant une

mesure discrèteν, l’information de Bregman associée à φ est : Iν_φ(X) = min

c∈Ω Eν[dφ(X, c)] = Eν[dφ(X, µ)] (I.3)

Avec µ défini par (I.2).

L’information de Bregman peut prendre différentes significations selon le type de divergence utilisée :

Distance Euclidienne Pour dφ(x, y) = kx − yk2,Iν_φ(X) = Eνkxi− µk2, ce qui correspond

(13)

Divergence de Kullblack-Leibler Si on pose νi = p(U = ui) la probabilité de réalisation

d’une v.a. U discrète dans{ui}ni=1, et xi = p(V|ui) la probabilité conditionnelle d’une autre

v.a. discrèteV à valeurs dans{vi}mi=1, alors µ=

P ip(ui)p(V|ui) = p(V ) et Iν_φ(X) = n X i=1 p(ui)∗ dkl(p(V|ui), p(V )) = n X i=1 p(ui) m X j=1 p(vj|ui) lnp(vj|ui) p(vj) = n X i=1 m X j=1 p(ui, vj) ln p(ui, vj) p(ui)p(vj) = I(U, V )

où_{I(U, V ) est l’information mutuelle entre les variables U et V (Dhillon et al.}2003_;

Kras-kov et al.2003).

On peut aussi remarquer que l’information de Bregman correspond à la différence entre les termes de l’inégalité de Jensen : E[φ(X)]≥ φ(E[X]) pour toute fonction φ convexe et toute variable aléatoire X (Banerjee, Guo et al.2004).

E[φ(X)]− φ(E[X]) = E[φ(X)] − φ(E[X]) −

=0

z }| {

E[hX − E[X] , ∇φ(E[X])i] = E[φ(X)− φ(E[X]) − hX − E[X] , ∇φ(E(X))i] = E[dφ(X, E[X])] = Iφ(X)≥ 0

3. Partitionnement

Partitionner un corpus défini par une variable aléatoire X sur_{X = {x}i}ni=1 enK classes, revient

à définirK v.a._{Xh}K_h=1 définies sur les sous-ensembles{Xh}_h=1K , tels que S_hXh=X et Xi∩ Xj =

∅ ∀i 6= j. Chaque v.a. Xh suit alors une mesureh = _πν_h avecπh =Pi∈{i|xi∈Xh}νi, et on peut définir

les K meilleurs représentants _{M = {µ}_h_}K

h=1 de chaque partition comme en (I.2).

Pour que le partitionnement soit bon, il faut que les centroïdes _{µ_h_}K_h=1 soient les plus proches possible des éléments de chaque _X_h selon la divergence de Bregman dφ. On peut définir une autre

v.a.M à valeurs dans _{M suivant la mesure implicite π définie précédemment, on va alors chercher} à minimiser Eν,π[dφ(X, M )]. Comme M est une fonction déterministe de X, on a Eν,π[dφ(X, M )] =

Eν[dφ(X, M )] et Eν[dφ(X, M )] = K X h=1 X xi∈Xh νidφ(xi, µh) = K X h=1 πh X xi∈Xh νi πh dφ(xi, µh) = Eπ h IH φ (XH) i (I.4)

Avec H v.a. à valeurs dans [[1; K]] suivant la mesure π. En d’autres termes, trouver le meilleur partitionnement revient à minimiser l’espérance de l’information de Bregman de chaque partition.

Si l’on reprend la distance euclidienne comme exemple de divergence de Bregman, (I.4) corres-pond à l’espérance de la variance des partitions, minimiser cette espérance correscorres-pond bien à une approche intuitive euclidienne du partitionnement, où l’on cherche à avoir des partitions de faible variance.

Une autre façon de concevoir le partitionnement, plus basée sur la théorie de l’information, consiste à minimiser la perte d’information engendrée – en général la perte d’information mutuelle entre classes et observations due à la quantification (Dhillon et al. 2003). Ici on peut considérer

(14)

la perte d’information de BregmanIν

φ(X)− Iπφ(M ) comme mesure de qualité du partitionnement. Si

K = n le nombre d’observations, choisirXh={xh} donne Iνφ(X) = Iπφ(M ), donc une perte nulle. Si

K = 1, alorsM = {Eν[X]}, donc Iπφ(M ) = 0 et on a une perte de Iνφ(X).

On peut montrer que cette nouvelle métrique de qualité du partitionnement est exactement égale à la précédente.

Proposition I.2 SoitX une v.a. discrète sur_{X = {x}i}ni=1suivant la mesureν, et un partitionnement

{Xh}Kh=1 de X impliquant la mesure πh =Pi∈{i|xi∈Xh}νi. Pour tout h ∈ [[1; K]], soit Xh la v.a. à

valeurs dans _X_h suivant la mesure h = _πν_h, et µh = Eh[Xh]. On définit enfin M et H, v.a. à

valeur dans _{M = {µ}_h_}K_h=1 et [[1, K]] respectivement, suivant la mesure implicite π. On peut définir la fonction de perte du partitionnement,

Lφ(X, XH) = Iνφ(X)− Iπφ(M ) = Eπ h IH φ (XH) i (I.5)

Preuve : Par définition

Iν_φ(X) = n X i=1 νidφ(xi, µ) = K X h=1 X xi∈Xh νi[φ(xi)− φ(µ) − hxi− µ, ∇φ(µ)i] = K X h=1 X xi∈Xh νi[φ(xi)− φ(µh)− hxi− µh,∇φ(µh)i +φ(µ_h)− φ(µ) − hµh− µ, ∇φ(µ)i + hxi− µh,∇φ(µh)− ∇φ(µ)i] = K X h=1 X xi∈Xh νi[dφ(xi, µh) + dφ(µh, µ) +hxi− µh,∇φ(µh)− ∇φ(µ)i] = K X h=1 πh        X xi∈Xh νi πh dφ(xi, µ) + dφ(µh, µ) + * X xi∈Xh νi πh xi | {z } =µ_h −µh,∇φ(µh)− µφ(µ) +        = K X h=1 πhIφh(Xh) + K X h=1 πhdφ(µh, µ) = Eπ h IH φ (XH) i + Iπ_φ(M ) D’où (I.5).

On peut remarquer que l’information de Bregman totale équivaut donc à l’information de Breg-man entre-clusters (Iπ_φ(M )), plus l’information de Bregman intra-clusters (Eπ

h IH

φ (XH)

i ).

4. Algorithme des K-Moyennes

On peut déduire de la proposition ci-dessus une généralisation de l’algorithme de K-Moyennes (MacQueen 1967) aux divergences de Bregman. Cet algorithme est classiquement basé sur une métrique euclidienne, et permet de diminuer la fonction de coût en deux temps :

— Assignation de chaque élément à la partition dont le représentant est le plus proche. — Ré-estimation des représentants de chaque partition à partir des éléments qu’elle contient. Proposition I.3 L’algorithme des K-Moyennes fait décroître la fonction de perte_L_φ (I.5) à chaque itération de manière monotone, et converge en un nombre fini d’étapes.

(15)

Algorithme 1 K-Moyennes

Procédure K-Moyennes(X = {xi}ni=1⊂ Ω, ν,dφ,K)

Initialise_{µ_h_}K_h=1, généralement_{∀h ∈ [[1; K]], µ}_h _{∈ X choisis aléatoirement} Répète

Xh(τ +1) =∅, ∀h ∈ [[1; K]]

Pouri← 1, . . . , n faire Xh(τ +1)i ← X

(τ +1)

hi ∪ {xi}, avec hi← arg min

h {dφ (xi, µ(τ )_h )} ∀xi ∈ X Fin Pour Pourh_{← 1, . . . , K faire} π(τ +1)_h _←P xi∈X_h(τ +1)νi µ(τ +1)_h _← 1 π(τ +1)_h P xi∈Xh(τ +1) νixi Fin Pour Jusqu’à convergence Retourne_{X_h_}K_h=1 Fin Procédure

Preuve : Soit_X_h(τ ) et µt)_h, respectivement la partitionh son centroïde à l’itération t, alors

Lφ(X, XH(τ )) = K X h=1 X xi∈Xh(τ ) νidφ(xi, µ(τ )_h )≥ K X h=1 X xi∈Xh(τ +1) νidφ(xi, µ(τ )_h ) ≥ K X h=1 X xi∈Xh(τ ) νidφ(xi, µ(τ +1)_h ) =Lφ(X, XH(τ +1))

La première inégalité est due à l’étape d’assignation, puisque par définition si x_i _{∈ X}_h(τ ) et x_i _∈ Xh(τ +1)0 ,d_φ(x_i, µ

(τ )

h )≥ dφ(xi, µ(τ )h0 ) = min

k {dφ(xi, µ (τ )

k )}. La deuxième inégalité est due à la

proposi-tion I.1. Donc t→ Lφ(X, XH(τ )) est une fonction décroissante, minorée par zéro, donc convergente.

Puisqu’il n’existe qu’un nombre fini de partions différentes possible, le nombre d’itérations est lui

aussi fini.

3. Familles exponentielle et divergence de Bregman

Bien souvent, l’algorithme des K-moyenne agit de manière trop rigide. En effet, les tâches d’assi-gnation et d’estimation des centroïdes fonctionnent « en dur », c’est-à-dire sans considérer l’ensemble des assignations possibles, mais en se contentant de choisir la plus performante au sens de la fonction de coût. On utilise souvent des algorithmes basés sur des modèles probabilistes tels que l’algorithme Espérance-Maximisation (em, Expectation-Maximization) pour faire face au manque de souplesse des K-Moyennes (Dempster et al. 1977). Cet algorithme se base sur un modèle de mélange (voir section I-4.2_{). Banerjee, Merugu et al. (}2005) établissent une bijection entre famille exponentielle et divergence de Bregman, permettant de proposer un modèle de mélange probabiliste basé sur cette métrique, et de généraliser l’algorithme em.

(16)

1. Familles exponentielles

Définition I.5Familles exponentielles

On appelle famille exponentielle toute famille de distribution paramétrique _F_ψ sur un espace mesurable(Ω,_{A), telle que}

Fψ ={p(ψ,η)|η ∈ Θ ⊆ Rd} avec p(ψ,η)(w) = exp(hT(w), ηi − ψ(η))a(w), ∀w ∈ Ω

où T: Ω7→ Rd _{dénote une statistique exhaustive, η est le paramètre naturel de la distribution. La}

fonction ψ appelée log-partition est définie par ψ(η) = R

w∈Ωexp(hT(w), θi)a(w) dw et permet de

vérifierR

w∈Ωp(ψ,η)dw = 1. Letableau I.1 présente quelques familles exponentielles classiques.

Distribution p_(ψ,η)(w) η T(w) ψ(η) B(p) pw₍₁_{− p)}1−w _ln( p 1−p) w − ln(1 − p) N (µ, σ) √1 2πσ2e −(w−µ)2_2σ2 _[µ σ2,−µ 2 2σ2] [w, w2] µ 2 2σ2 P(λ) λww!e−λ ln(λ) w λ E(λ) λe−λw _−λ w _{− ln(λ)}

Table I.1 – Familles exponentielles usuelles

La statistique exhaustive T(w) est dite minimale si_{∃a 6= 0 telle que hT(w), ai = c ∈ R}d_constant

∀w ∈ Ω. Afin d’effectuer le rapprochement avec les divergences de Bregman, Banerjee, Guo et al. (2004) définissent un ensemble plus restreint de familles exponentielles.

Définition I.6Familles exponentielles régulières

Une famille exponentielle régulière est une famille exponentielle pour laquelle l’espace paramé-triqueΘ est ouvert, et pour laquelle x∈ Rd _{dénote une statistique exhaustive minimale,}

p(ψ,η)(x) = exp(hx, ηi − ψ(η))a(x), ∀p(ψ,η) ∈ Fψ (I.6)

2. Conjugué de Legendre

La fonction de log-partition ψ(η) est uniquement déterminée par la famille exponentielle _Fψ à

une constante additive près. On peut montrer que cette fonction est convexe sur l’ensemble convexe Θ, et qu’elle est différentiable. Cela nous permet de caractériser ψ comme une fonction de Legendre, dont les propriétés nous permettront de mettre en relation toute famille exponentielle avec une divergence de Bregman.

Définition I.7Fonction de Legendre

Soit la fonction ψ définie sur l’ensemble convexe Θ_{6= ∅, on dit que (ψ, Θ) est une fonction de} Legendre si :

1. ψ est convexe et différentiable sur Θ 2. _∀η_l_{∈ ¯}Θ_{− Θ,} lim

η→ηlkψ(η)k = +∞, où ¯

Θ_{− Θ désigne la frontière de Θ.} Définition I.8Conjugué de Legendre (Rockafellar1970)

Soit (ψ, Θ) une fonction de Legendre strictement convexe, on définit son conjugué par : ψ∗(t) = sup

η∈Θht, ηi − ψ(η) définie sur Θ

(17)

Alors (ψ∗, Θ∗) est aussi une fonction de Legendre, et (ψ, Θ) et (ψ∗, Θ∗) sont appelés conjugués de Legendre.

Puisque ψ est une fonction convexe, on peut obtenir la borne supérieure définie par (I.7) en trouvant la valeur qui annule le gradient de l’expression.

∇(ht, ηi − ψ(η))|ηsup= t− ∇ψ(ηsup) = 0 ⇒ t=∇ψ(ηsup)

Puisque ψ est strictement convexe, _{∇ψ est strictement monotone et donc inversible. On a donc} η_sup= (∇ψ)−1_{(t). On en conclut donc que}

ψ∗(t) =t, (∇ψ)−1_(t)_{− ψ((∇ψ)}−_1(t)) _(I.8)

. Ceci amène à la proposition suivante :

Proposition I.4 Soit (ψ, Θ) et (ψ∗, Θ∗) deux conjugués de Legendre tels que décrits par la défini-tion I.8. Alors (a) ψ∗∗ = ψ et (b)_∇ψ∗ = (∇ψ)−1_.

Preuve : D’après (I.8) :

(a) ψ∗∗(η) =_{η, (∇ψ}∗)−1(η)_{− ψ}∗((_∇ψ∗)−1(η)) =_{hη, ∇ψ(η)i − ψ}∗(_∇ψ(η)) =hη, ∇ψ(η)i −∇ψ(η), (∇ψ)−1₍_{∇ψ(η)) + ψ((∇ψ)}−1₍_∇ψ(η))) =hη, ∇ψ(η)i − h∇ψ(η), ηi + ψ(η) = ψ(η) (b) _∇ψ∗(t) = (_∇ψ)−1(t) +_{t, ∇(∇ψ)}−1(t)_{− ∇(∇ψ)}−1(t),_{∇ψ((∇ψ)}−1(t)) = (_∇ψ)−1(t) +t, ∇(∇ψ)−1_(t)_{− ∇(∇ψ)}−1_{(t), t} = (_∇ψ)−1(t)

3. Relation avec les divergences de Bregman

On peut tout d’abord mettre en lumière la relation entre le paramètre naturel η d’une famille exponentielle, et le paramètre d’espérance de cette même famille, i.e. l’espérance d’une v.a. X distribué selon une loi de probabilitép(ψ,η) ∈ Fψ µ= Ep(ψ,η)[X] =

R

x∈Rdxp(ψ,η)(x) dx. En dérivant

l’expressionR_x_∈Rdp(ψ,η)(x) dx = 1 selon η, on obtient

Z

x∈Rd

(x_{− ∇ψ(η))p}_(ψ,η)(x) dx = µ_{− ∇ψ(η) = 0}

d’où la relation µ_η = _{∇ψ(η). La relation entre les gradients d’une fonction de Legendre ψ et de} son conjugué φ = ψ∗, donnée en proposition I.4, nous permet d’écrire la relation inverse η_µ = (_∇ψ)−1(µ) =_{∇φ(µ). On a donc ψ}∗(µ) = φ(µ) = _{hµ, ηi − ψ(η), et l’expression de p}_(ψ,η) en (I.6) devient

p(ψ,η)(x) = exp(hx, ηi − ψ(η))a(x)

= exp(_{hµ, ηi − ψ(η) + hx − µ, ηi)a(x)} = exp(φ(µ) +_{hx − µ, ∇φ(µ)i)a(x)} = exp(−dφ(x, µ) + φ(x))a(x)

(18)

oùbφ(x) = eφ(x)a(x).

La densité de probabilité d’une loi exponentielle suit donc les mêmes variations qu’une divergence de Bregman définie. Plus précisément la log-vraisemblance de l’élément x distribué selonp(ψ,η) peut

s’écrire comme la somme d’une divergence de Bregman et d’une fonction ne dépendant que de x. On a donc mis en évidence la relation entre famille exponentielle et divergence de Bregman. À toute famille exponentielle_F_ψ correspond une divergencedφdéterminée par la relationφ = ψ∗. De

plus le paramètre naturel η et l’espérance µ sont déterminés de manière unique. Une démonstration mathématique formelle que cette relation est en fait une bijection, peut être trouvée dans (Baner-jee, Merugu et al.2005). Letableau I.2montre les divergences de Bregman associées aux familles exponentielles usuelles. Loi p(ψ,η)(x) η ψ(η) µ φ(µ) dφ(x, µ) N (m, σ2₎∗ _√1 2πσ2e −(x−m)2 2σ2 m σ2 m 2 2σ2 =σ 2 2η2 m 2σ12µ2 _2σ12(x− µ)2 B(p) px₍₁_{− p)}1−x _ln p 1−p ln (1 + eη₎ _p _µ_ln(µ)+(1_{−µ) ln(1−µ)} _{x ln}x µ + (1− x) ln1−x 1−µ P(λ) λx_e−λ x! ln(λ) λ = eη λ µln(µ)− µ x ln x µ − (x − µ) E(λ) λe−λx _−λ _{− ln(λ) = − ln(−η)} 1 λ − ln(µ) − 1 µx− ln x µ − 1 N (m, Σ)∗ _√ 1 (2πd_)|Σ|e −1 2(x−m)TΣ−1(x−m) Σ−1m 1₂mTΣ−1m=1 2ηTΣη m 12µTΣ−1µ 12(x− µ)TΣ−1(x− µ)

Table I.2 – Famille exponentielles usuelles et divergences de Bregman

∗

σ2 et Σ sont considérés constants ici

La loi normale est donc associée à la distance Euclidienne, la loi exponentielle à la divergence de Itakura-Saito, et la loi binomiale à la divergence de Kullblack-Leibler entre les distributions [x, 1− x] et [p, 1 − p] sur l’espace {0, 1}. On peut détailler plus précisément le calcul des paramètres avec l’exemple de la distribution multinomiale.

Exemple I.4

Pour N tirages indépendants, aboutissant chacun au succès d’une des d différentes catégo-ries définie chacune par une probabilité de réussite pi, la loi multinomiale définit la probabilité

d’obtenir la combinaison _{r_i_}d_i=1, où ri est le nombre de succès pour la catégorie i. La loi

mul-tinomiale est donc définie par les paramètres N , p = {pi}d_i=1 et sa densité de probabilité est

p(r|p, N) = QdN ! i=1ri! Qd i=1p ri i , pour un vecteur r ∈ Z+, Pd

i=1xi = N . Cette dernière condition

nous permet d’écrire cette densité comme celle d’une famille exponentielle avec x = [r1, . . . , rd−1]

avec le paramètre naturel η= [ln(p1

pd), . . . , ln( pd−1 pd )] puisque xd= N − Pd−1 i=1. p(x_{|p, N) =} N ! Qd i=1ri! d Y i=1 pri i = N ! Qd i=1ri! exp d−1 X i=1 riln(pi) + rdln(pd) ! = exp d−1 X i=1 xiln(pi) + (N− d−1 X i=1 xi) ln(pd) ! a(x) = exp d−1 X i=1 xiln pi pd + N ln(pd) ! a(x) = exp (_{hx, ηi + N ln(p}d)) a(x)

On a alors ψ(η) = _{−N ln(p}d) = N ln(_p1_d) = N ln(1 + 1−p_p_dd) = N ln(1 +Pdi=1−1ppid) = N ln(1 +

Pd−1

i=1eηi). L’espérance se calcule en utilisant la propriété

µ=_{∇ψ(η) =} " N eη_i 1 +Pd−1 j=1eηj #d−1 i=1 = [N pi]d−1i=1

(19)

Puis φ(µ) =_{hµ, ηi − ψ(η) =} d−1 X i=1 N piln( pi pd ) + N ln(pd) = N d−1 X i=1 piln(pi)− N(1 − pd) ln(pd) + N ln(pd) = N d X i=1 piln(pi) = d X i=1 µ_iln(µi N)

Où on définit µ_d = N pd= N−Pd_i=1−1µi. On trouve alors de manière similaire à l’exemple I.2, que

la divergence associée àφ est la divergence de Kullblack-Leibler

dφ(x, µ) = d X i=1 xiln( xi N)− d X i=1 µ_iln(µi N)− d X i=1 (xi− µi)(ln µ_i N + 1) = d X i=1 xiln xi/N µ_i/N + d X i=1 xi− µi = N d X i=1 xi N ln xi/N µ_i/N car d X i=1 xi= d X i=1 µ_i= N

Cette relation permet d’apporter une conclusion importante sur le choix d’une métrique ou d’un modèle probabiliste : en effet, utiliser une certaine divergence de Bregman comme mesure de similarité entre un centroïde et un élément dans un ensemble donné revient à considérer que les éléments sont répartis selon une loi de famille exponentielle, dont la fonction de log-partition et le paramètre naturel sont déterminés de manière unique par la fonction de Bregman convexe et le centroïde d’après la relation (I.9). De manière équivalente, si l’on considère un modèle de mélange suivant une loi exponentielle donnée, cela implique l’utilisation de la divergence de Bregman correspondante comme métrique.

On remarquera que dans le cas de la kl-divergence, la loi correspondante est la loi multinomiale, ce qui implique x_{∈ N avec}P

x∈xx = N . Dans le cas pratique du partitionnement audio, on pourra

normaliser les descripteurs à chaque temps t, multiplier par une constante N suffisamment grande et discrétiser pour approximer ce comportement. On verra que, la fonction bφ n’ayant pas besoin

d’être calculée pour nos algorithmes, il n’est en fait pas nécessaire d’avoir des descripteurs discrets dans ce cas.

4. Modèle de mélange et partitionnement

1. Modèle de mélange

Soit un ensemble de points _{X que l’on cherche à partitionner. On parle de modèle de mélange} lorsque l’on considère les données à classifier comme des observations émises selon des variables latentes définissant la classe de l’observation. Chaque composante émet des observations selon une loi de probabilité définie par sa classe, ces composantes suivant une loi discrète définissant la proportion du mélange. Formellement, pour un partitionnement en K classes, on définit pour chaque élément une variable latente h à valeur dans [[1; K]] déterminant sa classe. On a p(h = k) = πk, où π est

la probabilité discrète définissant la répartition du mélange. On définit pour chaque classe une loi d’émission de densité pk et de paramètre αk, tel que p(x|h = k) = pk(x; αk). Tout vecteur suivra

(20)

donc la loi de mélange définie par θ= (π1, . . . , πK, α1, . . . , αK), de densité p(x; θ) = K X k=1 p(x_{|h = k; θ)p(h = k; θ) =} K X k=1 πkpk(x; αk) (I.10)

Si on considère l’ensemble des probabilités d’observation comme appartenant à une même fa-mille exponentielle _F_ψ, chacune définie par un paramètre naturel η_k propre, la densité de mé-lange devient, en considérant la bijection avec l’ensemble des divergences de Bregman, pθ(x) =

PK

k=1πke−dφ(x,µk)bφ(x). La figure I.1 montre un exemple de densité de mélange dans le cas de

densités gaussiennes, pour un espace à une dimension.

x p(x) −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 0.0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1.0 0.2857_{× N (0, 0.02)} 0.21428_{× N (0.5, 0.015)} 0.21428_{× N (−0.3, 0.11)} 0.2857× N (0.9, 0.07) P iπiN (µi, σ 2 i)

Figure I.1 – Un exemple de modèle de mélange gaussien

Le but d’un algorithme de classification basé sur un tel modèle sera de maximiser la vrai-semblance d’un jeu de données, selon la densité définie par (I.10), ou sa log-vraisemblance. Pour un ensemble _{X = {x}i}n_i=1, on va donc chercher à faire croître la fonction l(θ) = ln(p(X ; θ)) =

Pn

i=1ln(

PK

k=1πkpk(xi; αk)), selon le paramètre θ. Contrairement au problème de minimisation de

la fonction de perte (I.5) dans le cas du partitionnement dur, la fonction de log-vraisemblance n’est en général pas convexe. Il est donc impossible de trouver un maximum global, on peut en revanche en trouver un maximum local, c’est le rôle d’un algorithme permettant d’estimer le maximum de vraisemblance de données incomplètes, tel que l’algorithme em.

2. Espérance-Maximisation

L’algorithme Espérance-Maximisation (em, Expectation-Maximization) est un algorithme per-mettant selon un jeu de données observables, et un jeu de données latentes (dans le cas du parti-tionnement, la classe à laquelle appartient chaque donnée) d’estimer le maximum de vraisemblance pour un modèle donné, et d’en inférer les données non observables (Dempster et al. 1977). Tout comme pour l’algorithme des K-Moyennes, il fonctionne de manière itératif en deux étapes : le calcul de l’espérance des variables latentes selon les observations, puis le calcul des paramètres maximisant la vraisemblance déduite.

Théorie

On présente ici les outils formels sur lesquels s’appuient l’algorithme, et la preuve de sa conver-gence (Dellaert2002). L’objectif est donc de trouver

θ= arg max

θ

(21)

L’idée est de partir d’un paramètre initial θ(0), trouver la meilleure limite inférieure àl(θ), et itérer sur t pour trouver θ(τ ) maximisant cette limite inférieure. On note B(θ, θ(τ )) la borne définie par θ(τ ). On peut remarquer que, d’après l’inégalité de Jensenf (P

iλixi)≥Piλif (xi) pour f convexe etP iλi= 1, on a l(θ) = ln(p(_{X ; θ)) = ln(}X h p(_{X , h; θ)) ≥}X h q(τ )(h) ln(p(X , h; θ) q(τ )_(h) ) = B(θ, θ (τ )₎

où q(τ ) est une fonction à définir telle queP

hq(τ )(h) = 1. On cherche à trouver q(τ ) tel que cette

limite inférieure soit optimale, cela se fait en maximisant B(θ(τ ), θ(τ )) selon q(τ ) en introduisant un multiplicateur de Lagrange λ pour respecter la condition P

hq(τ )(h) = 1. On dérive ensuite la fonction objectif : G(q(τ )) = λ " 1−X h q(τ )(h) # +X h q(τ )(h) ln(p(X , h; θt))−X h q(τ )(h) ln(q(τ )(h)) δG δq(τ )_(h)(q (τ )_{) =}_{−λ + ln(p(X , h; θ)) − ln(q}(τ )_(h))_{− 1 = 0}

En sommant les exponentielles de la deuxième expression pour tout h, on trouveλ+1 = ln(P

hp(X , h; θ)). On en conclut donc q(τ )(h) = p(X , h; θ (τ )₎ P hp(X , h; θ(τ )) = p(X , h; θ (τ )₎ p(X ; θ(τ )) = p(h|X ; θ (τ )₎ _(I.12)

On trouve que la limite atteint bien la fonction objectifl(θ(τ )) avec θ = θ(τ ). B(θ(τ ), θ(τ )) =X h p(h_{|X ; θ}(τ )) ln p(X , h; θ (τ )₎ p(h_{|X ; θ}(τ )) ! =X h p(h_{|X ; θ}(τ )) ln(p(_{X ; θ}(τ ))) = ln(p(_{X ; θ}(τ )))

Il convient ensuite de trouver le nouveau paramètre θ= θ(τ +1)maximisant cette borne inférieure. On note que

B(θ, θ(τ )) = Ehln(p(X , h; θ))|X ; θ(τ )i− Ehln(p(h|X ; θ(τ )))|X ; θ(τ )i

Seule la première espérance dépend de θ, on peut donc en déduire qu’il de suffit maximiser cette espérance. Les deux étapes de l’algorithme en découlent :

Espérance Calcul de Q(θ, θ(τ )) = Ehln(p(X , h; θ))|X ; θ(τ )i

Maximisation Calcul de θ(τ +1)= arg max

θ

Q(θ, θ(τ ))

La fonction de log-vraisemblance l(θ(τ )) va donc croître, et converger vers un maximum local étape par étape, puisque la borne inférieure va augmenter. On peut en général arrêter l’algorithme lorsque la différence de la log-vraisemblance entre deux itération devient relativement faible. Puisque le maxium vers lequel converge l’algorithme est local, la solution dépend fortement de l’initialisation de θ(τ ).

Cas des familles exponentielles

On considère que notre modèle est un mélange de distribution d’une famille exponentielle _F_ψ de paramètres η_k, k _{∈ [[1; K]]. Écrivons tout d’abord la loi jointe p(X , h; θ) afin de maximiser son} espérance. p(X , h; θ) = n Y i=1 p(xi|hi; ηhi)p(hi; πhi) = n Y i=1 p(ψ,η_hi)(xi)πhi (I.13)

(22)

Pour trouver le paramètre η(τ +1)_k maximisant Q(θ, θ(τ )) on maximise la contribution de la famille exponentiellek, i.e. η(τ +1)_k = arg max ηk n X i=1 p(hi = k|xi; θ(τ )) ln(p(ψ,ηk)(xi))

Puisque la famille est exponentielle, on peut expliciter la densité en fonction de la divergence de Bregman associée (I.9), et comme η et µ sont déterminée de manière unique, on peut en déduire µ(τ )_k d’après l’expression de la densité de la famille exponentielle (I.6)

µ(τ +1)_k = arg min µ_k n X i=1 p(hi = k|xi; θ(τ ))dφ(xi, µk) = arg min µ_k n X i=1 dφ(xi, µk) p(hi= k|xi; θ(τ )) Pn j=1p(hi = k|xi; θ(τ ))

D’après laproposition I.1, le µ(τ +1)_k vérifiant ceci est l’espérance de x selon la mesure définie. Donc en notant τ_i(τ )(k) = p(hi= k|xi; θ(τ )), µ(τ +1)_k = Pn i=1τ (τ ) i (k)xi Pn i=1τ (τ ) i (k) (I.14)

Le paramètre π(τ +1) doit de même maximiser Pn

i=1

PK

k=1τ (τ )

i (k) ln(πk). On utilise alors le

La-grangien G(π) = n X i=1 K X k=1 τ_i(τ )(k) ln(πk) + λ " 1− K X k=1 πk # δG δπk (π) = n X i=1 τ_i(τ )(k) ln(πk)− λ = 0

En sommant la deuxième expression pour tout k, on obtientλ =Pn

i=1 PK k=1τ (τ ) i (k) = n d’où π_k(τ +1)= 1 n n X i=1 τ_i(τ )(k) (I.15)

On peut expliciter la densité a priori τ_i(τ )(k) en utilisant la densité de la famille exponentielle. τ_i(τ )(k) = p(hi = k, xi; θ (τ )₎ p(xi; θ(τ )) = p(hi = k, xi; θ (τ )₎ PK k=1p(hi = k, xi; θ(τ )) = πke−dφ (xi,µ(τ )k ) PK j=1πje−dφ(xi,µ (τ ) j ) (I.16)

Ce résultat est important, en effet on n’a pas besoin de calculer la densité de probabilité pour connaître la densité a priori, il suffit de connaitre la divergence de Bregman associée. Cela est no-tamment utile lorsqu’on utilise un modèle de mélange multinomial, le terme combinatoireN !/Q

ixi!

disparaît, il suffit d’utiliser la divergence de Kullblack-Leibler. De même tout terme constant selon x dansdφ(x, µ) peut être enlevé (par exemple Pjxjln(xj)).

(23)

Algorithme 2 Espérance-Maximisation

Procédure Esperance-Maximisation(X = {xi}ni=1⊂ Ω, Fψ,K)

Initialise_{µ_k_}K_k=1, généralement par K-Moyennes, et_{π_k_}K_k=1, généralementπk= _K1.

Répète pourt_{∈ N} Pouri_{← 1, . . . , n faire} Pourk← 1, . . . , K faire τ_i(τ )(k)← πke−dφ(xi,µ (τ ) k ) Fin Pour τ_i(τ )(k)← τi(τ )(k) PK j=1τ (τ ) i (k) Fin Pour Pourk_{← 1, . . . , K faire} π(τ +1)_k _← 1_nPn i=1τ (τ ) i (k) µ(τ +1)_k ← Pn i=1τ (τ ) i (k)xi Pn i=1τ (τ ) i (k) Fin Pour Jusqu’à convergence

Retourne_{π_k_}K_k=1,_{µ_k_}K_k=1,_{τi,k}n,K_i,k=1

Fin Procédure

Algorithme

Le déroulement de l’algorithme découle immédiatement des équations (I.14),(I.15),(I.16). Il est décrit par l’algorithme 2.

À l’issue de l’algorithme, on peut déterminer un partitionnement de_{X en prenant h}_i = arg max_kτi(k).

On comprend pourquoi le partitionnement est qualifié de soft clustering, puisqu’à chaque itération, un élément n’est pas assigné à une classe. On calcule plutôt la probabilité de chaque élément d’ap-partenir à chaque classe selon le modèle.

5. Modèles de Markov Caché

Le modèle de mélange décrit précédemment considère que les observations sont indépendantes et identiquement distribuées, cela n’est bien sûr pas du tout le cas dans le cas de signaux audio. Les différentes observations contenues dans les descripteurs sont dépendantes en temps. Pour prendre en compte la dimension temporelle, indispensable en apprentissage statistique appliqué à l’audio, on utilise les modèles de Markov cachées (Hidden Markov Models, hmm) (L.R. Rabiner et al. 1989; Smyth 1997).

1. Modélisation

Tout comme pour le modèle de mélange, on considère que les données _{X = {x}_t_}T_t=1 sont des observations émises pour des variables cachées_{ht}Tt=1, cependant, on considère que la séquence des

variables cachées suit une chaîne de Markov. On rappelle qu’une chaîne de Markov est un processus d’états à temps discret respectant la propriété de Markov : la prédiction de l’état futur ne dépend que de l’état présent. Pour une séquence de variables latentes [h1:T], on a pour tout instant t

p(ht+1= j|ht= i, ht−1:1) = p(ht+1= j|ht= i) = ai,j

où ai,j est un élément d’une matrice A = (ai,j)i,j∈[[1;K]] telle que PKj=1ai,j = 1 ∀i ∈ [[1; K]].

(24)

même que précédemment on modélisera l’émission des observations par une famille exponentielle Fψ où chaque classe possède un paramètre naturel η propre, et donc une densité de probabilité

pψ,η(x) = p(x|h) et une divergence de Bregman dφ(x, µ) propres. Les paramètres du modèle pour

K états différents sont alors θ = (A, π,_{µ_k_}K k=1).

La figure I.2 _{représente la modélisation d’un hmm sous forme de graphe, où (}a) représente la séquence des états selon la valeur des variables cachées, ainsi que les émissions d’observations, selon les différentes densités de probabilité définies ; tandis que (b) représente une chaîne de Markov à trois états sous forme d’un graphe orienté et pondéré par les probabilités de transition.

h1 x1 pψ,η_h1 h2 x2 pψ,η_h2 ah1,h2 h3 x3 pψ,η_h3 ah2,h3 . . . . . . ah3, . . . hT xT pψ,η_hT a. . .,hT πh1 États Observations (a) 1 2 3 a1,2 a1,1 a1,3 a2,3 a2,2 a2,1 a3,1 a3,3 a3,2 (b)

Figure I.2 – Modélisation par graphe de hmm

2. Décodage et évaluation

Algorithme de Viterbi

Le premier problème posé par le modèle, et qui fait partie des trois problèmes classiques des hmm, est de connaître la séquence d’état la plus probable selon un modèle défini par θ, étant donné une séquence d’observation. Formellement on cherche h∗ = arg max_h p(_{X , h; θ). Ce problème est} résolu par l’algorithme de Viterbi. L’idée est de définir une variable intermédiaireδt(i) définie comme

la probabilité maximale d’observer lest premières observation ainsi qu’une séquence d’état arrivant à l’étati en t :

δt(i) = max h1:t

p(x1:t, h1:t−1, ht= i; θ) (I.17)

Étant donné la nature sans mémoire des chaînes de Markov, et que les observations ne dépendent que de la variable cachée correspondante, on peut facilement décomposer cette probabilité en :

p(xt|h1:t, x1:t−1; θ)p(ht|h1:t−1, x1:t−1; θ)p(h1:t−1, x1:t−1; θ)

=p(xt|ht)p(ht|ht−1)p(h1:t−1, x1:t−1; θ)

=p(ψ,η_ht)(xt)aht−1,htp(h1:t−1, x1:t−1; θ)

On en conclut queδt(i) peut s’écrire de manière récursive :

δt(j) = p(ψ,η_j)(xt) max

i∈[[1;K]]ai,jδt−1(i) (I.18)

Avecδ1(i) = p(ψ, ηi)(x1)πi. En calculant récursivementδt(j) pour tout j de 1 à T , on peut finalement

déterminer quel est l’état le plus probable à la fin de la séquence en calculanth∗_T = arg maxjδT(j).

En définissant des pointeurs arrières

γt(j) = arg max i∈[[1;K]]

(25)

on peut retrouver la séquence la plus probable avech∗_t₋₁ = γt(h∗t) pour t∈ [[2; T ]].

L’algorithme de Viterbi est schématisé par la figure I.3, les flèches grises entrant dans un état représentent le calcul de δt(j) défini par (I.18). Les flèches orange la séquence la plus probable

retrouvée grâce à γt(j) (I.19).

1 2 ... K x1 1 2 ... K x2 1 2 ... K x3 1 2 ... K x4 1 2 ... K x5 ... ... ... ... 1 2 ... K xT t_{∈ [[1; T ]]}

Figure I.3 – Algorithme de Viterbi

L’algorithme fonctionne en deux étapes :

j Calcul récursif deδt(j) depuis δt−1(i)∀i ∈ [[1, K]] et des paramètre θ.

i j Découverte de la séquence optimale en partant dearg maxjδT(j) grâce à γt(j).

Algorithmes forward-backward

Le second problème posé par les hmm est, étant donné un modèle définit par θ, de détermi-ner la probabilité d’une séquence d’observations p(x1:T; θ). Une solution possible sera de générer

l’ensemble de séquences d’états possibles et de calculer P

hp(x1:T|h; θ)p(h; θ) mais cela implique

un nombre exponentiel de probabilités à calculer. On définit plutôt αt(j) = p(x1:t, ht= j; θ). On

peut alors redéfinir la probabilité de la séquence d’observations comme la sommeP

iαT(j), et de la

même manière que pour l’algorithme de Viterbi, on peut calculerαt(j) pour tout j et t de manière

récurrente : αt(j) = K X i=1 p(x1:t, ht−1 = i, ht= j; θ) = K X i=1 p(xt|ht= j; θ)p(ht= j|ht−1= i; θ)p(x1:t−1, ht−1= i; θ) = p_(ψ,η_j₎(xt) K X i=1

ai,jαt−1(i) (I.20)

Et on peut initialiser avecα1(i) = p(x1|h1 = i; θ)p(h1 = i; θ) = p(ψ,ηi)(x1)πi. Cette récursion définit

l’algorithme forward.

On remarque que si on veut calculer l’inférence d’un état sur l’ensemble des données, qui permet tout comme pour l’algorithme em d’effectuer un apprentissage du modèle comme nous le verrons,

(26)

on va pouvoir utiliser cet algorithme. En effet p(ht= i|X ; θ) = 1 p(X ; θ)p(ht= i,X ; θ) p(ht= i,X ; θ) = p(xt+1:T|x1:t, ht= i; θ)p(x1:t, ht= i; θ) = p(xt+1:T|ht= i; θ)αt(i)

La valeur βt(i) = p(xt+1:T|ht= i; θ) peut être calculée, de même que pour forward, de manière

récursive et définit l’algorithme backward.

βt(i) = K X j=1 p(xt+1:T, ht+1= j|ht= i; θ) = K X j=1 p(xt+1|ht+1 = j; θ)p(ht+1= j|ht= i; θ)p(xt+2:T,|ht+1= j; θ) = K X j=1 p_(ψ,η_j₎(xt+1)ai,jβt+1(j) (I.21)

AvecβT(i) = 1 ∀i ∈ [[1; K]]. On peut facilement calculer le terme d’inférence dit de smoothing, en

remarquant quep(ht= i,X ; θ) = αt(i)βt(i) et que p(X ; θ) =Pni=1αT(i) tel qu’expliqué

précédem-ment (on peut remarquer que cette relation est un cas particulier dep(_{X ; θ) =}PK

i=1αt(i)βt(i) pour

toutt.)

3. Apprentissage, EM

On va maintenant pouvoir étendre l’algorithme em au modèle hmm, il suffit pour cela de remar-quer que la probabilité jointe des variables cachées et des observations est

p(X , h; A, π, {µk}Kk=1) = p(h1; π) T Y t=2 p(ht|ht−1; A) T Y t=1 p(xt|ht;{µk}Kk=1) = πh1 T Y t=2 Aht−1,ht T Y t=1 p_(ψ,η ht)(xt)

L’algorithme d’apprentissage fonctionne de la même manière que pour em, on calcule d’abord E_h_{|X ,θ}(τ )[ln(p(X , h; θ))], puis on met à jour en sélectionnant les paramètre θ(τ +1) maximisant cette

fonction. D’après l’expression de la probabilité jointe, on peut mettre à jour les centroïdes µ(τ +1)_i de la même manière pour le modèle de mélange (I.14). Il suffit de définir comme pour le modèle de mélange, et d’après ce qu’on a énoncé avec les algorithmes forward-backward.

τ_t(τ )(i) = α (τ ) t (i)β (τ ) t (i) PK j=1α (τ ) t (j)β (τ ) t (j) (I.22)

Pour la probabilité initiale π on met à jour avec

π(τ +1) = arg max π K X i=1 p(h1= i|X ; θ(τ )) ln(πi) = arg max π K X i=1 τ₁(τ )(i) ln(πi) (I.23)

(27)

La conditionPK

i=1πi= 1 donne le résultat π (τ +1) i = τ

(τ ) 1 (i).

Il reste enfin à trouver A(τ +1)maximisant l’espérance. On définit tout d’abord la variable(τ )_t (i, j) comme la probabilité d’être à l’étati en t et à l’état j en t + 1 selon les observations. On remarque en suivant un raisonnement similaire àτ_t(τ )(i)

p(ht= i, ht+1= j,X ) = p(xl+2:T|ht+1= j)p(ht+1|ht= i)p(xt+1|ht+1= j)p(ht= i, x1:l)

= βt+1(j)ai,jp(ψ,ηj)(xt+1)αt(i)

d’où (τ )_t (i, j) = β_t+1(τ )(j)a(τ )_i,jp (ψ,η(τ )_j )(xt+1)α (τ ) t (i) PK i0₌₁ PK j0₌₁β (τ ) t+1(j0)p(ψ,η(τ )_j )(xt+1)α (τ ) t (i0) (I.24)

On cherche alors, pour (A)i désignant la ligne i de la matrice A, et en utilisant un Lagrangien

comme (I.1) p.15, avecP

jai,j = 1 et Pt P j (τ ) t (i, j) = P tτ (τ ) t (i).

(A)(τ +1)_i = arg max

(A)i T X t=1 K X j=1

(τ )_t (i, j) ln(ai,j)

a(τ +1)_i,j = PT t=1 (τ ) t (i, j) PT t=1τ (τ ) t (i) (I.25)

L’algorithme d’apprentissage, dit aussi algorithme de Baum-Welch, se déroule donc ainsi en itérant surt

— Calcul de variables forward-backward α(τ )_t (i), β_t(τ )(i) pour tout i _{∈ [[1; K]], t ∈ [[1, T ]] (}I.20), (I.21)

— Calcul de τ_t(τ )(i) et (τ )_t (i, j) pour tout i∈ [[1; K]], t ∈ [[1, T ]] (I.22),(I.24). — Maximisation : mise à jour des paramètres π (I.23), µ (I.14) et A (I.25).

On remarquera que les calculs des densitésp_(ψ,η)ne s’effectuent que lors de l’algorithme forward-backward. Étant donné qu’on normalise lors du calcul des probabilités a priori τ_t(τ )(i), (τ )_t (i, j), on peut, de même que pour le modèle de mélange, restreindre à e−dφ(x,µ)_{. Ceci simplifie les calculs et}

justifie une fois de plus l’utilité de la relation famille exponentielle / divergence de Bregman.

6. Modèles semi-markoviens cachés

L’utilisation des hmm est bien plus adaptée dans le cas de données dépendantes, comme c’est le cas pour des descripteurs de signaux audio, qui impliquent forcément une dépendance temporelle. On associera à chaque état du modèle markovien une classe, et l’on cherchera lors du partitionnement à segmenter le signal en portions contigües et homogènes.

Cependant l’hypothèse markovienne implique nécessairement que la durée passée dans un état (c’est-à-dire le nombre d’observations adjacentes dont la variable latente associée est dans le même état) suit une loi de probabilité implicite. En effet la probabilité de rester pendant une duréed dans l’étati est p(ht+1 = i, . . . , ht+d = i, ht+d+1 6= i; θ) = adi,i−1(1− ai,i). C’est en fait la densité d’une loi

géométrique _{G de paramètre a}_i,i. Lafigure I.4 donne des exemples de densités de probabilité de lois géométriques.

Si dans certains cas de figure modéliser la durée des états par cette distribution peut s’avérer intéressant, cela devient plus problématique lorsque l’on cherche à définir une certaine durée comme ayant la plus forte probabilité. Les signaux audio étant par nature structurés, on pourrait notamment

(28)

d p(d) 1 2 3 4 5 6 7 8 9 10 0.0 0.25 0.5 0.75 1.0 G(0.7), G(0.4), G(0.2)

Figure I.4 – Densité de probabilité de la loi Géométrique

La durée la plus probable est toujours1. Plus ai,i est faible, plus un tirage donnera des durées faibles,

plus il est élevé plus les durées sont équiprobables.

associer les éléments structurant aux états en modélisant la durée de ces derniers de manière similaire à la durée de ces éléments.

L’idée est alors de conserver la modélisation markovienne pour les transitions entre états diffé-rents, et de modéliser la durée d’un état par une distribution appropriée. Ce modèle est dit semi-markovien et on parle alors de hsmm (Hidden Semi Markov Models) (Guédon 2003_{; Murphy} 2002_{; Yu}2010).

1. Modèle général

Un modèle semi-markovien caché est une extension des hmm pour lequel la durée de séjour dans un état est une variable aléatoire _{d à valeurs dans N∗, qui est explicitement définie. On considère} alors qu’on peut émettre non pas une observation mais une séquence d’observation dont le début et la fin déterminentd. À la fin d’une séquence le changement d’état s’effectue toujours selon une loi markovienne.

Le terme hsmm peut dénoter de nombreux types de modèles différents (voir Yu (2010)), nous décrirons ici le modèle « hmm à durée explicite », pour lequel les transitions entre états ainsi que les émissions d’observations sont indépendantes des durées, et la durée d’un état est indépendante de l’état précédent. Pour plus de commodité, nous utiliserons dorénavant la notation de Yu (2010) :

— h_[t₁_:t₂_]= i_{⇔ h}t1:t2 = i et la séquence commence en t1 et termine en t2.

— h_[t₁_:t₂ = i_{⇔ h}t1:t2 = i et la séquence commence en t2, on ne sait pas quand elle termine.

— ht1:t2]= i⇔ ht1:t2 = i et la séquence termine en t2, on ne sait pas quand elle commence.

On définit alors pour chaque étati une probabilité de durée de densité pi(d) de telle sorte que

p(h_t+2:t+d]= i|h[t+1= i; θ) = pi(d) (I.26)

Les autres paramètres étant définis de la même manière que pour les hmm, le modèle est alors défini par θ= (a, π,_{µ_k_}K_k=1,_{pk}Kk=1).

2. Du choix des distributions de durée

Le choix de la distribution pi joue un rôle central pour les hsmm. Une solution pourrait être

de choisir une loi non paramétrique, cependant on préfèrera en général utiliser des distributions paramétrique afin de n’avoir que quelques paramètres à ajuster lors de la phase d’apprentissage. Le tableau I.3montre les détails de lois discrètes pouvant être utilisées comme distributions de durée. La loi de poisson est de famille exponentielle comme nous l’avons vu dans letableau I.2. La loi binomiale

(29)

h1 x1 x2 x3 x4 ph1 pψ,η_h1 h2 x5 x6 ph2 pψ,η_h2 ah1,h2 h3 x7 x8 x9 ph3 pψ,η_h3 ah2,h3 . . . . . . ah3, . . . hT xT−2 xT−1 xT ph5 pψ,η_hT a. . .,hT πh1

Figure I.5 – Représentation du modèle hsmm

Les séquences d’observations sont émises par un état. La durée d’une séquence émise parhi, représentée

par , est déterminée parphi. Les probabilités initialeπiet de transitionai,j fonctionnent comme les

hmm.

Nom Paramètres p(d) E[X] Var(X)

Poisson _P(λ) e−λ λ_d!d λ λ

Binomiale négative∗ _{N (r, p)} Γ(r+d)_d!Γ(r)pr(1− p)d r(1−p) p

r(1−p) p2

Table I.3 – Loi discrètes pouvant modéliser les durées

∗_{Γ correspond à la fonction gamma Γ(k) =}R+∞

0 t

(30)

négative peut aussi être considérée de famille exponentielle si on fixe le paramètre r. On verra que l’utilisation d’une famille exponentielle permet de généraliser l’apprentissage des paramètres de la même manière que pour les loi d’émission (Mitchell et al.1993).

3. Inférence et estimation

Viterbi

L’algorithme de Viterbi peut facilement être étendu au nouveau modèle à durée explicite. Pour cela définissons les nouvelles valeurs semblables à celles des hmm (Yu2010)

δt(i) = max h1:t p(x1:t, h1:t−1, ht] = i; θ) (I.27) δ∗_t(i) = max h1:t+1 p(x1:t, h1:t, h[t+1 = i; θ) (I.28)

On obtient alors les expressions suivantes en procédant de la même manière. δt(i) = max d∈N∗_hmax 1:t−d p(x1:t, h1:t−d, h[t−d+1:t]= i; θ) = max_d∈N∗p(ψ,ηi)(xt−d:t)pi(d)δ ∗ t−d(i)

γt(i) = arg max

d∈N∗ p(ψ,ηi)(xt−d:t)pi(d)δ ∗ t−d(i) δ∗_t(j) = max i∈[[1;K]]hmax1:t−1 p(x1:t, h1:t−1, ht]= i, ht+1= j; θ) = max i∈[[1;K]]ai,jδt(i) γ_t∗(j) = arg max i∈[[1;K]] ai,jδt(i)

Avec δ∗₀(i) = πi. L’algorithme est alors mis en place de la même manière que pour les hmm, on

calcule l’état final h∗_T = arg max_iδT(i) et grâce à des pointeurs γt∗(i) donnant la longueur de la

séquence finissant à t en i, et γ_t∗_−d(j) donnant l’état précédant cette séquence, on retrouve l’état initial. Notons tout de même que l’algorithme suppose que la dernière séquence finit exactement en T , ce qui peut poser problème dans le cas d’un hsmm avec un ou plusieurs états absorbants. Forward-backward

L’algorithme forward-backward quant à lui s’étend aussi facilement aux hsmm en dédoublant les variables de la même manière que pour Viterbi, une avant changement d’état et une après changement d’état. αt(i) = p(ht]= i, x1:t; θ) (I.29) α∗_t(i) = p(h_[t+1 = i, x1:t; θ) (I.30) βt(i) = p(xt+1:T|ht]= i; θ) (I.31) β_t∗(i) = p(xt+1:T|h[t+1= i; θ) (I.32) (I.33)

(31)

décom-posant les probabilités (L. Rabiner 1989). αt(i) = X d∈N∗ p(h_[t−d+1:t] = i, x1:t; θ) = X d∈N∗ p_(ψ,η_i₎(xt−d+1:t)pi(d)α∗_t−d(i) α∗_t(j) = K X i=1 p(ht+1= j, ht= i, x1:t; θ) = K X i=1 ai,jαt(i) βt(i) = X j=1 Kp(xt+1:T, ht+1= j|ht] = i; θ) = K X j=1 β_t∗(t)ai,j β_t∗(j) = X d∈N∗ p(xt+1:T, ht+2:t+d] = i|h[t+1= i; θ) = X (d∈N∗ p_ψ,η_i₎(xt+1:t+d)βt+d(j)pj(d)

Avec pour valeurs initialesα∗₀(i) = p(h1 = i; θ) = πietβT(i) = 1. En pratique on devra fixer la durée

maximale d’un état à D pour faire les sommes sur d. On obtient alors une complexité temporelle O(T (KD + K2)) et une complexité spatiale de O(T K)

Note Le modèle proposé ici considère que lorsqu’une séquence émise par un état est finie, l’état suivant peut être le même, ceci peut être utile dans certaines situations. On peut interdire une transition vers le même état, il suffit alors d’imposer i6= j dans le calcul des variables ci-dessus, ou de forcerai,i = 0 pour les états en question.

Inférences

Avec les valeurs données par l’algorithme forward-backward, on peut alors calculer les valeurs suivantes

p(ht]= i,X ) = p(xt+1:T|ht] = i)p(x1:t, ht] = i) = βt(i)αt(i)

p(h_[t+1= i,_{X ) = p(x}t+1:T|h[t+1 = i)p(x1:t, h[t+1= i) = β∗t(i)α∗t(i)

p(ht] = i, h[t+1= j,X ) = p(xt+1:T|h[t+1 = j)p(h[t+1 = j|ht]= i)p(x1:t, ht]= i)

= β_t∗(j)ai,jαt(i)

p(h_[t+1:t+d]= i,_{X ) = p(x}t+d+1:T|ht+d]= i)p(xt+1:t+d|h[t+1:t+d] = i)p(ht+2:t+d]= i|h[t+1 = i)

p(x1:t, h[t+1 = i)

= βt+d(i)p(ψ,ηi)(xt+1:t+d)pi(d)α

∗ t(i)

Puisqu’on estime que la première séquence démarre en t = 1, et donc que PK

i=1p(h[1= i) = 1, on

peut calculer p(_{X ) =} PK

i=1p(h[1,X ) = PKi=1β0∗(i)α∗0(i). En divisant les statistiques précédentes

par cette valeur, on obtient alors les variables suivantes, qui nous servirons pour la mise à jour du modèle.

δt(i) = p(ht]= i|X , θ) = βt(i)αt(i)/p(X )

δ_t+1∗ (i) = p(h_[t+1= i_{|X , θ) = β}_t∗(i)α∗_t(i)/p(_{X )}

t(i, j) = p(ht]= i, h[t+1= j|X ) = βt∗(j)ai,jαt(i)/p(X )

lt,d(i) = p(h[t+1:t+d]= i|X ) = βt+d(i)p(ψ,ηi)(xt+1:t+d)pi(d)α

∗

t(i)/p(X )

De plus en remarquant quep(ht+1= i) = p(ht= i)− p(ht]= i) + p(ht]= i, h[t+1= i) + p(h[t+1= i)

on peut déterminer

τt(i) = p(ht= i|X ) =

X

t0_<t

δ_t∗0(i) + _t0(i, i)− δ_t0(i)

Le terme en n’est utile que si on considère les transitions vers le même état à la fin d’une séquence possibles.

(32)

4. Espérance-Maximisation

Afin de pouvoir ré-estimer les paramètres, calculons la variableQ(θ, θ(τ )) = Ehln(p(_{X , h; θ))|X ; θ}(τ )i définie par l’algorithme em.

T X t=1 K X i=1 τt(τ )(i) ln(p(ψ,ηi)(xi)) + T X t=1 T −t X d=1 K X i=1 l(τ )_t,d(i) ln(pi(d)) + T X t=1 K X i=1 K X j=1

(τ )t (i, j) ln(ai,j) + K

X

i=1

τ1(τ )(i) ln(πi)

On en déduit que la partie maximisation est identique aux hmm pour µi,πi etai,j

π_i(τ +1)= τ₁(τ )(i) a(τ +1)_i,j = PT t=1 (τ ) t (i, j) PT t=1δ (τ ) t (i) µ(τ +1)_i = PT t=1τ (τ ) t (i)xi PT t=1τ (τ ) t (i)

Le deuxième terme de la somme dans Q(θ, θ(τ )) va nous permettre de maximiser la probabilité de duréepi. Dans le cas d’une distribution non paramétrique, où la probabilité de durée est définie

par le vecteur p_i,D = [pi(1), . . . , pi(D)], puisqu’on a P_dpi(d) = 1, on peut maximiser ce vecteur

comme on a maximisé π pour le modèle de mélange (I.15), où le vecteur (A)i pour les hmm (I.25).

En remarquant queP dl (τ ) t,d(i) = δ ∗(τ) t (i). On trouve p(τ +1)_i (d) = PT t=1l (τ ) t (i, d) PT t=1δt∗(τ)(i) (I.34)

Dans le cas où la distribution de durée est une famille exponentielle (Mitchell et al. 1993), on peut mettre à jour les paramètres en écrivant sa densité en fonction d’une divergence de Bregman, de la même manière qu’on l’a fait pour mettre à jour les paramètres µ_i. Si pi = pψD,ηD,i où on a la

dualité(ψD, ηD,i)↔ (φD, µD,i) alors en suivant le raisonnement amenant à (I.14), on a

µ(τ +1)_D,i = arg min

µ_D,i T X t=1 X d l_t,d(τ )(i)dφD(d, µD,i) = P d PT t=1l (τ ) t,d(i)d PT t=1δ∗(τ)t (i) (I.35)

Cela revient en fait à ré-estimer le paramètre comme l’espérance ded étant données les probabilités estimées par (I.34) : µ(τ )_D,i_{= E}

(33)

(34)

Partitionnement incrémental

Les algorithmes de partitionnement présentés précédemment supposent que l’on connaisse l’in-tégralité des données pour apprendre le modèle. Ce type de partitionnement est qualifié de batch clustering. Ce prérequis peut être problématique pour certaines applications où l’on désire pouvoir apprendre les paramètres et partitionner les données au fur et à mesure que celles-ci sont reçues – par exemple dans le cas de l’analyse et la détection d’événements pour des scènes acoustiques. Traiter le partitionnement présente de plus l’avantage d’être moins coûteux en mémoire, puisqu’il n’est pas nécessaire de conserver l’ensemble des observations, et permet une éventuelle version de l’algorithme en temps réel, dans le cas où celui-ci est suffisamment rapide.

Ces algorithmes sont catégorisés d’algorithmes en ligne (online). Nous proposons ici d’étendre l’algorithme em exposé en section I-4.2pour les trois modèles présentés : le modèle de mélange, le modèle hmm, et le modèle hsmm. Deux types d’algorithmes sont présentés pour chaque modèle, une version que l’on qualifiera simplement de en ligne, et une version qualifiée de incrémentale. Pour chaque version, nous présenterons l’algorithme adapté aux modèles de mélange, hmmet hsmm.

1. Algorithme en ligne, modèle de mélange

La version de l’algorithme de l’algorithme em que nous décrivons ici en ligne est basé sur des outils d’optimisation, permettant une écriture de la partie maximisation utilisant une approximation par la méthode de Newton (Lange1995_{). Selon Cappé et Moulines (}2009), la première version en ligne de l’algorithme d’estimation des paramètres est proposée par Titterington (1984). Cependant, cet algorithme, basé sur une approximation stochastique inspirée de la méthode précédente, nécessite des calculs d’inversion de matrices Hessiennes, et offre peu de ressemblance avec l’algorithme original.

L’algorithme en ligne proposé ici effectue l’approximation stochastique lors de l’étape d’espérance plutôt que lors de l’étape de Maximisation (Cappé et Moulines2009), et garde cette dernière étape inchangée. Le calcul deQ devient alors une récurrence déterminée par

ˆ

Q(i+1)(θ) = ˆQ(i)(θ) + γi+1

E

h

ln(p(xi+1, hi+1; θ))|X ; θ(i)

i

− ˆQ(i)(θ) (II.1) Notons que les itérations et les observations sont maintenant indexées toutes deux par i. La fonction_{γ : N∗ 7→ [0, 1] dénote le pas et dépend de l’itération. En utilisant un modèle de mélange de} famille exponentielle, on va pouvoir expliciter cette récursion et en déduire l’étape de maximisation.

1. Réécriture du modèle

Comme dans le chapitre précédent, nous nous restreignons aux modèles de mélange de famille exponentielles, à la lumière des propriétés énoncées.Une autre propriété intéressante que possède ce type de modèle de mélange est que la loi jointe d’une observation et une variable latente peut elle-même s’écrire sous la forme d’une famille exponentielle. En effet soit une famille exponentielle déterminée parψ et un modèle de mélange défini par θ = (π,{µk}Kk=1, telle lasection I-4.1, on sait