• Aucun résultat trouvé

4.4 Méthode 2 : modélisation par apprentissage

4.4.3 Première phase : la modélisation

a) Généralités sur les modèles de Markov cachés

Un modèle de Markov caché (HMM) est un modèle statistique de Markov dans lequel le système modélisé est supposé être un processus de Markov avec des états cachés. Par hypothèse, les observations sont générées par le processus caché, dont chaque état est conditionné par le précédent. La structure temporelle est ainsi encodée à l’intérieur du processus caché, et n’est accessible que par inférence à partir des observations. Chaque état a une distribution de probabilité sur les observations possibles. Par consé-quent, la séquence d’observations générée par un HMM donne des infor-mations sur la séquence d’états.

La propriété de Markov requiert que la distribution de probabilité condi-tionnelle de la variable cachée X(t) au temps t, ne dépende que de la valeur de la variable cachée X(t − 1). De même, la valeur de la variable observée Y (t)ne dépend que de la valeur de la variable cachée X(t). Ainsi, les pro-babilités définies dans un HMM sont de deux types. D’une part, les proba-bilités de transition qui contrôlent le passage de l’état caché t à l’état caché t + 1. D’autre part, les probabilités d’observation qui régissent la distribu-tion de probabilité de la variable observée t étant donné l’état de la variable cachée à t.

b) Le suivi de geste

Dans la deuxième approche explorée pendant la thèse, nous utilisons le suivi de geste (GF) qui est un algorithme « d’apprentissage supervisé » dé-veloppé à l’Ircam par Bevilacqua et al. (2010). Ici, le terme apprentissage su-pervisé désigne le fait de définir un modèle de Markov, à partir d’exemples préalablement étiquetés en classes de gestes prédéterminées. Le forma-lisme sur lequel se base le suivi de geste s’appuie directement sur celui plus général des HMM, décrit par exemple dans le tutorial de Rabiner (1989). Ce formalisme probabiliste permet de modéliser une série temporelle à partir de probabilités d’émission liées à des états cachés, et aux probabilités de

transition entre états. La vraisemblance d’une série d’observations peut en-suite être estimée grâce à des méthodes d’inférence bayesienne.

En réalité l’approche développée ici, ne repose pas sur un apprentissage statistique effectué à partir d’une grande base de données (en utilisant par exemple l’algorithme de Baum-Welch), comme cela est généralement le cas. Elle se situe plutôt à l’intersection entre l’apprentissage statistique et la re-connaissance basée sur des exemples de référence (ang. template), comme les méthodes de « déformation temporelle dynamique » (ang. Dynamic Time Warping) (Myers et Rabiner, 1981)

Comme nous sommes dans un cas où les données d’apprentissage sont in-suffisantes (d’un point de vue statistique), le GF n’apprend pas automa-tiquement tous les paramètres du HMM, mais utilise certaines connais-sances préétablies sur le système donné. Par exemple, la phase d’expéri-mentation sur les descripteurs (i.e. les paramètres d’entrée du GF) a per-mis une estimation de leurs variances initiales, qui sont fixées lors de la phase d’apprentissage. Celles-ci peuvent être réajustées par la suite dans une deuxième phase de test du système (en mode reconnaissance).

c) entrainement du HMM X1 X2 X3 Y1 Y2 Y3 X4 X5 Y4 Y5 Transitions Observations Etats

FIGURE4.8 – Modèle graphique de chaîne de Markov cachée gauche-droite, similaire à celui mis en œuvre dans le GF.

La spécificité du GF par rapport à d’autres systèmes de reconnaissance ba-sés sur des HMM, est qu’il détermine, lors de la phase d’ entrainement, une chaîne de Markov cachée de topologie gauche-droite (illustrée dans la figure 4.8) à partir d’un unique exemple de référence enregistré. Pour cela, il associe un état caché à chaque trame du signal gestuel de référence. Cette phase d’ entrainement réduite est particulièrement adaptée au contexte ar-tistique de la performance, car nous disposons rarement de grandes bases de données d’exemples de gestes classifiés, puisque ces exemples sont gé-néralement très dépendant du contexte artistique et des particularités de chaque interprète. Cette implémentation n’est pas une implémentation stan-dard de HMM. Elle a été initialement pensée pour la problématique d’ali-gnement temporel du geste mais a finalement été utilisée dans bon nombre

V a le u r me su ré e t Probabilité d'Observation a0 a1 a2 Chaine de Markov

FIGURE4.9 – L’ entrainement du GF : un HMM de gauche à droite est utilisé pour modéliser le geste de référence enregistré

de cas pour des tâches de reconnaissance de gestes (Bevilacqua et al., 2011a). La chaine générée par le GF lors de la phase d’ entrainement est utilisée dans la deuxième phase de test pour comparer une nouvelle donnée au geste de référence enregistré. La figure ci-dessous 4.9 schématise la chaine de Markov cachée générée pendant cette phase d’ entrainement du GF. Chaque ièmeétat émet une observation O avec une probabilité bi, suivant une distribution de probabilité gaussienne aux paramètres (µi, σi).

bi(O) = 1 σiexp12(O− µi σi ) 2 (4.12)

µi est la ieme valeurs de l’échantillon de référence enregistré, σi est la dé-viation standard définissant les différences qui peuvent arriver pendant la performance. σi ne peut être estimée à partir d’un seul exemple de réfé-rence enregistré. Elle doit donc être définie de manière empirique.

Comme illustré dans la figure 4.9, la chaîne de Markov cachée constituée par le Gesture Follower a une structure particulière puisqu’elle ne permet que des auto-transitions (notées a0de Xià Xi) ou des transitions d’un état caché au suivant (notées a1de Xi à Xi+1) ou à l’état caché d’après (notées a2de Xià Xi+2). Ces probabilités satisfont la propriété : a0+ a1+ a2 = 1. Comme l’ entrainement du GF se base sur un seul exemple de référence, cela ne permet pas d’apprendre avec précision les paramètres correspon-dant aux probabilités de transitions. Une des spécificités de l’utilisation du GF consiste donc à définir les valeurs des probabilités des transitions sur la base d’une connaissance préalable du vocabulaire de gestes. La discussion qui suit clarifie le rôle de ces paramètres.

1. a0 = a1 = a2 = 1/3 : ce cas correspond à avoir des probabilités égales d’obtenir un geste qui accélère ou qui ralentit par rapport au geste de référence.

2. a0 < a1 et a2 < a1 : ce cas correspond à une plus grande probabilités d’avoir un geste qui a une vitesse moyenne proche de celle du geste de référence.

3. a0 < a2 : ce cas correspond à de plus faibles probabilités de ralentir que d’accélérer.

4. a0 > a2 : ce cas correspond à de plus grandes probabilités de ralentir que d’accélérer.