ÉTUDE DES PARAMÈTRES 113 directement le nombre de représentants. De celui-ci dépend directement le temps

Reconnaissance par histogrammes

9.4. ÉTUDE DES PARAMÈTRES 113 directement le nombre de représentants. De celui-ci dépend directement le temps

de calcul car plus l'espace des solutions est important, plus l'exploration de cet espace est coûteuse en temps de calcul. Le temps de calcul et le nombre de représen-tants pour une action sont exprimés en fonction de la distance inter-poses dans la gure 9.6. Cette gure représente la séquence 0-2 du jeu de données TUM, d'une durée de 39 secondes. La mise en correspondance du nombre de représentants et du temps de calcul est clairement établie. La longueur de l'action, en secondes, est exprimée par la ligne horizontale noire. Lors de l'utilisation d'une distance entre action de 0 ou 1mm l'exploration des solutions n'est pas temps réel. Il est toutefois à noter que ces paramètres ne sont pas réalistes dans la plupart des applications, car une distance entre poses de maximum 1mm est en dessous de la précision générale des systèmes d'acquisition de mouvements, de l'ordre de quelques cen-timètres pour les systèmes sans marqueur comme Tenorth et al. [126]. Néanmoins, à partir de 2mm de distances inter-poses, le système que nous proposons est temps réel. Notons que le nombre de représentants est trop important pour être ecace, supérieur à 14000. Il s'agit d'une sorte de overtting . Voir Bishop [21] pour les conséquences dans les systèmes d'apprentissage statistiques. Le seuil de 20cm, soit 5799 représentants a été choisi de manière empirique. Il satisfait l'ensemble des contraintes précédentes, à savoir, dans la limites de précision des systèmes de capture de mouvements, mais sans introduire trop de représentants. Il est bon de noter qu'un nombre trop important de représentant nuit à la abilité de la méth-ode. En eet, les actions sont trop dissemblables les unes des autres, et les scores de reconnaissances décroissent. Le phénomène inverse se produit en cas de faible nombre de représentants. Dans ce cas, les actions sont trop semblables les unes aux autres, et la précision de reconnaissance s'eondre également. Avec ε = 20, nous avons obtenu, pour une action constituée de 957 poses, soit une durée totale de 39 secondes, un temps de reconnaissance de 12, 0756 secondes. La reconnaissance prend moins de 1

3 du temps de l'action, ce qui, comme elle se déroule sur l'action en cours, durant son exécution, permet de satisfaire aisément le temps réel.

Le second paramètre d'importance dans notre système est le nombre d'hy-pothèses retenues pour représenter la variation intra-classe. Dans ce contexte, nous avons étudié le nombre d'hypothèse retenu, i.e. la valeur de k dans l'algorithme KMédoïds8.1, en fonction du coût maximum autorisé au sein d'un même médoid. Les résultats présentés dans la gure 9.7 montrent l'évolution du coût dénit par l'équation 8.24 et du nombre d'hypothèses retenues. Nous avons utilisé le cas emblématique de l'action Walk , du jeu de données TUM, car il s'agit d'une action courte et possédant une forte variabilité interne dans ce contexte. Nous pou-vons remarquer que lorsque le coût maximal autorisé est inférieur à 0.5 dans le sens de la mesure de l'équation 8.10 nous avons un nombre d'hypothèses quasi

Figure 9.6 Eet du paramètre ε sur le nombre de poses et sur le temps de reconnaissance.

constants. Au-delà de 0.5, le nombre d'hypothèses (de médoids), décroit rapide-ment. Dans ces conditions, nous pouvons ajuster la valeur de k an de garantir une certaine homogénéité des hypothèses qui représente l'action. Tout en ten-ant compte du fait de la granularité souhaitée pour chacune des actions, i.e. si les actions sont très versatile ou pas.

9.5 Conclusion

Nous venons de présenter notre reconnaissance d'actions par histogrammes in-tégraux. Notre approche est incrémentale, ce qui est indispensable pour fournir une reconnaissance de l'action au cours de son déroulement. Nous avons appliqué le principe de la programmation dynamique pour augmenter la robustesse de la méthode. Notre méthode repose sur l'utilisation de concepts compréhensibles (his-togrammes) et de métriques connue (Bhattacharyya).

De plus, notre solution est capable de travailler avec des séquences de capture de mouvements, sans nécessité de pré-segmentation. L'apprentissage utilisé est semblable à la reconnaissance et très proche du temps réel. Il n'est ni complexe ni coûteux en temps de calcul, ce qui lui confère un avantage indéniable face aux méthodes de machine learning, comme les SVM, k-plus-proches-voisins (kNN), etc.

9.5. CONCLUSION 115

Figure 9.7 Évolution du nombre d'hypothèses en fonction de la distance inter-poses, action walk du jeu de données TUM.

Notre modèle de représentation des actions, basé sur des histogrammes, a per-mis de transformer un problème complexe en une solution d'ingénierie plus simple, reposant sur l'évaluation de métriques connues. Nous avons aussi étendu le concept des histogrammes à des cas plus complexes, non exclusivement 2D, et sans ordre total. En eet, les poses ne sont pas arrangées dans l'histogramme par proximité. Ainsi, une méthode traitant des histogrammes se doit de prendre en compte cet as-pect. L'une des solutions classiques est l'utilisation d'une métrique qui tient compte des distances entre modes dans un histogramme, comme la Earth Mover's Distance par exemple. Nous avons pu dépasser ce problème en utilisant le paramètre ε qui s'aranchit de l'ordre total en proposant un regroupement an de modéliser les proximités entre poses sans avoir besoin de les classer. En eet, les poses à une distances supérieure à ε les unes des autres sont susamment diérentes pour que l'on n'ait pas besoin d'un ordre.

D'autre part, notre solution repose sur deux paramètres simples et facile d'accès permettant de l'adapter aux diérents contextes envisageable lors de la reconnais-sance d'actions. De par l'étude qui a été mené sur eux, il est aisé de voir leur inuence sur les résultats, et donc de les adapter en fonction des besoins : en précision, en vitesse ou en espace mémoire si d'aventure ceux-ci devenait critique. Les résultats de ses travaux ont été publiés dans Barnachon et al. [10, 11, 12].

Quatrième partie

Dans le document Reconnaissance d'actions en temps réel à partir d'exemples (Page 126-130)