• Aucun résultat trouvé

5.3 HMM crédibiliste

6.1.2 Analyse de mouvements humains

Alors qu’un être humain est capable de reconnaître des mouvements à partir de très peu d’in-formation, par exemple avec la position des articulations [Joh75], il est beaucoup plus difficile de créer des systèmes de visionartificielscapables de telles prouesses, à part dans des conditions bien

132 CHAPITRE 6 –Reconnaissance d’actions et d’activités humaines dans des vidéos d’athlétisme

particulières et maîtrisées [MG01]. Depuis les années 90, de très nombreux travaux visent à créer des systèmes permettant de répondre au moins partiellement à cette problématique de l’analyse de mouvements humains.

L’analyse de mouvements humains à partir de séquences d’images est important dans de nom-breux domaines [Gra99, WHT03, MHK06], par exemple :

Les interfaces Homme-Machine [PR03, JS05] – Elles permettent d’interpréter des comportements humains dans le but de faire communiquer un homme et une machine. Les applications réelles sont par exemple la traduction automatique du langage des signes ou encore la reconnaissance de gestes. Les comportements humains sont estimés à partir de la fusion multimodale d’infor-mations fournies par des capteurs visuels, auditifs, tactiles. . .

La surveillance [HTWM04, Bre07] – Les recherches en surveillance automatique ont explosé de-puis les attentats de 2001 aux USA. L’objectif de ces systèmes est de détecter des comporte-ments suspects [HHD00] par exemple dans des lieux publics [HBN00, Hon02], dans le mé-tro [CABT04] ou les aéroports [XG03]. Des recherches récentes se sont portées sur la concep-tion de systèmes à base de règles prédéfinies basées sur des ontologies [Hon02, HNB04, Vu04, Bre07], de systèmes de surveillance distribués coopératifs [VV05, MFS05] ou encore de sys-tèmes de surveillance à domicile [Duc04, CGPV05, ZBTV07].

L’analyse et la synthèse de mouvements [MHK06] – Les applications sont multiples comme l’in-dexation de vidéos de sports, l’entrainement personnalisé [She06], les études cliniques de patients hospitalisés [Duc04] ou encore la création d’environnement virtuels [Pan06].

Le traitement peut être décomposé en trois étapes [WHT03] :

1. L’extractionde caractéristiques bas niveau et la détection de silhouettes ou des parties du corps humains. Cette première étape fait intervenir des techniques de séparation entre le fond et les objets d’intérêts et de segmentation [LHV03, FLB06] ainsi que des techniques d’extraction bas niveau comme les gradients spatio-temporels d’intensité [LMI06] à différentes échelles tempo-relles, l’analyse en ondelettes à différentes échelles spatiales [CC99] ou encore l’utilisation des descripteurs MPEG de mouvement [PCD02, MZ03].

2. Le suivi de pointsparticuliers sur les silhouettes [WS03]. Cette seconde étape dépend de la pré-cision recherchée lors du suivi. Par exemple, la synthèse de mouvements, utilisée au cinéma ou dans les jeux vidéos entre autres, nécessite généralement une modélisation 3D des personnes voire l’utilisation de marqueurs permettant une modélisation précise. Dans [GG04a], un mo-dèle 3D de la sihouette d’un gymnaste est utilisé pour reconnaître des mouvements complexes. La méthode intègre un filtre à particules pour la mise en correspondance entre le modèle 3D et les images car le nombre de degrés de liberté est important. Cette méthode a été utilisée dans [GG04b] pour la reconnaissance biométrique [HTWM04]. Une méthode un peu moins précise et basée sur des modèles d’apparence a été proposée dans [RFZ07]. La méthode intégre un processus de mise à jour des modèles lors du suivi lui conférant une grande robustesse au changement d’illumination et au changement du fond des images. De très bonnes performances ont été obtenues sur des types de vidéos variées.

3. L’inférence de comportements[Mur02, WHT03, AP04]. Cette étape consiste à mettre en cor-respondance des modèles de comportements avec des observations. De nombreuses méthodes

6.1 Introduction 133

existent et nous avons pu voir, dans les paragraphes précédents, quelques exemples basés sur des distances. Il existe par ailleurs des méthodes symboliques basées sur l’expression de règles de comportements à partir de données expertes. Ces règles sont formalisées par des langages objets, des opérateurs logiques et des machines à états finis [PB98, Vu04, Bre07]. Ces méthodes sont inspirées de l’algèbre de Allen [All83, AF94] et donc gèrent bien les contraintes tempo-relles. Cependant, il est difficile d’une part de prendre en compte l’incertitude sur les contraintes temporelles et, d’autre part de réaliser un apprentissage automatique [Mur95, Bre07]. Les mé-thodes les plus répandues pour reconnaître des mouvements restent les mémé-thodes statistiques tels que les modèles de Markov Cachés (HMM :Hidden Markov Models) [Rab89], les réseaux Bayésiens Dynamiques (DBN : Dynamic Bayesian Networks) [Mur02] et quelquefois les ré-seaux de neurones [WHT03, MHK06] mais dans ce dernier cas, l’interprétation des modèles est difficile. Les HMM et les DBN sont des modèles probabilistes qui exploitent à la fois la puissance de la théorie des graphes pour la représentation et la programmation dynamique l’ef-ficacité algorithmique et la rapidité des calculs. Ces modèles ont été très largement utilisés pour la reconnaissance de mouvements humains [LWH03, LL06] (voir aussi les récents états de l’art [WHT03, MHK06]) et de nombreuses variantes de ces méthodes existent [Mur02].

6.1.3 Contribution

Nous cherchons à analyser les mouvements d’un athlète dans les vidéos d’athlétisme. Pour la majorité des méthodes d’analyse de vidéos de sports, seules des informations très locales (comme les événements) ou globales (comme la segmentation en fonction du mouvement de caméra) sont utilisées. Nous proposons une analyse plus fine de ces vidéos en tentant de reconnaître les

mouve-ments des athlètesgrâce aux nouvelles méthodes de reconnaissance de séquences développées dans

cette thèse. De plus, nous proposons uncomparatif d’une part, entre plusieurs méthodes de

modé-lisationde caractéristiques à l’aide de fonctions de croyance à partir desquelles nos algorithmes de

reconnaissance seront appliqués, et d’autre part, entre nos méthodes (( crédibilistes )) et les HMM probabilistes. Enfin, nous présentons un système complet, de l’extraction à la reconnaissance en pas-sant par la modélisation et le suivi de points, pour la reconnaissance de mouvements d’athlète dans les vidéos d’athlétisme.

L’une des difficultés majeures pour reconnaître des mouvements dans les vidéos d’athlétisme concerne le fait qu’elles sont acquises en caméra mobile [CPV04]. Dans la littérature, généralement, la caméra est statique et l’angle de vue est fixe, par exemple dans les travaux de Bobick et al. sur les modèles temporels [BD01] appliqués à la reconnaissance d’exercices aérobics. Quelques auteurs ont traité des vidéos en caméra mobile. Par exemple, Efros et al. [EBMM03] exploite le mouvement de la caméra pour la reconnaissance d’actions effectuées par des humains éloignés de la caméra (les silhouettes sont de taille30×30pixels). Pour cela, les auteurs utilisent un processus de mise en corres-pondance du flot optique sur des blocs d’imagettes avec des modèles pré-estimés. La méthode montre une bonne performance sur différents types de vidéos mais elle ne peut traiter des silhouettes de taille ou de forme différentes. Cette méthode a été améliorée dans [LMI06] avec la prise en compte de gra-dients spatio-temporels à plusieurs échelles de temps. Dans [YS05], les auteurs tentent de contourner le problème de la gestion du mouvement de caméra pour la reconnaissance d’action et l’indexation. Au lieu de modéliser les mouvements en fonction des angles de vue, ce qui s’avère une tâche très difficile, ils proposent d’utiliser la géométrie de la scène dans l’espace 3D+t. Ils projettent ainsi les caractéristiques extraites des vidéos dans ce nouvel espace et appliquent une mesure de similarité

134 CHAPITRE 6 –Reconnaissance d’actions et d’activités humaines dans des vidéos d’athlétisme

pour la mise en correspondance avec des modèles de trajectoire pré-estimés. Les résultats montrent l’efficacité de cette méthode sur différents types de mouvements.

Dans le cadre de nos travaux, nous exploitons le mouvement de caméra comme une information pertinente sur le mouvementglobalde l’athlète. Pour cela, nous supposons que la caméra est mobile et suit l’athlète. Cette hypothèse est généralement vérifiée dans les meetings d’athlétisme où l’athlète est le centre d’intérêt.

Dans la section suivante, nous présentons le système de reconnaissance (Section 6.1). Puis, nous nous intéressons au problème de l’extraction de caractéristiques (Section 6.3) et à la modélisation, i.e. à la conversion des données numériques en croyances sur les actions effectuées par l’athlète (Sec-tion 6.4). Enfin, nous proposons une synthèse desrésultatsobtenus pendant cette thèse sur une base de74vidéos que nous avons créée (Section 6.5).