• Aucun résultat trouvé

3.3 Suivi de personnes

3.3.4 Représentation par modèle 3D sans modèle explicite

Retrouver l'information 3D sans utiliser explicitement de modèle 3D nécessite d'ajou-

ter à un descripteur 2D ou 2D1

2 des informations supplémentaires permettant de la re-

trouver. L'un des premiers travaux fournissant une estimation quantitative des valeurs articulaires d'un modèle 3D a été produit par Valentina Filova et al. [Filova 98] . Ils pro- posent en 1998 de reconstruire automatiquement la posture 3D d'un bras humain à partir d'une séquence monoculaire. Ils utilisent pour cela un modèle articulaire du bras à six degrés de liberté ainsi qu'un modèle de forme 2D, exprimé en courbe de second ordre, permettant de récupérer le contour du haut du corps d'une personne. De ce contour sont extraites les positions des épaules, des coudes et des poignets. A partir de ces points 2D, une inversion du modèle articulaire est eectuée pour retrouver les angles de chaque ar- ticulation (2 pour l'épaule, 2 pour le coude et 2 pour le poignet). Leur expérimentation ne comporte pas de détails sur les conditions opératoires de prise de vue. Ils soulignent en revanche que leur modélisation ne soure aucune occultation. Leur approche peut se qualier de bottom-up car ils n'utilisent pas le modèle articulaire pour prédire la position des articulations dans l'image.

Belongie et Malik [Belongie 00] introduisent les contextes de forme (shape context) pour eectuer une mise en correspondance de contours de silhouettes d'objets. Cette technique consiste à représenter une forme par l'ensemble des points des contours internes et ex- ternes d'un objet. Cet ensemble de points est ensuite constitué en une représentation plus compacte : un histogrammes regroupant les points selon leurs coordonnées relatives dans un système de coordonnées log-polaires. La mise en correspondance de deux formes revient alors à mettre en correspondance leurs histogrammes.

En poursuivant cette approche Mori et Malik [Mori 06] réunissent plusieurs images de personnes sur lesquelles sont notées manuellement les positions des articulations. Pour retrouver ces positions sur une nouvelle image, ils eectuent une mise en correspondance à partir des contextes de forme. Une fois la mise en correspondance eectuée, il est possible de retrouver les valeurs angulaires des articulations en eectuant au préalable certaines

hypothèses :

• les positions des articulations dans l'image sont connues

• la longueur des segments corporels est connue

• la caméra est modélisée selon un modèle de projection orthographique mis à l'échelle.

Ces hypothèses leur permettent de retrouver la profondeur relative de chaque segment par rapport à une position articulaire de référence, à un facteur d'échelle près.

Agarwal et Triggs [Agarwal 04] retrouvent la posture 3D d'une personne directement à partir des caractéristiques image extraites. Pour cela ils construisent un modèle par ap- prentissage, eectuant une combinaison linéaire entre les vecteurs de posture et les don- nées image (voir gure 3.20). Ces données sont représentées par des contextes de forme. Les vecteurs de posture contiennent les valeurs angulaires des trois degrés de liberté de chaque articulation. Le modèle est entraîné au préalable sur des images de synthèse dans lesquelles les données angulaires sont connues. L'estimation de la posture revient à re- trouver la forme correspondante à la forme à estimer. A la diérence de [Mori 06], une fois la mise en correspondance eectuée, ils connaissent directement les valeurs angulaires des articulations puisque celles-ci ont été combinées dans un modèle appris au préalable. Leur méthode soure toutefois de certains problèmes (Cf section 3.3.3.1) : l'utilisation de silhouettes pour composer les contextes de formes.

Distribution contextes de forme RVM Contextes de forme Param`etres de posture Apprentissage Valeurs angulaire des articulations R´egression

Fig. 3.20: Estimation de posture, méthode de Agarwal et Triggs

Micilota, Jon Ong et Bowden [Micilotta 05b] ont construit une base de données d'images du haut du corps d'une personne à l'aide d'un modèle 3D (voir gure 3.21). Ces données contiennent les positions 2D des mains, des informations articulaires, et les contours de la silhouette. Pour réduire la combinatoire de la mise en correspondance entre les silhouettes, ils construisent un sous-ensemble d'images candidates à l'aide de la position des mains. Ils utilisent, de plus, une représentation intermédiaire de la silhouette : les intégrales d'image. Cela leur permet de ne pas avoir à traiter tous les pixels de l'image.

Ils ont plus récemment [Micilotta 06] donné des évaluations sur leur méthode, d'après lesquelles on peut constater, sous forme de courbes ROC, le bon fonctionnement pour la détection du torse et des mains ainsi que d'autres parties du corps non spéciées. Il n'y a cependant pas d'évaluation quantitative de la posture (les valeurs angulaires).

3.3. Suivi de personnes Cette méthode est plutôt conçue comme une méthode d'estimation de posture dans une image statique mais elle a été également évaluée dans un contexte de suivi de mouve- ment dans des séquences vidéo. Cependant peu de détails sur l'aspect temporel ont été présentés. BD BD BD D´etection de correspondance correspondance de silhouette par intgrale d’image Distance aux contours contours Mise en Mise en de contours par Chamfer S´election S´election de 10% de 10% des meilleurs des meilleurs silhouettes silhouettes A pp re nt iss age Positions 2D des mains Selection manuelle de regions

Fig. 3.21: Estimation de posture, méthode de Micilota, Ong et Bowden.

eectuant en même temps une segmentation de la personne. Ils fournissent une approche générative utilisant le cadre des méthodes de Monte-Carlo par chaîne de Markov pour explorer l'espace des solutions. Leur modèle de personne est représenté par la structure cinématique, la forme d'un corps humain ainsi que l'apparence des vêtements. Ils com- binent diérents indices visuels pour eectuer l'appariement entre l'image d'une personne et leur modèle (voir gure (3.22)). Ces quatre types d'indices sont : dans un premier temps, le visage et la couleur de peau. A partir de la position de la tête, ils initialisent ensuite un modèle de forme permettant de retrouver le contour des épaules. Une probabilité jointe permet ensuite de récupérer les positions de la tête, du cou et des épaules. Le quatrième indice visuel est constitué par les cols des contours de diérentes parties du corps : les membres et le torse. Cet indice leur permet de calculer l'axe médian de ces parties. Ces quatre indices sont utilisés dans une phase d'apprentissage pour construire un modèle probabiliste permettant de calculer les probabilités de position de treize articulations du squelette, soit : la tête, le cou, le centre des hanches, les épaules, les coudes , les poignets, les genoux et les chevilles. Cette méthode initialement proposée dans [Lee 06] pour l'esti- mation de posture de personne dans des images statiques a été étendue dans [Lee 07] au suivi de posture. Le cadre de suivi probabiliste qu'ils proposent permet aisément d'utiliser les résultats issus de l'image précédente pour eectuer le suivi.

Gaus− sienneGaus- sienneGaus- sienneGaus- sienneGaus- sienneGaus- sienneGaus- sienne Gaus- sienneGaus- sienneGaus- sienneGaus- sienneGaus- sienne MCMC Apprentissage Vetements Forme du Volume

GMM ACP grammesHisto-

Orientation globale Distribution a priori Position 2D des articulations Proposition de distribution de position 2D pour chaque articulation Gaus- sienne Valeurs angulaire des articulations

Fig. 3.22: Suivi de personne, méthode de Lee et Cohen

3.3.4.1 Bilan

Ces approches établissent des relations entre les paramètres du modèle 3D et des attributs images lors d'une étape d'apprentissage puis évaluent cette relation avec les at- tributs d'une nouvelle image pour inférer les paramètres du modèle. En général l'ensemble d'apprentissage est constitué manuellement. [Agarwal 04] utilisent un avatar anthropomé- triquement proche des personnes suivies : leur caractéristique image étant la silhouette, ils ont pu générer automatiquement leur ensemble d'apprentissage.

3.3. Suivi de personnes Pour résoudre le problème d'association de paramètres, plusieurs approches ont été pro- posées. [Agarwal 04] présentent une fonction de régression multi-valeur sous la forme de machine à vecteur de pertinence (relevent vector machine RVM) qui permet de désambi- guïser les postures 3D générant la même silhouette. Par contre, ils perdent les informations de structure interne en utilisant la silhouette comme descripteur image.

[Micilotta 05b] procède par suivi par détections successives. Dans son approche, les images de son modèle 3D ont été générées hors-ligne. Il utilise deux types d'indices pour eec- tuer la mise en correspondance. Des indices sémantiques : la position 2D des mains, ainsi que des indices de forme : les contours externe et interne de la silhouette. Il propose une approche from coarse to ne ranant la sélection des postures par l'utilisation d'indices image dont les détails augmentent. Cependant ils ne présentent que des résultats de per- sonnes face à la caméra, leur base de données d'images ne comporte pas le point de vue de la caméra comme paramètre.

[Lee 06] multiplie les indices sémantiques et images, et modélise de façon statistique les paramètres de son modèle 3D. Cela lui permet de retrouver de manière robuste la posture de la personne à partir des positions 2D des articulations.

3.3.5 Bilan

La sélection de caractéristiques visuelles et le choix de représentations jouent un rôle crucial pour dénir un système d'interaction. En général, la propriété la plus désirable d'une caractéristique visuelle est son unicité, de sorte qu'elle soit facilement distinguable dans l'espace des caractéristiques. Cette sélection s'eectue en relation étroite avec la re- présentation de l'objet.

Diérentes approches ont été présentées pour suivre les mouvements 3D de personnes. Nous les avons présentées en distinguant les approches génératives et les approches discri- minatives. Les méthodes génératives procèdent par la mise à jour d'un modèle a priori, les méthodes discriminatives sont elles basées sur l'apprentissage des paramètres d'un modèle. L'analyse du mouvement humain est un problème présentant plusieurs challenges dûs aux larges variations de mouvements, d'apparence de personnes, de congurations de dis- positifs. D'un autre coté on dispose d'une connaissance assez complète de ce qui constitue un être humain. Le point clef pour réussir l'analyse du mouvement de personne est d'uti- liser cette connaissance. Durant ces dernières décades, un grand nombre (grandissant) de recherches ont été menées. Les modèles géométriques d'êtres humains initialement dé- crits en deux dimensions ont évolué vers des modèles plus complexes, articulés et en trois dimensions. Les suivis déterministes, linéaires ont été remplacés par des cadres de suivi probabiliste évaluant des fonctions de coût. Le rôle de l'apprentissage joue un rôle impor- tant dans cette analyse, et continuera dans cette direction.

Tout au long de cette état de l'art, nous avons vu que les connaissances a priori étaient de plus en plus et de mieux en mieux incorporées. Cependant des hypothèses sur la présence d'une personne ou bien sur les postures adoptées sont toujours nécessaires pour mener à

bien l'initialisation.

Notre problématique, d'interprétation de geste de communication, demande que les par- ties du corps porteuses de sens soit correctement identiées et suivies. Les mouvements de mains que nous observons exhibent de multiples pics de variations. Les gestes comportent des variations rapides de conguration des mains. D'autre part, concernant les données vidéos, nous travaillons dans le domaine compressé ce qui provoque des dégradations de la qualité de l'image. Enn nous visons des temps de calcul interactif pour pouvoir produire des méthodes utilisables en interaction.

Le respect de ces contraintes nous à conduit à proposer de nouvelles méthodes de suivi, d'évaluation de la posture et de caractérisation qui seront présentées aux chapitres 4 et 5.

3.4 Reconnaissance de mouvements

La reconnaissance de mouvements met en jeu, comme nous l'avons vu chapitre 2, plusieurs niveaux. Les mouvements peuvent être des actions, des séquences de postures ou des séquences d'actions. Les postures caractérisent les congurations alors que les actions caractérisent les variations de congurations du sujet.

3.4.1 Reconnaissance de postures

De manière générale la reconnaissance de posture utilise la sortie des méthodes de suivi présentées. Nous allons voir deux exemple illustrant le cas de la reconnaissance de posture à partir des paramètres d'un modèles en deux dimensions [Haritaoglu 00] ainsi qu'à partir d'un modèle en trois dimensions [Boulay 07]. Le fait que les paramètres du modèle 3D soient issues d'une méthode utilisant un modèle 3D de manière indirecte ne change pas la manière dont ces paramètres seront utilisés par la méthode de reconnaissance de posture. Après la détection et le suivi de personne, Haritaoglu et al. [Haritaoglu 00] eectuent une identication de la posture du corps humain. Leur méthode repose sur l'étiquetage des diérentes parties du corps retrouvées à partir de la silhouette 2D extraite en détec- tion et mise à jour lors du suivi. Ils distinguent quatre postures principales (debout, assis, penché, couché) selon trois orientations (de face/de dos, vers la gauche, vers la droite). Les postures sont représentées par les histogrammes normalisés des projections horizontales et verticales, l'axe principal de la silhouette et son centre. Des postures moyennes ont été construites à partir de 4500 images de silhouettes de sept personnes diérentes selon trois vues. L'identication de la posture s'eectue par mesure de similarité (la somme des valeurs absolues des diérences) entre les postures apprises et la posture courante. [Boulay 07] eectue une identication de posture à l'aide d'un modèle génératif. Il utilise un modèle en trois dimensions pour générer des silhouettes. Des postures d'intérêts et leurs paramètres ont été dénis. Un ensemble d'images de silhouettes de l'avatar dans ces diérentes postures peut être généré pour comparaison. Après avoir extrait la silhouette

3.4. Reconnaissance de mouvements d'une personne, il la compare aux silhouettes générées par l'intermédiaire de descripteurs images : les sept moments de Hu [Hu 62], des caractéristiques géométriques, le squelette de la silhouette et des projection verticales et horizontales. Son système s'exécute su- samment rapidement pour eectuer la reconnaissance en temps interactif. Cependant il ne propose pas de méthode pour les cas où plusieurs silhouettes générées correspondent à la silhouette réelle. Il conseil alors de sélectionner la posture correspondant le plus à la silhouette extraite.

3.4.2 Reconnaissance d'action

Les approches de reconnaissance de l'activité humaine peuvent être supervisées ou non-supervisées. Ces méthodes mettent en jeu trois catégories de méthodes :

• Les techniques d'extraction de caractéristiques spatio-temporelles des activités re-

cherchées, dans le but de les mettre en correspondance avec des évènements.

• Les méthodes de logique temporelle représentant des contraintes d'ordonnancements

critiques des activités.

• Les algorithmes utilisant des grammaires stochastiques (ou modèles de Markov ca-

chées Hidden Markov Models HMM) pour représenter la distribution des données observées et modéliser la dynamique, les états temporels.

3.4.2.1 Caractéristiques spatio-temporelles

Bobick et Davis [Bobick 01] proposent une représentation d'exemples temporels du mouvement d'une personne dans une image. Ces exemples représentent comment le mou- vement a été eectué durant plusieurs images par la constitution d'une image d'historique de mouvements (Motion History Image MHI) (gure 3.24a). Dans un MHI, l'intensité d'un pixel est fonction de l'historique temporel du mouvement en ce point. Le résultat est une image où les pixels ayant bougé récemment sont les plus clairs. Ce type de signature n'est pas invariant selon l'orientation de l'utilisateur par rapport à la caméra. En d'autres termes ces signatures ne sont utilisables que dans les contextes où la personne eectuant les gestes aura toujours la même orientation vis-à-vis de la caméra. Ceci peut être contourné en utilisant une base de données de MHIs contenant plusieurs points de vue. L'utilisation de toute l'image lors de la construction de l'historique suppose que tous les mouvements dans l'image sont pertinents. Cette approche ne fonctionne pas si, par exemple, deux personnes sont présentes dans l'image. Une autre diculté survient lorsqu'un mouvement d'une partie du corps n'est pas spécié dans la signature du mouvement. Par exemple, un geste de pointage est eectué par un bras ; si l'autre bras se déplace au même moment, cela modiera énormément l'historique de mouvement du geste.

Efros et al. [Efros 03] mesurent la similarité du mouvement de volumes spatio-temporels d'images centrées sur une personne (gure 3.23). Ils dénissent pour cela un descripteur spatio-temporel du mouvement : une agrégation de caractéristiques échantillonnées spa- tialement et temporellement. Ces caractéristiques sont données par le ot optique (optical ow) : de cette manière leur méthode ne dépend pas de l'apparence de la personne. Ce- pendant ce descripteur dépend du point de vue de la caméra. L'identication d'une action

s'eectue par l'évaluation d'une mesure de similarité entre les volumes spatio-temporels d'actions connues et l'action à identier. La mesure de similarité utilisée est une version normalisée de la corrélation. (a) (b) (c) Fx,y (d) Fx, Fy (e)Fx+, F − x , Fy+, F − y (f)

Fig. 3.23: Descripteur de mouvement de Efros [Efros 03]. (a) Un volume spatio temporel d'une personne suivie. (b) Une image du volume, (c) ot optique entre deux images suc- cessives du volume. (d) Composantes séparées du ot optique x et y, (e) séparation des composantes suivant leur signe, (h) les mêmes composantes lissées.

McKenna [McKenna 04] propose un MHI où seules les parties du corps pertinentes (les mains et la tête) sont prises en compte dans la reconnaissance du geste. Il eectue tout d'abord une sélection des pixels de la tête et des mains d'après leur couleur, pour ensuite établir leur historique de mouvement. De ce fait, si les jambes sont également en mouvement, il n'y a pas de modication de la signature du geste et la reconnaissance en est améliorée. Cependant il reste toujours le problème de la taille de la fenêtre temporelle à prendre en compte dans l'intégration temporelle, ainsi que celui du recouvrement de l'historique pour des mouvements tels que les battements.

(a) (b)

Fig. 3.24: (a) Les MHIs de Bobick et Davis [Bobick 01], (b) les MHIs de peau de McKenna [McKenna 04]

3.4. Reconnaissance de mouvements 3.4.2.2 Logique temporelle

La logique temporelle permet de fournir des descriptions de l'activité humaine, puis- qu'elle est par nature contrainte par le temps. L'utilisation de l'algèbre d'Allen [Allen 84] permet de formuler des règles sur l'ordonnancement des tâches pour atteindre un but. Ces méthodes permettent de rajouter des connaissances contextuelles extérieures à l'image. [Pinhanez 98] décrivent des activités humaines à l'aide de propagations de contraintes temporelles. Ces contraintes sont spéciées selon l'algèbre d'intervalles d'Allen. Ils ont montré la faisabilité de leur méthode en détectant l'occurence d'actions. Ils illustrent également leur approche avec des exemples montrant la détection et la suppression de situations incohérentes.

[Vu 02] reconnaît des comportements humains représentés par des modèles déclaratifs à l'aide d'une approche de logique temporelle. Des connaissances extérieures (voir gure 3.25) sont données explicitement dans le système.

Fig. 3.25: Logique temporelle de [Vu 02]. Contraintes temporelles des états et évènements constituant le scénario "vandalisme"

[Hongeng 04] propose un système de vidéo surveillance permettant de reconnaître des actions de vols. Dans ce système, les évènements sont classés selon trois catégories. La pre- mière, dite d'évènememts simples, est constituée de plusieurs sous-évènements de petites durées. La deuxième, les évènements complexes, correspond à des séquences ordonnées linéairement dans le temps d'évènements simples et/ou complexes. La dernière, les évè- nements multiples, correspond à deux évènements simples ou plus survenant en parallèle et ayant des relations logiques et de temporelles entre eux. La reconnaissance des sous- évènements s'eectue à l'aide de réseaux Bayésiens, à partir des trajectoires des personnes suivies.

3.4.2.3 Grammaire stochastique

Les grammaires stochastiques, ou modèles de Markov cachées (Hidden Markov Models HMM), et leurs extensions, ont été utilisées avec succès dans de nombreuses applications de reconnaissance de mouvements humains à partir d'observations 2D ou 3D. Une des- cription formelle des HMMs peut être trouvée dans [Rabiner 89]. En résumé les HMMs et les grammaires stochastiques sont des modèles génératifs dénissant une probabilité de distribution jointe à partir d'observations et des séquences de mouvements labellisées, et utilisent la règle de Bayes pour calculer la probabilité a posteriori. Dans le but de

modéliser les observations et d'énumérer toutes les séquences possibles d'observations, les