• Aucun résultat trouvé

Comparaison avec les méthodes de l’état de l’art

3.3 Evaluation sur le jeu de données TUM

3.3.4 Comparaison avec les méthodes de l’état de l’art

Le Tableau 3.6 compare les résultats obtenus avec ceux précédemment présentés dans la littérature sur le jeu de donnéeTUM Kitchen Dataset [126].

La première partie du tableau présente les résultats évalués avec la vérité terrain fournie par le papier original [126]. La seconde prend en compte les modifications proposées dans [127] et divisant la classe "Se déplacer en portant en objet" en deux

classes :"Marcher" et "Rester sur place".

Nos résultats dépassent ceux décrits dans l’état de l’art, montrant que l’ajout d’infor- mations visuelles au sein de l’algorithme DOHT améliore les performances de détection. Ce constat est en phase avec les observations et conclusions de Yao, Gall, Fanelli et al. dans [127]. Dans cet article, les auteurs concluent que le cas idéal pour de la reconnais- sance d’action semble être celui dans lequel plusieurs modalités d’informations sont utilisées.

Methode Taux de reconnaissance (%) Labels originaux

DOHT [63] 81.5

DOHT (Squelette à 27 articulations) [63] 83.0

ours (HOG+HOF, Une seule vue, M=50) 82.5

ours (Toutes vues, M=20) 84.6

ours (Toutes vues + Squelette, M=20) 86.1 labels modifiés par [127]

Tous descripteurs + HF [127] 81.5

ours (Toutes vues + Squelette) 81.6

Tableau 3.6 – Comparaison des résultats obtenus avec l’état de l’art. Les résultats présentés pour les méthodes de l’état de l’art sont extraits des papiers correspondants.

Pour comparer nos résultats à ceux de [127] avec la version modifiée des labels du DOHT, nous gardons les mêmes paramètres, sans optimisation. Les performances observées pour l’algorithme DOHT sont du même ordre de grandeur que ceux de [127].

Conclusion

Dans ce chapitre, nous avons proposé et évalué une fusion d’information au sein d’un algorithme de détection d’actions par transformée de Hough. Plus spécifiquement, cette fusion a été réalisée sur l’algorithme de Transformée de Hough Fortement Optimisée (DOHT), proposé par Chan-Hon-Tong, Achard et Lucat dans [63].

Nous avons présenté trois paradigmes de fusion, à différentes étapes de cet algo- rithme : au niveau descripteur, au niveau de l’apprentissage des votes puis en aval de la génération des scores. Le deuxième présente l’avantage d’être robuste à une perte temporaire d’informations.

L’évaluation de ces paradigmes a été réalisée sur le jeu de donnéesTUM Kitchen [126]

qui présente l’avantage d’être multi-vues et propice à l’évaluation d’un algorithme de segmentation d’actions. Nous avons constaté que les performances de l’algorithme, en terme de taux de bonnes détections, étaient plus fortement améliorées lorsque les différentes sources sont fusionnées au plus bas niveau possible. Nous avons également montré et quantifié la robustesse de la fusion d’informations au sein du DOHT à une perte d’information. Ces résultats ont été comparés avec les performances publiées dans l’état de l’art.

Pour finir, nous avons montré que le DOHT permet une estimation prématurée des actions avec une confiance relativement élevée. Nous avons ensuite quantifié les temps de calculs nécessaires à chacune des étapes de l’algorithme et démontré la compatibilité de ce paradigme avec des applications ayant des contraintes temps réel.

Ces travaux ont fait l’objet de deux publications : La première dansInternational Conference on Computer Vision and Applications (VISAPP) [2], puis dans Journal of Real- Time Image Processing [1].

Chapitre

4

Acquisition d’un jeu de données pour

la détection d’activités

Dans l’ensemble des domaines de l’apprentissage automatisé, les données sont es- sentielles pour le développement et l’évaluation des méthodes d’apprentissage. C’est à partir de celles-ci que les programmes informatiques ajustent leurs paramètres afin de réaliser la tâche pour laquelle ils ont été conçus. Dans le cas de la vision par ordi- nateur en général et notamment de la reconnaissance d’activité humaine, les données peuvent être composés de différentes modalités (images RGB, carte de profondeur, coordonnées d’articulations (squelette), carte de disparité, . . . ) organisées on non en série temporelle (vidéo). Ces bases doivent contenir suffisamment d’information pour couvrir la variabilité des réalisations des classes d’activités. Cette quantité minimale d’information conditionnera la taille et les spécifications des bases de données. Aux prémices de l’analyse automatiques des mouvements humains, les bases de données contenaient des gestes très simples, avec une variabilité inter-classes élevée et une varia- bilité intra-classes faible, permettant une distinction relativement simple entre deux activités. Puis, avec la complexité et les performances croissantes des algorithmes, les jeux de données se sont complexifiés et les actions contenues se sont diversifiées.

Cependant, le niveau sémantique des classes analysées dans le domaine est resté relativement bas, se limitant aux actions, et peu de jeu de données sont adaptés à des méthodes de localisation temporelle d’activités. Cette thèse s’intéresse justement à la détectionde classes de haut niveau sémantique, et il est nécessaire d’avoir des données adaptées pour évaluer les méthodes de détection de telles classes. C’est pourquoi nous proposons un nouveau jeu de données : la baseDAHLIA (DAily Home LIfe Activity).

Ce chapitre présente les jeux de données existants et met en exergue leurs limites vis-à-vis de l’objectif visé. Après avoir montré la nécessité d’un nouveau jeu de données à plus haut niveau sémantique, nous présentons les conditions d’acquisition ainsi que les caractéristiques du jeu de données DAHLIA. Nous présentons également les protocoles d’évaluation retenus et des premières évaluations d’algorithmes de la littérature afin de permettre une comparaison future des méthodes s’évaluant sur notre base de données.

4.1

Jeux de données existants

De multiples jeux de données ont vu le jour pour permettre l’analyse du comporte- ment humain. Cette section présente les principales contributions dans ce domaine en commençant par les jeux de données mono-canaux (vidéo RGB) puis en présentant plus largement ceux contenant plusieurs modalités.

4.1.1 Les Jeux de données mono-canaux