Vers une segmentation automatique des gestes

IV.4 Matrice de confusion résultat du processus de fusion (en %)

III.4.5 Vers une segmentation automatique des gestes

a) Les non-gestes

Les résultats décrits précédemment ont été calculés sur la base d’un corpus « parfait », c’est à dire que ces corpus ne contiennent que des gestes parfaitement exécutés, suivis et segmentés.

Afin d’évaluer notre système de reconnaissance de gestes de manière plus réaliste, nous définis-sons ici la notion de « non-gestes ». Cette nouvelle catégorie peut contenir tout mouvement qui n’est pas un geste, typiquement une séquence où l’utilisateur marche devant le robot, ou mou-vements de l’utilisateur lors d’une discussion avec une tierce personne. À des fins de tests, nous étiquetons donc 29 séquences supplémentaires comme non-gestes. En nous inspirant des mo-dèles de silence utilisés en reconnaissance de parole, nous apprenons un modèle de non-geste comme s’il s’agissait d’un geste supplémentaire. Ce dernier est donc chargé de reconnaître ces fausses détections simulées.

sélectivité 64,4 59,3 85,9 77,3 49,1 75,8 89,5 91,7 84,3 72,2 64,3 83,1 58,1

TAB. III.4: Matrice de confusion obtenue par notre DBN en prenant en compte les non-gestes (en %).

Le tableau III.4 montre les résultats obtenus par le même système de reconnaissance que celui utilisé dans la section précédente incrémenté d’un modèle de non-gestes. Ces résultats ont été calculés par validation croisée sur le corpusCORP12_N G, c’est à dire sur le corpusCORP12

augmenté des 29 séquences de non-gestes. Le taux de reconnaissance est logiquement diminué,

passant à 73,4% de reconnaissance pour une sélectivité de 73,9%, puisque la diversité du corpus a augmenté fortement. La reconnaissance des non-gestes est plus laborieuse avec 62,1% de reconnaissance. Ceci s’explique en grande partie par la très grande diversité que doit modéliser ce modèle de non-gestes.

b) Segmentation automatique de la fin des séquences

Les résultats exposés précédemment sont en réalité biaisés, l’algorithme permettant de dé-duire automatiquement la fin d’une reconnaissance n’étant pas utilisé. Le tableau III.5 montre les résultats obtenus sur les mêmes données et dans les mêmes conditions que précédemment en utilisant la déduction automatique de la fin d’une séquence. Afin de rendre cette évaluation réaliste pour notre cadre robotique, si un processus de reconnaissance dépasse la fin d’un geste tel qu’étiqueté sans avoir convergé vers une solution, on considère que rien n’a été reconnu (ce cas correspond à la colonne « rien » du tableau).

Geste à reconnaître Geste reconnu

sélectivité 72,0 64,0 85,3 81,2 75,0 75,8 82,3 77,4 90,7 76,9 71,2 78,9

TAB. III.5: Matrice de confusion obtenue avec segmentation automatique de la fin des séquences (en %).

Comme nous pouvons l’observer sur ce tableau, le taux de reconnaissance est encore dimi-nué, passant à 68,8% de reconnaissance. Cette diminution est logique étant donné la possibilité pour le système de ne déduire aucun geste d’une séquence. À l’inverse, la sélectivité augmente pour atteindre 77,6%, de même que le taux de gestes correctement rejetés (c’est-à-dire des non-gestes reconnus comme tels ou non reconnus) qui atteint près de 90%. Cette amélioration s’explique par la plus grande possibilité de sélectivité qu’offre le fait de déduire automatique-ment la fin d’un geste. En effet, les gestes pour lesquels la reconnaissance est hésitante sont ici classés comme inconnus diminuant donc le risque de mal les classer. Il est à noter que l’un des inconvénients de la méthode utilisée pour classifier les gestes avant la fin de la séquence est que certains gestes sont quasi identiques sur une grande partie de leur exécution. Ainsi, étant donné que notre modèle ne tient pas compte de la forme de la main, les gestes « stop » et « viens vers moi (à une seule main) » sont quasiment identiques à la seule différence près que le second donne souvent lieu à des répétitions, entrainant une confusion non négligeable pour le système.

III.4MISE EN ŒUVRE ET EXPÉRIMENTATIONS 101

c) Segmentation automatique complète

La stratégie utilisée ici a été décrite dans la section III.3.2. Dans la pratique, et afin de permettre l’obtention de statistiques hors-ligne aussi proches que possible de la réalité, notre corpus est parcouru en totalité, c’est-à-dire que les fichiers composants ce dernier sont considé-rés comme une suite d’observations continue. En effet, dans les évaluations précédentes, seules étaient prises en compte les observations faisant partie d’une séquence étiquetée. Par consé-quent, il convient de quantifier également notre corpus en taille : celui-ci contient42680 obser-vations correspondant à environ83minutes d’enregistrement et contenant774 occurrences de gestes.

sélectivité 58,8 82,1 89,6 82,1 84,8 63,5 57,9 82,2 87,5 67,1 70,3 82,4

TAB. III.6: Matrice de confusion obtenue avec segmentation automatique complète (en %).

Le tableau III.6 montre les résultats obtenus par notre système de reconnaissance de gestes avec segmentation automatique. La ligne « non-geste » ne correspond plus ici au taux de rejet des séquences étiquetées comme telle, mais à l’ensemble des fausses alarmes. Les pourcen-tages représentent alors le nombre de séquences classifiées sur le nombre total de ces fausses détections. Une partie d’entre elles sont éliminées par l’algorithme lui-même (via les seuils d’acceptation), mais aussiviale modèle de non-gestes décrit précédemment.

Si le taux de reconnaissance a logiquement diminué, étant donné la plus grande complexité, il reste à un niveau satisfaisant (65,2%) de même que la sélectivité (76,6%). Mais le point noir du système, qui n’apparait malheureusement pas clairement dans ce tableau concerne les faux positifs. En effet, le nombre de ces fausses détections est important avec près de 500 cas, dont seul 44,1% sont détectées, ce qui correspond en réalité à un taux de faux positifs de près de 38%. Ceci est réellement problématique, mais doit être nuancé.

En effet, ce tableau n’est qu’un exemple des résultats qu’il est possible d’obtenir avec ce système et nous le qualifierons de résultat médian. Les résultats dépendent en réalité fortement des paramètres utilisés : plus le lissage est fort, plus le nombre de faux positifs diminue, mais le taux de reconnaissance chute d’autant, et inversement. Ainsi, parmi nos tests, il est possible de faire grimper le taux de reconnaissance à plus de 72%, mais c’est au prix d’une augmentation de 50% du nombre de fausses détections ainsi que d’une diminution de la sélectivité (65%).

De même, d’autres tests nous ont permis de diminuer de plus de moitié le nombre de fausse

alarmes, mais là encore, c’est au prix d’un taux de reconnaissance décevant (38,2%).

D’autre part, et à titre de comparaison, [Stiefelhagen et al., 2004], grâce à sa reconnaissance basée sur 3 HMMs, arrive à un taux de reconnaissance de l’ordre de 80%, pour 26% de faux positifs. Sachant que les auteurs ne reconnaissent dans ces travaux que des gestes de pointage et que leur cadre d’expérimentation est relativement restreint, nos résultats peuvent en réalité être considérés comme équivalents. Les auteurs précisent par ailleurs que l’ajout de l’orientation de la tête à leurs vecteurs d’observations leur a permis d’abaisser ce taux de faux positif à 13%.

Enfin, il est à noter qu’en terme de temps de calcul, cet algorithme semble parfaitement crédible dans notre cadre robotique. En effet, malgré la superposition des processus de recon-naissance, le temps moyen de calcul n’est que d’une dizaine de ms par observation.

III.4.6 Vers une reconnaissance incluant l’orientation du

Dans le document The DART-Europe E-theses Portal (Page 104-107)