• Aucun résultat trouvé

RECONNAISSANCE DES GESTES DE LA MAIN 65 – mod`eles g´eom´etriques de la main Linear fingertips models

Description de l’information labiale et manuelle

2.2. RECONNAISSANCE DES GESTES DE LA MAIN 65 – mod`eles g´eom´etriques de la main Linear fingertips models

– r´eseaux de neurones,

Les mod`eles HMM, que nous d´efinirons dans le chapitre 4 puisque ce sont des outils th´eoriques que nous allons utiliser dans nos travaux, s’appuient sur des mod`eles statistiques. Grobel et Assan (1996) ont utilis´e ces mod`eles pour reconnaˆıtre des signes isol´es r´ealis´es par la main. Les auteurs extraient des param`etres caract´eristiques `a partir de l’enregistrement vid´eo des codeurs qui portent des gants color´es. Pour un vocabulaire de 262 signes, ils obtiennent un taux de reconnaissance de 91,3%.

Les mod`eles actifs de forme fonctionnent ici tout comme nous l’avons d´ecrit pr´ec´edemment pour le cas des l`evres (voir section I de ce chapitre). La diff´erence concerne l’objet `a reconnaˆıtre (la main). Cette technique, appel´ee par certains ”smart snakes”, place un contour dans l’image qui est approximativement la forme du trait `a extraire. Le contour ´evolue ensuite en se d´epla¸cant de mani`ere it´erative vers les bords (fronti`eres20) avoisinants qui d´eforment le contour pour convenir au trait. Tout comme Heap et Samaria (1995), Liu et Lovell (2005) ont r´ecemment d´evelopp´e un syst`eme pour reconnaˆıtre les postures et les gestes de la main, s’appuyant sur cette technique. Une premi`ere ´etape consiste `a construire un ensemble d’apprentissage `a partir duquel les propri´et´es statistiques des classes de la main sont apprises. Pour chaque classe, les auteurs ont pos´e des pastilles sur les contours de la main pour extraire un ensemble de points d´efinissant ainsi la forme de la main. L’´etiquetage des pastilles a ´et´e fait `a la fois de fa¸con manuelle et automatique. Dans une seconde ´etape, une analyse en composantes principales est appliqu´ee sur les points de chaque classe pour extraire les directions ind´ependantes de leur variation. En derni`ere ´etape vient l’ajustement du mod`ele pour l’adapter `a la forme de la main dans l’image. L’avantage majeur de cette m´ethode est qu’elle permet une reconnaissance des gestes et des postures en temps r´eel. En revanche, elle n’est capable actuellement d’extraire que des gestes et des postures assez limit´es. De plus, elle ne peut extraire et reconnaˆıtre que des mains ouvertes.

La techniqueLinear fingertips modelss’appuie sur une hypoth`ese simplificatrice : la majorit´e des mouvements des doigts est lin´eaire et ne comprend que de tr`es peu de mouvements de rotation. Ceci simplifie donc le mod`ele de la main qui permet de n’utiliser que les bouts des doigts comme entr´ee. Ainsi, un mod`ele repr´esentant les trajectoires de chaque extr´emit´e de doigt, peut ˆetre repr´esent´e juste par un simple vecteur. Davis et Shah (1993) ont utilis´e cette approche dans un syst`eme de reconnaissance des gestes. Dans ce syst`eme, la d´etection et l’extraction des extr´emit´es des doigts repose sur des marques color´ees pos´ees sur ces extr´emit´es et sur une segmentation d’histogramme. Ensuite, les trajectoires des bouts de doigts sont calcul´ees en utilisant une correspondance des mouvements. A partir d’un petit ensemble d’apprentissage, les postures sont mod´elis´ees en enregistrant le code du mouvement, le nom du geste et les vecteurs de direction et de magnitude pour chaque bout de doigt. Finalement, si tous les vecteurs de direction et de magnitude co¨ıncident avec un geste de la base enregistr´ee, la posture est reconnue.

Cette technique semble simple et donne de bons scores de reconnaissance. Cependant, le nombre de gestes reconnus dans cette seule ´etude (Davis et Shah, 1993) est limit´e (7 au total), nous

20Ces fronti`eres sont localis´ees dans les zones o`u l’intensit´e change.

ne pouvons par cons´equent mesurer vraiment la robustesse de cette technique. Il faut en effet

´elargir le nombre de gestes et de postures pour mesurer la robustesse de cette m´ethode. Par ailleurs, ce type de syst`eme semble coˆuteux en temps de calcul et ne fonctionne pas en temps r´eel.

Les r´eseaux de neurones sont r´eellement utilis´es dans plusieurs domaines. Principalement, ils ´etaient utilis´es en intelligence artificielle pour construire certains types d’agents autonomes et pour reconnaˆıtre des motifs. Un r´eseau de neurones est un syst`eme de traitement de l’infor-mation qui vient `a l’origine d’une tentative de mod´elisation du cerveau humain. Tout d’abord, on se donne une unit´e simple, appel´e neurone ou nœud, capable d’effectuer quelques calculs

´el´ementaires. On relie ensuite entre elles un nombre important de ces unit´es. La connections entre un neurone et un autre (appel´e synapse) peut poss´eder un poids associ´e pouvant ainsi se comporter comme un m´ecanisme de m´emoire. Chaque neurone peut ˆetre repr´esent´e par une fonction poss´edant plusieurs entr´ees et une sortie. Cette fonction poss`ede deux composantes (cf.

figure 2.8). La premi`ere est la fonction d’entr´ee qui consiste `a calculer la somme pond´er´ee des valeurs des entr´ees. La seconde est appel´ee la fonction d’activation21 qui transforme la somme obtenue en une valeur finale de sortie. Cette fonction introduit une non-lin´earit´e dans le fonc-tionnement du neurone. Il existe plusieurs mod`eles de neurones suivant la fonction d’activation utilis´ee. Parmi les fonctions d’activation classique, il y’a par exemple : la fonction sigmo¨ıde22, la fonction tangente hyperbolique et la fonction de Heaviside23. Il est important de noter qu’une

Fig. 2.8 – Structure d’un neurone. Le neurone calcule la somme pond´er´ee de ses entr´ees puis cette valeur passe `a travers la fonction de seuillage pour produire sa sortie.

cellule ´el´ementaire dans un r´eseau de neurones peut manipuler des valeurs binaires ou r´eelles. Les valeurs binaires sont repr´esent´ees par 0 et 1 ou -1 et 1. Concernant le calcul de sortie, plusieurs fonctions peuvent ˆetre utilis´ees et leur calcul peut ˆetre d´eterministe ou probabiliste.

En g´en´eral, les r´eseaux de neurones ont deux structures ´el´ementaires. La premi`ere est une structure dite en feed-forward (sans r´etroaction) dans laquelle les connections entre les unit´es ne forment pas un cycle dirig´e. Elle est la premi`ere et apparemment la plus facile `a concevoir.

Dans cette structure, l’information se propage en une direction unique, vers l’avant, `a partir des nœuds d’entr´ees, passant par des ´eventuels nœuds cach´es jusqu’aux nœuds de sorties. Il n’y a aucun cycle et aucune boucle dans un r´eseau ayant cette structure. La seconde structure est

21appel´ee aussi fonction de transfert ou de seuillage

22Fonction d´efinie par :f(x) = 1 1 + exp(−λx)

23Est une fonction discontinue prenant la valeur 0 en les r´eels strictement n´egatifs et la valeur 1 partout ailleurs.

2.2. RECONNAISSANCE DES GESTES DE LA MAIN 67 dite avec r´etroaction. Dans cette structure, les connections forment un cycle dirig´e. Un r´eseau avec r´etroaction a un avantage sur un r´eseau feed-forward par le fait qu’il peut mod´eliser des syst`emes avec des ´etats de transition. Cependant, il n´ecessite plus de descriptions math´ematiques complexes et peut devenir chaotique.

Dans les deux topologies, il est `a noter qu’il n’y a aucune restriction sur le nombre de couches

`

a mettre dans un r´eseau. Augmenter le nombre de couches dans un r´eseau am´eliorera certes la puissance de calcul et de repr´esentation mais ceci est au prix d’une complexit´e de l’apprentissage.

Ce dernier est tr`es important dans les r´eseaux de neurones. Globalement, l’apprentissage peut ˆetre effectu´e par deux m´ecanismes : apprentissage supervis´e ou non-supervis´e. D’un cot´e, un apprentissage est dit supervis´e lorsque l’on force le r´eseau `a converger vers un ´etat final pr´ecis, en mˆeme temps qu’on lui pr´esente un motif. Le r´eseau va se modifier jusqu’`a ce qu’il trouve la bonne sortie, c’est-`a-dire celle attendue, correspondant `a une entr´ee donn´ee. A l’inverse, lors d’un apprentissage non-supervis´e, le r´eseau est laiss´e libre de converger vers n’importe quel ´etat final lorsqu’on lui pr´esente un motif. Les deux strat´egies d’apprentissage supervis´e et non-supervis´e ne sont pas mutuellement exclusives. Il est aussi possible de les combiner en un apprentissage hybride . Pour une discussion exhaustive sur les algorithmes d’apprentissage employ´es dans les deux strat´egies nous renvoyons vers Mehrotraet al. (1997) et vers Neocleous et Schizas (2002) pour une revue comparative.

Les r´eseaux de neurones sont des m´ethodes tr`es utilis´ees pour reconnaˆıtre des gestes et des postures de la main. Elles peuvent ˆetre utilis´ees avec l’approche vision ou avec l’approche gant instrument´e. L’un des premiers syst`emes `a les utiliser a ´et´e d´evelopp´e par Murakami et Taguchi (1991). D’un cot´e, pour reconnaˆıtre des postures de la main, le syst`eme utilise un r´eseaux de neurones `a trois couches contenant 13 nœuds d’entr´ee, 100 nœuds cach´es et 42 nœuds de sortie. Le r´eseau utilise une topologie avec r´etroaction et un m´ecanisme d’apprentissage qui minimise l’erreur entre une sortie cible et la sortie produite par le r´eseau. Avec un ensemble initial d’apprentissage de 42 postures, le r´eseau atteint 77% de pr´ecision. Quand l’ensemble d’apprentissage passe de 42 `a 206, ce score s’´el`eve `a 98%. De l’autre cot´e, les gestes de la main sont reconnus aussi avec un r´eseau de trois couches, mais qui s’appuie sur une structure recurrente (avec r´etroaction). Le nombre des nœuds diff`ere aussi : 16 d’entr´ee, 150 cach´es et 10 de sortie.

Un r´eseau est d´edi´e pour les 10 possibles gestes `a reconnaˆıtre. Le taux de reconnaissance est initiallement de 80%, mais augmente pour atteindre 96% dans le cas o`u les donn´ees brutes sont filtr´ees.

R´ecemment, en s’appuyant sur une approche ”vision”, Qutaishatet al.(2007) ont d´evelopp´e un syst`eme pour traduire automatiquement les gestes statiques des alphabets et signes en langage am´ericain des signes. Apr`es avoir extrait des vecteurs caract´eristiques des gestes de la main `a partir d’images, les auteurs utilisent un r´eseau de neurones pour classifier ces vecteurs. Le r´eseau repose sur une structure feed-forward avec une r´etroaction et est compos´e de trois couches de neurones. La premi`ere contient (214×3) neurones, la deuxi`eme (214×2) et la couche de sortie 214. Le syst`eme propos´e par Qutaishatet al.(2007) atteint un taux de reconnaissance de 98,5%

pour les donn´ees d’apprentissage et 80% pour les donn´ees de test.

Les r´eseaux de neurones permettent de reconnaˆıtre un large nombre de postures et de gestes.

En utilisant un apprentissage ad´equat, de hauts scores de reconnaissance peuvent ˆetre obtenus

par ces m´ethodes. En revanche, l’apprentissage peut ˆetre assez lourd. En plus, si une posture ou un geste est introduit ou enlev´e du corpus, le r´eseau doit ˆetre enti`erement r´e-appris.

2.2.3.2 Techniques orient´ees ”donn´ees”

Cette cat´egorie de techniques s’applique directement sur les donn´ees caract´eristiques de la forme et du mouvement de la main. Parmi ces techniques, on trouve :

– Template matching,

– Extraction et analyse des caract´eristiques (Feature extraction and analysis), – Analyse causale (Causal analysis)

– Apprentissage par l’exemple ( Instance-Based Learning, IBL).

Les deux premi`eres techniques reposent, toutes les deux, sur une corr´elation entre la forme

`

a tester et un ensemble de formes ”mod`eles”. La seule diff´erence entre ces deux techniques r´eside dans la nature des donn´ees utilis´ees. En effet, la technique template matching exploite directement les donn´ees brutes extraites en s’appuyant sur l’approche ”gant instrument´e” ou sur l’approche ”vision” ; alors que la techniqueFeature extraction and analysis, analyse ce type de donn´ees (information de bas-niveau) pour produire une information s´emantique de haut-niveau. Cette derni`ere information est utilis´ee ensuite pour reconnaˆıtre les postures et les gestes de la main. Le principe des deux techniques est en revanche identique et consiste en deux

´etapes. La premi`ere consiste `a construire, en g´en´eral avec une intervention manuelle, une base de r´ef´erence de formes ”mod`eles” caract´erisant les postures ou les gestes de la main `a reconnaˆıtre.

La seconde ´etape consiste `a comparer la forme `a tester avec l’ensemble des formes ”mod`eles”.

Cette comparaison peut se faire de plusieurs fa¸cons par exemple par minimisation d’un crit`ere de distance.

La techniquetemplate matching a ´et´e appliqu´ee notamment sur des donn´ees obtenues avec un gant instrument´e (Sturman, 1992; Watson, 1993) et seulement pour reconnaˆıtre des postures de la main. Elle peut ˆetre appliqu´ee aussi sur des donn´ees extraites par une technique de l’approche

”vision”, mais elle semble relativement peu robuste, notamment quand il s’agit de trouver un template appropri´e pour toute posture de main. De plus, elle peut rencontrer quelques probl`emes de robustesse li´es aux variations de lumi`ere et d’´echelle. Par ailleurs, Rubine (1991) est le premier

`

a utiliser un syst`eme s’appuyant sur une analyse des donn´ees brutes (le syst`eme est appel´e en anglais : 2D single-storke gesture recognizer) pour reconnaˆıtre des gestes en 2D. Il calcule, `a partir de ces donn´ees, un ensemble de 13 caract´eristiques telles que le cosinus et le sinus de l’angle initial du geste, la distance entre le premier et le dernier point et le maximum de la vitesse du geste. Sturman (1992) et ensuite Wexelblat (1995), ont ´etendu ce syst`eme en 3D.

La technique fond´ee sur l’extraction et l’analyse des donn´ees est robuste pour reconnaˆıtre les postures et les gestes de la main qu’ils soient simples ou complexes. Son plus grand d´efaut est qu’elle pourrait ˆetre tr`es coˆuteuse en calcul dans le cas o`u la taille des donn´ees extraites devient importante.

La technique d’analyse causale (Causal analysis) ou par r`egles est souvent utilis´ee en analyse de sc`enes. Son principe consiste en une extraction de repr´esentations (ou informations) d’une sc`ene `a partir d’un flux vid´eo continu en utilisant des connaissances sur les actions dans cette

2.2. RECONNAISSANCE DES GESTES DE LA MAIN 69

Documents relatifs