• Aucun résultat trouvé

Analyse du mouvement et labellisation des cibles

Le déplacement du CG et la quantité de persistance rétinienne représentent les sorties de nos deux capteurs de mouvement global et de déformation de la main. Ce sont deux indices fournissant une certaine information sur un phénomène caché à savoir le mouvement de la main. Pour chacune des deux composantes du mouvement de changement de geste, notre objectif est de retrouver en fonction de ces indices, quelle image est une ICX et quelle image est une ITX. L'hypothèse qui guide cette classification est que les forts minima de la sortie de chacun des deux capteurs de mouvement correspondent à des instants importants de la trajectoire de la main, alors que les minima de plus faible amplitude sont le résultat des différents bruits auxquels est soumis le système.

Figure IV-9 : exemple de signal (celui-ci est issu du FRD) traité selon l'étape 1.

Afin d'analyser la sortie de chacun des deux capteurs, nous proposons d'utiliser un seul et unique filtre. Celui-ci a été dessiné et paramétré sur la sortie du FRD,

qui est beaucoup plus irrégulière, et beaucoup plus difficile à traiter. Il a ensuite été utilisé pour filtrer la vitesse du CG de la main. Ainsi, le filtre proposé est assez général pour distinguer les ICX des lTX, quelque soit l'origine du capteur. Voici une description de son fonctionnement :

Etape 1 : La trajectoire est normalisée pour garantir que son amplitude est codée entre les valeurs 0 et 10 (cf. Figure IV-9).

Etape 2 : Le signal subit un filtrage par convolution d'un masque gaussien (Figure IV-10). Ensuite, les extrema du signal filtré sont ramenés à leur valeur d'avant filtrage. Cela permet de supprimer les extrema de faible amplitude (ils sont absorbés par la convolution) sans pour autant diminuer l'importance des extrema de plus grande amplitude. Ceci est répété une seconde fois. Pour les deux filtrages, les masques de convolution sont différents. Le premier masque correspond à un lissage assez fort, mais en pratique, il peut induire un léger déphasage des maxima. En conséquence, le dernier lissage est plus faible, et permet de garder une certaine homogénéité du signal :

[ ]

[ ]

1 2 1 1 2 4 2 1 10 1 0 1 8 1 0 10 Masque Masque = ⋅ = ⋅

Figure IV-10 : signal de la Figure IV-9 après lissage de l'étape 2.

Etape 3 : Intuitivement, les ICX et les minima locaux sont très proches. Cependant, comme il peut rester des minima locaux n'ayant pas de signification réelle dans le signal, il n'est pas possible d'associer directement la liste des minima du signal à celle des ICX que nous recherchons : plusieurs minima peuvent ne correspondre qu'à une seule ICX (c'est par exemple ce qu'il se passe sur le plateau central illustré sur la Figure IV-8; il n'y a qu'un seul geste, mais une multitude de minima locaux). Ainsi, nous définissons des zones de stabilité correspondant à l'ensemble des instants de la trajectoire où

la quantité de mouvement est inférieure à une valeur seuil Simmo. Les moments de fortes transitions sont les instants de la trajectoire où la quantité de

mouvement est supérieure à un seuil Smotion (cf. Figure IV-11). Il y a donc deux

seuils à régler manuellement. Cela est discuté dans la section suivante. Afin de tenir compte de la rémanance du filtrage (retard de phase), nous définissons les zones de stabilités par hysteresis entre les deux seuils.

Etape 4 : Pour chaque zone de stabilité, une unique ICX est désignée. Il s'agit de l'image qui contient le moins de mouvement au sein de la plage de stabilité (cf. Figure IV-11). Finalement, nous obtenons une liste de zones de stabilité, (avec pour chacune d'elle une ICX), séparée par des images dont le mouvement

est supérieure à Smotion. Ces images correspondent aux transitions qui séparent

chacun des gestes. En plus de cette liste d'ICX, nous labellisons aussi

l'ensemble des images de transition par rapport à la Configuration/Position

maximums (ITXM), qui correspondent au maximum local de la quantité de mouvement lors de chaque transition entre deux zones de stabilité.

Figure IV-11 : extraction des plages de stabilité par hysteresis et définition des ICX.

Il est nécessaire de garder les images ayant le plus de mouvement (les ITXM), afin de vérifier l'alternance entre plages de stabilité et plages de transition ; il est en effet possible que la transition implicitement repérée entre deux zones de stabilité n'ait pas de raison d'être, et qu'en fait, les deux zones de stabilité ne doivent faire qu'une. Prenons un exemple. Deux ICP consécutives sont identiques et toutes les deux sont reconnues comme des Positions Bouche. Il peut s'agir :

d'un seul geste pour lequel une transition inexistante a été repérée au milieu.

Celle-ci peut être due à une erreur de segmentation déplaçant brutalement le

Simmo

Smotion

CG, ou a un mouvement réel qui est venu parasiter le codage, mais qui ne le modifie pas. Quelqu'en soit l'origine, si l'on considère l'ITXM associée à cette transition fictive, c'est-à-dire l'image du mouvement de transition contenant le plus d'énergie, il est probable que la Position reconnue soit sur celle-ci la Position Bouche.

de deux phonèmes consécutifs qui doivent être codés de la même manière.

Dans ce cas, le mouvement de transition qui est repéré entre les deux ICP est probablement réel. Le codeur produit un petit mouvement d'aller-retour latéral vers la zone de pointage dans ce genre de cas. Ainsi, il y a de fortes chances que l'ITXM de cette transition n'indique pas une Position Bouche, mais une Position Côté ou Pommette, ou encore une absence de Position. Dans tous les cas, il ne s'agit pas d'une cible parce que le mouvement est trop transitoire pour être considéré comme tel, néanmoins, il permet de distinguer les deux ICP semblables.

Ainsi, le contenu des ITXM est important. A terme, il peut permettre de faire la différence entre un geste artificiellement coupé par erreur en deux gestes, et une répétition. Nous ne pouvons donc pas nous limiter à l'extraction des ICX. Il faut aussi extraire les ITXM. En conséquence, nous les labellisons directement. Comme il est beaucoup plus important de ne pas perdre de cible, que d'en

détecter une là où il n'y en a pas, les seuils Simmo et Smotion sont particulièrement

sélectifs. Cela peut sembler contradictoire, parce que des seuils sélectifs auront tendance à considérer qu'une image est plutôt instable, mais c'est malgré tout la stratégie la plus intéressante : toute image qui n'est pas un minimum de mouvement local n'est pas une ICX. Cependant, si la quantité de mouvement qu'elle contient est suffisamment faible, celle-ci peut malgré tout être d'une stabilité relative, et faire partie intégrante d'une zone de stabilité, telles qu'elles sont définies à l'étape 3 et pour lesquelles une unique ICX est définie à l'étape 4. En pratique, les signaux sont tels qu'il n'est pas possible de rater une plage de stabilité complète, c'est-à-dire que l'intégralité des images qui la constituent possède une trop grande quantité de mouvement, malgré leur stabilité d'un point de vue gestuel ; ou alors cela signifie que le code LPC n'est pas réalisé correctement, et qu'il est trop "mâché". La seule possibilité pour rater une zone de stabilité est de fusionner par inadvertance deux zones de stabilité successives, correspondant à deux gestes différents consécutifs, mais pour lesquels une seule ICX va être détectée. Cette erreur est simplement due au fait qu'aucune transition assez forte n'a été repérée entre les deux plages de stabilité. Il est donc très important d'être restrictif sur la définition des zones de stabilité. Cela a pour conséquence de ne pas faire perdre de cible, mais a pour inconvénient de couper en deux (ou plus) certaines zones de stabilité, (quand celles-ci contiennent un mouvement un tout petit peu trop important). Ainsi, il peut arriver que deux ou plusieurs plages consécutives où la main est relativement stable représentent le même geste. Dans un tel cas, il est possible de vérifier l'image correspondant au maximum de mouvement entre deux telles zones de stabilité, tel que nous venons de l'expliquer. Ainsi, le fait d'extraire les ITXM

permet de faire cette vérification et pallie le défaut d'un algorithme qui considère que le moindre mouvement est une transition. En revanche, l'analyse des ITXM ne permet pas de compenser le défaut contraire (un algorithme où le comportement par défaut est de considérer l'image comme stable). C'est pourquoi, nous préconisons d'avoir des seuils plutôt trop sélectifs que pas assez.