Le traitement de l’illumination - Reconnaissance et suivi de visages et implémentation en robot

Les problèmes liés aux variations d’illumination sont très présents dans le domaine de la reconnaissance et de la détection faciale. L’importance liée à ce domaine pour améliorer les performances des reconnaisseurs de visage se manifeste par le nombre d’articles sur le sujet rien que pour les 5 premiers mois de 2010 [12, 6, 21, 40]. Un inventaire des techniques existantes en deux catégories actives et passives est fait par Zou dans [56].

Les techniques passives s’occupent de l’illumination à partir des données en niveaux de gris ou en couleur re¸cues par l’appareil de capture. De l’autre côté, les techniques actives obtiennent des données supplémentaires telles que la profondeur ou le profil infrarouge pour arriver à leurs fins.

Plus récemment est parue une étude comparative des différentes techniques de préprocessing dans le domaine de la reconnaissance basée sur les espaces de vecteurs propres [15], c’est

a dire les méthodes holistiques ou de projections. Un point important de cette étude est qu’elle rend compte de la simplicité de la méthode, de sa rapidité et sa robustesse.

Il est par contre dommage que les comparaisons en termes de performances ne soient faites que sur base de la reconnaissance par des méthodes de projections. Néanmoins Ruiz-del-Solar donne ainsi un bon aper¸cu objectif des techniques existantes et de leurs performances ainsi qu’un relevé de leurs temps d’execution sur une même machine pour le même boulot, ce qui peut s’avérer très utile pour le design d’application en temps réel.

La méthode qui ressort comme étant l’état de l’art pour la reconnaissance par méthode de projection est la combinaison de SQI [41] et du LBP modifié [17]. Néanmoins cette méthode est surpassée en terme de performance par une méthode contemporaine

a l’étude comparative : le prétraitement de Tan et Triggs [33] présentée plus haut.

Partie II

Application

Chapitre 3

Conception de l’application

Ce troisième chapitre est consacré à la conception de l’application qui permettra à Nao d’établir des relations avec les personnes qui l’entourent. Tout d’abord, dans la première section ’Mise en situation’, je préciserai l’énoncé du problème et identifierai les limitations matérielles qui guideront le développement de l’application. Je consacrerai ensuite la section 3.2 au problème du temps réel en général et appliqué à l’application de ce mémoire. Puis, j’expliquerai le fonctionnement complet de l’application finale à la section3.3 ’Architecture prototype et cycle de fonctionnement standard’. Je terminerai par apporter quelques pistes qui permettraient d’améliorer les performances générales à la section 3.4 et par conclure à la section 3.5.

3.1 Mise en situation

3.1.1 D´ efinition de l’objectif et ´ enum´ eration de ses cons´ equences

L’objectif de l’application est de permettre à Nao de reconnaˆıtre les personnes qui l’entourent, de mémoriser sur demande l’identité d’un nouveau personnage et d’établir une relation avec quelqu’un en le suivant du regard. Un scénario type de l’utilisation de ces capacités se déroule en deux phases. Premièrement Nao fait la connaissance d’un personnage (Paul), sauvegarde ses informations visuelles et les associe à un label.

La deuxième phase se produit lorsque Paul revient voir Nao, ce dernier le reconnaˆıt et tourne le visage vers lui en le saluant. Cette deuxième phase est illustrée à la figure3.1 p.28.

Un tel comportement implique en cons´equence que Nao soit capable d’effectuer en temps r´eel

1. la localisation de tous les visages dans son champ visuel,

Figure 3.1: Situation typique que Nao doit être capable d’effectuer. Paul est un personnage que Nao a rencontré auparavant. Lors d’une seconde rencontre, Paul rentre dans le champ visuel de Nao et ce dernier le reconnaˆıt, se tourne vers lui et le salue par son prénom.

2. la poursuite des visages d’une capture du champ visuel `a l’autre, 3. la reconnaissance faciale,

4. une sauvegarde de nouveaux visages dans une base de donn´ees et

5. la construction de l’ordre de mouvement de la tˆete pour fixer une personne en particulier.

3.1.2 Importance du temps r´ eel et des performances

Cette application est une routine à la base de toute une série d’applications d’interaction homme-machine d’ordre supérieur telles qu’une conversation ou la poursuite à travers la foule d’une personne en particulier. Elle doit par conséquent (1) utiliser un minimum de ressources et (2) être la plus robuste possible, un dysfonctionnement à cet étage se propagerait de manière désastreuse en aval. Si le robot présente ces deux caractéristique de temps réel et de performance, on pourra dire qu’il s’intègre dans son milieu de manière limpide, ce qui s’avère être précieux pour toutes les applications potentielles. Prenons l’exemple d’un système chargé de transmettre des informations confidentielles à un trader internationnal pressé. Il sera malvenu que (1) le système transmette les informations à la mauvaise personne ou (2) le système prenne 15 secondes pour reconnaˆıtre le trader.

La conception devra donc s’orienter dès le début vers des choix qui permettront au système d’être rapide et robuste. La tâche sera d’autant plus ardue qu’il s’agit là de deux éléments antagonistes où l’amélioration de l’un se fait souvent au détriment de l’autre.

3.1.3 Mat´ eriel disponible et limitations

Figure 3.2: Matériel disponible pour l’application développée dans le cadre de ce mémoire.

Une unité de traitement embarquée sur Nao et une unité de traitement à distance puissante communiquant entre-elles par wifi.

Le mat´eriel disponible (voir fig. 3.2 p.29) est constitu´e de

• L’ordinateur Zosma AMD Athlon 64 X2 Dual 3800+ (2.01 GHz) 2 Go de RAM (ressources distantes).

• Le robot Nao fourni par Aldébaran Robotics [1]. Ce dernier est équipé d’un pro-cesseur AMD X86 GEODE 500MHz et de 256 Mo de SDRAM (ressources em-barquées). Une caméra est placée sur le haut de sa tête et fonctionne en trois modes : 640x480, 320x240 et 180x120 pixels. Une transmission sans fil est disponible en-tre Nao et l’ordinateur distant. Une seconde connection par fil est aussi disponible mais s’oppose à l’idée d’autonomie du robot.

Avec fil Sans fil R´esolution N&B Couleur N&B Couleur

160×120 47 47 58 95

320×240 94 141 150 270

640×480 333 510 555 1000

Table 3.1: Relevé en ms des temps de transmission avec et sans fil entre le robot Nao et l’ordinateur distant pour différentes résolutions. La transmission d’images de couleur implique le transfert de 3 chaˆınes de couleur.

Ce matériel a pour principaux défauts des ressources embarquées faibles et un temps de transmission élevé comme le montre le relevé des temps de transmission dans différentes conditions à la table 3.1 p.30.

3.1.4 Le challenge

Le challenge à relever est donc de choisir l’architecture et les méthodes pour obtenir le meilleur compromis entre temps réel et performance en s’arrangeant avec des ressources embarquées faibles et un temps de transmission élevé.

Dans le document Reconnaissance et suivi de visages et implémentation en robotique temps-réel (Page 31-36)