Conclusion - Reconnaissance et suivi de visages et implémentation en robotique temps-réel

La conception de l’application en tenant compte des contraintes matérielles et de l’exigence d’une exécution en temps réel est maintenant terminée. Elle a sollicité une réflexion sur les concepts de temps de rafraˆıchissement et de temps réaction et a finalement abouti à l’organisation présentée ci-dessous.

La capture du champ de vision de Nao est directement envoyée par wifi à un or-dinateur puissant chargé, en fonction de la personne avec qui établir un contact, de commander un mouvement de tête qui centrera le visage de l’interlocuteur au centre du champ de vision de Nao. La station distante effectue pour cela deux stages majeurs⁵ de traitement: une localisation des visages dans le champ de vision de Nao et une re-connaissance faciale pour chacun d’eux⁶. La détection utilise le fameux algorithme de localisation en temps réel de Viola et Jones et la reconnaissance est basée principalement sur une division de l’image en sous-régions suivie de la génération pour chacune d’elles d’histogrammes de ’local binary patterns’.

Les interprétations de deux phases importantes du stage de reconnaissance ont été faites: celle de la conversion en ’local binary patterns’ comme description en termes d’arêtes et de coins, et celle de la division en sous-régions suivie de la génération d’histogrammes comme moyen de modulation de la quantité d’informations spatiales prise en compte lors de la classification.

D’autre part, deux améliorations ont été proposées: une concernant la prise en compte d’informations spatiales au sein des sous-régions et l’autre concernant la col-laboration des systèmes de reconnaissance et de poursuite de visages à travers plusieurs champs visuels successifs.

Après cette conception, la paramétrisation qui doit nécessairement avoir lieu est faite au chapitre suivant et déterminera premièrement la taille des fenêtres de délimitation qui seront utilisées et deuxièmement la manière de diviser l’image en sous-régions pour obtenir le meilleur taux de bonnes classifications.

5Pour rappel, c’est ainsi que les macro étapes de traitement sont nommées pour éviter la confusion avec des étapes de traitement d’ordre inférieur

6Si la personne avec qui établir un contact est connue d’avance, une vérification d’identité aurait suffi. La reconnaissance est ici utilisée pour donner à Nao la conscience permanente de l’identité des gens qui l’entourent et ainsi lui permettre d’ajuster son comportement en fonction des personnes présentes ou non. Cela permet aussi de rester dans un cas général et d’offrir un maximum d’informations à tout logiciel d’ordre supérieur telle que pourrait constituer une application chargée de rendre un accueil personnalisé à l’entrée d’une institution

Chapitre 4

Entraˆınement sous MatLab du stage de reconnaissance

Ce chapitre est destiné à paramétrer l’application pensée au chapitre précédent. Pour cela, le stage de reconnaissance de visage a été entièrement implémenté à l’aide du Logiciel Matlab.

Les éléments à paramétrer sont:

1. La taille de fenêtre qui sera utilisée. Tous les visages d’entrée, qu’ils soient destinés

a la sauvegarde dans la base de données où à l’identification, devront présenter les mêmes dimensions. En effet, la reconnaissance est basée sur la génération d’histogrammes de ’local binary patterns’ (lbp) et par conséquent l’utilisation de visages de résolutions différentes poserait deux problèmes : celui des lbp qui détectent la présence d’arêtes et coins pour des environnements de 9 pixels quelque soit la résolution de l’image et celui des histogrammes qui, s’ils sont générés sur des régions de tailles différentes, ne pourront pas être comparés. La solution la plus simple est de redimensionner l’image dès le début. La principale critique à l’encontre de cette solution est que l’interpolation qui devra nécessairement avoir lieu dégrade la qualité de l’information contenue dans l’image originale.

2. Les dimensions, les positions et les poids des sous-régions utilisées pour la re-connaissance. Pour rappel, l’application comprend une phase de découpage de l’image en sous-régions traitées séparément pour apporter des informations con-cernant l’organisation spatiale à la classification. Cette méthode, comme cela sera vu au chapitre6, augmente de manière significative les résultats et mérite donc de s’y attarder.

Ce chapitre décrit la paramétrisation de ces éléments aux sections 4.2 et 4.3. Une conclusion à la section 4.4 p.51 reprend les éléments à retenir et donne un avis critique

accompagné des éléments qui conduiront au chapitre 5.

Avant de commencer la paramétrisation, les ensembles d’entraˆınement et de validation qui seront utilisés sont introduits à la section4.1.

4.1 Ensembles d’entraˆınement, de validation et bases de visages

Figure 4.1: Méthode de détection de Viola et Jones implémentée par OpenCV appliquée à un

echantillon de la base de données FERRET gray. Cette extraction qui forme les ensembles d’apprentissage et de validation pour l’application de paramétrisation en Matlab a été effectuée avec le même code c++ que celui qui est utilisé pour l’application avec Nao.

Le contenu des ensembles d’entraˆınement et de validation se veut le plus proche pos-sible des visages auxquels le stage de reconnaissance aura affaire. Par conséquent leurs cadrages dans leurs fenêtres de délimitation seront faits en utilisant l’implémentation OpenCV de l’algorithme de Viola et Jones [38] tel que c’est le cas pour les visages détectés dans le champ visuel de nao. Les images d’entrées sont issues de la base de données FERRET gray [27,28](voir figure4.1pour un échantillon cadré avec OpenCV).

L’ensemble d’apprentissage compte 60 visages diff´erents et celui de validation compte 100 prises de vue des 60 personnes de l’ensemble d’apprentissage. Un test standard comprend l’apprentissage des 60 visages diff´erents suivi du calcul du taux de bonnes classifications sur l’ensemble de validation.

La base de données FERRET est largement utilisée à travers la littérature pour mesurer les performances d’un classifieur [4,47,6,16] et n’est pas disponible en téléchargement libre. J’ai pu la télécharger entièrement après avoir suivi les procédures qui sont de-mandées sur le site web du projet [3].

Dans le document Reconnaissance et suivi de visages et implémentation en robotique temps-réel (Page 49-52)