2.2 Contributions des sciences informatiques
2.2.3 Modèles de reconnaissance
2.2.3.3 WISARD et FRAME: un modèle et une application
WISARD (qui
tient son sigle des noms de ses auteurs:Wllkie,
Stonham, Aleksander'sRecogni-tion Device),
estun
systèmede
reconnaissanced'objets
basésur
une approche connectiviste (Aleksander, 1983; Stonham, 1936).Le
système accepte en entrée un grand nombre de matrices de pixels indexés blanc ou noir. Des sous-ensembles de n-pixels (entre2 et8)
sont ensuite échan-tillonnés et stockés en mémoire à des endroits distincts. Si n = 2,il
y a 4 types d'échantillons pos-sibles: les 2 pixels sont noirs, ou les 2 sont blancs, le premier estnoir
etle
second est blanc, ou I'inverse. Chaque échantillon possible dispose d'une adresse en mémoire qui contiendra la valeur'1'ou '0'selon
que cette configuration est activée ou pas.Au
début de l'apprentissage, toutes les adresses sont misesà
zéro. Ensuite, en cours d'apprentissage,le
système stockera des'1'
aux adresses correspondantes del'échantillon
et de sa taille. Si une instance différente du même con-cept est présentée (c'est à dire le visaged'un
mêmeindividu,
mais avec un angle de vue ou une expression légèrement différents, par exemple) pour un même échantillon de pixels, une réponse légèrement différente sera enregistrée. L'apprentissagedu
conceptimplique la répétition
de ce processus pour un grand nombre d'instances différentes, et le stockage des réponses dans la zone mémoire('discriminatoire')
de ce concept. Les propriétés intrinsèques à chaque visage sont ainsi stockées en mémoire.L
efficacité de I'apprentissage peut être testée en présentant au système unenouvelle
instanced'un
visage (concept),et
en additionnantles '1' qui
seront atteintspar
sonII. Recorunissance et Perceptiott des Visages
échantillonnage exprimé comme une proportion de
la
réponse maximale.La
réponse maximale est atteinte si, quelque soit l'échantillonnage(n-tuple),le
système ne génère que des'1'pour
tous les sous-ensembles.La
phase d'apprentissage continuejusqu'à
ce que le discriminateur atteigne 95Vo dela
réponse maximalepour un
concept donné. Plusieurs modules de reconnaissance de visages différents forment un système de classification. Une nouvelle instanced'un
visage connu, sera attribuée au module qui obtiendra le score le plus élevé.Les auteurs ont testé avec succès ce système
qui
fonctionne sur une basede
16individus
d'une résolutionde
153x2I4
pixels.Il
afallu
environ 200 images différentes parindividu
pour que le système soit en mesure de les reconnaître de manière constante à95Vo de la réponse maximale. Le système s'est révélé relativement insensible aux changements d'expression, pour autant que les images de la phase d'apprentissage comportaient des expression différentes.Ce système est en mesure de reconnaître
n'importe
quelle classed'objets ou
de formes. Mais, malgré les bons résultats obtenus,il
est très sensible aux conditions d'exposition (le fond, l'éclai-rage, lataille
deI'image)
des images durant la phase d'apprentissage.Il
se révélera incapable de reconnaître un visage 'connu'présenté dans des conditions nouvelles. La manière dont le système stockeI'information
correspondantà un
grand nombre de visages(ou
d'instancesde
visages)d'individus différents
ressembleaux 'unités de
reconnaissancede visage' ("face
recognitionunits"
ou FRU) proposées par certains auteurs (Hay, etaI.,
1982; Bruce, et a1.,1986; Ellis , et al.,l9S9). Ces 'unités de
reconnaissance' contiendraientI'information
pertinente (essentielle)à
la reconnaissancede
chaquevisage (voir la
section2.I.6). Les
performancesdu
système sont impressionnantes en soi, mais ne représentent pas un bon modèle de la reconnaissance des visageschez l'homme. Il est très
probableque
nous prétraitionsles
imagesde
différentes manières (extraction des contours,élimination du fond,
etc.).Le
modèle de Baron permet une certaine sélectivité,alors
queWISARD ne prévoit rien,
expliquantd'une
certaine manière ses piètres résultats dans des conditions différentes. Une autre remarque porte sur le nombre de visages trai-tés dans ce modèle;il
reconnaît correctement 16 individus, maisil n'y
a pas de travaux décrivant la reconnaissanced'un
plus grand nombre de visages.FRAME
acronymede
Face RetrievalAnd Matching
Equipment,fut
développépar
Shepherd (1986) en collaboration avec le Home Office (l'équivalent du Ministère deI'Intérieur
en Grande Bretagne) dansle but
de mettre aupoint un
systèmede
présélection deportraits de
suspects ("mugshots") basé sur une descriptiondu
visagedu
suspectfaite
parun témoin
oculaired'un crime. En
réduisantainsi le
nombre de photographiesqu'un
témoin estobligé
d'examiner, on diminue les effets dela
fatigue, del'ennui
(répétition) et des interférences potentielles qui rédui-sent les chancesd'une
reconnaissance précise et d'une identification positive (Laughery, et aI.,IgTI). Le
prototype était basé sur I'encodage de 1000 visages d'hommes et de leur descriptions;Page 77
2.2 Contributions des sciences infurnntiques
la distribution des âges correspondaient à celle des bases de données de suspects de la police.
pour
chaque photographie de visage pris de face, de 3/4 et deprofil,
des observateurs évaluaient47
c;;i-tères et attributs de visage. Les cric;;i-tères comprenaient des attributs comme l'espacement des yeux,la
forme du visage, la couleur des cheveux, etc. Vingt-et-un critères furent ensuite substitués par des mesures anthropométriques effectuées sur les représentations des visages de face, et réduits aux cinq classes discrètes utilisées par les observateurs.La taille,
le poids etl'âge
des individus furent ajoutés aux 47 mesures dérivées des photographies, pour former un ensemble de 50 mesu-res pour chacun des 1000 individus.L
algorithme de recherche de visage compare un ensemble de descriptions fournies par un témoin aux enregistrements de sa base de données. Un coefflcient de"goodness
ofrtf'est
calculé pour chacun des 1000 visages stockés. Ce coefficient représente la proportion des descriptions en entréequi
correspondent (dans un intervalle de tolérance donné)aux
valeurs stockéespour le
visage. Les visages sont classés selonleur
rang,et ceux qui
ont obtenu les meilleurs scores (en général les 10 premiers) peuvent être affichés à l'écran et présentésau témoin. Si le
visage recherchéne
se trouve pasparmi les
10 sélectionnés,le témoin
peut recommencer I'opération en modifiant le poidsd'un
ou de plusieurs des critères descriptifs sur la base des résultats de la première recherche. Si le témoin est certain de I'exactitude deI'un
des cri-tères,un
poids additionnel peuty
être ajouté. Dansle
casoù un
visage ressemblant, mais pas assez, est trouvé, une recherche supplémentaire peut s'effectuer surla
base dece
visage, pour extraire les visageslui
ressemblant. Laflexibilité
de ce système s'est Évélée importante pour sesapplications pratiques.
Une
recherche peut s'effectuer rapidementsi
les donnéesinitiales
sont nombreuses et claires, ou par raffinement successifs si les souvenirs du témoin sont quantitative-ment et qualitativement plus limités. L'efficacité du système a été testée en mesurantle
degré de confiance avec lequelun
visage connu peut être retrouvé àpartir
de sa description (Shepherd, 1986). Des étudiants32 deI'Université
d'Aberdeen devaient retrouver quatre membres du corps professoral. Dans 707o des cas, le visage recherché apparaissait parmi les 10 premiers visages pré-sentés, et dans 807o des cas restants après 3 recherches. Une série de tests supplémentaires ont comparé les efficacités relatives deFRAME
et de la méthode traditionnelle des fichiers de police.Pour des visages possédant des traits distinctifs, comme des lunettes ou une barbe, les résultats sont similaires (environT5Vo). Par contre, pour des visages plus anonymes
('typiques'),
le taux de reconnaissance parFRAME
reste relativement éIevé (69Vo), alors que celui dela
méthode tradi-tionnelle chute (447o)33.Les baisses de performance dans le second cas sont essentiellement dus àI'apparition
tardive du visage-cible dans la séquence présentée au sujet. Ces résultats sontsimilai-res
à ceux obtenus par d'autres auteurs avec des images compositesd'Identikit (Lenorovitz
et Laughery, 1979).32. Note: I'effectif de l'échantillon n'est pas mentionné dans I'article original.
33. Un total de 128 sujets furt testés, la moitié sur chaque système. Les taux de fausse reconnaissance sont faibles et similaires dans le premier cas, alors que dans le second ils restent faibles pour FRAME et aug-mentent significativemenr pour la méthode traditionnelle (shepherd, l9g6).
IL Reconnaissance et Perception des Visages
Ce système, comme
celui
de Goldstein(voir
plus bas), requiert une intervention humaine pour détecter et mesurer les trait ou critères faciaux utilisés par les algorithmes de recherche.Il
existe à présent des systèmes qui exécutent ces tâches automatiquement(voir
la section 2.2.4).2.2.3.4 Le
modèle connectiviste de KohonenLe
premier modèle de mémoire distribuée appliqué à la reconnaissance des visages humainsfut
proposé par Kohonen(1977;1981;
1984). Le but de ce modèle est de développer un systèmedis-tribué
d'enregistrement d'associations stimuli-réponses (S-R), appelé mémoire auto-associative.Une série d'associations S-R est apprise durant une phase d'apprentissage; lors de la présentation
d'un
stimulus seul - un visage, par exemple-
une réponse appropriée, par exemple un nom, sera générée par le système.Afin
d'obtenir ce résultat, le système doit être en mesure de représenter et de stocker en mémoire les associations stimuli-réponse pour un grand nombre de paires S-R, et cela avecun minimum d'egeurs.
Kohonen etal.
(1981)ont pu
montrer queleur
système était capabled'un
certain degré de généralisation, et permettaitla
reconnaissanceet la
classification corrected'une
nouvelle représentationd'un
visage connu. Dansun
des cas présentés,la
phased'apprentissage analysait les visages de dix personnes différentes, sous 5 angles différents (de 314 gauche
à 3/4 droit).
Cesstimuli
étaient représentés commeun
vecteurd'environ
1200 valeurs d'intensités de lumière d'une profondeur de 3bits
(8 niveaux de gris). Une réponse distinctefut
associée à chacune des représentations de chaqueindividu.
Des représentations de ces mêmes individus, mais pris sous des angles différents de ceux de la phase d'apprentissage, dans unspec-tre de +45
degrés,furent
ensuite présentéesau
système.Pour
chaquenouvelle situation,
la réponse observée était plus proche de celles enregistrées pour les autres vues du mêmeindividu,
que de celles des autres individus.Il
semblait donc que le système pourrait reconnaître de nouvel-les instancesd'un
visage, mieux que d'autres systèmes commeWISARD,
par exemple(voir
la section 2.2.3.3).Kohonen
à
montré avec succèsla
puissance de son systèmepour la
reconnaissance de trames (patrons) et l'auto-association. CommeV/ISARD,
les performances sont impressionnantes sur un ensemble de visages 'connus', mais décevanteslorsqu'il
s'agit d'extrapoler à des vues nouvellesqui diffèrent
de celles utilisées durantla
phase d'apprentissage. Ce modèlen'est
probablement pas une bonne approximationd'un
modèle de reconnaissance des visagespar I'homme, et
nedevrait
pas être retenu commetel.
Kohonen etaI.
(1981) soulignent justement quele
système visuel humain traite le signal d'entrée de manière plus complexe qu'une simple analyse d'intensi-tés de pixels.Il
faudrait ajouter une série de processus de traitement deI'image
d'entrée avant I'exécution du système de mémorisation proposé par ce système(un"visualfront-end").
Page 79
2.2 Contributions des sciences informatiques
2.2.3.4.5
Les nouveaux modèIes de reconnaissanceDe
nouveaux algorithmes de reconnaissance ontvu
lejour
récemment. Parmi ceuxqui utilisent
les techniques de traitement neuronal, on trouve celui proposé par le Centre de Neuroinformatique deI'Université
de Ruhr-Bochum: les visages sont représentés sous la forme de graphes étiquetés ("labeled graphs"), ou de grilles, possédant à chaque noeud deI'information
topographique et des modèles locaux("local templates")
(Konen et Schulze-Krûger, 1995;Wiskott, eta/.,
1995). Des poses différentes sont représentés par des graphes différents. Les nouveaux graphes de visages sont générés par une extensiondel"'Elastic
Graph MatchingAlgorithm"
(Lades, et a1.,1993), qui comparele
nouveauvisage à un
ensemblede
représentations préstockées:le
"generalface
knowledge". Contrairement à la plupart des autres méthodes de reconnaissance qui requièrent des étapes distinctes de traitement, commsla
localisation,la
séparation,la
standardisation et finale-ment la reconnaissance des visages, cette approche est plus cohérente dans la mesure où ellen'uti-lise qu'un
principe de base pour effectuer simultanément les étapes mentionnées ci-dessus. Les visages sont stockés sous la forme de graphes flexibles (ou grilles) bidimentionnels, oùles
carac-téristiques visuelles (appelés"jets")
sont attachées aux noeudsdu
graph (appelés des ,,labeled graphs"). Lesjets
sont obtenus par un filtrage particulier deI'image
à la localisation des noeuds du graphe34. Chaque jets contient donc deI'information
concernantl'image
àl'endroit
du noeud, ainsi que de son voisinage immédiat. Dans des systèmes biologiques,la
région sensible(récep-trice) d'une unité
neuronale,est définie
commeun
champ récepteur ("receptivefield'). Les
auteurs ont choisi cette transformation particulière en fonction de certains résultats de
neurobiolo-gie qui
montrent quele
cortexvisuel
des mammifères contient des neurones avec des champs récepteurs similaires en forme aux kernels des ondelettes de Gabor (Jones et Palmer, 1987;Valois et Valois, 1990).La
générationd'un
nouveau graphe d'une image de visage est effectuée par une procédure qui compare un ensemble de graphes préexistants (appeléle"generalface
knowledge") avec I'image.Le
nouveau graphedoit
posséder la même structure, c'est-à-dire,le
même nombre de noeuds et les mêmes paires de noeuds interconnectés. Les noeuds doivent également être posi-tionnés à des points correspondants dans le visage. Seuls quelques noeuds sont positionnés à des points de repère clés autour des yeux ou des lèvres. Les autres se positionnent selon la structure de lagrille,
mais conespondent plus ou moins aux mêmes régions du visage. La similarité entre deux graphes dépend de la similarité des jets et de la distorsion géométrique entre I'image et le modèle (le graphe stocké).Au
cours dela
procédure de comparaison, une série de modifications (distor-sions) du nouveau graphe est sélectionné et elles ne sont acceptées quesi la similarité
entre les deux graphes augmente. Procéder par raff,nements successifs mène à une approximation dugra-phe optimal
dansdes
temps raisonnables.La
basede
donnéesde
référence ("generalface
34' Le filtrage est une convolution par ondelettes de Gabor (ou de Morlet), pour plus d'information, voir (Wiskott, et al., 1995).
IL Reconnaissance et Perception. des Visages
knowledge") contient des graphes possédant tous la même structure. Les noeuds correspondants aux mêmes points de référence sont liés entre eux et représentent une collection de variations pos-sibles de cet endroit du visage. La longueur des segments entre noeuds est pondérée sur l'ensem-ble des segments de
la
base de données (moyenne).Lors
de la comparaison, tous les noeuds du graphe en entrée sont comparés à tous ceux de la base de donnée.Le
graphe le plus similaire est ensuite sélectionné.Le
systèmefournit
également la liste par noeud des graphes stockés qui res-semblent le plus au graphe en entrée. Cela permet une reconstruction aposteriori d'un
visageini-tial
(constructiond'un 'visage
fantôme').A partir
dela
géométriedu
graphe en entréeet
des noeuds les plus similaires trouvés dans la base de données, le système construit un visage compo-site ressemblantà I'original.
Selon les proportions de noeuds sélectionnés provenant d'images d'hommes ou de femmes, on peut ainsi prévoirle
'sexe perçu' du composite, etle
'sexe probable' deI'individu original. Il
en est de même pour les accessoires (lunettes, etc.) ou la pilosité faciale (barbe,etc.). Ce
systèmea été
testé sur une base de donnéesde Il2 individus de
face (657o d'hommes,
LgVo avec une barbe et28Vo porteurs de lunettes). Chacun des 112 visagesfut
testé surles
111 autres. Desgrilles
rectangulaires de Jx4
furent positionnées àla
main,et
les graphes furent générés automatiquement. Les régions pertinentes pour les trois caractères mentionnés ci-dessus furent détectées manuellement. Lors de la comparaison, si le nombre de noeuds sélection-nés possédant un caractère donné était significatif3s, ce caractère était attribué au visage.Le
sys-tème c'est révélé exact pour les trois caractères dans plus de 90Vo des cas.Les
auteursont
également attribué des poidsrelatifs
aux différents noeuds selon une approche Bayésienne. Commeon pouvait s'y
attendre, les noeuddu
basdu
visage se sont révélés plussignificatifs
pour les barbes, et inversement pour les lunettes. Pour la détermination du sexe, par contre, les noeuds du bas étaient sensiblement plus significatifs, mêmelorsqu'on
ne considéraitque des
visages sans barbes36.L'amélioration
des performancesétait de I'ordre de I à
3Vo(Krûger,
1995). Les performancesd'un tel
système sont largement dépendantes dela taille
du"generalface
knowledge" et de la nature de son contenu.Il
est peut probable qu'un système com-posé uniquement d'occidentaux fonctionne bien avec des individus d'autres populations;il
en est de même avecl'âge
ou les expressions faciales, par exemple.Il
est égalementlimité
à des situa-tions en deux dimensions. Ce système accepte de petites rotations(usqu'à
20 degrés), mais au-delà, une nouvelle vue (graphe) doit être générée, sinon, les performances de reconnaissance sont faibles. Cependant, les auteurs travaillent sur des transformations desjets
pourtenir
compte des rotations en profondeur (Maurer et Malsburg, 1995).35. Par exemple: si parmi tous les noeud sélectionnés, le nombre de noeuds 'mâles' est supérieur au nombre de mâles dans l'échantillon (65V0),le visage est considéré comme celui d'un homme.
36. Ces résultats confirment en partie ceux rapporté par Bruce et al. (1993) sur les différences 3D entre un visage moyen de femme et d'homme (voir page 52 pour plus d'information).
Page
8l
2.2 Contributions des sciences infunnatiques