WISARD et FRAME: un modèle et une application

2.2 Contributions des sciences informatiques

2.2.3 Modèles de reconnaissance

2.2.3.3 WISARD et FRAME: un modèle et une application

WISARD (qui

tient son sigle des noms de ses auteurs:

Wllkie,

Stonham, Aleksander's

Recogni-tion Device),

est

un

système

de

reconnaissance

d'objets

basé

sur

une approche connectiviste (Aleksander, _1983;Stonham, 1936).

Le

système accepte en entrée un grand nombre de matrices de pixels indexés blanc ou noir. Des sous-ensembles de n-pixels (entre

2 et8)

sont ensuite échan-tillonnés et stockés en mémoire à des endroits distincts. Si n = 2,

il

y a 4 types d'échantillons pos-sibles: les 2 pixels sont noirs, ou les 2 sont blancs, le premier est

noir

le

second est blanc, ou I'inverse. Chaque échantillon possible dispose d'une adresse en mémoire qui contiendra la valeur

'1'ou '0'selon

que cette configuration est activée ou pas.

Au

début de l'apprentissage, toutes les adresses sont mises

à

zéro. Ensuite, en cours d'apprentissage,

le

système stockera des

'1'

aux adresses correspondantes de

l'échantillon

et de sa taille. Si une instance différente du même con-cept est présentée (c'est à dire le visage

d'un

même

individu,

mais avec un angle de vue ou une expression légèrement différents, par exemple) pour un même échantillon de pixels, une réponse légèrement différente sera enregistrée. L'apprentissage

du

concept

implique la répétition

de ce processus pour un grand nombre d'instances différentes, et le stockage des réponses dans la zone mémoire

('discriminatoire')

de ce concept. Les propriétés intrinsèques à chaque visage sont ainsi stockées en mémoire.

L

efficacité de I'apprentissage peut être testée en présentant au système une

nouvelle

instance

d'un

visage (concept),

et

en additionnant

les '1' qui

seront atteints

par

son

II. Recorunissance et Perceptiott des Visages

échantillonnage exprimé comme une proportion de

la

réponse maximale.

La

réponse maximale est atteinte si, quelque soit l'échantillonnage

(n-tuple),le

système ne génère que des

'1'pour

tous les sous-ensembles.

La

^phased'apprentissage continue

jusqu'à

_{ce que}le discriminateur atteigne 95Vo de

la

réponse maximale

pour un

concept donné. Plusieurs modules de reconnaissance de visages différents forment un système de classification. Une nouvelle instance

d'un

visage connu, sera attribuée au module qui obtiendra le score le plus élevé.

Les auteurs ont testé avec succès ce système

qui

fonctionne sur une base

de

individus

d'une résolution

de

153

x2I4

^pixels.

Il

fallu

environ 200 images différentes par

individu

pour que le système soit en mesure de les reconnaître de manière constante à95Vo de la réponse maximale. Le système s'est révélé relativement insensible aux changements d'expression, pour autant que les images de la phase d'apprentissage comportaient ^desexpression différentes.

Ce système est en mesure de reconnaître

n'importe

quelle classe

d'objets ou

de formes. Mais, malgré les bons résultats obtenus,

il

est très sensible aux conditions d'exposition (le fond,

l'éclai-rage, la

taille

I'image)

des images durant la phase d'apprentissage.

Il

^serévélera incapable ^de reconnaître un visage 'connu'présenté dans des conditions nouvelles. La manière dont le système stocke

I'information

correspondant

à un

grand nombre de visages

(ou

d'instances

de

visages)

d'individus différents

ressemble

aux 'unités de

reconnaissance

de visage' ("face

recognition

units"

ou FRU) proposées par certains auteurs (Hay, et

aI.,

1982; Bruce, et a1.,1986; Ellis , et al.,

l9S9). Ces 'unités de

reconnaissance' contiendraient

I'information

pertinente (essentielle)

à

la reconnaissance

de

chaque

visage (voir la

section

2.I.6). Les

performances

du

système sont impressionnantes en soi, mais ^nereprésentent ^pasun bon modèle de la reconnaissance des visages

chez l'homme. Il est très

probable

que

nous prétraitions

les

images

de

différentes manières (extraction des contours,

élimination du fond,

etc.).

Le

modèle de Baron permet une certaine sélectivité,

alors

que

WISARD ne prévoit rien,

expliquant

d'une

certaine manière ses piètres résultats dans des conditions différentes. Une autre remarque porte sur le nombre de visages

trai-tés dans ce modèle;

il

reconnaît correctement ¹⁶individus, mais

il n'y

^apas de travaux décrivant la reconnaissance

d'un

plus grand nombre de visages.

FRAME

^acronyme

de

Face Retrieval

And Matching

Equipment,

fut

développé

par

Shepherd (1986) en collaboration avec le Home Office (l'équivalent du Ministère ^de

I'Intérieur

en Grande Bretagne) dans

le but

de mettre au

point un

système

de

présélection de

portraits de

suspects ("mugshots") basé sur une description

du

visage

du

suspect

faite

par

un témoin

oculaire

d'un crime. En

^réduisant

ainsi le

nombre de photographies

qu'un

témoin est

obligé

d'examiner, on diminue les effets de

la

fatigue, de

l'ennui

(répétition) et des interférences potentielles qui rédui-sent les chances

d'une

reconnaissance précise et d'une identification positive (Laughery, et ^aI.,

IgTI). Le

prototype était basé sur I'encodage de 1000 visages d'hommes et de leur descriptions;

Page 77

2.2 Contributions des sciences infurnntiques

la distribution des âges correspondaient à celle des bases de données de suspects de la police.

pour

chaque photographie de visage pris de face, de 3/4 et de

profil,

des observateurs évaluaient

47

c;;i-tères et attributs de visage. Les cric;;i-tères comprenaient des attributs comme l'espacement des yeux,

la

forme du visage, la couleur des cheveux, etc. Vingt-et-un critères furent ensuite substitués par des mesures anthropométriques effectuées sur les représentations des visages de face, et réduits aux cinq classes discrètes utilisées par les observateurs.

La taille,

le poids et

l'âge

des individus furent ajoutés aux 47 mesures dérivées des photographies, pour former un ensemble de 50 mesu-res pour chacun des 1000 individus.

L

algorithme de recherche de visage compare un ensemble de descriptions fournies par un témoin aux enregistrements de sa base de données. Un coefflcient de

"goodness

ofrtf'est

calculé pour chacun des 1000 visages stockés. Ce coefficient représente la proportion _desdescriptions _{en entrée}

qui

correspondent (dans un intervalle de tolérance donné)

aux

valeurs _stockées

pour le

visage. Les visages sont classés selon

leur

rang,

et ceux qui

ont obtenu les meilleurs scores (en général les 10 premiers) peuvent être affichés à l'écran et présentés

au témoin. Si le

visage recherché

ne

se trouve pas

parmi les

10 sélectionnés,

le témoin

peut recommencer I'opération _enmodifiant le poids

d'un

ou de plusieurs des critères descriptifs sur la base des résultats de la première recherche. Si le témoin est certain de I'exactitude de

I'un

des

cri-tères,

un

poids additionnel peut

y

être ajouté. Dans

le

cas

où un

visage ressemblant, mais pas assez, est trouvé, une recherche supplémentaire peut s'effectuer sur

la

base de

ce

visage, pour extraire les visages

lui

ressemblant. La

flexibilité

de ce système s'est Évélée importante pour ses

applications pratiques.

Une

recherche peut s'effectuer rapidement

si

les données

initiales

sont nombreuses et claires, ou par raffinement successifs si les souvenirs du témoin sont quantitative-ment et qualitativement plus limités. L'efficacité du système a été testée en mesurant

le

degré de confiance avec lequel

un

visage connu peut être retrouvé à

partir

de sa description (Shepherd, 1986). Des étudiants32 de

I'Université

d'Aberdeen devaient retrouver quatre membres du corps professoral. Dans 707o des cas, le visage recherché apparaissait parmi les 10 premiers visages pré-sentés, et dans 807o des cas restants après 3 recherches. Une série de tests supplémentaires ont comparé les efficacités relatives de

FRAME

et de la méthode traditionnelle des fichiers de police.

Pour des visages possédant des traits distinctifs, comme des lunettes ou une barbe, les résultats sont similaires (environT5Vo). Par contre, pour des visages plus anonymes

('typiques'),

_{le taux}de reconnaissance par

FRAME

reste relativement éIevé (69Vo), alors que celui de

la

méthode tradi-tionnelle chute (447o)33.Les baisses de performance dans le second cas sont essentiellement dus à

I'apparition

tardive du visage-cible dans la séquence présentée au sujet. Ces résultats sont

similai-res

à ceux obtenus par d'autres auteurs avec des images composites

d'Identikit (Lenorovitz

_et Laughery, 1979).

32. Note: I'effectif de l'échantillon n'est pas mentionné dans I'article original.

33. Un total de 128 sujets furt testés, la moitié sur chaque système. Les taux de fausse reconnaissance sont faibles et similaires _dansle premier cas, alors que dans le second ils restent faibles pour FRAME et aug-mentent significativemenr pour la méthode traditionnelle (shepherd, l9g6).

IL Reconnaissance et Perception des Visages

Ce système, comme

celui

de Goldstein

(voir

plus bas), requiert une intervention humaine pour détecter et mesurer les trait ou critères faciaux utilisés par les algorithmes de recherche.

Il

existe à présent des systèmes qui exécutent ces tâches automatiquement

(voir

la section 2.2.4).

2.2.3.4 Le

modèle connectiviste de Kohonen

Le

premier modèle de mémoire distribuée appliqué à la reconnaissance des visages humains

fut

proposé par Kohonen

(1977;1981;

1984). Le but de ce modèle est de développer un système

dis-tribué

d'enregistrement d'associations stimuli-réponses (S-R), _appelémémoire auto-associative.

Une série d'associations S-R est apprise durant une phase d'apprentissage; lors de la présentation

d'un

stimulus seul - un visage, par exemple

-

une réponse appropriée, par exemple un nom, sera générée par le système.

Afin

d'obtenir ce résultat, le système doit être en mesure de représenter et de stocker en mémoire les associations stimuli-réponse pour un grand nombre de paires S-R, et cela avec

un minimum d'egeurs.

Kohonen et

al.

⁽¹⁹⁸¹⁾

ont pu

montrer que

leur

système était capable

d'un

certain degré de généralisation, et permettait

la

reconnaissance

et la

classification correcte

d'une

nouvelle représentation

d'un

visage connu. Dans

un

des cas présentés,

la

^phase

d'apprentissage analysait les visages de dix personnes différentes, ^sous5 angles différents (de 314 gauche

à 3/4 droit).

^Ces

stimuli

étaient représentés comme

un

vecteur

d'environ

1200 valeurs d'intensités de lumière d'une profondeur de 3

bits

⁽⁸niveaux de gris). Une réponse distincte

fut

associée à chacune des représentations de chaque

individu.

^Desreprésentations de ces mêmes individus, mais pris sous des angles différents de ceux de la phase d'apprentissage, dans un

spec-tre de +45

degrés,

furent

ensuite présentées

au

système.

Pour

chaque

nouvelle situation,

la réponse observée était plus proche de celles enregistrées pour les autres vues du même

individu,

que de celles des autres individus.

Il

semblait donc que le système pourrait reconnaître de nouvel-les instances

d'un

visage, mieux que d'autres systèmes comme

WISARD,

^parexemple

(voir

la section 2.2.3.3).

Kohonen

à

montré avec succès

la

puissance de son système

pour la

reconnaissance de trames (patrons) et l'auto-association. Comme

V/ISARD,

les performances sont impressionnantes sur un ensemble de visages 'connus', mais décevantes

lorsqu'il

s'agit d'extrapoler à des vues nouvelles

qui diffèrent

de celles utilisées durant

la

phase d'apprentissage. Ce modèle

n'est

probablement pas une bonne approximation

d'un

^{modèle de}reconnaissance des visages

par I'homme, et

^ne

devrait

pas être retenu comme

tel.

Kohonen et

aI.

⁽¹⁹⁸¹⁾soulignent justement que

le

système visuel humain traite le signal d'entrée de manière plus complexe qu'une simple analyse

d'intensi-tés de pixels.

Il

faudrait ajouter une série de processus de traitement de

I'image

d'entrée avant I'exécution du système de mémorisation proposé par ce système

(un"visualfront-end").

Page 79

2.2 Contributions des sciences informatiques

2.2.3.4.5

Les nouveaux modèIes de reconnaissance

De

nouveaux algorithmes de reconnaissance ont

vu

jour

récemment. Parmi ceux

qui utilisent

les techniques de traitement neuronal, on trouve celui proposé par le Centre de Neuroinformatique de

I'Université

de Ruhr-Bochum: les visages sont représentés sous la forme de graphes étiquetés ("labeled graphs"), _{ou de}grilles, possédant à chaque noeud de

I'information

topographique et des modèles locaux

("local templates")

(Konen et Schulze-Krûger, 1995;Wiskott, _et

a/.,

1995). Des poses différentes sont représentés par des graphes différents. Les nouveaux graphes de visages sont générés par une extension

del"'Elastic

Graph Matching

Algorithm"

(Lades, et a1.,1993), qui compare

le

nouveau

visage à un

ensemble

de

représentations préstockées:

le

"general

face

knowledge". Contrairement à la plupart des autres méthodes de reconnaissance qui requièrent des étapes distinctes de traitement, comms

la

localisation,

la

séparation,

la

standardisation et finale-ment la reconnaissance des visages, cette approche est plus cohérente dans la mesure où elle

n'uti-lise qu'un

principe _{de base}pour effectuer simultanément les étapes mentionnées ci-dessus. Les visages sont stockés sous la forme de graphes flexibles (ou grilles) bidimentionnels, où

les

carac-téristiques visuelles (appelés

"jets")

sont attachées aux noeuds

du

graph (appelés des ,,labeled graphs"). _Les

jets

sont obtenus par un filtrage particulier de

I'image

à la localisation des noeuds du graphe34. Chaque jets contient _{donc de}

I'information

concernant

l'image

l'endroit

du noeud, ainsi que de son voisinage immédiat. Dans des systèmes biologiques,

la

région sensible

(récep-trice) d'une unité

neuronale,

est définie

comme

un

champ récepteur ("receptive

field'). ^Les

auteurs ont choisi cette transformation particulière en fonction de certains résultats de

neurobiolo-gie qui

montrent que

le

cortex

visuel

des mammifères contient des neurones avec des champs récepteurs similaires _enforme aux kernels des ondelettes de Gabor (Jones et Palmer, 1987;Valois et Valois, 1990).

La

génération

d'un

nouveau graphe d'une image de visage est effectuée par une procédure qui compare un ensemble de graphes préexistants (appelé

le"generalface

knowledge") avec I'image.

Le

nouveau graphe

doit

posséder la même structure, c'est-à-dire,

le

même nombre de noeuds et les mêmes paires de noeuds interconnectés. Les noeuds doivent également être posi-tionnés à des points correspondants dans le visage. Seuls quelques noeuds sont positionnés à des points de repère clés autour des yeux ou des lèvres. Les autres se positionnent selon la structure de la

grille,

mais conespondent plus ou moins aux mêmes régions du visage. La similarité entre deux graphes dépend de la similarité des jets et de la distorsion géométrique entre I'image et le modèle (le graphe stocké).

Au

cours de

la

procédure de comparaison, une série de modifications (distor-sions) du nouveau graphe est sélectionné et elles ne sont acceptées que

si la similarité

entre les deux graphes augmente. Procéder par raff,nements successifs mène à une approximation du

gra-phe optimal

dans

des

temps raisonnables.

La

base

de

données

de

référence ("general

face

34' Le filtrage est une convolution par ondelettes de Gabor (ou de Morlet), pour plus d'information, voir (Wiskott, et al., 1995).

IL Reconnaissance et Perception. des Visages

knowledge") contient des graphes possédant tous la même structure. Les noeuds correspondants aux mêmes points de référence sont liés entre eux ^etreprésentent une collection de variations pos-sibles de cet endroit du visage. La longueur des segments entre noeuds est pondérée sur l'ensem-ble des segments de

la

base de données (moyenne).

Lors

de la comparaison, tous les noeuds du graphe en entrée sont comparés à tous ceux de la base de donnée.

Le

graphe le plus similaire est ensuite sélectionné.

Le

système

fournit

également la liste par noeud des graphes stockés qui res-semblent le plus au graphe en entrée. Cela permet une reconstruction ^a

posteriori d'un

visage

ini-tial

(construction

d'un 'visage

fantôme').

A ^partir

la

géométrie

du

graphe en entrée

et

des noeuds les plus similaires trouvés dans la base de données, le système construit un visage compo-site ressemblant

à I'original.

Selon les proportions de noeuds sélectionnés provenant d'images d'hommes ou de femmes, on peut ainsi prévoir

le

'sexe perçu' du composite, et

le

'sexe probable' de

I'individu original. Il

en est de même pour les accessoires (lunettes, etc.) ou la pilosité faciale (barbe,

etc.). Ce

système

a été

testé sur une base de données

de Il2 individus de

face ^(657o d'hommes

,

^LgVoavec une barbe et28Vo porteurs de lunettes). Chacun des ¹¹²visages

fut

testé sur

les

111 autres. Des

grilles

rectangulaires de J

x4

furent positionnées à

la

main,

et

les graphes furent générés automatiquement. Les régions pertinentes pour les trois caractères mentionnés

ci-dessus furent détectées manuellement. Lors de la comparaison, si le nombre de noeuds sélection-nés possédant un caractère donné était significatif3s, ce caractère était attribué au visage.

Le

sys-tème c'est révélé exact pour les trois caractères dans plus de 90Vo des cas.

Les

auteurs

ont

également attribué des poids

relatifs

aux différents noeuds selon une approche Bayésienne. Comme

on pouvait s'y

attendre, les noeud

du

bas

du

visage se sont révélés plus

significatifs

^pourles barbes, et inversement pour les lunettes. Pour la détermination du sexe, par contre, les noeuds du bas étaient sensiblement plus significatifs, même

lorsqu'on

ne considérait

que des

visages sans barbes36.

L'amélioration

des performances

était de I'ordre de I ^à

^3Vo

(Krûger,

1995). Les performances

d'un tel

système sont largement dépendantes de

la taille

"generalface

knowledge" et de la nature de ^soncontenu.

Il

est peut probable qu'un système com-posé uniquement d'occidentaux fonctionne bien avec ^desindividus d'autres populations;

il

en est de même avec

l'âge

ou les expressions faciales, par exemple.

Il

est également

limité

à des situa-tions en deux dimensions. Ce système accepte de petites rotations

(usqu'à

20 degrés), mais au-delà, une nouvelle vue (graphe) doit être générée, sinon, les performances de reconnaissance sont faibles. Cependant, les auteurs travaillent sur des transformations ^des

jets

pour

tenir

compte des rotations en profondeur (Maurer et Malsburg, 1995).

35. Par exemple: si parmi tous les noeud sélectionnés, le nombre de noeuds 'mâles' est supérieur au nombre de mâles dans l'échantillon ^(65V0),levisage est considéré comme celui d'un homme.

36. Ces résultats confirment en partie ceux rapporté par Bruce et al. ⁽¹⁹⁹³⁾sur les différences 3D entre un visage moyen de femme et d'homme (voir page 52 pour plus d'information).

Page

8l

2.2 Contributions des sciences infunnatiques

2.2.4 Systèmes de reconnaissance automattque

Dans le document Approche morphométrique dans l'étude de la perception et de la reconnaissance du visage humain (Page 83-89)