Le manque de données sur les modes de représentation des visages en mémoire, comment
ils
sont stockés, puis comparés, dans des processus de reconnaissance, amena de nombreux auteurs à étu-dier la questiond'un
point de vue théorique: la perception des visages se base-t-elle sur un traite-ment des éléments faciaux séparés, ouplutôt
surla
configuration globaledu
visage,ou
sur les deux ? La plupart de ces travaux utilisent des épreuves de comparaison (simultanées ou différées), pour mesurer des ressemblances (subjectives) entre visages modifiés. Les éléments faciaux sont réarrangés, ou substitués, indépendamment les uns des autres, sans aucune mesure de variabilité entre visages,ou
de leurs configurations spatiales. Les résultats inférés àpartir
des caractéristi-ques des modes de comparaison refléteraient les processus de correspondance entre la représenta-tion visuelle perçue et stockée.La
correspondance pourrait s'effectuer par comparaison à un modèle,impliquant
qu'une corres-pondance parfaite entrele
stimulus visuel et la représentation stockée en mémoire est nécessaire pour la reconnaissance. Cette hypothèse implique la mémorisation d'autant de modèlesqu'il y
ad'instances de
I'objet
à reconnaître; c'est-à-direqu'il
faut enregistrerle
stimulus non seulement de points de vues différents, dans des conditionsd'illuminations
changeantes, mais également ses changements d'apparence concernant les cheveux, la barbe ou les expressions. Les capacités céré-brales requises pour de tels opérations sont bien au-delà des performances supposées du cerveau humain. Smith et Nielsen (1970) ont soutenu cette hypothèse en présentant des résultats quisem-blaient confirmer un tel
modede
correspondance,mais
des problèmesde protocole
d'expé-riencelI n'ont
pas permis de tirer des conclusions sur le mode de traitement des éléments faciaux.Une stratégie alternative de correspondance, serait la comparaison un à un des éléments faciaux
Puge 43
2.1 Contributions de la psychologie
jusqu'à la détection d'une différence. Les travaux sur les temps de décision (RT = Reaction
Time, en
anglais)montrent que le
temps nécessairepour
décider quedeux
visagessont
différents, décroit en fonction de I'accroissement du nombre de différencesl21s-ith,
eta\.,I97\;Bradshaw,
et
al., I97I).
La stratégie employéeici
par les sujets semble être bien adaptée à la tâche qu'on leur avait assignée, etil
estdifficile
d'en tirer des conclusions générales quant au mode de traitement des visages en soi. Ceciillustre
un problème général, rencontré dans de nombreuses expériences de ce type: les sujets risquent de répondre aux demandes d'une tâche particulière par des straté-gies spécifiques qui risquent d'être bien différentes de leur modes de traitement habituels.Ces deux type de stratégies, correspondance à un modèle et comparaison analytique, ne prennent pas en considération les relations spatiales et les interactions existantes entre traits faciaux;
il
est pourtantclair,
comme nousle
verrons plus bas, quela
perception des expressions faciales, par exemple, est liée à la perception des interactions entre plusieurs éléments. Différentes régions du visage interagissent pour exprimer une émotion particulière(McKelvie,Igl3;Ekman,
1979). Ser-gent(1982;
1985; 1989) montre quel'identification d'un
visage donr les dérails onr été filtrés(voir
les images de la FigureT-4 de la page 224) reste pourtant possible par desindividus qui lui
sont proches. Seule
la
configuration globale, c'est-à-dire les basses fréquences spatiales,et
les relations entre éléments sont visibles. Aucune région de ces photographies ne dispose de suffisam-mentd'information
à elle seule pour permettre une identification spécifique.2.1.6.2
Analyse des fréquences spatialesd'un stimulus
visuelLes fréquences spatiales d'une image peuvent être comparées par analogie aux fréquences harmo-niques sonores.
Un
son peut-être décomposé en une fréquence fondamentale et des harmoniquesll.
SmithetNielsen(1970)utilisèrentdesdessinsschématiquesdevisagespossédant5élémentsvariables (sourcils, yeux, nez, bouche et oreilles) qui pouvaient prendre 3 états (épaisseur du trait: 'fin', 'moyen'et 'large'). Ils mesurèrent les jugements de ressemblance entre paires de visages présentés à des intervalles différents (1,4 et l0 secondes). Les paramètres étaient le nombre d'éléments variables et le nombre de différences par paire. Ils trouvèrent que pour I'intervalle le plus court, un processus de comparaison en série devait être employé, car plus le nombre de différences était grand, plus le temps de décision était rapide, sans que le nombre effectif d'éléments variables n'influence les performances. Cela n'était pas le cas pour I'intervalle de dix secondes, pour lequel le temps de décision variait selon le nombre d'éléments variables' Bien que leurs résultats aient confirmé en partie ceux de Bradshaw et Wallace (lg7I),les résul-tats obtenus pour I'intervalle d'une seconde, suggéraient un mode de traitement plus configural (compa-raison de modèles). Mais comme le fait remarquer Sergent (1984),le
nombre effectif d'éléments variables était toujours confondu avec le nombre d'éléments non-variables (les visages avaient toujours 5 éléments), ne permettant pas de tirer de conclusions à propos du mode de traitement des éléments.l2'
Bradshaw et Wallace (1971) furent parmi les premiers à essayer d'apporter un élément de réponse à cette question en étudiant les temps de réponse (de latence) de sujets à des tâches de reconnaissance. Deux visages construits à I'aide de I'Identikit était présentés simultanément au sujet. Ce dernier devait décider si les visages était différents ou pas. Les différences portaient sur un ou plusieurs des éléments à partir desquels ils étaient construits (sept au maximum). Les auteurs mirent en évidence une correspondance entre le temps de réponse et I'application d'un processus de comparaison sérielle des éléments. En d'autres termes, les sujets comparaient les éléments un à un jusqu'à ce qu'ils trouvent une différence.IL Reconnaissatrce et Perception des Visages
de fréquences
plus
élevées; de même, on peut chercher les fréquencesqui
sont fondamentales dansun
stimulus visuel, en remplaçantle
paramètre temporel parla
composante spatiale (en 2 dimensions).Un stimulus visuel
peut donc êtredécrit
comme unedistribution
d'intensités de lumière en deux dimension, et décomposé en un ensembles d'ondes sinusoïdales de fréquences, d'orientations et d'amplitudes différentesl3 1Hall, 1979;Watt, 1988; Humphreys et Bruce, 1991).L'analyse des fréquences spatiales permet la description du contenu en information
d'un
stimulusvisuel; c'est un outil
important pourl'étude
dela
sensibilitédu
système visuel, chez l'homme comme chezI'animal. Il
semblerait que notre système visuel canalisel'information qu'il
reçoit en fréquences basses, intermédiaireset
hautes,qui
sont ensuite traitées séparément (Campbell etRobson,
1968; Grahamet
Nachmias,I97I Wilson et Bergen,
1979).Les
propriétés globales (configurales) du visage sont associées aux basse fréquences spatiales, et les éléments faciaux aux hautes fréquences.Si
les hautes fréquences sont soustraites dela distribution
des fréquences del'image d'un
visage, cette dernière apparaît floue, et les fréquences restantes nous permettent de décrirela
configuration globaledu
visage,bien
que les détails nous échappent. Les hautes fré-quences sont nécessaires pour une description détaillée de I'imaged'un
visage (FigureAl). Cer-tains
auteurs considèrent que seules les basses fréquences sont nécessairepour I'identification d'un
visage (Harmon, 1973; Ginsburg, 1978; Tiegeret
gantz,1979; Fiorentini,Maffei
et Sandini,1983), alors que les
fréquences élevéesne fournissent qu'une
redondanced'information.
D'autres, par contre, prétendent que les fréquences élevées jouent un rôle essentiel dans la percep-tion des visages (Fiorentini , et a1.,1983). Les conclusions de ces travaux sur I'importance des
dif-férents spectres de fréquences spatiales dépendent des épreuves qui étaient assignées aux sujets.
Ginsburg (Ginsburg, 1978) utilisa une épreuve de comparaison, et trouva que des images de visa-ges basses fréquences ("low-pass
fiItef'1étaient
comparées avec succès à des images non filtrées, concluant que les hautes fréquences ne contenaient que deI'information
redondante à cette tâche.Fiorentini
etat.
(1983) utilisèrent une épreuved'identification,
dans laquelle les sujets devaient apprendre apriori
le nom de plusieurs visages, puis ensuite essayerd'identifier
des images filtrées("Iow
and high pass"). Ils trouvèrent un taux d'identification supérieur avec les images hautes fré-quences et conclurent sur I'importance de ces dernières dans la reconnaissance des visages. Plu-sieurs remarques s'imposent: premièrement, une épreuve de comparaison réussit en n'employant que deI'information
basses fréquences, alors qu'une épreuved'identification
implique un niveau supérieur de perception (distinction, discrimination) qui requière les composantes hautes fréquen-ces. Deuxièmement, mesurer seulement les performances de comparaison oud'identification
est une approximation relativement grossière. Les sujets peuvent réussir ces épreuvesd'identification
de visages modifiés en utilisant des stratégiesd'élimination
ou de comparaisonqui
sont chrono-phages et probablement inutiles si tous les composants du spectre sont présents.L
enregistrement13. L annexe sur I'imagerie numérique (point7.2.2, page222) défini de manière plus rigoureuse les notions abordées ici, et les illustre par des exemples.
Page 45
2.1 Contributions de la psychologie
des temps de latence de réponse auraient certainement apporté plus
d'information. Il
est important de considérer la nature deI'information
disponible (présentée) en fonction des tâches (épreuves) demandées aux sujets. Différents éléments d'information peuvent être plus ou moins utiles à telleou telle
tâche de perception des visages, et ces éléments ne sont pas toujours contenus dans le même spectre de fréquences spatiales (Bruce, etaL,1986;
Sergent, 1986b;Bruce,
198g; Sergent, 1989).Le
rôle des fréquences spatiales dans la reconnaissance oul'identification
des visages ne peut pas être déterminé de manière indépendante des multiples autres facteurs qui influencent leur extraction,leur
traitement et leur importance fonctionnelle dans les opérations à exécuter, ou la résolution requise par ces mêmes opérations. Un visage possède une distribution étendue de fré-quences spatiales, et les performances sont généralement optimales lorsquele
spectre entier est présent, commeil
I'estin
vivo.Au
lieu de considérer cela comme une redondanced'information,
cepoint
de vue suggère une complémentarité de descriptions polymorphesdu
visage,bien
que certaines de ces descriptions puissent prendre plus d'importance que les autres sous des condi-tions particulières (Sergent, 1989).Le
système visuelfournit
au systèmecognitif
sous-jacent une redondanced'information
sur des scèneset
des objets sousla forme
de représentations multiples. Celles-ci mettent en évidence divers attributsdu
stimulus correspondant à des bandes de fréquences spatiales différentes. Ces représentations contiennent des informations structurelles spécifiques sur les objets en question.L
importance de ces informations dépendra des opérations à effectuer.La
diversité de ces repré-sentations contribue probablement à l'efficacité des traitements de perception, de catégorisation et de reconnaissance des visages.Il
est généralement reconnu qu'un large spectre de fréquences spa-tiales génère les meilleures performances (Sergent, 1985).Il
est possible que différentes bandes de fréquences soient utilisées pour différentes opérations exécutées en parallèle, augmentant ainsiI'efficacité
du traitement.Ces travaux montrent que les propriétés globales (configurales) du visage et
I'information
sur les éléments qui le compose, sont importantes pour la perception et la reconnaissance. Lesoutils
de construction de visages employés(Identikit,
Photofit) posentun
certain nombre de problèmes quant aux hypothèses de base de leurutilisation
(le protocole) et leur réalisme (image-
visage).Les techniques de traitement d'image par ordinateur offrent des potentialités plus vastes. Les
sti-muli
visuels auxquels nous avons affaireici
sont multidimensionnels, et par là même, possèdent àla fois
des propriétés globales et locales (éléments). Comme Garner (1978)le
suggère, les pro-priétésd'une configuration
globale sont expriméesà
travers les relations (interactions)de
ses composants. Pomerantz (1981) souligne quela
configuration (globale) est une propriété émer-geante du stimulus, etqu'elle
n'est pas lefruit
de ses composantes, mais bien de leur interaction.D'où
ladifficulté d'identifier
les paramètres significatifs dans une expérience sur les composantsII. Reconnaissance et Perception des Visages
faciaux. Puisque les propriétés d'une configuration résultent des interactions de ses composants, et comme ces derniers sont directement manipulés, eux seuls sont considérés comme des varia-bles dans
l'analyse
des résultats et des performances. Pourtant, changerun
composant entraîne forcémentun
changement dans les relations entre composants,et
donc des propriétés globales (configurales) du visage. Comment ensuite décider lequel du composant ou de la configuration est traité parle
processus de reconnaissance ? Force est de constater que les résultats d'expériences sur les temps de latence (RT) d'épreuves de reconnaissance ou de comparaison de visages ne per-mettent pas d'interprétations univoques à cet égard. La coexistence de propriétés configurales et élémentaires au seindu
stimulus'visage',
suggèrequ'il doit
exister plusieurs modes de traite-ments deI'information
disponible, dépendant de facteurs comme les conditionsd'illumination,
I'angle de vue, lafamiliarité
du sujet avec le visage-cible, etc. (Sergent et Takane, 1987; Sergent,1e89)
2.1.7 Attributs sociaux liés auvisage humain (traitement sémantique)
Les attributs sociaux liés au visage humain sont de deux types distincts: (1) les attributs de