Ce type de mod`ele d’attention visuelle s’appuie sur l’hypoth`ese que l’attention
est attir´ee par les caract´eristiques de bas niveau des stimuli [Reinagel and Zador,
1999; Parkhurst et al., 2002; Parkhurst and Niebur, 2004; Tatler et al., 2005;
Badde-ley and Tatler, 2006]. Avec cette hypoth`ese, le mod`ele ascendant permet de pr´edire
les fixations dans des conditions tr`es contrˆol´ees. Ce sont les premi`eres fixations
ef-fectu´ees pendant une dur´ee tr`es courte (1-2 s) apr`es l’apparition des stimuli et pour
une exploration libre de sc`enes visuelles (aucune tˆache n’est demand´ee au sujet).
Ces conditions ont pour objectif de limiter le plus possible l’influence des facteurs
de haut niveau.
Nous commen¸cons par le mod`ele de Koch et Ullman [Koch and Ullman, 1985]
qui est consid´er´e comme le premier mod`ele d’attention visuelle. Pour ce mod`ele
conceptuel, nous nous concentrons sur son architecture qui a influenc´e beaucoup
d’autres mod`eles. Pour les mod`eles h´eritant de ce mod`ele, nous pr´esentons plus en
d´etails leurs impl´ementations.
3.1.1 Le mod`ele de Koch et Ullman
Ce mod`ele, propos´e par Koch et Ullman [Koch and Ullman, 1985], est inspir´e
par les ´etudes de Treisman et Gelade en 1980 sur la th´eorie de l’int´egration des
caract´eristiques pour l’attention visuelle [Treisman and Gelade, 1980]. Selon cette
th´eorie, l’attention visuelle est guid´ee par la combinaison des caract´eristiques de bas
niveau comme l’intensit´e de luminosit´e, la couleur et l’orientation. Ainsi, dans ce
premier mod`ele de Koch and Ullman (Fig. 1.5), une image d’entr´ee est d´ecompos´ee
3La saillance et la pertinence sont appel´ees respectivement la saillance physique et la saillance
cognitive selon Landragin [Landragin, 2004].
en plusieurs cartes, une carte par caract´eristique de bas niveau. Ensuite, dans ces
cartes, les positions saillantes ´emergent en supposant que la saillance d’une
posi-tion d´epend de sa diff´erence par rapport aux posiposi-tions voisines. Finalement, les
cartes de caract´eristique sont somm´ees pour cr´eer la carte unique qui s’appelle
la carte de saillance (“saliency map”). Cette carte de saillance, combin´ee avec le
m´ecanisme WTA (“Winner-Take-All”), permet de pr´edire les positions que les
su-jets fixent. Le maximum de la carte correspondra `a la pr´ediction de la premi`ere
fixation, puis le maximum suivant correspondra `a la pr´ediction de la deuxi`eme
fixa-tion, etc. D´esormais, la notion de carte de saillance est largement utilis´ee dans des
´etudes concernant le mod`ele d’attention visuelle.
Fig. 1.5 – Le mod`ele d’attention visuelle de Koch et Ullman [Koch and Ullman,
1985]. La carte de saillance (“saliency map”) est cr´e´ee par la fusion des cartes de
caract´eristique (“feature maps”) de bas niveau.
Le mod`ele de Koch et Ullman joue un rˆole important en pr´esentant le mod`ele de
base sur lequel s’appuient de nombreux mod`eles d’attention visuelle. Les mod`eles
d´evelopp´es `a partir du mod`ele de Koch et Ullman apportent des am´eliorations au
niveau de l’impl´ementation mais conservent l’architecture g´en´erale de celui-ci.
3.1.2 Le mod`ele d’Itti
Itti et collaborateurs [Itti et al., 1998] ont d´evelopp´e le mod`ele ascendant
d’at-tention visuelle le plus r´epandu aujourd’hui (Fig. 1.6).
Comme le mod`ele original de Koch et Ullman, le mod`ele d’Itti d´ecompose un
stimulus visuel en caract´eristiques visuelles de bas niveau comme l’orientation,
l’in-tensit´e et la couleur. L’inl’in-tensit´e correspond `a la valeur moyenne des trois canauxr,
g, b repr´esent´es dans l’espace RGB :
I = r+g+b
3
Fig. 1.6 – Le mod`ele d’attention visuelle propos´e par Itti [Itti et al., 1998]
L’intensit´e I est ensuite d´ecompos´ee par une pyramide passe-bas multir´esolution `a
8 niveaux (niveau 0 repr´esente la carte d’intensit´e initiale). Ainsi, on obtient une
pyramide I(σ) o`u σ repr´esente la r´esolution,σ ∈[0..8].
Les quatre couleurs R (rouge), G (vert), B (bleu) et Y (jaune) sont extraites
selon les ´equations suivantes :
R = r− g+2 b
G = g−r+2 b
B = b− r+2 g
Y = r+2g − |r−2 g| −b
Comme l’intensit´e, chaque couleur est d´ecompos´ee par une pyramide passe-bas.
Ainsi, il y a 4 pyramides R(σ),G(σ), B(σ),Y(σ) pour les 4 couleurs.
Pour la caract´eristique “orientation”, elle est extraite de l’intensit´e I par des
pyramides de Gabor O(σ, θ) o`uσ ∈[0..8] repr´esente la r´esolution de la pyramide et
θ ∈ {0◦,45◦,90◦,135◦} l’orientation.
Ensuite, le contraste est extrait en effectuant la diff´erence entre les valeurs
`a diff´erents niveaux d’une pyramide. Pour l’intensit´e, les valeurs des niveaux de
r´esolution plus fine c sont soustraites aux valeurs des niveaux de r´esolution plus
grossi`ere s :
avec c={2,3,4}, s=c+δ et δ ={3,4}. L’op´erateur ⊖ repr´esente la soustraction
des valeurs `a deux niveaux diff´erents d’une pyramide ; cette soustraction n´ecessite
une interpolation de la carte I(s) pour qu’elle puisse avoir la mˆeme taille que I(c).
Ainsi, pour l’intensit´e, on obtient 6 cartes de trait (“feature maps”) I(c, s).
Normalisation Les cartes de trait seront somm´ees en vue de la cr´eation de
la carte de saillance. Alors que la dynamique de ces cartes peut ˆetre diff´erente
car elles proviennent de diff´erentes caract´eristiques, il est n´ecessaire d’avoir une
normalisation. De plus, cette normalisation renforce les cartes de trait qui ont un
petit nombre de pics et diminue celles qui ont beaucoup de pics ´equivalents. Ainsi,
la normalisation de chaque carte de trait est effectu´ee de la mani`ere suivante :
– Normaliser chaque pixel entre [0, M]. Ainsi, la valeur maximale globale de
chaque carte est M.
– Calculer la valeur moyenne des maxima locaux m.
– Multiplier la carte par (M−m)2.
Fusion Pour chaque caract´eristique (intensit´e, orientation ou couleur) toutes
les cartes de trait sont fusionn´ees pour cr´eer une carte de caract´eristique (
“conspi-cuity map”). Cette carte est aussi normalis´ee par la normalisation d´ecrite ci-dessus.
Enfin, la carte de saillance finale est construite en fusionnant les trois cartes de
ca-ract´eristique.
En r´esum´e, le mod`ele d’Itti n’est pas complexe et il est efficace au niveau du
temps de calcul et de la qualit´e de la carte de saillance. De plus, la carte de saillance
peut ˆetre combin´ee avec les m´ecanismes de WTA (“Winner-Take-All”) et d’IOR
(“Inhibition Of Return”) pour choisir les fixations au cours du temps. La premi`ere
fixation est choisie comme le maximum de la carte de saillance. Cette position est
ensuite masqu´ee avant de chercher le maximum suivant pour la deuxi`eme fixation.
Grˆace `a ses avantages, le mod`ele d’Itti est souvent repris dans d’autres ´etudes
concer-nant l’attention visuelle ou la reconnaissance d’objet [Miau and Itti, 2001; Walther
et al., 2002; Dhavale and Itti, 2003; Peters and Itti, 2008].
Bien que le mod`ele d’Itti soit con¸cu en imitant le fonctionnement du syst`eme
vi-suel (cf. chapitre 2), l’aspect biologique mod´elis´e reste limit´e. La normalisation
uti-lis´ee dans le mod`ele est loin d’ˆetre justifi´ee par des propri´et´es biologiques. Dans [Itti
and Koch, 2001], ils ont am´elior´e l’´etape de normalisation en utilisant le filtre DoG
(“Difference Of Gaussians”) plus biologiquement plausible. Ce filtrage est effectu´e
avec un certain nombre d’it´erations pour une carte afin de renforcer la saillance
des positions diff´erentes des positions voisines. Le principe de ce filtrage peut ˆetre
expliqu´e par les champs r´ecepteurs “center-surround” de certaines cellules dans le
syst`eme visuel (cf. chapitre 2).
3.1.3 Le mod`ele de Le Meur
Dans le contexte de mod`ele ascendant, Le Meur [Le Meur et al., 2006] a propos´e
un autre mod`ele de saillance qui est ´egalement inspir´e de l’architecture du mod`ele
de Koch et Ullman (Fig. 1.7).
Dans le mod`ele de Le Meur, les caract´eristiques de bas niveau sont repr´esent´ees
dans un espace psycho-visuel. Ainsi, une image en couleur est d´ecompos´ee en trois
composantes : une composante achromatique A et deux composantes chromatiques
Cr1, Cr2. Ces deux composantes chromatiques repr´esentent ´egalement l’opposition
de couleurs comme dans le syst`eme visuel humain. Chacune des trois composantes
est normalis´ee en appliquant la fonction CSF (“Contrast Sensitivity Function”)
cor-respondante, qui repr´esente la sensibilit´e au contraste en fonction de la fr´equence
spatiale et de l’orientation. Ainsi, chaque composante,A,Cr1 ouCr2, est pond´er´ee
par une CSF sp´ecifique.
Ensuite, les composantes sont d´ecompos´ees en diff´erentes fr´equences spatiales et
orientations (Fig. 1.7). Concr`etement, il y a 17 canaux distribu´es dans 4 bandes
de fr´equences pour la composante achromatique et 5 canaux dans 2 bandes de
fr´equences pour chacune des composantes chromatiques. Puis, ces diff´erents canaux
Fig. 1.7 – Le mod`ele d’attention visuelle propos´e par Le Meur [Le Meur et al., 2006]
vont passer dans une ´etape de masquage qui mod´elise le fait que la r´eponse d’une
cellule corticale d´epend des r´eponses d’autres cellules. Il y a principalement deux
types de masquage : intra et inter-composante.
Apr`es avoir ´et´e repr´esent´ees dans un espace psycho-visuel, les composantes sont
soumises `a des traitements au niveau perceptif. On note que ces traitements sont
appliqu´es principalement pour chacun des canaux de la composante achromatique.
D’abord, la composante achromatique est renforc´ee par les composantes
chroma-tiques aux positions dont le contraste de chrominance est fort. Ensuite, l’effet
“center-surround” effectu´e par le filtre DoG est utilis´e pour r´eduire la redondance
d’infor-mation. Enfin des interactions permettant de renforcer des objets correspondant `a
une mˆeme orientation et align´es sont r´ealis´ees.
La carte de saillance est cr´e´ee par la somme des canaux de la composante
achro-matique. De plus, cette carte de saillance est multipli´ee par un masque gaussien
pour mod´eliser le fait que l’acuit´e visuelle est la plus forte au centre (o`u les yeux
fixent) et diminue avec l’excentricit´e par rapport au centre.
L’avantage du mod`ele de Le Meur est de repr´esenter en d´etails les composantes
de bas niveau dans un espace psycho-visuel en utilisant des r´esultats d’exp´eriences
psychophysiques. N´eanmoins, alors que ce mod`ele a abord´e les traitements dans
le cortex visuel, le traitement effectu´e par la r´etine n’est pas exploit´e. De plus, les
masquages intra-composante et inter-composante semblent complexes et coˆuteux car
il y a beaucoup de param`etres libres difficiles `a justifier, et enfin la correction de la
carte de saillance par l’acuit´e est r´ealis´ee a posteriori.
Dans le document
Développement et mise en oeuvre de modèles d'attention visuelle
(Page 29-34)