• Aucun résultat trouvé

Exemples de mod`eles ascendants

Ce type de mod`ele d’attention visuelle s’appuie sur l’hypoth`ese que l’attention

est attir´ee par les caract´eristiques de bas niveau des stimuli [Reinagel and Zador,

1999; Parkhurst et al., 2002; Parkhurst and Niebur, 2004; Tatler et al., 2005;

Badde-ley and Tatler, 2006]. Avec cette hypoth`ese, le mod`ele ascendant permet de pr´edire

les fixations dans des conditions tr`es contrˆol´ees. Ce sont les premi`eres fixations

ef-fectu´ees pendant une dur´ee tr`es courte (1-2 s) apr`es l’apparition des stimuli et pour

une exploration libre de sc`enes visuelles (aucune tˆache n’est demand´ee au sujet).

Ces conditions ont pour objectif de limiter le plus possible l’influence des facteurs

de haut niveau.

Nous commen¸cons par le mod`ele de Koch et Ullman [Koch and Ullman, 1985]

qui est consid´er´e comme le premier mod`ele d’attention visuelle. Pour ce mod`ele

conceptuel, nous nous concentrons sur son architecture qui a influenc´e beaucoup

d’autres mod`eles. Pour les mod`eles h´eritant de ce mod`ele, nous pr´esentons plus en

d´etails leurs impl´ementations.

3.1.1 Le mod`ele de Koch et Ullman

Ce mod`ele, propos´e par Koch et Ullman [Koch and Ullman, 1985], est inspir´e

par les ´etudes de Treisman et Gelade en 1980 sur la th´eorie de l’int´egration des

caract´eristiques pour l’attention visuelle [Treisman and Gelade, 1980]. Selon cette

th´eorie, l’attention visuelle est guid´ee par la combinaison des caract´eristiques de bas

niveau comme l’intensit´e de luminosit´e, la couleur et l’orientation. Ainsi, dans ce

premier mod`ele de Koch and Ullman (Fig. 1.5), une image d’entr´ee est d´ecompos´ee

3La saillance et la pertinence sont appel´ees respectivement la saillance physique et la saillance

cognitive selon Landragin [Landragin, 2004].

en plusieurs cartes, une carte par caract´eristique de bas niveau. Ensuite, dans ces

cartes, les positions saillantes ´emergent en supposant que la saillance d’une

posi-tion d´epend de sa diff´erence par rapport aux posiposi-tions voisines. Finalement, les

cartes de caract´eristique sont somm´ees pour cr´eer la carte unique qui s’appelle

la carte de saillance (“saliency map”). Cette carte de saillance, combin´ee avec le

m´ecanisme WTA (“Winner-Take-All”), permet de pr´edire les positions que les

su-jets fixent. Le maximum de la carte correspondra `a la pr´ediction de la premi`ere

fixation, puis le maximum suivant correspondra `a la pr´ediction de la deuxi`eme

fixa-tion, etc. D´esormais, la notion de carte de saillance est largement utilis´ee dans des

´etudes concernant le mod`ele d’attention visuelle.

Fig. 1.5 – Le mod`ele d’attention visuelle de Koch et Ullman [Koch and Ullman,

1985]. La carte de saillance (“saliency map”) est cr´e´ee par la fusion des cartes de

caract´eristique (“feature maps”) de bas niveau.

Le mod`ele de Koch et Ullman joue un rˆole important en pr´esentant le mod`ele de

base sur lequel s’appuient de nombreux mod`eles d’attention visuelle. Les mod`eles

d´evelopp´es `a partir du mod`ele de Koch et Ullman apportent des am´eliorations au

niveau de l’impl´ementation mais conservent l’architecture g´en´erale de celui-ci.

3.1.2 Le mod`ele d’Itti

Itti et collaborateurs [Itti et al., 1998] ont d´evelopp´e le mod`ele ascendant

d’at-tention visuelle le plus r´epandu aujourd’hui (Fig. 1.6).

Comme le mod`ele original de Koch et Ullman, le mod`ele d’Itti d´ecompose un

stimulus visuel en caract´eristiques visuelles de bas niveau comme l’orientation,

l’in-tensit´e et la couleur. L’inl’in-tensit´e correspond `a la valeur moyenne des trois canauxr,

g, b repr´esent´es dans l’espace RGB :

I = r+g+b

3

Fig. 1.6 – Le mod`ele d’attention visuelle propos´e par Itti [Itti et al., 1998]

L’intensit´e I est ensuite d´ecompos´ee par une pyramide passe-bas multir´esolution `a

8 niveaux (niveau 0 repr´esente la carte d’intensit´e initiale). Ainsi, on obtient une

pyramide I(σ) o`u σ repr´esente la r´esolution,σ ∈[0..8].

Les quatre couleurs R (rouge), G (vert), B (bleu) et Y (jaune) sont extraites

selon les ´equations suivantes :

R = r− g+2 b

G = g−r+2 b

B = b− r+2 g

Y = r+2g − |r2 g| −b

Comme l’intensit´e, chaque couleur est d´ecompos´ee par une pyramide passe-bas.

Ainsi, il y a 4 pyramides R(σ),G(σ), B(σ),Y(σ) pour les 4 couleurs.

Pour la caract´eristique “orientation”, elle est extraite de l’intensit´e I par des

pyramides de Gabor O(σ, θ) o`uσ ∈[0..8] repr´esente la r´esolution de la pyramide et

θ ∈ {0◦,45◦,90◦,135◦} l’orientation.

Ensuite, le contraste est extrait en effectuant la diff´erence entre les valeurs

`a diff´erents niveaux d’une pyramide. Pour l’intensit´e, les valeurs des niveaux de

r´esolution plus fine c sont soustraites aux valeurs des niveaux de r´esolution plus

grossi`ere s :

avec c={2,3,4}, s=c+δ et δ ={3,4}. L’op´erateur ⊖ repr´esente la soustraction

des valeurs `a deux niveaux diff´erents d’une pyramide ; cette soustraction n´ecessite

une interpolation de la carte I(s) pour qu’elle puisse avoir la mˆeme taille que I(c).

Ainsi, pour l’intensit´e, on obtient 6 cartes de trait (“feature maps”) I(c, s).

Normalisation Les cartes de trait seront somm´ees en vue de la cr´eation de

la carte de saillance. Alors que la dynamique de ces cartes peut ˆetre diff´erente

car elles proviennent de diff´erentes caract´eristiques, il est n´ecessaire d’avoir une

normalisation. De plus, cette normalisation renforce les cartes de trait qui ont un

petit nombre de pics et diminue celles qui ont beaucoup de pics ´equivalents. Ainsi,

la normalisation de chaque carte de trait est effectu´ee de la mani`ere suivante :

– Normaliser chaque pixel entre [0, M]. Ainsi, la valeur maximale globale de

chaque carte est M.

– Calculer la valeur moyenne des maxima locaux m.

– Multiplier la carte par (M−m)2.

Fusion Pour chaque caract´eristique (intensit´e, orientation ou couleur) toutes

les cartes de trait sont fusionn´ees pour cr´eer une carte de caract´eristique (

“conspi-cuity map”). Cette carte est aussi normalis´ee par la normalisation d´ecrite ci-dessus.

Enfin, la carte de saillance finale est construite en fusionnant les trois cartes de

ca-ract´eristique.

En r´esum´e, le mod`ele d’Itti n’est pas complexe et il est efficace au niveau du

temps de calcul et de la qualit´e de la carte de saillance. De plus, la carte de saillance

peut ˆetre combin´ee avec les m´ecanismes de WTA (“Winner-Take-All”) et d’IOR

(“Inhibition Of Return”) pour choisir les fixations au cours du temps. La premi`ere

fixation est choisie comme le maximum de la carte de saillance. Cette position est

ensuite masqu´ee avant de chercher le maximum suivant pour la deuxi`eme fixation.

Grˆace `a ses avantages, le mod`ele d’Itti est souvent repris dans d’autres ´etudes

concer-nant l’attention visuelle ou la reconnaissance d’objet [Miau and Itti, 2001; Walther

et al., 2002; Dhavale and Itti, 2003; Peters and Itti, 2008].

Bien que le mod`ele d’Itti soit con¸cu en imitant le fonctionnement du syst`eme

vi-suel (cf. chapitre 2), l’aspect biologique mod´elis´e reste limit´e. La normalisation

uti-lis´ee dans le mod`ele est loin d’ˆetre justifi´ee par des propri´et´es biologiques. Dans [Itti

and Koch, 2001], ils ont am´elior´e l’´etape de normalisation en utilisant le filtre DoG

(“Difference Of Gaussians”) plus biologiquement plausible. Ce filtrage est effectu´e

avec un certain nombre d’it´erations pour une carte afin de renforcer la saillance

des positions diff´erentes des positions voisines. Le principe de ce filtrage peut ˆetre

expliqu´e par les champs r´ecepteurs “center-surround” de certaines cellules dans le

syst`eme visuel (cf. chapitre 2).

3.1.3 Le mod`ele de Le Meur

Dans le contexte de mod`ele ascendant, Le Meur [Le Meur et al., 2006] a propos´e

un autre mod`ele de saillance qui est ´egalement inspir´e de l’architecture du mod`ele

de Koch et Ullman (Fig. 1.7).

Dans le mod`ele de Le Meur, les caract´eristiques de bas niveau sont repr´esent´ees

dans un espace psycho-visuel. Ainsi, une image en couleur est d´ecompos´ee en trois

composantes : une composante achromatique A et deux composantes chromatiques

Cr1, Cr2. Ces deux composantes chromatiques repr´esentent ´egalement l’opposition

de couleurs comme dans le syst`eme visuel humain. Chacune des trois composantes

est normalis´ee en appliquant la fonction CSF (“Contrast Sensitivity Function”)

cor-respondante, qui repr´esente la sensibilit´e au contraste en fonction de la fr´equence

spatiale et de l’orientation. Ainsi, chaque composante,A,Cr1 ouCr2, est pond´er´ee

par une CSF sp´ecifique.

Ensuite, les composantes sont d´ecompos´ees en diff´erentes fr´equences spatiales et

orientations (Fig. 1.7). Concr`etement, il y a 17 canaux distribu´es dans 4 bandes

de fr´equences pour la composante achromatique et 5 canaux dans 2 bandes de

fr´equences pour chacune des composantes chromatiques. Puis, ces diff´erents canaux

Fig. 1.7 – Le mod`ele d’attention visuelle propos´e par Le Meur [Le Meur et al., 2006]

vont passer dans une ´etape de masquage qui mod´elise le fait que la r´eponse d’une

cellule corticale d´epend des r´eponses d’autres cellules. Il y a principalement deux

types de masquage : intra et inter-composante.

Apr`es avoir ´et´e repr´esent´ees dans un espace psycho-visuel, les composantes sont

soumises `a des traitements au niveau perceptif. On note que ces traitements sont

appliqu´es principalement pour chacun des canaux de la composante achromatique.

D’abord, la composante achromatique est renforc´ee par les composantes

chroma-tiques aux positions dont le contraste de chrominance est fort. Ensuite, l’effet

“center-surround” effectu´e par le filtre DoG est utilis´e pour r´eduire la redondance

d’infor-mation. Enfin des interactions permettant de renforcer des objets correspondant `a

une mˆeme orientation et align´es sont r´ealis´ees.

La carte de saillance est cr´e´ee par la somme des canaux de la composante

achro-matique. De plus, cette carte de saillance est multipli´ee par un masque gaussien

pour mod´eliser le fait que l’acuit´e visuelle est la plus forte au centre (o`u les yeux

fixent) et diminue avec l’excentricit´e par rapport au centre.

L’avantage du mod`ele de Le Meur est de repr´esenter en d´etails les composantes

de bas niveau dans un espace psycho-visuel en utilisant des r´esultats d’exp´eriences

psychophysiques. N´eanmoins, alors que ce mod`ele a abord´e les traitements dans

le cortex visuel, le traitement effectu´e par la r´etine n’est pas exploit´e. De plus, les

masquages intra-composante et inter-composante semblent complexes et coˆuteux car

il y a beaucoup de param`etres libres difficiles `a justifier, et enfin la correction de la

carte de saillance par l’acuit´e est r´ealis´ee a posteriori.