Exemples de mod`eles ascendants

Ce type de mod`ele d’attention visuelle s’appuie sur l’hypoth`ese que l’attention

est attir´ee par les caract´eristiques de bas niveau des stimuli [Reinagel and Zador,

1999; Parkhurst et al., 2002; Parkhurst and Niebur, 2004; Tatler et al., 2005;

Badde-ley and Tatler, 2006]. Avec cette hypothèse, le modèle ascendant permet de prédire

les fixations dans des conditions très contrôlées. Ce sont les premières fixations

ef-fectuées pendant une durée très courte (1-2 s) après l’apparition des stimuli et pour

une exploration libre de scènes visuelles (aucune tâche n’est demandée au sujet).

Ces conditions ont pour objectif de limiter le plus possible l’influence des facteurs

de haut niveau.

Nous commen¸cons par le mod`ele de Koch et Ullman [Koch and Ullman, 1985]

qui est considéré comme le premier modèle d’attention visuelle. Pour ce modèle

conceptuel, nous nous concentrons sur son architecture qui a influenc´e beaucoup

d’autres modèles. Pour les modèles héritant de ce modèle, nous présentons plus en

d´etails leurs impl´ementations.

3.1.1 Le mod`ele de Koch et Ullman

Ce modèle, proposé par Koch et Ullman [Koch and Ullman, 1985], est inspiré

par les études de Treisman et Gelade en 1980 sur la théorie de l’intégration des

caract´eristiques pour l’attention visuelle [Treisman and Gelade, 1980]. Selon cette

théorie, l’attention visuelle est guidée par la combinaison des caractéristiques de bas

niveau comme l’intensit´e de luminosit´e, la couleur et l’orientation. Ainsi, dans ce

premier modèle de Koch and Ullman (Fig. 1.5), une image d’entrée est décomposée

3La saillance et la pertinence sont appel´ees respectivement la saillance physique et la saillance

cognitive selon Landragin [Landragin, 2004].

en plusieurs cartes, une carte par caract´eristique de bas niveau. Ensuite, dans ces

cartes, les positions saillantes ´emergent en supposant que la saillance d’une

posi-tion d´epend de sa diff´erence par rapport aux posiposi-tions voisines. Finalement, les

cartes de caractéristique sont sommées pour créer la carte unique qui s’appelle

la carte de saillance (“saliency map”). Cette carte de saillance, combin´ee avec le

m´ecanisme WTA (“Winner-Take-All”), permet de pr´edire les positions que les

su-jets fixent. Le maximum de la carte correspondra à la prédiction de la première

fixation, puis le maximum suivant correspondra à la prédiction de la deuxième

fixa-tion, etc. D´esormais, la notion de carte de saillance est largement utilis´ee dans des

´etudes concernant le mod`ele d’attention visuelle.

Fig. 1.5 – Le mod`ele d’attention visuelle de Koch et Ullman [Koch and Ullman,

1985]. La carte de saillance (“saliency map”) est cr´e´ee par la fusion des cartes de

caract´eristique (“feature maps”) de bas niveau.

Le modèle de Koch et Ullman joue un rôle important en présentant le modèle de

base sur lequel s’appuient de nombreux mod`eles d’attention visuelle. Les mod`eles

développés à partir du modèle de Koch et Ullman apportent des améliorations au

niveau de l’implémentation mais conservent l’architecture générale de celui-ci.

3.1.2 Le mod`ele d’Itti

Itti et collaborateurs [Itti et al., 1998] ont développé le modèle ascendant

d’at-tention visuelle le plus r´epandu aujourd’hui (Fig. 1.6).

Comme le modèle original de Koch et Ullman, le modèle d’Itti décompose un

stimulus visuel en caract´eristiques visuelles de bas niveau comme l’orientation,

l’in-tensité et la couleur. L’inl’in-tensité correspond à la valeur moyenne des trois canauxr,

g, b repr´esent´es dans l’espace RGB :

I = ^r⁺^g⁺^b

3 Fig. 1.6 – Le mod`ele d’attention visuelle propos´e par Itti [Itti et al., 1998]

L’intensité I est ensuite décomposée par une pyramide passe-bas multirésolution à

8 niveaux (niveau 0 repr´esente la carte d’intensit´e initiale). Ainsi, on obtient une

pyramide I(σ) où σ représente la résolution,σ ∈[0..8].

Les quatre couleurs R (rouge), G (vert), B (bleu) et Y (jaune) sont extraites

selon les ´equations suivantes :

R = r− ^g⁺₂ ^b

G = g−^r⁺₂ ^b

B = b− ^r⁺₂ ^g

Y = ^r⁺₂^g − |^r⁻₂ ^g^| −b

Comme l’intensité, chaque couleur est décomposée par une pyramide passe-bas.

Ainsi, il y a 4 pyramides R(σ),G(σ), B(σ),Y(σ) pour les 4 couleurs.

Pour la caract´eristique “orientation”, elle est extraite de l’intensit´e I par des

pyramides de Gabor O(σ, θ) oùσ ∈[0..8] représente la résolution de la pyramide et

θ ∈ {0◦,45◦,90◦,135◦} l’orientation.

Ensuite, le contraste est extrait en effectuant la diff´erence entre les valeurs

à différents niveaux d’une pyramide. Pour l’intensité, les valeurs des niveaux de

r´esolution plus fine c sont soustraites aux valeurs des niveaux de r´esolution plus

grossi`ere s :

avec c={2,3,4}, s=c+δ et δ ={3,4}. L’op´erateur ⊖ repr´esente la soustraction

des valeurs à deux niveaux différents d’une pyramide ; cette soustraction nécessite

une interpolation de la carte I(s) pour qu’elle puisse avoir la mˆeme taille que I(c).

Ainsi, pour l’intensit´e, on obtient 6 cartes de trait (“feature maps”) I(c, s).

Normalisation Les cartes de trait seront somm´ees en vue de la cr´eation de

la carte de saillance. Alors que la dynamique de ces cartes peut ˆetre diff´erente

car elles proviennent de différentes caractéristiques, il est nécessaire d’avoir une

normalisation. De plus, cette normalisation renforce les cartes de trait qui ont un

petit nombre de pics et diminue celles qui ont beaucoup de pics ´equivalents. Ainsi,

la normalisation de chaque carte de trait est effectu´ee de la mani`ere suivante :

– Normaliser chaque pixel entre [0, M]. Ainsi, la valeur maximale globale de

chaque carte est M.

– Calculer la valeur moyenne des maxima locaux m.

– Multiplier la carte par (M−m)2.

Fusion Pour chaque caract´eristique (intensit´e, orientation ou couleur) toutes

les cartes de trait sont fusionnées pour créer une carte de caractéristique (

“conspi-cuity map”). Cette carte est aussi normalis´ee par la normalisation d´ecrite ci-dessus.

Enfin, la carte de saillance finale est construite en fusionnant les trois cartes de

ca-ract´eristique.

En résumé, le modèle d’Itti n’est pas complexe et il est efficace au niveau du

temps de calcul et de la qualit´e de la carte de saillance. De plus, la carte de saillance

peut être combinée avec les mécanismes de WTA (“Winner-Take-All”) et d’IOR

(“Inhibition Of Return”) pour choisir les fixations au cours du temps. La premi`ere

fixation est choisie comme le maximum de la carte de saillance. Cette position est

ensuite masqu´ee avant de chercher le maximum suivant pour la deuxi`eme fixation.

Grâce à ses avantages, le modèle d’Itti est souvent repris dans d’autres études

concer-nant l’attention visuelle ou la reconnaissance d’objet [Miau and Itti, 2001; Walther

et al., 2002; Dhavale and Itti, 2003; Peters and Itti, 2008].

Bien que le mod`ele d’Itti soit con¸cu en imitant le fonctionnement du syst`eme

vi-suel (cf. chapitre 2), l’aspect biologique modélisé reste limité. La normalisation

uti-lisée dans le modèle est loin d’être justifiée par des propriétés biologiques. Dans [Itti

and Koch, 2001], ils ont amélioré l’étape de normalisation en utilisant le filtre DoG

(“Difference Of Gaussians”) plus biologiquement plausible. Ce filtrage est effectu´e

avec un certain nombre d’it´erations pour une carte afin de renforcer la saillance

des positions diff´erentes des positions voisines. Le principe de ce filtrage peut ˆetre

expliqu´e par les champs r´ecepteurs “center-surround” de certaines cellules dans le

syst`eme visuel (cf. chapitre 2).

3.1.3 Le mod`ele de Le Meur

Dans le contexte de mod`ele ascendant, Le Meur [Le Meur et al., 2006] a propos´e

un autre modèle de saillance qui est également inspiré de l’architecture du modèle

de Koch et Ullman (Fig. 1.7).

Dans le modèle de Le Meur, les caractéristiques de bas niveau sont représentées

dans un espace psycho-visuel. Ainsi, une image en couleur est d´ecompos´ee en trois

composantes : une composante achromatique A et deux composantes chromatiques

Cr1, Cr2. Ces deux composantes chromatiques repr´esentent ´egalement l’opposition

de couleurs comme dans le syst`eme visuel humain. Chacune des trois composantes

est normalis´ee en appliquant la fonction CSF (“Contrast Sensitivity Function”)

cor-respondante, qui représente la sensibilité au contraste en fonction de la fréquence

spatiale et de l’orientation. Ainsi, chaque composante,A,Cr1 ouCr2, est pond´er´ee

par une CSF sp´ecifique.

Ensuite, les composantes sont décomposées en différentes fréquences spatiales et

orientations (Fig. 1.7). Concr`etement, il y a 17 canaux distribu´es dans 4 bandes

de fr´equences pour la composante achromatique et 5 canaux dans 2 bandes de

fr´equences pour chacune des composantes chromatiques. Puis, ces diff´erents canaux

Fig. 1.7 – Le mod`ele d’attention visuelle propos´e par Le Meur [Le Meur et al., 2006]

vont passer dans une étape de masquage qui modélise le fait que la réponse d’une

cellule corticale d´epend des r´eponses d’autres cellules. Il y a principalement deux

types de masquage : intra et inter-composante.

Après avoir été représentées dans un espace psycho-visuel, les composantes sont

soumises `a des traitements au niveau perceptif. On note que ces traitements sont

appliqu´es principalement pour chacun des canaux de la composante achromatique.

D’abord, la composante achromatique est renforc´ee par les composantes

chroma-tiques aux positions dont le contraste de chrominance est fort. Ensuite, l’effet

“center-surround” effectué par le filtre DoG est utilisé pour réduire la redondance

d’infor-mation. Enfin des interactions permettant de renforcer des objets correspondant `a

une même orientation et alignés sont réalisées.

La carte de saillance est cr´e´ee par la somme des canaux de la composante

achro-matique. De plus, cette carte de saillance est multipli´ee par un masque gaussien

pour modéliser le fait que l’acuité visuelle est la plus forte au centre (où les yeux

fixent) et diminue avec l’excentricit´e par rapport au centre.

L’avantage du modèle de Le Meur est de représenter en détails les composantes

de bas niveau dans un espace psycho-visuel en utilisant des r´esultats d’exp´eriences

psychophysiques. Néanmoins, alors que ce modèle a abordé les traitements dans

le cortex visuel, le traitement effectué par la rétine n’est pas exploité. De plus, les

masquages intra-composante et inter-composante semblent complexes et coˆuteux car

il y a beaucoup de param`etres libres difficiles `a justifier, et enfin la correction de la

carte de saillance par l’acuité est réalisée a posteriori.

Dans le document Développement et mise en oeuvre de modèles d'attention visuelle (Page 29-34)

Ce type de mod`ele d’attention visuelle s’appuie sur l’hypoth`ese que l’attention

est attir´ee par les caract´eristiques de bas niveau des stimuli [Reinagel and Zador,

1999; Parkhurst et al., 2002; Parkhurst and Niebur, 2004; Tatler et al., 2005;

Badde-ley and Tatler, 2006]. Avec cette hypothèse, le modèle ascendant permet de prédire

les fixations dans des conditions très contrôlées. Ce sont les premières fixations

ef-fectuées pendant une durée très courte (1-2 s) après l’apparition des stimuli et pour

une exploration libre de scènes visuelles (aucune tâche n’est demandée au sujet).

Ces conditions ont pour objectif de limiter le plus possible l’influence des facteurs

de haut niveau.

Nous commen¸cons par le mod`ele de Koch et Ullman [Koch and Ullman, 1985]

qui est considéré comme le premier modèle d’attention visuelle. Pour ce modèle

conceptuel, nous nous concentrons sur son architecture qui a influenc´e beaucoup

d’autres modèles. Pour les modèles héritant de ce modèle, nous présentons plus en

d´etails leurs impl´ementations.

3.1.1 Le mod`ele de Koch et Ullman

Ce modèle, proposé par Koch et Ullman [Koch and Ullman, 1985], est inspiré

par les études de Treisman et Gelade en 1980 sur la théorie de l’intégration des

caract´eristiques pour l’attention visuelle [Treisman and Gelade, 1980]. Selon cette

théorie, l’attention visuelle est guidée par la combinaison des caractéristiques de bas

niveau comme l’intensit´e de luminosit´e, la couleur et l’orientation. Ainsi, dans ce

premier modèle de Koch and Ullman (Fig. 1.5), une image d’entrée est décomposée

3La saillance et la pertinence sont appel´ees respectivement la saillance physique et la saillance

cognitive selon Landragin [Landragin, 2004].

en plusieurs cartes, une carte par caract´eristique de bas niveau. Ensuite, dans ces

cartes, les positions saillantes ´emergent en supposant que la saillance d’une

posi-tion d´epend de sa diff´erence par rapport aux posiposi-tions voisines. Finalement, les

cartes de caractéristique sont sommées pour créer la carte unique qui s’appelle

la carte de saillance (“saliency map”). Cette carte de saillance, combin´ee avec le

m´ecanisme WTA (“Winner-Take-All”), permet de pr´edire les positions que les

su-jets fixent. Le maximum de la carte correspondra à la prédiction de la première

fixation, puis le maximum suivant correspondra à la prédiction de la deuxième

fixa-tion, etc. D´esormais, la notion de carte de saillance est largement utilis´ee dans des

´etudes concernant le mod`ele d’attention visuelle.

Fig. 1.5 – Le mod`ele d’attention visuelle de Koch et Ullman [Koch and Ullman,

1985]. La carte de saillance (“saliency map”) est cr´e´ee par la fusion des cartes de

caract´eristique (“feature maps”) de bas niveau.

Le modèle de Koch et Ullman joue un rôle important en présentant le modèle de

base sur lequel s’appuient de nombreux mod`eles d’attention visuelle. Les mod`eles

développés à partir du modèle de Koch et Ullman apportent des améliorations au

niveau de l’implémentation mais conservent l’architecture générale de celui-ci.

3.1.2 Le mod`ele d’Itti

Itti et collaborateurs [Itti et al., 1998] ont développé le modèle ascendant

d’at-tention visuelle le plus r´epandu aujourd’hui (Fig. 1.6).

Comme le modèle original de Koch et Ullman, le modèle d’Itti décompose un

stimulus visuel en caract´eristiques visuelles de bas niveau comme l’orientation,

l’in-tensité et la couleur. L’inl’in-tensité correspond à la valeur moyenne des trois canauxr,

g, b repr´esent´es dans l’espace RGB :

I = r+g+b

3

Fig. 1.6 – Le mod`ele d’attention visuelle propos´e par Itti [Itti et al., 1998]

L’intensité I est ensuite décomposée par une pyramide passe-bas multirésolution à

8 niveaux (niveau 0 repr´esente la carte d’intensit´e initiale). Ainsi, on obtient une

pyramide I(σ) où σ représente la résolution,σ ∈[0..8].

Les quatre couleurs R (rouge), G (vert), B (bleu) et Y (jaune) sont extraites

selon les ´equations suivantes :

R = r− g+2 b

G = g−r+2 b

B = b− r+2 g

Y = r+2g − |r−2 g| −b

Comme l’intensité, chaque couleur est décomposée par une pyramide passe-bas.

Ainsi, il y a 4 pyramides R(σ),G(σ), B(σ),Y(σ) pour les 4 couleurs.

Pour la caract´eristique “orientation”, elle est extraite de l’intensit´e I par des

pyramides de Gabor O(σ, θ) oùσ ∈[0..8] représente la résolution de la pyramide et

θ ∈ {0◦,45◦,90◦,135◦} l’orientation.

Ensuite, le contraste est extrait en effectuant la diff´erence entre les valeurs

à différents niveaux d’une pyramide. Pour l’intensité, les valeurs des niveaux de

r´esolution plus fine c sont soustraites aux valeurs des niveaux de r´esolution plus

grossi`ere s :

avec c={2,3,4}, s=c+δ et δ ={3,4}. L’op´erateur ⊖ repr´esente la soustraction

des valeurs à deux niveaux différents d’une pyramide ; cette soustraction nécessite

une interpolation de la carte I(s) pour qu’elle puisse avoir la mˆeme taille que I(c).

Ainsi, pour l’intensit´e, on obtient 6 cartes de trait (“feature maps”) I(c, s).

Normalisation Les cartes de trait seront somm´ees en vue de la cr´eation de

la carte de saillance. Alors que la dynamique de ces cartes peut ˆetre diff´erente

car elles proviennent de différentes caractéristiques, il est nécessaire d’avoir une

normalisation. De plus, cette normalisation renforce les cartes de trait qui ont un

petit nombre de pics et diminue celles qui ont beaucoup de pics ´equivalents. Ainsi,

la normalisation de chaque carte de trait est effectu´ee de la mani`ere suivante :

– Normaliser chaque pixel entre [0, M]. Ainsi, la valeur maximale globale de

I = ^r⁺^g⁺^b

R = r− ^g⁺₂ ^b

G = g−^r⁺₂ ^b

B = b− ^r⁺₂ ^g

Y = ^r⁺₂^g − |^r⁻₂ ^g^| −b