Comparaison point d'intérêt/point visuellement saillant

2.3 Preuve de l'approche

2.3.3 Comparaison point d'intérêt/point visuellement saillant

2.3.3.1 Protocole expérimental . . . 86

2.3.3.2 Résultats . . . 88

2.4 Synthèse . . . . 93

52 Chapitre 2. Détecteurs de points d'intérêt Les tâches de haut-niveau de type indexation, classification ou reconstruction 3D utilisentprinci- palement deux outils l'un après l'autre : le détecteur puis le descripteur. Le détecteur de point d'intérêt a pour objectif de déterminer les points pertinents de l'image. Un point pertinent est un point dont le voisinage est suffisamment spécifique pour pouvoir être retrouvé dans une autre image. L'objectif du descripteur est de pouvoir reconnaître les points d'intérêt trouvés par le détecteur dans chacune des images. Pour cela, le voisinage du point d'intérêt détecté est utilisé pour décrire son environne- ment. Cette description doit permettre d'apparier les points d'une image à l'autre. Le détecteur et le descripteur ont donc des objectifs complémentaires bien que très différents. Nous avons choisi de bien marquer cette différence en les décrivant dans deux chapitres séparés. Nous nous intéressons dans celui-ci au détecteur.

Revenons à la notion de points pertinents. La pertinence du point vient évidement de son voisinage. Celui-ci peut mettre en évidence que le point est le sommet d'un coin, une jonction. Le voisinage peut aussi représenter une zone uniforme qui tranche avec son contour. L'élément clé des points détectés est bien de pouvoir être retrouvé dans une scène similaire ou sous un autre point de vue. Dans ce sens, attention à ne pas confondre avec les points saillants en référence à la saillance visuelle. En effet, les points saillants sont des points d'intérêt au sens perceptuel du terme, ils seront ceux qui vont être perçus rapidement et par la plupart des observateurs. Même si certains des points saillants correspondront à la définition de point pertinent, ce ne sera pas le cas de tous. Cette correspondance est, de plus, très dépendante de la tâche demandée à l'observateur. La concordance entre les points pertinents et les points saillants, devient importante lorsque le résultat de détection des points doit être jugé par un humain puisque dans ce cas, cet humain s'attendra à trouver une cohérence entre points pertinents et saillants.

Il existe différents type de points d'intérêt, nous trouvons les coins, les blob par exemples. Ici l'ap- pellation coin et blob est générique. Le mot coin fait donc référence aux formes de type coins, croix forme en T etc. Un blob correspond ici à une zone relativement uniforme présentant un contraste avec l'extérieur de la zone. Dans la suite du chapitre, ces mots garderont le sens plus large que nous venons de présenter pour faciliter la lecture.

L'un des premiers détecteurs de points d'intérêt est celui proposé parHarris and Stephens(1988). Ils cherchent à extraire des coins et se basent sur la matrice d'auto-corrélation des dérivées spatiales que nous avons vu dans le chapitre précédent. La figure2.1reprend les étapes élémentaires propo- sées par les auteurs pour la création d'un détecteur recherchant les coins. Les coins sont des zones de gradient à forte amplitude, la première étape cherche donc à les extraire. La seconde prend en compte les interactions spatiales grâce à la matrice d'auto-corrélation spatiale.Harris and Stephens (1988) justifient la troisième étape comme un filtrage nécessaire pour diminuer le bruit du à leur choix de filtre dérivateur. Ils mesurent ensuite une fonction indiquant la probabilité que le pixel me- suré représente un coin. Les maxima locaux de cette fonction sont les coins présents dans l'image.

Image Extraction du gradient Matrice d'auto- corrélation Débruitage par un filtre Gaussien Fonction réponse de la caractéristique Extraction des maxima locaux n Points d'intérêto Figure2.1 –Décomposition du détecteur de Harris en étapes élémentaires.

2.1. État de l'art 53 Nous proposerons dans ce chapitre d'adapter ce détecteur à une analyse couleur multi-échelles pour l'extraction de coins. Cela nous amènera à nous interroger sur la nécessité et le placement de ces étapes dans notre contexte générique multi-canaux respectant la physique de l'acquisition.

L'ensemble du chapitre s'organise comme suit : tout d'abord une section présentant l'état de l'art. Cet état de l'art justifie la proposition d'une nouvelle écriture plus générique et précise. Nous expli- quons celle-ci dans la section suivante. Enfin, nous présentons des résultats de ce détecteur dans trois contextes. Tout d'abord, nous étudions les détecteurs avec la base de données artificielles basées sur des nuages de points Gaussiens 3D présentée dans le chapitre précédent. Puis nous nous comparons à l'état de l'art avec la base Oxford (référence en terme de comparaison de détecteurs de points d'in- térêt). Enfin nous comparerons ce détecteur au résultat obtenu lors d'une expérience psychovisuelle utilisant un outil de suivi du regard sur des images d'œuvres médiévales.

2.1 État de l'art

Tuytelaars et al.(2008) proposent une vue d'ensemble des détecteurs de point d'intérêt. Ils les classent en quatre familles principales : les détecteurs de coins, ceux de blob, les détecteurs de ré- gions et les détecteurs efficients. Les premiers permettent d'extraire les coins. Les seconds détectent des zones approximativement constantes correspondant aux extrema d'une dérivée seconde. La troi- sième famille extrait des régions d'intérêt. Les auteurs proposent une quatrième famille basée sur l'objectif d'efficacité calculatoire du détecteur, et non sur sa méthode. Nous avons choisi de ne garder que les trois premières car la classification de la dernière est différente des trois premières et chaque élément de cette famille peut entrer dans une des familles précédentes.

Tuytelaars et al.(2008) mettent aussi l'accent sur certains abus de langage, notamment l'appellation point d'intérêt lorsque nous allons décrire ce point grâce à son voisinage. Il soulignent aussi l'appellation “invariance” qui est un abus de langage. En effet, le point d'intérêt détecté ne doit pas être invariant aux transformations mais produire le même résultat quelles que soient les transformations. Par exemple, nous souhaitons qu'un coin détecté dans une image soit de nouveau détecté dans cette même image tournée de 90◦_{. Le point lui aussi aura tourné de 90}◦_{. On parle de covariance}

si la transformation commute avec la fonction de détection. Compte-tenu des habitudes de langage et de la confusion que peut impliquer le terme covariance, nous continuerons par la suite à employer le terme “invariances”.

Ces invariances sont très recherchées pour rendre le détecteur (ou le descripteur) plus robuste. En effet, la notion d'invariances est aussi vieille que celle des attributs et des opérateurs de traitement des images. L'ambition de l'outil ultime serait d'être invariant à toute transformation/modification de l'objet à analyser. Mais ce faisant, l'outil d'analyse deviendrait incapable de discriminer des variantes de l'objet. Donc le choix des invariances à conserver est profondément lié à la nature du traitement.

Mikolajczyk et al.(2005) proposent un comparatif des détecteurs de points d'intérêt. Ils com- parent des méthodes de chacune des familles et s'intéressent à la détection multi-échelles. Nous utiliserons les deux critères qu'ils proposent lors de l'analyse de nos propositions.

Lindeberg est un auteur spécialisé dans l'analyse multi-échelles pour la détection de points d'in- térêt. DansLindeberg(1994), l'auteur argue que l'utilisation de filtres Gaussiens de différentes variances est la méthode la plus adaptée pour une étude générique de la taille d'une zone d'intérêt. L'argumentaire s'appuie sur les travaux de Young qui modélisa le cortex visuel des mammifères par des dérivées de Gaussiennes. Lindeberg présente aussi dans cet article d'autres méthodes pour l'analyse multi-échelles utilisant une décomposition en arbre quaternaire ou en ondelettes de l'image. Lindeberg(1998) propose une méthode d'analyse multi-échelles pour l'extraction de points d'inté- rêt. L'image est convoluée avec un filtre de type Laplacien de Gaussienne pour différentes valeurs de variances.

54 Chapitre 2. Détecteurs de points d'intérêt

En couleur

La détection de points d'intérêt, qu'il agisse de détection de coins ou de régions se base sur une rupture d'uniformité dans l'image. L'hypothèse faite par la plupart des auteurs est de considérer qu'une rupture suffisamment forte pour être un point d'intérêt sera nécessairement détectée en niveaux de gris. C'est pourquoi la plupart des détecteurs de points d'intérêt présents dans la littérature ne s'intéressent pas à la couleur. Or, revenons sur l'hypothèse initiale s'intéressant à la rupture d'uni- formité. Quelle définition pour rupture d'uniformité ? Prenons par exemple une photo de champ de coquelicots en fleur. La luminosité de l'image sera quasiment uniforme sur tout le champ. Aucun gradient franc n'apparaîtra donc en niveaux de gris. Or, excepté pour un daltonien, tout le monde perce- vra le gradient entre les fleurs rouges et les tiges/feuilles vertes qui sont adjacentes à la fleur ?McIl- hagga and Mullen(2018) montrent que les bords couleurs sont perçus par les humains. L'intégration de la couleur semble donc une étape importante de la détection de points d'intérêt, pour des images de complexité supérieure à la plupart des images multimédia.

Gouet et al.(2000) proposent une évaluation des détecteurs couleurs. Les détecteurs sont éva- lués sur la répétabilité de la détection des points d'intérêt et dans la localisation de ceux-ci. Certains auteurs (Montesinos et al.(1998);Ruzon et al.(2001);Forssén(2007)) ont fait des propositions de détecteurs couleur.

La figure2.2présente une organisation de l'état de l'art des détecteurs couleurs selon la nature du détecteur et le type d'approche couleur utilisé. Nous les retrouvons dans les trois catégories présen- tées précédemment : coin, blob et régions ainsi que les sous-catégories déjà existantes en niveaux de gris. La prise en compte de l'information couleur dans ce schéma se lit au niveau du type d'approche utilisé par les auteurs : principalement CMA ou CCMA. L'approche marginale (CMA pour colour

marginal approaches), employée par la plupart des auteurs, calcule chaque canal comme un niveaux

de gris avant de les combiner pour extraire l'information souhaitée. D'autres auteurs incorporent la corrélation entre les canaux à l'aide d'une approche inter-canaux (CCMA pour cross-channel margi-

nal approaches). Derrière cette écriture, nous retrouvons la volonté de prendre en considération l'as-

pect complexe, vectoriel de la couleur. À notre connaissance aucune approche vectorielle de la couleur n'a été proposée pour l'extraction de points d'intérêt.

2.1.1 Détecteurs de coins

La famille de détecteurs basés sur l'extraction de coins, points selles, points en T se répartit en deux sous-familles : la détection basée gradient et celle basée comparaison de pixels.

2.1.1.1 Détecteurs de coins basés gradients

Un des détecteurs les plus connus de la sous-famille basée gradient estHarris and Stephens (1988). Ce détecteur se base sur la matrice d'auto-corrélation des dérivées spatiales premières . Le premier à utiliser les matrices d'auto-corrélation pour la détection de points d'intérêt estMoravec (1980). Cette matrice d'auto-corrélation est définie par :

ACor =    ∂I(x,c)∂x1 2 2 D ∂I(x,c) ∂x1 , ∂I(x,c) ∂x2 E D ∂I(x,c) ∂x1 , ∂I(x,c) ∂x2 E ∂I(x,c)∂x2 2 2    . (2.1)

Nous pouvons faire le lien ici avec la matrice deDi Zenzo(1986) qui propose une mesure de gradient couleur à partir de cette formulation. La matrice de l'équation (2.1) s'applique en niveaux de gris dans

2.1. État de l'art 55 Dét ect eur de coins gradient motif de blob dérivée seconde décomposition fréquentielle de régions Montesinos et al. (1998); Lukac and Plataniotis (2006); Sebe et al. (2006); van de Sande et al.

(2008); Everts et al. (2014)...

Notre proposition Ruzon et al.(2001);

Rassem and Khoo (2015); Ishikura

et al. (2018)...

Unnikrishnan and Hebert (2006); van de Sande et al.

(2008); Khanina et al.(2012); Tahery

and Drew (2017)...

Corso and Ha- ger (2005)... Everts et al. (2014)... Würtz and Lou- rens (2000)... Forssén (2007)... Forssén (2007)... CM A vectoriel CM A CM A CCM A CM A CCM A CM A CCM A

Figure2.2 –État de l'art des détecteurs couleur organisé en fonction du type des attributs du dé- tecteur et de la nature du traitement couleur effectué : CMA combined marginal approaches, i.e. une analyse marginale ; CCMA cross-channel marginal approaches, l'approche prend en compte les inter- actions entre canaux.

56 Chapitre 2. Détecteurs de points d'intérêt la proposition deHarris and Stephens(1988). Cependant, ils s'appuient sur la même notion de déri- vée conduisant à la notion de rupture lorsque le gradient est de forte amplitude.

Harris and Stephens(1988) expliquent que selon le rapport de grandeur entre les deux valeurs propres, nous sommes en présence d'une zone uniforme, de bords ou de coins :

zone uniforme : λ+ ≈ λ− ≈ 0; (2.2)

bord : λ+ ≫ λ−;

coin : λ+ ≈ λ− ≫ 0.

En effet, un bord correspond à un gradient de forte amplitude dans la direction opposée au bord et un gradient de faible amplitude dans le sens du bord, donc à deux valeurs propres de grandeurs très différentes. Une zone uniforme est une zone sans variation donc avec un gradient faible dans toutes les directions : deux valeurs propres proches de zéro. Au contraire, un coin se définit par deux bords de directions différentes induisant deux valeurs propres très supérieures à zéro.

Ils définissent une fonction permettant d'évaluer leur relation et fixent un seuil au dessus duquel le pixel sera qualifié de point d'intérêt :

det(ACor)_{− k tr(ACor)}2 _(2.3)

avec det(ACor) = λ+λ−,

et tr(ACor) = λ++ λ−,

où k est un paramètre empirique non défini dansHarris and Stephens(1988).Montesinos et al.(1998) proposent d'utiliser la valeur k = 0.04 sans plus de commentaires.

De nombreuses adaptations à ce détecteur ont été publiées.Shi and Tomasi(1993) utilisent la matrice d'auto-corrélation mais ne conservent que la valeur propre minimale en justifiant que si celle ci est suffisamment grande, alors comme le prédisentHarris and Stephens(1988), nous sommes en présence d'un coin. Mais comment se définit simplement “suffisamment grande” et de façon géné- rique.Forlenza et al.(2012), plus récemment, emploient le détecteur de Harris pour une application embarquée en temps réel dans un drone.

Le détecteur deHarris and Stephens(1988) n'est invariant qu'à la rotation. C'est pourquoiMiko- lajczyk and Schmid(2001) proposent une adaptation multi-échelles de ce détecteur. Ils extraient les points d'intérêt détectés par la méthode de Harris à chaque échelle choisie. Ils sélectionnent ensuite les points à conserver et la taille à leur associer grâce à la méthode d'extraction multi-échelles basée sur les Laplaciens de Gaussiennes (présentée dans la sous-section suivante). Nous avons schématisé leur proposition dans la figure2.3. Deux approches antagonistes (blob et coins) sont combinées sur le même point d'intérêt de façon empirique. Est-ce pertinent ? Ce détecteur multi-échelles, pour autant efficace, est souvent utilisé et communément appelé Harris-Laplace. Afin d'améliorer encore l'effica- cité de ce détecteur Mikolajczyk and Schmid(2002) proposent une version invariante aux transformations affines.

En couleur

Parmi les premiers auteurs à proposer un détecteur de points d'intérêt couleur, nous retrouvons Montesinos et al.(1998). Ils utilisent la formulation deHarris and Stephens(1988) en exploitant l'ex- pression vectorielle de la couleur proposée parDi Zenzo(1986), avec les limitations qu'elle implique. Ils travaillent dans l'espace RGB. D'autres auteurs, ont employé cette méthode sur d'autres espaces couleur :Sebe et al.(2006) exploitent l'espace des couleurs opposées et celui des quotients de couleur présenté parGevers and Smeulders(1999) ;van de Weijer and Gevers(2004) utilisent l'espace des invariants couleur. Le chapitre 9 du livreLukac and Plataniotis(2006) est dédié à ce type d'approche. Everts et al.(2014) adaptent cette approche couleur du détecteur de coins deHarris and Stephens

2.1. État de l'art 57

Échelle Détection de coins Détection de blob Extraction de POI

k − 1 k k + 1 Harris and Stephens (1988) R = det(ACor)₋ 0.04 tr(ACor)2 Lindeberg (1994) b2 = LoGk(I(i, j)) Lindeberg (1994) b1 = LoGk−1(I(i, j)) Lindeberg (1994) b3 = LoGk+1(I(i, j)) Et _{POI}p ∈ b2 >seuil b1 < b2 b3 < b2 R(p) Max local

Figure2.3 –Schéma de fonctionnement du détecteur multi-échelles Harris-Laplace proposé par Mikolajczyk and Schmid(2001).

(1988) à la vidéo en ajoutant la couche temps. Le calcul couleur se fait dans l'espace des couleurs op- posées pour approcher l'espace des invariants couleur en utilisant les ratios canal opposé sur canal luminosité et obtenir plus facilement une invariance aux ombres.

2.1.1.2 Détecteurs de coins basés motif

Les détecteurs de coins basés “comparaison de pixels” cherchent à trouver un “motif” de type coin (et assimilés) sous la forme d'un arrangement de pixel voisins.

Smith and Brady(1997) introduisent les détecteurs de coins basés comparaison de pixels. Ils pro- posent SUSAN pour similar univalue segment assimilating nucleus. L'idée de ce détecteur est de compa- rer les pixels appartenant à un noyau (support spatial) à la valeur du pixel au centre du noyau. En fonction du nombre de pixels de valeur similaire au centre nous sommes face à une zone uniforme, un bord ou un coin. La figure2.4illustre le propos. Cette méthode permet de détecter les bords et les coins. La recherche de minimum permet d'extraire les coins.

(a) Différents position du noyau de test (b) Comparaison au centre

58 Chapitre 2. Détecteurs de points d'intérêt Pour améliorer le temps de calcul,Rosten and Drummond(2006) s'inspirent de SUSAN et pro- posent FAST (features from accelerated segment test). La comparaison se fait uniquement sur la bordure du noyau. Ce n'est pas sans rappeler les local binary pattern : comparaison du pixel central à une cou- ronne distante de d. Les coins seraient alors les motifs avec un seul changement de valeur binaire (à la rotation prés). Pour accélérer encore la détection, les auteurs mesurent les quatre points cardinaux de cette bordure. Si ceux-ci ne répondent pas aux critères pour être qualifiés de coins alors le point est automatiquement éliminé. Attention ce critère de rapidité peut exclure certains type de coins. Un coin de type croix peut échouer au test des points cardinaux tout en restant un coin qui devrait être détecté.Mair et al.(2010) visent à améliorer encore la vitesse de calcul. Ils proposent de réduire le diamètre du noyau, puis effectuent un apprentissage pour déterminer l'ordre de comparaison des pixel. Center surround extrema features (CENSURE), introduit parAgrawal et al.(2008), utilisent des formes spécifiques pour faire une analyse similaire à celles des précédents auteurs. Ils emploient le principe des images intégrales dans le but d'accélérer le temps de calcul.

Une fois les coins détectés,Rosin(1999) proposent d'analyser leurs contenus. Ils permettent d'étu- dier l'ouverture, l'arrondissement d'un coin.

En couleur

Ruzon et al.(2001) utilisent des histogrammes de valeur de pixels sur des zones d'intérêt pour extraire les bords. Ils effectuent ces mesures dans l'espace CIELAB. Ils proposent une méthode similaire pour extraire des coins, moyennant une normalisation des histogrammes représentant l'inté- rieur et l'extérieur du coin.Ishikura et al.(2018) emploient le détecteur CENSURE de façon marginale sur l'espace CIELAB.

Rassem and Khoo(2015) s'inspirent du détecteur niveaux de gris utilisant les histogrammes d'in- tensité locaux pour l'adapter à la couleur. Pour cela, ils quantifient les couleurs par canal et conca- tènent les histogrammes pour ensuite extraire les points d'intérêt comme effectué en niveaux de gris. Ils effectuent les calculs sur différents espaces couleur : RGB, HSV ou encore l'espace des couleurs opposées.

Ces approches simplifient l'analyse couleur par un traitement marginal ou encore par quantifi- cation de l'espace couleur. Cela induit que nous perdons de l'information et le respect de la mesure physique.

2.1.2 Détecteurs basés blob

La famille de détecteurs de points d'intérêt basés sur les blob s'appuie sur les propriétés des dé- rivées secondes. Les minima et maxima locaux vont correspondre à des extrema locaux dans l'image initiale. C'est-à-dire au centre d'une région. Les dérivées ne sont généralement effectuées qu'après un lissage Gaussien induisant une taille implicite de la région ainsi mise en avant. Pour une Gaussienne d'écart-type σ, le blob détecté sera de taille√nσ, l'image I appartenant à Rn_.

Le premier détecteur de ce type est le Laplacien de Gaussienne (LoG pour Laplacian of Gaussian). La première étape consiste à appliquer un filtre Gaussien sur l'image :

Dans le document Prise en compte métrologique de la couleur dans un contexte de classification et d'indexation (Page 52-96)