• Aucun résultat trouvé

Chapitre 2. Des données aux connaissances pour l’étude de l’état de

2.4. Extraction d’information : définition de descripteurs spécifiques

2.4.1. Extraction de descripteurs 2D d’images

L’image renferme des composants qui peuvent être exploités afin de ressortir des informations caractéristiques. Afin de tirer parti de celles-ci, il est en effet nécessaire de les extraire. Il est possible de distinguer deux types descripteurs : les caractéristiques globales [Tuytelaars T. et al., 2008][Lisin, D. A. et al., 2005] qui sont relatives à l’ensemble de l’image, puis les caractéristiques locales qui font davantage appel à des parties plus spécifiques de l’image. La notion d’extraction d’images est un terme qui décrit la recherche d’images numériques dans d’importantes bases de données afin de ressortir des résultats (images) avec certaines caractéristiques, définies préalablement par l’utilisateur. Certaines méthodes ont proposé d’utiliser des requêtes textuelles, cependant celles-ci demandaient une association de toutes les images avec un texte particulier, et impliquait des processus fastidieux et coûteux en temps. C’est pourquoi une première approche a été développée, dans le cadre de récentes recherches, en se concentrant sur l’extraction d’images basée sur le contenu (ENG : content-based image retrieval) : une approche qui utilise des algorithmes d’extractions de caractéristiques. Elle a pour objectif de décrire et de comparer les images entre elles. La plupart de ces systèmes, qui exploitent ces types d’algorithmes, utilisent des caractéristiques de bas niveau (telles que la couleur, les formes, les textures) et des statistiques qui sont dites

69 globales ou locales. Ce sont deux notions que nous définirons dans la partie suivante. Elles constituent une base déterminante pour la génération d’information.

2.4.1.1. Caractéristiques globales

Le terme « global » est particulièrement utilisé pour des caractéristiques qui généralisent et prennent en compte l’image dans sa globalité. Un inconvénient notable est qu’il ne peut en aucun cas distinguer les informations de l’objet et son arrière-plan, ni donc les fusionner. Les caractéristiques globales sont liées à des représentations de types histogrammes, c’est-à-dire que l’on va chercher des informations qui seront liées au contenu de l’image. On parlera des informations obtenues par l’intermédiaire des formes, des couleurs et des textures.

2.4.1.1.1. Les histogrammes

Les histogrammes sont des représentations de dénombrement de données organisées en agrégats. Les histogrammes d’images peuvent être utilisés notamment pour la description d’une image entière en comptant la fréquence de chaque valeur d’intensité.

Par exemple, en ayant en entrée une simple image en niveau de gris, son histogramme est construit en créant des agrégats basés sur l’intensité de valeur de l’image (0 à 255), pour ensuite compter le nombre de pixels répondant bien à cette intensité (Figure 54).

Figure 54 : Histogramme d'une image en niveau de gris.

La comparaison de deux images peut donc être réalisée en utilisant une fonction de distance (pour définir les différences d’intensité).

De tels histogrammes ont les moyens de révéler des informations quantitatives sur l’intensité des pixels, particulièrement en termes de fréquence d’intensité des valeurs [NIK, B., 2005]. Mais le contenu structurel de l’image ne peut pas être observé.

70 2.4.1.1.2. Les moments d’images

Ce sont des quantités scalaires utilisées pour caractériser une fonction et pour capturer ses caractéristiques significatives. Ils peuvent être utilisés pour dériver de simple propriétés images comme des aires (ou une intensité totale), barycentres et/ou orientations.

En 1962, [Hu M.K., 1962] fut le premier à introduire l’utilisation de moments d’image pour la caractérisation images 2D en définissant sept moments invariants en translation, en rotation et en mise à l’échelle, qui sont des dérivés provenant des moments géométriques. Depuis, de nombreux types de moments invariants ont été proposés [Teague M.R., 1980] [Li Y., 1992] [Wallin A. et al, 1995] [Flusser J., 2002]. Des invariants photométriques ont aussi été introduits par [Van Gool L. et al, 1996] pour la description de données multi-spectrales.

2.4.1.2. Caractéristiques locales

On s’intéresse davantage au point d’intérêt d’une image puis aux descripteurs spécifiques précis ou même aux groupes (ENG : bag of features, FR : groupes de propriétés). L’extraction de ce type d’information se réalise à travers des méthodes existantes qui ont subi beaucoup d’évolution au cours du temps.

2.4.1.2.1. La détection de point d’intérêt

De manière générale, les descripteurs locaux sont accompagnés d’algorithme de détection de points de correspondance dont la particularité est de trouver des points d’intérêt dans une image. L’extraction des caractéristiques peut donc être appliquée sur toute l’image autour de chaque point détecté. L’utilisation des points d’intérêt sert notamment à réduire considérablement les temps de calcul nécessaires pour réaliser l’ensemble des extractions sur chaque pixel de l’image. Cependant, de nombreux types de descripteurs se basent sur des grilles ou même des pixels au lieu d’utiliser des points d’intérêt.

Selon [Haralick R.M. et al, 1991], la sélection des points d’intérêt doit être réalisée en rapport avec leur invariance, leur robustesse, leur rareté et leur interprétabilité. Plus précisément, ces points doivent être uniques et distincts de l’arrière-plan, invariants aux distorsions géométriques et radiométriques et enfin robustes face au bruit. [Schmid C. et al, 2000] ont publié une évaluation des détecteurs les plus utilisés par rapport à ces critères.

[Moravec H.P., 1977] fut l’un des premiers à introduire un détecteur de points d’intérêt. Le principe est de calculer la somme des carrés des différences d’intensité sur des pixels adjacents, par groupe carré de 4 à 8.

À ce point-ci, il est d’ores et déjà possible de lier ces types de descripteurs images avec une sémantique. L’intensité est donc calculée dans une certaine direction et une carte spécifique est créée en utilisant la valeur de variation minimum pour chaque pixel. L’expert détecte comme point d’intérêt le point où la valeur est en dessous d’un certain seuil en utilisant une suppression non-maximale (technique d’amincissement des bords), afin de distinguer les vrais

71 points d’intérêt provenant du bruit. Cependant, cette technique utilise un système de coordonnées images et donc qui n’est pas invariant d’un point de vue des changements de rotation. De plus, elle est sensible au bruit, et bien que la technique de non-suppression maximale soit appliquée, il est facile de détecter du bruit en tant que points d’intérêt. L’opérateur détecte les points d’intérêt en calculant la matrice de covariance des pixels [Förstner W., 1994]. Chaque matrice décrit la distribution des gradients autour des pixels. Les points d’intérêt sont choisis parmi ceux ayant une grande différence de gradient.

Il existe plusieurs algorithmes pour détecter les arêtes et les coins comme SUSAN (ENG : Smallest Univalue Segment Assimilating Nucleus) [Smith S.M. et al, 1997], FAST (ENG : Features from Accelerated Segment Test) [Rosten E. et al, 2006]. Ils ne requièrent pas de réduction de bruit et ils sont très efficaces en termes de répétabilité.

TILDE (Temporally Invariant Learned Detector) est un nouveau détecteur de points d’intérêt introduit par [Verdie Y. et al, 2014]. Cet algorithme permet de résoudre les problèmes liés aux conditions d’éclairages et météorologiques, provoquant des changements entre les images. Il est très intéressant pour nous car il est en mesure de pallier les problèmes de diachronies, des problèmes que nous rencontrons souvent lors du processus de reconstruction tridimensionnelle d’un bâti patrimonial ou même de recalage multi temporel.

2.4.1.2.2. Descripteurs locaux

En 1999, a été introduit, dans la communauté de la vision par ordinateur, l’algorithme SIFT (ENG : Scale Invariant Feature Transform) qui a pour but de détecter, de décrire et d’extraire des caractéristiques qui sont utilisées pour la comparaison d’images et la reconnaissance d’objets [Lowe D. G., 1999]. SIFT utilise des caractéristiques invariantes par rapport à la taille de l’image, mais aussi en rotation et en translation. Ces caractéristiques sont aussi partiellement invariantes par rapport aux changements de lumières, aux projections affines et au bruit des images. Chaque caractéristique est décrite par un vecteur. L’algorithme passe notamment par la construction d’une pyramide de DoG pour extraire les points d’intérêt et le calcul de l’orientation des gradients (Figure 55) pour la définition de descripteurs de points d’intérêt (Figure 56).

C’est notamment une technique de transformation qui est utilisée pour l’appariement dense et l’extraction de points de correspondance, lors du processus photogrammétrique pour la reconstruction 3D (nuage de points) d’un objet.

Une alternative à SIFT, Dense SIFT, n’utilise pas la détection de point d’intérêt, mais exploite tous les pixels ou une grille de pixels dans l’image comme base, pour définir les caractéristiques.

72 Figure 55 : Représentation du gradient d’image.

[Bay H. et al, 2006] ont introduit l’algorithme SURF (Speeded Up Robust Features), impliqué dans le logiciel MIC MAC, qui offre des résultats intéressants en termes de répétabilité, de distinction, de robustesse et de rapidité par rapport aux algorithmes jusqu’alors proposés. Cet algorithme est combiné à SIFT afin de donner plus d’efficacité aux nombres de points d’intérêts détectés pour générer un nuage de points dense plus précis.

DAISY est un autre descripteur local introduit par [Tola E. et al, 2010] qui a beaucoup de similarité avec SIFT(Figure 56).

BRISK (ENG : Binary Robust Invariant Keypoints) est une méthode introduite par [Leutenegger S. et al, 2011] qui combine la détection de points d’intérêt, la description et la correspondance. La partie détection est inspirée par les détecteurs FAST (Figure 56).

FREAK (Fast REtinA Keypoints) est un descripteur inspiré par le système de vision humain [Alahi A. et al, 2012]. Il est basé sur l’utilisation de valeurs binaires traitées pour comparer les intensités d’images à travers un motif rétinien (Figure 56).

Figure 56 : Exemple de descripteurs locaux d'images.

À travers la prise en compte des différentes imageries scientifiques possibles de produire, nous pouvons mettre en valeur des informations internes à l’image, de manière quantitative et exploiter ces images accompagnées de leurs descripteurs dans une chaîne de traitement pour générer des informations. Ces informations peuvent se combiner avec des méthodes de description de la morphologie d’objet tridimensionnelle.

73