Annotation automatique - Les techniques d’annotation

2.3 Annotation d’images

2.3.1 Les techniques d’annotation

2.3.1.2 Annotation automatique

L’annotation automatique est un processus qui consiste à faire annoter les images par un système d’annotation. Le processus d’annotation automatique a généralement lieu lorsqu’une ou plusieurs nouvelles images sont ajoutées dans la base de données [74] et [75]. Le système utilise automatiquement chaque nouvelle image comme une requête et effectue une recherche d’images par le contenu. Pour un nombre n d’images similaires à une requête, les caracté-ristiques ayant servi à l’annotation de chacune d’elles (et classés par leur fréquence) sont analysées. Une liste de caractéristiques des images similaires à la nouvelle image est fournie et attribuée à la nouvelle image. La nouvelle image est ainsi annotée (bien que virtuellement et sans confirmation). Plusieurs travaux ont été déjà menés dans le domaine de l’annotation automatique. Parmi ces travaux, nous pouvons citer les méthodes proposées dans [74], [75], [76] et [77]. La figure 2.7 présente le processus d’annotation automatique.

Les annotations de nouvelles images seront faites à partir de cet échantillon. Les sections suivantes décrivent les méthodes d’annotation automatique d’images.

• La méthode basée sur la classification : elle permet de créer un très grand nombre de classes auxquelles les images sont associées [78], [7], [8], [9]. Elle permet de faire la description des caractéristiques des images sous forme de vecteurs ([79], [80] et [81]). Les images sont représentées par des vecteurs de leurs caractéristiques. Les graphes sont souvent utilisés par classer les images. Les vecteurs et les mots-clés des images sont représentés comme des nœuds d’un graphe G = (V, E), où V est l’ensemble de tous les nœuds et E l’ensemble de tous arêtes comme le confirme les travaux menés dans [82] et dans [83]. La plus part des CBIR sont construits sur le modèle d’espace vectoriel. Le corpus d’images et de requête sont représenté comme des vecteurs de caractéristiques dans un espace vectoriel à n dimensions.

Figure 2.7 – Processus d’annotation automatique

[84].

Soit W l’ensemble des nœuds représentant des mots-clés uniques w utilisés pour toutes les images de la collection, F l’ensemble de nœuds représentant tous les vecteurs de carac-téristiques extraites de toutes les images et I l’ensemble de tous les nœuds représentant les images dans la collection. Les sommets du graphe de l’image peuvent être définis comme

V = I ∪ F ∪ W . La relation entre les images et leurs vecteurs caractéristiques peut être

codée dans le graphe par une paire d’arêtes (i_n, f_j) et (f_j, i_n) reliant les nœuds d’image i_n et leurs vecteurs caractéristiques f_j. De la même manière, les relations entre les images et leurs mots-clés sont codées par une paire de d’arêtes (in, wj) et (wj, in). Supposons main-tenant que la fonction dist (f_i, f_j) retourne une valeur réelle positive qui mesure la distance entre deux vecteurs de caractéristiques. Cette fonction peut être la distance euclidienne ou toute autre distance métrique sur des vecteurs de caractéristiques. Grâce à cette fonction, les k plus proches voisins de chaque vecteur caractéristique f_i sont sélectionnés, et une paire d’arêtes (f_i, f_k), (f_k, f_i) pour tous les k plus proches voisins est utilisé pour désigner leur similitude dans le graphe. De même, une fonction dist (wi, wj) ou sim (wi, wj) renvoyant un nombre réel positif, retourne la distance entre deux mots-clés [85].

La méthode basée sur les graphes permet de représenter chaque image par un graphe. De façon concrète, considérons un ensemble α de n images α= I1, I2, . . . , In. Chaque image est décrite par un ensemble de caractéristiques { f₁, f₂, . . . , f_m } et une liste de mots-clés

W = w₁, w₂, . . . , w_k. Une image peut alors être décrite par le vecteur I₁ = { f₁, f₂, ..., fm,

Wi}. Si une nouvelle image I_x (I_x = { f₁, f2, . . . , fn}) non étiquetée est introduite dans ce système, le système trouvera un modèle capable de lui affecter des étiquettes. Autrement dit, l’image passe d’une représentation Ix = {f₁, f₂, . . . , fn} à une représentation I_x= {f₁,

f2, . . . , fn, Wk} [79], [80] et [85].

Typiquement, l’image est d’abord analysée par l’extraction de vecteurs de caractéristiques, et les mots pour l’apprentissage de l’annotation sont utilisés avec des techniques d’appren-tissage automatique pour pouvoir être capable d’affecter automatiquement des annotations à de nouvelles images. Les premières méthodes dans le domaine apprenaient les corrélations

entre les descripteurs d’images et les annotations, puis des techniques utilisant des méthodes issues de la traduction automatique ont vu le jour, permettant de faire une traduction entre le vocabulaire textuel, et ce qu’on considérait comme un vocabulaire visuel, où chaque mot serait un groupe de régions similaires, obtenues par regroupement (clustering). La classifi-cation est basée sur l’apprentissage. L’apprentissage est un processus visant à améliorer les performances d’un système en se basant sur ses expériences passées. Trois grandes familles de techniques d’apprentissage sont répertoriées [86] :

– L’apprentissage supervisé est une technique d’apprentissage automatique qui produit de façon automatique une classification en se basant sur des exemples existants. L’apprentis-sage supervisé est possible grâce à certains classificateurs. C’est le cas, par exemple, des Machines à Vecteurs Supports SVM [87], des forêts aléatoires [88], de l’algorithme des k plus proches voisins (notés KPPV, ou KNN en anglais), et des classificateurs Bayésiens. Les SVM et les forêts aléatoires sont réputés pour être performants en présence d’un grand nombre de variables. Par contre, l’utilisation des SVM devient difficile à utiliser lorsque le nombre d’observations de la base d’apprentissage est important. Concernant les KNN, la procédure de classification est lourde car chaque image requête est comparée (sur la base de ses caractéristiques) à toutes les images stockées. Par contre cette méthode a l’avantage de ne pas nécessiter d’apprentissage : c’est l’échantillon qui constitue le mo-dèle. Enfin, les classificateurs Bayésiens, quant à eux, sont sensibles à la dimensionnalité des données. Par contre, ils sont efficaces avec beaucoup de données d’apprentissage. Les classificateurs Bayésiens sont adaptés à la résolution de problèmes en présence de données manquantes, contrairement aux SVM [89]. D’autres techniques d’apprentissage telles que le réseau de neurones sont également utilisés pour l’apprentissage de concepts. Dans [90] les auteurs choisissent 11 catégories de concepts : brique, nuage, fourrure, herbe, glace, route, rocher, sable, la peau, l’arbre et de l’eau. Ensuite, une grande quantité de don-nées d’apprentissage est introduite dans le classificateur de réseau neuronal pour établir le lien entre les caractéristiques de bas niveau de l’image et sa sémantique (catégorie d’étiquettes).

– L’apprentissage non supervisé (parfois dénommé « clustering »)est une méthode d’appren-tissage automatique. Il s’agit pour d’une technique qui permet de diviser un groupe hété-rogène de données, en sous-groupes de manière à ce que les données considérées comme les plus similaires soient associées au sein d’un groupe homogène et qu’au contraire les données considérées comme différentes se retrouvent dans d’autres groupes distincts.¹⁰. Pendant la phase de l’apprentissage non supervisé c’est le système qui doit déterminer ses sorties en fonction des similarités détectées entres les différentes entrées (règle d’auto or-ganisation) [91]. Contrairement à l’apprentissage supervisé, l’apprentissage non supervisé permet de regrouper un ensemble de données d’image de façon à maximiser la similarité au sein des clusters et de minimiser la similitude entre les différents groupes. Chaque groupe résultant est associé à une étiquette de classe et les images dans une même grappe sont

censés être semblables les uns aux autres.

– L’apprentissage par renforcement. C’est un apprentissage qui nécessite un superviseur qui dit à l’agent quelle action est correcte dans telle situation [92]. Dans l’apprentissage par renforcement, l’agent interagit avec l’environnement qui lui donne un retour quantitatif sur les valeurs de ses actions. L’objectif de l’apprentissage par renforcement est alors de générer à partir d’expériences (état courant, action, état suivant) une politique maximisant le rendement au cours d’une période donnée.

• La méthode probabiliste : elle permet de représenter les images par un vecteur caractéris-tique à n-dimensions. Ces vecteurs sont calculés grâce à des fonctions mathémacaractéris-tiques ou des algorithmes. Un bon choix de caractéristiques pertinentes est indispensable pour at-teindre un grand pouvoir de discrimination [79]. La méthode probabiliste est souvent dédiée à l’annotation d’images partiellement annotées, c’est-à-dire que des images ne possédant pas le nombre maximal de mots-clés. Lorsqu’une image est partiellement annotée, les mots-clés manquants sont considérés comme des valeurs manquantes. La méthode probabiliste est une méthode qui permet de calculer la distribution des mots-clés à une image [93], [94], [95]. Cette distribution représente une prédiction des mots-clés manquants d’une image. Pour chaque annotation manquante, le mot-clé du vocabulaire ayant la plus grande probabilité est retenu, si cette probabilité atteint un certain seuil [96]. Chaque image est annotée par les mots-clés ayant les plus grandes probabilités. C’est le cas de Jin et al. [71] qui proposent un modèle de langage pour annoter des images qui estime la probabilité d’un ensemble de mots-clés. L’ensemble de mots-clés ayant la plus grande probabilité est associé à l’image, si cette probabilité dépasse un certain seuil.

D’autres travaux d’annotation automatique des images du web ont été proposé par cer-tains chercheurs. C’est l’exemple de Wen et al. dans [97] et de Feng et al. dans [98]. C’est une technique qui facilite la recherche d’images grâce aux informations complémentaires dis-ponibles sur le web comme par exemple, l’URL du fichier image qui a souvent une structure hiérarchique claire, y compris des informations sur l’image comme la catégorie de l’image. Dans cette technique, les documents HTML sont également pris en compte parce qu’ils contiennent des informations utiles sur le titre de l’image, le texte descriptif qui entoure l’image, des hy-perliens, etc. Plusieurs outils basés sur la description textuelle comme par exemple Google et AltaVista sont proposés pour rechercher des images sur le web. Bien que ces approches aident à trouver de nombreuses images pertinentes, la précision de récupération est faible, car elles ne peuvent pas confirmer si les images extraites contiennent vraiment les concepts de la re-quête. Les utilisateurs doivent parcourir toute la liste pour trouver les images désirées. C’est un processus de longue haleine parce que les résultats renvoyés sont des collections d’images. Pour améliorer les performances de ces approches, les chercheurs ont tenté de fusionner l’information textuelle et le contenu visuel de l’image. C’est le but des travaux menés dans [98] qui combinent les descriptions textuelles (HTML) et les caractéristiques visuelles de l’image. Pour mener à bien l’annotation automatique, ils ont développé deux classificateurs indépen-dants. Le premier est basé sur le texte et le deuxième est basé sur les caractéristiques visuelles.

L’expérimentation a été faite sur un ensemble prédéfini de 15 concepts. Les résultats obtenus démontrent la performance substantielle du système. Toutefois, en raison de l’imprécision de l’extraction des informations textuelles, les performances de certains concepts ne sont pas sa-tisfaisantes.

D’autres propositions ont été faites dans [99] et dans [100]. MSRA (Microsoft Research Asia) a pour objectif de regrouper les résultats de recherche des moteurs de recherche classique d’images Web, de sorte que les utilisateurs retrouvent rapidement les images. Tout d’abord, un algorithme de segmentation basé sur la vision intelligente est conçu pour segmenter une page web en blocs. Dans le bloc contenant l’image, les informations textuelles et les informations sur les liens d’une image peut être extraite de façon précise. Ensuite, un graphe de l’image est réalisé en utilisant des techniques d’analyse des liens entre les blocs. Ainsi, pour chaque image, on obtient trois types de représentations, la représentation visuelle basée sur les ca-ractéristiques physiques, la représentation sémantique basée sur les caca-ractéristiques textuelles et la représentation graphique. Les images de chaque catégorie sont ensuite réorganisées en fonction de leurs caractéristiques visuelles. La plupart de ces méthodes ont en commun le fait qu’elles nécessitent un échantillon d’apprentissage.

Dans le document Emergsem : une approche d'annotation collaborative et de recherche d'images basée sur les sémantiques émergentes (Page 47-51)