• Aucun résultat trouvé

2.3 Représentations combinant sémantique et perception

2.3.1 Description d’objets par attributs

Les travaux de Lambert [LNH09] et Farhadi [FEHF09] ont posé les bases de la reconnais- sance d’objets par attributs. L’idée est que l’on peut définir un grand nombre de concepts (classes) avec un ensemble borné d’attributs communs. Par exemple, on peut affecter à la classe zèbre les attributs rayé, noir et blanc. Ces attributs constituent donc une représentation intermédiaire des classes, faisant le pont entre la représentation visuelle et purement sémantique. Cette méthode a deux avantages principaux : elle permet à la fois de représenter des classes non présentes dans les données d’entraînement en les définissant par leur vecteur d’attributs, mais également d’inférer de nouveaux attributs à des classes connues. Dans la littérature, l’apprentissage de nouvelles classes sans données d’entraînement associées est appelé Zero-shot learning. Dans [LNH09] est proposée une méthode dite DAP (Direct Attribute Prediction), où les probabilités de présence p(a|x) d’un attribut a dans une image x sont obtenues par l’apprentissage de classifieurs binaires SVM (Sup-

port Vector Machine) non-linéaires. L’inférence de la classe z d’une nouvelle image x est alors

simplement

p(z|x) =X

m

p(z|am)p(am|x). (2.11)

Il est à noter qu’à chaque classe z est associée un vecteur attribut az, de telle sorte que

p(a|z) = 1 − δa−az. (2.12)

où δ5 est le symbole de Kronecker. Ceci est une contrainte forte et qui, en pratique, n’est pas très robuste. Elle souffre du même problème évoqué précédemment concernant la logique du premier ordre : il suffit qu’une instance ne possède pas un attribut pour avoir une probabilité nulle d’appar- tenir à une certaine classe.

Romera-Paredes [RPT15] et Akata [APHS16] prolongent l’approche par attribut en cherchant un espace de représentation sémantique compatible avec les vecteurs de descriptions image associés (figure 2.6). La différence avec [LNH09] est qu’aucun classifieur par attribut n’est directement

2.3. REPRÉSENTATIONS COMBINANT SÉMANTIQUE ET PERCEPTION

Figure 2.6 – Espaces de représentation des descripteurs image et sémantique (ici attributs). F est une fonction mesurant la compatibilité entre les deux représentations (visuelles et sémantique) d’un même concept. Extrait de [APHS16]

appris. L’accent est mis sur l’apprentissage de classes non connues et non sur la reconnaissance d’attributs. De plus, cette méthode plus générale permet également d’intégrer, en plus des attributs, d’autres sources d’informations telles que des hiérarchies de classes (ontologies).

Fu [FXKG15] considère le zero-shot learning en utilisant la distance sémantique, basée sur une représentation vectorielle de mots [MCCD13] ou par attributs comme précédemment, pour classifier des classes non vues lors de l’apprentissage. Pour cela, ils apprennent une projection des vecteurs de description image dans cette espace sémantique. L’ensemble des classes vues et non vues vont constituer un graphe sémantique, avec des liens entre les k plus proches voisins. Afin d’inférer la classe d’une nouvelle image test x∗, ils définissent une chaîne de Markov absorbante6 sur leur graphe sémantique.

Zhang [ZXG16] développe une approche similaire qui n’apprend pas qu’une projection du vi- suelle vers le sémantique, mais également l’espace de représentation visuelle. Cela est fait via un réseau de neurones profond à deux branches : une classique servant à construire l’espace de repré- sentation visuelle et une autre construisant la projection des données sémantiques dans l’espace de description visuelle. La fonction coût de ce réseau vise ensuite à minimiser la distance entre les vecteurs de description visuelles et la projection des représentations sémantiques.

6. Seuls les nœuds correspondants aux classes non vues sont absorbants ie ayant une probabilité nulle de transition avec toutes les autres classes

Les travaux de Luo [LLH+18] s’attachent à corriger un défaut inhérent à l’apprentissage de la projection des représentations visuelles dans l’espace sémantique. En effet, il y a un biais d’ap- prentissage lié aux domaines des classes considérées dans les données d’entraînement, donnant des résultats peu satisfaisants ensuite sur des données test issues de classes non vues provenant de do- maines différents. Pour résoudre cela, au lieu de considérer une représentation sémantique fixe par classe, les auteurs proposent de la mettre à jour à partir des projections apprises sur les données visuelles. Pour les classes non vues, la mise à jour se fait à partir des relations avec la représentation sémantique des classes vues voisines.

Jusqu’à présent, toutes les approches vues ont pour but d’exploiter les données textuelles afin d’améliorer la description visuelle. Silberer [SFL17] propose l’opposé : exploiter les données vi- suelles associées à chaque mot afin d’obtenir une représentation sémantique rendant mieux compte des similarités entre mots. Pour cela, trois autoencodeurs (AE) [GBC16] sont entraînés : un pour la représentation visuelle par vecteur d’attributs, un pour la représentation textuelle et enfin un AE final qui fusionne les deux modalités.

Les méthodes ci-dessus développent des idées intéressantes, mais un de leur défaut est qu’elles ne considèrent que des classes non vues dans leur ensemble de test. C’est à dire qu’une nouvelle image x∗ est considérée par avance comme étant une instance d’une classe non vue. Or, dans des applications concrètes robotiques, cela est rarement le cas. Pour essayer de répondre à ce problème, Chao et al. [CCGS16] introduisent le Generalized Zero-shot learning. Ils montrent qu’en appli- quant naïvement ces méthodes dans le cas général, la majorité des instances de classes non vues sont incorrectement classifiées en classes vues. Ceci se comprend aisément du fait que les données d’entraînement ne concernent que les classes vues, l’information sur les classes non vues étant réduite à la seule représentation sémantique.