Détection et localisation des objets - 3 .2 Domaines d’application

3 .2 Domaines d’application

3.2.2 Détection et localisation des objets

La classification des images consiste à attribuer une classe à une image. Tandis que la détection des objets implique d’entourer un ou plusieurs objets dans une image par des cadres de sélection.

La détection des objets est une tâche plus difficile par rapport à la classification, car elle combine entre les notions de classification et de lo-calisation. Elle permet de localiser et classifier avec précision les objets cibles dans une image. Par exemple, il est possible d’utiliser les méthodes de détection des objets pour identifier les cellules ou les tissus dans les images médicales [Xu et al. 2016].

La détection des objets est parmi les domaines connus en vision par ordinateur, et qui ont reçu beaucoup d’intérêt [Huang et al. 2014, Zhang et al. 2013]. Les méthodes de détection d’objets standard étaient ba-sées sur les handcrafted features. Ces méthodes sont connues pour leurs manques de généralisation, car les attributs extraits dépendent du do-maine de la tâche traitée. En plus, leurs évolution étaient très lentes entre 2010 et 2012 dans le défi PASCAL VOC, où les stratégies proposées se basent sur des méthodes ensemblistes et des algorithmes d’apprentissage classiques [Girshick et al. 2014]. Récemment, plusieurs efforts ont été faits pour résoudre ces problèmes en se basant sur les CNN.

Le réseau de neurones convolutif en tant que modèle DL a reçu un grand succès dans plusieurs domaines en vision par ordinateur. En 2012, [Krizhevsky et al. 2012] ont exploité ce réseau pour la classification des images et ils ont réussi à réduire le taux d’erreur des méthodes classiques de 26.2% à 15.3%. Ce progrès a encouragé la communauté de vision par ordinateur à utiliser les CNN en détection des objets.

En 2014, [Girshick et al. 2014] ont proposé R-CNN, qui est basé sur la recherche sélective et les algorithmes CNN et SVM. Cette méthode a at-teint de bonnes performances et a réduit le temps de détection par rapport aux méthodes basées sur les fenêtres coulissantes pour la proposition des régions d’intérêts. Malgré l’efficacité de cette méthode en détection des ob-jets, son temps de traitement n’est pas adapté aux applications en temps réel. Pour l’accélérer, plusieurs structures basées sur les CNN ont été pro-posées (Fast R-CNN[Girshick 2015] et Faster-RCNN [Ren et al. 2015]).

[Ren et al. 2015] ont développé un RPN qui permet presque de détecter les objets en temps réel. Ce réseau permet de prédire simultanément les

cadres de sélection et leurs précisions dans chaque position. La structure Faster R-CNN [Ren et al. 2015] combine entre les réseaux CNN et RPN pour effectuer une détection de bout en bout. Cependant, Faster R-CNN ne répond pas toujours aux exigences de la détection des objets en temps réel. La méthode YOLO [Redmon et al. 2016] est l’une des stratégies pro-posées pour adapter le temps de détection aux exigences d’applications en temps réel. Cette approche transforme le problème de détection des objets en un problème de régression. Le chapitre précédent explique en détail la structure des réseaux R-CNN, Fast R-CNN, Faster R-CNN, et YOLO.

Dans les travaux proposés en détection des objets, une variété d’ar-chitectures de type CNN ont été proposé : weakly supervised cascaded CNN [Diba et al. 2017], subcategory-aware CNN [Chen et al. 2017c], Alex-net [Girshick et al. 2014], et une architecture inspirée du réseau Inception [Redmon et al. 2016].

Les méthodes CNN en détection des objets ont été exploitées dans plusieurs domaines : télédétection [Long et al. 2017], diagnostic médical [Cire¸san et al. 2013], et vidéo surveillance [Kang et al. 2017].

3.2.3 Segmentation sémantique

Au cours des dernières décennies, la segmentation sémantique a pré-senté l’un des grands défis en vision par ordinateur. Elle consiste à seg-menter une image en différentes parties et objets. Son but est d’attribuer une classe à chaque pixel de l’image en entrée. Pour un ensemble de k classes L= {l₁, l₂, ..., l_k}et N variables X = {x1, x2, ..., x_N}, chaque entrée x_i est associée à une classe l_j. L’espace de classes est composé de k états possibles, et qui sont généralement étendus à k+1 pour traiter la classe fond de l’image. En général, X est une image 2D de WxH = N pixels.

En segmentation, le traitement est plus compliqué par rapport à la re-connaissance et la détection des objets. La classification attribue une classe à chaque image et la détection classifie les objets et définit leurs cadres de sélection, tandis qu’un algorithme de segmentation peut également seg-menter de nouveaux objets.

La segmentation des images a connu un grand intérêt pour la commu-nauté de vision par ordinateur et d’apprentissage automatique. Les algo-rithmes de segmentation des images classiques sont généralement basés sur les méthodes de regroupement et des informations supplémentaires sur les contours et les bords [Weinland et al. 2011, Ilea & Whelan 2011]. Plusieurs approches ont été proposées pour améliorer la performance du regroupement. La modélisation à base du processus de Markov [Sacco 2005] et la combinaison de détection de contour dans une approche hiérarchique [Arbelaez et al. 2010] sont parmi les méthodes connues. Mal-gré la popularité des méthodes classiques, le nouveau succès des tech-niques d’apprentissage profond dans diverses tâches a rendu ces mé-thodes très populaires en vision par ordinateur y compris en segmen-tation.

Les techniques DL présentent l’alternative qui permet d’apprendre automatiquement les caractéristiques du problème traité au lieu de les extraire par les méthodes d’extraction, car ce processus nécessite une expertise dans le domaine, des efforts, et souvent trop

d’ajus-tement pour les adapter au problème traité. En apprentissage pro-fond, les performances des CNN en classification [Krizhevsky et al. 2012] [Simonyan & Zisserman 2014b, Szegedy et al. 2015] et en détection des ob-jets [Girshick et al. 2014, Girshick 2015, Ren et al. 2015] ont encouragé les chercheurs à les exploiter dans les problèmes de classification des pixels comme la segmentation sémantique. Ces réseaux ont été utilisés comme des composants dans plusieurs architectures de segmentation.

Les méthodes de segmentation des images en DL sont divisées en trois catégories : segmentation sémantique par région, segmentation sé-mantique basée sur les FCN, et la segmentation faiblement supervisée [Sinha et al. 2018].

Les méthodes de segmentation sémantique par région commencent par l’extraction des régions d’intérêts, ensuite, ces régions sont classifiées par des techniques de classification. R-CNN [Girshick et al. 2014] est l’une des architectures de type DL exploitée en détection des objets et en seg-mentation sémantique. Elle permet d’effectuer la phase de segseg-mentation en se basant sur les résultats de la détection. Malgré l’efficacité de cette méthode, elle peut causer une perte d’informations liées au domaine, car les attributs utilisés proviennent des couches entièrement connectées, tan-dis que les couches intermédiaires contiennent plus d’informations spé-cifiques. En plus, la phase de génération des segments proposés a une complexité temporelle élevée, et cela peut affecter la performance finale.

L’idée des méthodes de segmentation sémantique à base de FCN est d’effectuer une transition pixels à pixels, sans avoir be-soin de passer par l’étape de proposition des régions d’intérêts. FCN [Long et al. 2015] est parmi les réseaux les plus utilisés en segmentation sémantique. Il est considéré comme une extension des réseaux CNN, où les architectures connues (AlexNet [Krizhevsky et al. 2012], VGGNet [Simonyan & Zisserman 2014b], Inception [Riedmiller & Braun 1993], et ResNet [He et al. 2016]) sont transformées en FCN. Malgré son efficacité, FCN est caractérisé par certaines limitations liées à l’invariance spatiale, le manque d’information contextuelle, et la mauvaise résolution des images en sortie.

DeepLab [Chen et al. 2015, Chen et al. 2017b] présente l’une des solu-tions qui permettent d’améliorer la résolution en sortie. Cette méthode utilise un fully connected pairwise CRF [Krähenbühl & Koltun 2011] en tant que module séparé pour effectuer un post-traitement et affiner le ré-sultat de la segmentation. D’autres travaux proposent d’améliorer la seg-mentation par l’exploitation des informations contextuelles. Par exemple, [Liu et al. 2015] ont utilisé la couche de Avg-pooling globale pour obtenir le contexte global. D’autres recherches ont résolu le problème de prédic-tion multi-échelle par la proposiprédic-tion d’un réseau composé de N FCN qui traitent différents échèles [Bian et al. 2016].

La segmentation en apprentissage faiblement supervisé est un autre domaine d’intérêt en segmentation sémantique [Papandreou et al. ]. Le but de cette méthode est d’accélérer l’annotation des images dans la base d’apprentissage, car la génération des masques de segmentation pour l’ap-prentissage est une tâche difficile et couteuse en termes de temps. La seg-mentation en apprentissage faiblement supervisé propose l’utilisation des cadres de sélection au lieu des masques de segmentation pour réduire la

charge. Par exemple, [Dai et al. 2015] ont utilisé une annotation à base de cadre de sélection pour l’apprentissage, et ils ont obtenu d’une manière itérative les masques de segmentation.

La base d’apprentissage PASCAL VOC [Everingham et al. 2015] est parmi les bases connues en segmentation, et qui a été largement utili-sée pour la validation des méthodes propoutili-sées en segmentation séman-tique. Pour améliorer cette base, plusieurs extensions ont été développées : PASCAL Context [Mottaghi et al. 2014] et PASCAL Part [Chen et al. 2014]. Microsoft COCO [Lin et al. 2014] est une autre base de segmentation com-posée de plus de 80 classes.

Les méthodes DL en segmentation sémantique ont été exploi-tées dans plusieurs domaines d’application : voitures autonomes [Levi et al. 2015], imagerie médicale [Milletari et al. 2016], télédétec-tion urbaine [Kampffmeyer et al. 2016], et segmentatélédétec-tion des actélédétec-tions [Lea et al. 2016].

Dans le document L'apprentissage profond pour le traitement des images (Page 87-90)