6. 2.1 Méthodes basées sur les réseaux RPN

Les méthodes basées sur les réseaux RPN sont composées de deux réseaux montés en étage. Elles permettent d’obtenir un aperçu sur l’ensemble de la scène dans un premier temps, puis se concentrer sur les régions d’intérêt. Girshick et al. ont proposé, en 2014, le modèle R-CNN [148], qui utilise le réseau CNN pour prédire les zones d’intérêt (Figure 6.13). Dans un premier temps, un générateur de propositions de région est exploité pour

Figure 6.13 – Architecture de la méthodes de détection d’objets R-CNN [148].

détecter les régions d’intérêt. Ce générateur utilise la technique de la recherche sélective [160] pour générer environ 2000 propositions de régions pour chaque image. Au niveau de l’étape d’extraction de caractéristique, chaque proposition est recardé et un réseau CNN est appliqué pour extraire une représentation finale pour chaque région. Finalement, les régions sont classées par un SVM linéaire prédéfini pour plusieurs classes. Malgré les avantages de cette méthode par rapport aux méthodes traditionnelles, l’apprentissage reste gourmand en temps et en mémoire. Plusieurs améliorations ont été effectuées sur ces modèles de détection d’objets, Ren et al. [151] ont introduit un réseau de proposition de région (RPN ) supplémentaire, qui agit d’une manière rapide par rapport au générateur de régions.

6. 2. Méthodes basées sur les réseaux convolutifs CNN

6. 2.2 Méthodes basées sur la régression/classiﬁcation

Les méthodes basées sur les réseaux de proposition de régions sont composés de plu-sieurs étapes corrélées : la génération de propositions de régions, l’extraction de caracté-ristiques à l’aide d’un réseau CNN, la classification et la régression par boîte englobante. Ces étapes sont généralement formées séparément. Même dans le récent "end to end" mo-dule de cette catégorie (Faster R-CNN ), une formation alternative est encore nécessaire pour obtenir des paramètres de convolution partagés entre le RPN et le réseau de détec-tion. Par conséquent, le temps de manipulation de différentes étapes reste un inconvénient pour les applications en temps réel. Concernant les systèmes de régression/classification, le principe est différent. Ces méthodes configurent chaque pixel en l’affectant un empla-cement dans la boîte englobante et une probabilité de classe, ce qui réduit le temps de calcul.

Redmon et al. ont proposé le YOLO [157] en 2016, qui utilise les dernières cartes de caractéristiques pour prédire la localisation et la classification de chaque boîte englo-bante. Le principe de cette méthode est illustré dans la figure 6.14. L’image est divisée en une grille (S× S)et chaque cellule contient une information sur l’objet d’intérêt cen-tré dans cette cellule. Autrement dit, chaque cellule contient plusieurs boîtes englobantes de différentes formes et chaque boîte a un score d’appartenance de cet objet aux classes prédéfinies en entrée.

Figure 6.14 – Principe de la méthode YOLO [157].

Partie III, Chapitre 6 – Reconnaissance de l’activité de la personne

l’exemple de YOLOv2, il limite le nombre de boîtes englobantes par cellule et modifie l’entrainement en multi-échelles. Par contre, YOLO a des difficultés à gérer les objets de petites tailles, ce qui est dû aux fortes contraintes spatiales imposées aux prédictions de la boîte englobante [157]. Pour résoudre ce problème, Liu et al. ont proposé la méthode SSD (Single Shot MultiBox Detector) [158] (détaillée dans le chapitre suivante). Cette méthode est plus avantageuse que le YOLO puisque elle est basée sur un ensemble de boîtes englobantes par défaut avec différents rapports de longueur et largeur définis à l’avance. Pour traiter des objets de tailles diverses, le réseau fusionne les prédictions de plusieurs cartes de caractéristiques avec différentes résolutions. Il existe deux variantes de SSD (SSD300 et SSD512 ) déterminées par la taille d’image d’entrée (300× 300 ou 512× 512 respectivement).

La Table 6.1 illustre une comparaison de ces méthodes sur la base de données VOC07. Nous constatons que la performance la plus élevée de toutes les classes est celle de YOLOv2 et le temps de calcul le plus rapide est celui de SSD300 et YOLO. Puisque nous nous

inté-Table 6.1 –Comparaison de diﬀérentes méthodes de détection d’objets sur la base de données VOC07.

ressons à la classe "personne" uniquement, nous avons présenté les performances de cette classe sur les bases de données VOC07 et VOC12. Nous observons que les performances sont plus élevées pour la méthode SSD (Table 6.2).

La performance et le temps de calcul sont les critères les plus importants pour notre projet. Ainsi, Nous avons choisi de baser notre système de reconnaissance de postures sur la méthode SSD. De plus, la résolution des images thermiques est faible (80× 60) d’où le choix de la première variante. Dans le chapitre suivant, nous présenterons la méthode SSD300 plus en détails ainsi que notre système de reconnaissance de postures.

6. 3. Conclusion

Table 6.2 – Comparaison de diﬀérentes méthodes de détection d’objets sur les bases de données VOC07 et VOC12 de la classe "personne" uniquement.

6. 3 Conclusion

Dans ce chapitre, nous avons étudié des méthodes de classiﬁcation d’activités en s’ap-puyant sur les réseaux de neurones convolutifs (CNN). Nous avons détaillé l’architecture de ces réseaux que nous avons utilisée pour développer notre système de reconnaissance des posture, détaillé dans le chapitre suivant.

Chapitre 7

C

LASSIFICATION DE POSTURES DES

Dans le document Suivi de l'activité d'une personne à partir de capteurs multi-modalités préservant l'anonymat dans un cadre de détection et prévention des chutes chez les personnes âgées (Page 169-174)