• Aucun résultat trouvé

Reconnaissance d'actions basée sur des modèles de segmentation

N/A
N/A
Protected

Academic year: 2021

Partager "Reconnaissance d'actions basée sur des modèles de segmentation"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-03102767

https://hal.archives-ouvertes.fr/hal-03102767

Submitted on 7 Jan 2021

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Reconnaissance d’actions basée sur des modèles de segmentation

Catherine Huyghe, N Ihaddadene, T Haessle, C Djeraba

To cite this version:

Catherine Huyghe, N Ihaddadene, T Haessle, C Djeraba. Reconnaissance d’actions basée sur des modèles de segmentation. 2020. �hal-03102767�

(2)

Reconnaissance d’actions basée sur des modèles de segmentation

C. Huyghe1,2, N. Ihaddadene2, T. Haessle3, C. Djeraba1

1Université de Lille,2Yncréa Hauts-de-France,3CareClever SAS

catherine.huyghe@yncrea.fr, nacim.ihaddadene@yncrea.fr, thaessle@cutii.io, chabane.djeraba@univ-lille.fr

Résumé

La reconnaissance d’actions humaines dans les vidéos est un problème important en vision par ordinateur. Nous pro- posons une approche basée sur l’intégration de la segmen- tation sémantique globale ou partielle du corps humain dans le processus de classification. Le modèle destiné à un robot d’assistance ambiante et l’expérimentation sur des datasets publics seront présentés.

Mots-clés

Reconnaissance d’actions, Assistance ambiante.

1 Introduction

La reconnaissance d’actions humaines à partir de sé- quences d’images trouve ses applications dans de nom- breux domaines, allant de l’indexation des contenus à la surveillance intelligente et la collaboration homme- machine. De plus, les modèles sont souvent embarqués sur des périphériques contraints (Caméras, robots, objets connectés, ...), ce qui réduit considérablement leurs res- sources. Les méthodes basées sur les modèles convolution- nels se sont développées ces dernières années.

2 État de l’art

Nous nous intéressons dans notre étude aux techniques ba- sées sur l’utilisation de réseaux de neurones profonds. Dif- férentes architectures pour la reconnaissance d’actions sont proposées dans la littérature[1]. Elles se distinguent par : Les flux d’entrée :Certaines méthodes utilisent unique- ment la séquence d’images en entrée, tandis que d’autres l’augmentent par des séquences du flux optique pour loca- liser et caractériser le mouvement. le traitement des deux flux distincts est fusionné par la suite.

La dimension spatio-temporelle :Cette dimension a été traitée de différentes manières. Dans une approche, l’ana- lyse des images une à une avec des convolutions 2D com- binée à l’utilisation des LSTM dans les couches ultérieures de l’architecture. Une autre approche consiste à utiliser des convolutions 3D sur les vidéos. Ainsi le noyau des convolu- tions 3D capture la dimension séquentielle. L’inconvénient est que les convolutions 3D nécessitent plus de paramètres qu’en 2D, ce qui les rend difficiles à entraîner et à déployer.

Sur l’ensemble des méthodes, on constate un faible fo- cus sur l’analyse de la personne (analyse de l’ensemble de l’image) et l’absence du traitement de l’immobilité.

Ouverture porte Cuisine Lecture Segmentation

sémantique

Classification

FIGURE 1 – Approche en deux phases pour la reconnais- sance d’actions humaines

3 Approche et Expérimentation

Notre objectif est de développer des modèles déployables sur un robot d’assistance ambiante, capable de reconnaître différents types d’actions (activités quotidiennes, exercices physiques de réhabilitation, chutes ou immobilité).

Des méthodes de segmentation sémantique du corps hu- main (totale ou partielle) ce sont développées ces der- nières années[2], sans arriver au niveau sémantique des actions. Nous proposons dans notre approche d’intégrer cette segmentation sémantique dans une première phase.

Les images obtenues sont combinées avec les données de base en entrée d’un modèle convolutionnel 2D avec des couches récurrentes aux derniers niveaux.

L’apprentissage des modèles a été réalisé sur les data- sets UCF101, HMDB et Charades. Les résultats seront dé- taillés. Ils démontrent que la reconnaissance d’actions ba- sée sur la segmentation sémantique permet un gain de per- formances, un focus sur les zones de présence des per- sonnes ainsi qu’un meilleur traitement de l’immobilité.

Nous prévoyons des tests sur les périphériques embarqués, dont un robot mobile d’assistance ambiante, ainsi que des tests de scénarios d’applications dans un contexte concur- rentiel multi-objectifs.

Remerciements :Nous tenons à remercier le FEDER et l’entreprise CareClever pour leur soutien de ce projet.

Références

[1] J. Carreira, A. Zisserman. "Quo Vadis, Action Recog- nition ? A New Model and the Kinetics Dataset".IEEE Computer Vision and Pattern Recognition, 2017.

[2] F. Xia, P. Wang, X. Chen and A. L.Yuille, "Joint Multi- person Pose Estimation and Semantic Part Segmenta- tion,".IEEE Computer Vision and Pattern Recognition, 2017.

Références

Documents relatifs

Wang, Gang Liu, and YunFeng Shao, “Integrated Denoising and Unwrap- ping of InSAR Phase Based on Markov Random Fields,” IEEE Transactions on Geoscience and Remote Sensing,

Evidence of such three-dimensionality is particularly noticeable at M = 120 (Fig. 3) where a nearly axisymmetric spiraling flow with a source or sink (direction yet to be

Tous les salariés licenciés pour motif économique reclassés en CDI, CDD ou contrat de travail tempo- raire (CTT) de 6 mois ou plus, dans un délai maxi- mum d’un an à compter de

La première trajectoire d’appropriation identifiée débouche sur ce que nous qualifions de consommation des données géographiques dans la mesure où la donnée est

This oscillation increases in amplitude with the energy level and reaches the two stops (see Fig 8.d)) defining a motion with three impacts on each stop per period. Note that

originalités du corps de ce dernier ouvrage est qu’il soit uniquement composé d’une multitude d’aphorismes. Wittgenstein a établi une hiérarchisation en vue de déterminer

This simple approach enables us to drastically reduce the variance of the estimated VaR associated to the operational risks and, to lower the aliasing error we would have using

Par conséquent, il ne sera pas totalement exclu de situer le règne d’Ilîmanbaṭ Amar à une période plus ancienne, probablement avant le règne de la dynastie de