• Aucun résultat trouvé

Phase d'entrainement

Les forêts d'arbres décisionnels ou forêts aléatoires sont des techniques d'apprentissage automatique proposées en 2001 par Leo Breiman [Breiman, 2001]. Cet algorithme eectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de données légèrement diérents. Un arbre de décision binaire générique peut être décrit récursivement par un n÷ud n, appelé soit un n÷ud terminal, soit un n÷ud divisé, comme indiqué dans la Figure D.1. Si le n÷ud n est terminal (représenté en gris sur la Figure D.1), alors on lui associe une distribution terminale, qui consiste soit en une probabilité d'assignation P (c|x) pour chaque classe c ∈ {1, . . . , C}. D'un autre côté, si le n÷ud n n'est pas terminal, il est appelé un n÷ud de division (n÷uds verts sur la Figure D.1) et contient une fonction de division paramétrique associé à un seuil pour le diviser en deux n÷uds ls. Donc à chaque pas du partitionnement, on découpe une partie de l'espace en deux sous parties. On associe alors naturellement un arbre binaire à la partition construite. Les n÷uds de l'arbre sont associés aux éléments de la partition, et ainsi de suite jusqu'à atteindre la taille maximale de l'arbre. Donc commençant par la racine de l'arbre qui contient l'espace d'entrée tout entier E, la règle de partitionnement consiste à construire deux sous-parties EL et ERcomme suit : EL= x ∈ E|xi < θi

et ER= x ∈ E|xi≥ θi. Le couple (i, θi)est choisi de sorte que chaque n÷ud ls soit le plus homogène possible.

L'homogénéité d'un n÷ud N est généralement basée sur une mesure d'impureté, qui dépend du degré d'homogénéité des échantillons appartenant au n÷ud N. L'impureté est minimale lorsque les échantillons qui composent le noeud N appartiennent à la même classe, et elle est maximale lorsque les classes sont uniformément distribuées dans un n÷ud avec la même proportion. Les deux mesures standard d'impureté d'un n÷ud i sont :

 Le gain d'information qui consiste à mesurer la quantité d'information nécessaire pour dé-terminer la classe d'un échantillon. Il est exprimé en fonction de l'entropie de Shannon :

I(i) = K X k=1 nki Ni log 2 nki Ni (D.1)

K est le nombre des classes, nki représente l'eectif de la classe k dans le n÷ud i, Ni corres-pond au nombre des échantillons dans le n÷ud de division i.

 L'indice de Gini d'un noeud i est calculé de la manière suivante : I(i) = 1 − K X k=1 (nki Ni) 2 (D.2)

Le changement d'impureté dans le n÷ud de division i : ∆I(i) = I(i) −Gi

Ni

I(gi) −Di Ni

I(di) (D.3)

gauche, avec l'indice di et gi. Formellement, le critère ∆I cherche à maximiser la diérence d'impu-reté entre les échantillons du n÷ud i et les échantillons des deux n÷uds ls. Nous choisissons donc la caractéristique et le seuil qui minimise l'impureté du noeud par rapport à la classe cible.

Phase de prédiction

Considérons un ensemble de données d'apprentissage E constitué de n échantillons, utilisé pour dé-river des règles de prédiction en appliquant l'algorithme RF avec un nombre d'arbres T . Idéalement, la performance de ces règles de prédiction est estimée en se basant sur une base de test indépendante, notée Dtest, constituée d'échantillons de test ntest . Considérant le ième échantillon de l'ensemble de données de test (i = 1, . . . , ntest), nous notons sa réponse réelle, yi, qui présente une étiquette binaire 0 contre 1 (dans le cas d'une classication binaire). La valeur prédite de la sortie produite par l'arbre t (avec t = 1, . . . , T ) est noté ˆyit, où ˆyi est la valeur prédite de la sortie par toute la forêt aléatoire. ˆ yi= 1 T T X t=1 I(ˆyit= 1) (D.4)

Titre : Reconnaissance des gestes expressifs inspir ´ee du mod `ele LMA pour une interaction naturelle

Homme-Robot

Mots cl ´es : gestes corporels expressifs, ´emotions, mod `ele LMA, apprentissage supervis ´e, reconnaissance

des gestes, interaction homme-robot

R ´esum ´e : Dans cette th `ese, nous traitons le

probl `eme de la reconnaissance des gestes dans un contexte d’interaction homme-robot. De nou-velles contributions sont apport ´ees `a ce sujet. Notre syst `eme consiste `a reconnaitre les gestes humains en se basant sur une m ´ethode d’analyse de mou-vement qui d ´ecrit le geste humain d’une mani `ere pr ´ecise. Dans le cadre de cette ´etude, un module de niveau sup ´erieur est int ´egr ´e afin de reconnaˆıtre les ´emotions de la personne `a travers le mouve-ment de son corps. Trois approches sont r ´ealis ´ees: la premi `ere porte sur la reconnaissance des gestes dy-namiques en appliquant le mod `ele de Markov cach ´e (MMC) comme m ´ethode de classification. Un descrip-teur de mouvement local est impl ´ement ´e bas ´e sur une m ´ethode d’analyse de mouvement, nomm ´ee LMA (Laban Movement Analysis) qui permet de d ´ecrire le mouvement de la personne dans ses diff ´erents as-pects. Notre syst `eme est invariant aux positions et orientations initiales des personnes. Un algorithme d’ ´echantillonnage a ´et ´e d ´evelopp ´e afin de r ´eduire la taille de notre descripteur et aussi adapter les donn ´ees aux mod `eles de Markov cach ´es. Une contri-bution est r ´ealis ´ee aux MMCs pour analyser le mou-vement dans deux sens (son sens naturel et le sens inverse) et ainsi am ´eliorer la classification des gestes similaires. Plusieurs exp ´eriences sont faites en utili-sant des bases de donn ´ees d’actions publiques, ainsi que notre base de donn ´ees compos ´ee de gestes de contr ˆole. Dans la seconde approche, un syst `eme

de reconnaissance des gestes expressifs est mis en place afin de reconnaitre les ´emotions des per-sonnes `a travers leurs gestes. Une deuxi `eme contri-bution consiste en le choix d’un descripteur de mou-vement global bas ´e sur les caract ´eristiques locales propos ´ees dans la premi `ere approche afin de d ´ecrire l’enti `eret ´e du geste. La composante Effort de LMA est quantifi ´ee afin de d ´ecrire l’expressivit ´e du geste avec ses 4 facteurs (espace, temps, poids et flux). La classification des gestes expressifs est r ´ealis ´ee avec 4 m ´ethodes d’apprentissage automatique r ´eput ´ees (les for ˆets d’arbres d ´ecisionnels, le perceptron mul-ticouches, les machines `a vecteurs de support: un-contre-un et un-contre-tous). Une ´etude comparative est faite entre ces 4 m ´ethodes afin de choisir la meilleure. L’approche est valid ´ee avec des bases pu-bliques et notre propre base des gestes expressifs. La troisi `eme approche consiste en une ´etude statis-tique bas ´ee sur la perception humaine afin d’ ´evaluer le syst `eme de reconnaissance ainsi que le descrip-teur de mouvement propos ´e. Cela permet d’estimer la capacit ´e de notre syst `eme `a pouvoir classifier et analyser les ´emotions comme un humain. Dans cette partie deux t ˆaches sont r ´ealis ´ees avec les deux clas-sifieurs (la m ´ethode d’apprentissage RDF qui a donn ´e les meilleurs r ´esultats dans la deuxi `eme approche et le classifieur humain): la classification des ´emotions et l’ ´etude de l’importance des caract ´eristiques de mou-vement pour discriminer chaque ´emotion.

human-robot interaction

Abstract : In this thesis, we deal with the problem

of gesture recognition in a human-robot interaction context. New contributions are being made on this subject. Our system consists in recognizing human gestures based on a motion analysis method that des-cribes movement in a precise way. As part of this study, a higher level module is integrated to recognize the emotions of the person through the movement of her body. Three approaches are carried out: the first deals with the recognition of dynamic gestures by ap-plying the hidden Markov model (HMM) as a classifi-cation method. A local motion descriptor is implemen-ted based on a motion analysis method, called LMA (Laban Movement Analysis), which describes the mo-vement of the person in its different aspects. Our sys-tem is invariant to the initial positions and orientations of people. A sampling algorithm has been developed in order to reduce the size of our descriptor and also adapt the data to hidden Markov models. A contribu-tion is made to HMMs to analyze the movement in two directions (its natural and opposite directions) and thus improve the classification of similar gestures. Se-veral experiments are done using public action data-bases, as well as our database composed of control gestures. In the second approach, an expressive ges-tures recognition system is set up to recognize the

emotions of people through their gestures. A second contribution consists of the choice of a global motion descriptor based on the local characteristics propo-sed in the first approach to describe the entire ges-ture. The LMA Effort component is quantified to des-cribe the expressiveness of the gesture with its four factors (space, time, weight and flow). The classifi-cation of expressive gestures is carried out with four well-known machine learning methods (random deci-sion forests, multilayer perceptron, support vector ma-chines: one-against-one and one-against-all. A com-parative study is made between these 4 methods in order to choose the best one. The approach is valida-ted with public databases and our database of expres-sive gestures. The third approach is a statistical study based on human perception to evaluate the recogni-tion system as well as the proposed morecogni-tion descrip-tor. This allows us to estimate the ability of our sys-tem to classify and analyze emotions as a human. In this part, two tasks are carried out with the two clas-sifiers (the RDF learning method that gave the best results in the second approach and the human clas-sifier): the classification of emotions and the study of the importance of our motion features to discriminate each emotion.

Universit ´e Paris-Saclay