Les forêts d'arbres décisionnels - Reconnaissance des gestes expressifs inspirée du modèle LMA

Phase d'entrainement

Les forêts d'arbres décisionnels ou forêts aléatoires sont des techniques d'apprentissage automatique proposées en 2001 par Leo Breiman [Breiman, 2001]. Cet algorithme eectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de données légèrement diérents. Un arbre de décision binaire générique peut être décrit récursivement par un n÷ud n, appelé soit un n÷ud terminal, soit un n÷ud divisé, comme indiqué dans la Figure D.1. Si le n÷ud n est terminal (représenté en gris sur la Figure D.1), alors on lui associe une distribution terminale, qui consiste soit en une probabilité d'assignation P (c|x) pour chaque classe c ∈ {1, . . . , C}. D'un autre côté, si le n÷ud n n'est pas terminal, il est appelé un n÷ud de division (n÷uds verts sur la Figure D.1) et contient une fonction de division paramétrique associé à un seuil pour le diviser en deux n÷uds ls. Donc à chaque pas du partitionnement, on découpe une partie de l'espace en deux sous parties. On associe alors naturellement un arbre binaire à la partition construite. Les n÷uds de l'arbre sont associés aux éléments de la partition, et ainsi de suite jusqu'à atteindre la taille maximale de l'arbre. Donc commençant par la racine de l'arbre qui contient l'espace d'entrée tout entier E, la règle de partitionnement consiste à construire deux sous-parties EL et ERcomme suit : EL= x ∈ E|xi < θi

et ER= x ∈ E|x_i≥ θ_i. Le couple (i, θi)est choisi de sorte que chaque n÷ud ls soit le plus homogène possible.

L'homogénéité d'un n÷ud N est généralement basée sur une mesure d'impureté, qui dépend du degré d'homogénéité des échantillons appartenant au n÷ud N. L'impureté est minimale lorsque les échantillons qui composent le noeud N appartiennent à la même classe, et elle est maximale lorsque les classes sont uniformément distribuées dans un n÷ud avec la même proportion. Les deux mesures standard d'impureté d'un n÷ud i sont :

Le gain d'information qui consiste à mesurer la quantité d'information nécessaire pour dé-terminer la classe d'un échantillon. Il est exprimé en fonction de l'entropie de Shannon :

I(i) = K X k=1 n_ki N_i ^{log 2} n_ki N_i (D.1)

K est le nombre des classes, nki représente l'eectif de la classe k dans le n÷ud i, Ni corres-pond au nombre des échantillons dans le n÷ud de division i.

L'indice de Gini d'un noeud i est calculé de la manière suivante : I(i) = 1 − K X k=1 (ⁿ^ki N_i⁾ 2 (D.2)

Le changement d'impureté dans le n÷ud de division i : ∆I(i) = I(i) −^Gⁱ

I(g_i) −^Dⁱ Ni

I(d_i) (D.3)

gauche, avec l'indice di et gi. Formellement, le critère ∆I cherche à maximiser la diérence d'impu-reté entre les échantillons du n÷ud i et les échantillons des deux n÷uds ls. Nous choisissons donc la caractéristique et le seuil qui minimise l'impureté du noeud par rapport à la classe cible.

Phase de prédiction

Considérons un ensemble de données d'apprentissage E constitué de n échantillons, utilisé pour dé-river des règles de prédiction en appliquant l'algorithme RF avec un nombre d'arbres T . Idéalement, la performance de ces règles de prédiction est estimée en se basant sur une base de test indépendante, notée Dtest, constituée d'échantillons de test ntest . Considérant le ième échantillon de l'ensemble de données de test (i = 1, . . . , ntest), nous notons sa réponse réelle, yi, qui présente une étiquette binaire 0 contre 1 (dans le cas d'une classication binaire). La valeur prédite de la sortie produite par l'arbre t (avec t = 1, . . . , T ) est noté ˆyit, où ˆyi est la valeur prédite de la sortie par toute la forêt aléatoire. ˆ y_i= ¹ T T X t=1 I(ˆy_it= 1) (D.4)

Titre : Reconnaissance des gestes expressifs inspir ´ee du mod `ele LMA pour une interaction naturelle

Homme-Robot

Mots cl és : gestes corporels expressifs, émotions, mod èle LMA, apprentissage supervis é, reconnaissance

des gestes, interaction homme-robot

R ésum é : Dans cette th èse, nous traitons le

probl ème de la reconnaissance des gestes dans un contexte d’interaction homme-robot. De nou-velles contributions sont apport ées à ce sujet. Notre syst ème consiste à reconnaitre les gestes humains en se basant sur une m éthode d’analyse de mou-vement qui d écrit le geste humain d’une mani ère pr écise. Dans le cadre de cette étude, un module de niveau sup érieur est int égr é afin de reconnaˆıtre les émotions de la personne à travers le mouve-ment de son corps. Trois approches sont r éalis ées: la premi ère porte sur la reconnaissance des gestes dy-namiques en appliquant le mod èle de Markov cach é (MMC) comme m éthode de classification. Un descrip-teur de mouvement local est impl ément é bas é sur une m éthode d’analyse de mouvement, nomm ée LMA (Laban Movement Analysis) qui permet de d écrire le mouvement de la personne dans ses diff érents as-pects. Notre syst ème est invariant aux positions et orientations initiales des personnes. Un algorithme d’ échantillonnage a ét é d évelopp é afin de r éduire la taille de notre descripteur et aussi adapter les donn ées aux mod èles de Markov cach és. Une contri-bution est r éalis ée aux MMCs pour analyser le mou-vement dans deux sens (son sens naturel et le sens inverse) et ainsi am éliorer la classification des gestes similaires. Plusieurs exp ériences sont faites en utili-sant des bases de donn ées d’actions publiques, ainsi que notre base de donn ées compos ée de gestes de contr ôle. Dans la seconde approche, un syst ème

de reconnaissance des gestes expressifs est mis en place afin de reconnaitre les émotions des per-sonnes à travers leurs gestes. Une deuxi ème contri-bution consiste en le choix d’un descripteur de mou-vement global bas é sur les caract éristiques locales propos ées dans la premi ère approche afin de d écrire l’enti èret é du geste. La composante Effort de LMA est quantifi ée afin de d écrire l’expressivit é du geste avec ses 4 facteurs (espace, temps, poids et flux). La classification des gestes expressifs est r éalis ée avec 4 m éthodes d’apprentissage automatique r éput ées (les for êts d’arbres d écisionnels, le perceptron mul-ticouches, les machines à vecteurs de support: un-contre-un et un-contre-tous). Une étude comparative est faite entre ces 4 m éthodes afin de choisir la meilleure. L’approche est valid ée avec des bases pu-bliques et notre propre base des gestes expressifs. La troisi ème approche consiste en une étude statis-tique bas ée sur la perception humaine afin d’ évaluer le syst ème de reconnaissance ainsi que le descrip-teur de mouvement propos é. Cela permet d’estimer la capacit é de notre syst ème à pouvoir classifier et analyser les émotions comme un humain. Dans cette partie deux t âches sont r éalis ées avec les deux clas-sifieurs (la m éthode d’apprentissage RDF qui a donn é les meilleurs r ésultats dans la deuxi ème approche et le classifieur humain): la classification des émotions et l’ étude de l’importance des caract éristiques de mou-vement pour discriminer chaque émotion.

human-robot interaction

Abstract : In this thesis, we deal with the problem

of gesture recognition in a human-robot interaction context. New contributions are being made on this subject. Our system consists in recognizing human gestures based on a motion analysis method that des-cribes movement in a precise way. As part of this study, a higher level module is integrated to recognize the emotions of the person through the movement of her body. Three approaches are carried out: the first deals with the recognition of dynamic gestures by ap-plying the hidden Markov model (HMM) as a classifi-cation method. A local motion descriptor is implemen-ted based on a motion analysis method, called LMA (Laban Movement Analysis), which describes the mo-vement of the person in its different aspects. Our sys-tem is invariant to the initial positions and orientations of people. A sampling algorithm has been developed in order to reduce the size of our descriptor and also adapt the data to hidden Markov models. A contribu-tion is made to HMMs to analyze the movement in two directions (its natural and opposite directions) and thus improve the classification of similar gestures. Se-veral experiments are done using public action data-bases, as well as our database composed of control gestures. In the second approach, an expressive ges-tures recognition system is set up to recognize the

emotions of people through their gestures. A second contribution consists of the choice of a global motion descriptor based on the local characteristics propo-sed in the first approach to describe the entire ges-ture. The LMA Effort component is quantified to des-cribe the expressiveness of the gesture with its four factors (space, time, weight and flow). The classifi-cation of expressive gestures is carried out with four well-known machine learning methods (random deci-sion forests, multilayer perceptron, support vector ma-chines: one-against-one and one-against-all. A com-parative study is made between these 4 methods in order to choose the best one. The approach is valida-ted with public databases and our database of expres-sive gestures. The third approach is a statistical study based on human perception to evaluate the recogni-tion system as well as the proposed morecogni-tion descrip-tor. This allows us to estimate the ability of our sys-tem to classify and analyze emotions as a human. In this part, two tasks are carried out with the two clas-sifiers (the RDF learning method that gave the best results in the second approach and the human clas-sifier): the classification of emotions and the study of the importance of our motion features to discriminate each emotion.

Universit ´e Paris-Saclay

Dans le document Reconnaissance des gestes expressifs inspirée du modèle LMA pour une interaction naturelle homme-robot (Page 193-198)