• Aucun résultat trouvé

Dans ce chapitre un système de classification de sons en environnement intérieur a été

proposé. Il se destine à être implémenté sur un robot compagnon, qui sera amené à naviguer

dans un environnement dynamique contenant des humains. Pour ce faire, nous avons défini

une taxonomie de classification de petite taille, qui pourrait permettre au robot de définir la

priorité du son entendu. L’utilisation d’une méthode de classification utilisant les fonctions de

croyance permet de classifier les éléments douteux en tant que tel, ce qui est souhaitable dans

un système permettant d’affiner la perception à l’aide d’autres capteurs.

Il existe bien sûr des moyens d’améliorer le système proposé : une des difficultés rencontrées

a été la création d’une base de données pour valider l’algorithme. La taxonomie proposée

étant particulière, basée non sur la sémantique mais sur le type général de son entendu, il

n’existe pas de base de données dans la littérature utilisable directement. Le système pourrait

bénéficier d’un travail sur une base étiquetée de très grande taille, permettant d’explorer

plus précisément les défauts d’une telle classification. Il pourrait être aussi intéressant de

travailler sur la classification en elle-même et plus précisément sur la gestion du conflit :

[LPD13] s’intéresse par exemple à la création d’une nouvelle règle de combinaison pour le

belief-KNN, en utilisant la distance du voisin considéré à l’élément à classifier pour créer

deux types de masses : une attribuant l’élément à classifier à la classe de ce voisin, et une

autre exprimant la croyance en le fait que l’élément à classifier n’appartient pas à la classe

de ce voisin. De manière plus simple, on peut imaginer de rejeter toute forme de conflit sur

l’ignorance. Toutefois, cela ne permettrait de classifier de manière juste que les éléments ayant

un nombre de voisins appartenant très majoritairement à une classe.

Ce système est adapté à un robot compagnon : en effet ces robots sont souvent équipés

de microphones. Malheureusement, ces microphones sont généralement de mauvaises qualité

(ces capteurs étant encore coûteux actuellement). De plus, un robot compagnon étant mobile,

il est équipé de moteurs, qui peuvent perturber facilement l’audition du robot et qui font de

l’audio une modalité difficile à utiliser. Une taxonomie à la sémantique peu précise est plus

intéressante, car elle permet d’utiliser la modalité comme un guide pour le robot plutôt que

comme une source d’informations précise.

Fusion audiovisuelle pour la détection

de locuteurs successifs dans une

conversation

Sommaire

3.1 Introduction . . . 41

3.2 État de l’art sur la fusion multimodale . . . 43

3.2.1 Types de fusion . . . 43

3.2.2 Méthodes de fusion . . . 45

3.3 Détection de locuteurs successifs par fusion audiovisuelle probabiliste 51

3.3.1 Présentation de l’architecture . . . 51

3.3.2 Détection de visages dans la vidéo par fusion probabiliste instantanée . . 53

3.3.3 Localisation de la source sonore . . . 60

3.3.4 Fusion audiovisuelle à l’aide d’un filtre temporel probabiliste . . . 63

3.4 Résultats . . . 69

3.4.1 Présentation du robot Reeti . . . 69

3.4.2 Résultats expérimentaux . . . 69

3.5 Conclusion . . . 76

3.1 Introduction

Ce chapitre décrit un travail qui s’inscrit dans le cadre de la perception robotique. Dans

le chapitre 2, l’importance de la modalité audio pour un robot compagnon a été abordée.

Comme on l’a dit, cette modalité apporte deux types d’information : le contenu sémantique

("Qu’ai je entendu ?"), qui a été exploré au chapitre 2, et la position de la source sonore

("D’où venait ce son ?"). C’est cette deuxième information qu’on cherche ici à exploiter, pour

détecter les locuteurs successifs au sein d’une conversation. Pour cela, on propose de fusionner

les modalités audio et vidéo.

Comme décrit chapitre 1, un robot compagnon sera amené à interagir avec les humains de

son environnement. Cela implique pour le robot de se positionner de manière à interagir de

façon "naturelle" : il a été montré que les humains ont tendance à se positionner naturellement

en cercle dont la taille dépend du nombre d’acteurs [RMSL15] en cas d’interaction. Ceci permet

aux différents acteurs d’un groupe d’avoir un accès visuel facile aux autres membres du groupe.

Dans la majorité des cas, un robot inclus comme membre d’un groupe interagissant n’aura

pas le même impact sur l’interaction qu’un membre humain : en effet, interagir naturellement

au sein d’une conversation est encore un problème ouvert, et un robot équipé de capacités

de conversation égales à celles d’un humain n’a pas encore été mis au point. Cependant,

il reste intéressant pour un robot d’avoir un comportement d’écoute similaire à celui d’un

être humain : lorsqu’une personne assiste à une interaction ou un échange, certains éléments

de la scène vont plus souvent attirer son regard. [MGP09] montre que les visages sont des

attracteurs de l’attention pour un être humain. Lorsque les humains présents sont silencieux,

les visages attirant le plus l’attention sont ceux qui bougent le plus, le mouvement étant un

autre attracteur de l’attention. Cependant, lorsqu’une personne de la scène est en train de

parler, c’est son visage qui attire directement l’attention du spectateur, comme le montre

[SPG13]. De la même manière qu’il est naturel pour un être humain d’être attiré par le visage

du locuteur courant dans une conversation, il semble logique qu’un robot porte son attention

sur la personne en train de parler lorsqu’il assiste à une scène sociale. On propose donc ici de

réaliser un système de détection de locuteurs successifs dans une conversation, à l’aide d’un

robot équipé d’une caméra RGB classique et d’une paire de microphones.

On pose donc le problème ainsi : un robot assiste à une interaction entre 2 personnes ou

plus (figure 3.1). A chaque instant, on souhaite que le robot soit capable de détecter le visage

du locuteur actuel de l’interaction, si celui-ci se trouve dans son champ de vision. A tout

moment un nouveau locuteur, visible ou non, peut se joindre à la conversation, tandis qu’un

autre peut la quitter (et donc quitter le champ visuel du robot). La scène peut être soumise

à une illumination variable.

Figure 3.1 – Exemple de situation où le robot est témoin d’une interaction

Pour cela, nous proposons un système de fusion audiovisuelle, reposant sur l’extraction

de features simples sur chacune des deux modalités. Sur la vidéo, les visages sont extraits

à l’aide d’un filtre bayésien naïf apprenant la couleur de la peau en ligne. Sur le son, la

source est localisée à l’aide d’une méthode reposant sur la corrélation croisée entre les signaux

issus des deux microphones. Ces deux informations sont ensuite fusionnées au sein d’un filtre

bayésien temporel, calculant la distribution de probabilités a posteriori sur l’espace de positions

possibles du locuteur actuel. Ces travaux ont fait l’objet d’une publication dans la conférence

VISAPP 2014[Lab+14].

Ce chapitre est divisé de la manière suivante : un état de l’art sur les méthodes de fusion

multimodale est proposé en section 3.2, puis l’architecture proposée est brièvement introduite

en section 3.3.1. Les traitements capteurs sont respectivement décrits en section 3.3.2 pour la

vidéo et 3.3.3 pour l’audio. Finalement la section 3.3.4 décrit la méthode de fusion employée,

et la section 3.4 montre des résultats de l’algorithme dans son intégralité.