• Aucun résultat trouvé

CHAPITRE 1 REVUE DE LA LITTÉRATURE

1.6 Algorithmes de fusion

Les algorithmes typiques de la fusion au niveau décisionnel sont basés sur la fusion par trames, la fusion par unification et la fusion hybride symbolique/statistique.

La fusion basée sur des trames

La fusion basée sur des trames (Vo 1996) utilise des structures de données appelées trames pour la représentation des données provenant de différentes sources ou modalités. La signification des trames est un concept d'intelligence artificielle qui a été d'abord conçu par Marvin Minsky en 1974 dans son article «A framework for representing knowledge » (Minsky 1974). Dans la proposition initiale de Minsky, les trames sont considérées comme une structure de donnée d’intelligence artificielle qui représente des sous-structures d'une idée représentant des objets comme des paires de valeur-attribut. Les trames sont alors connectées ensemble pour former l'idée.

La signification des trames dans l’interaction multimodale est un peu différente. Dans ce cas, les «idées» représentées par les trames sont étroitement liées aux opérations d'interaction. Vo et Wood donnent dans (Vo 1996) un moyen d'utiliser des trames pour l'interaction multimodale, dont les interprétations sémantiques sont fusionnées de manière incrémentielle. La Figure 1.2 explique comment Vo et Wood ont réalisé la fusion des entrées par une trame de signification. Dans leur système, des trames sont progressivement comblées par les différentes sources, puis fusionnées de manière récursive, jusqu'à ce qu’une hypothèse satisfaisante soit captée par le gestionnaire de dialogue.

Figure 1.2 Exemple de fusion des trames Tirée de (Vo 1996)

La fusion par unification

La fusion par unification (Johnston 1997) est basée sur la fusion récursive des structures attribut-valeur pour obtenir une représentation de signification logique. Un exemple est illustré dans la Figure 1.3. Il considère un utilisateur qui interagit avec une application de planification militaire et il désire créer une ligne de fil barbelé : l'utilisateur prononce « fil de barbelés » comme une intention de créer un objet de barbelés dans l'application. Le système multimodal interprète le but, mais n’exécute pas la commande car il reste encore un objet qui est la ligne. L'utilisateur peut alors utiliser la modalité stylo pour dessiner une ligne sur l'écran. Les coordonnés seront alors transmises au module de fusion. La structure étant maintenant terminée, la commande peut être exécutée par le système. Comme avec les trames, les structures attribut-valeur sont utilisées, la principale différence se situe dans la façon dont les données contradictoires sont résolues. Néanmoins, les deux algorithmes de fusion partagent les mêmes bases conceptuelles, comme Johnston et al. (Johnston 1997), qui

ont écrit : «Vo et Wood 1996 présentent une approche pour l'intégration multimodale dans le

même esprit de celui présenté ici [...]. »

Figure 1.3 Exemple sur la fusion par unification Tirée de (Johnston 1997)

La fusion hybride symbolique/statistique

La fusion hybride symbolique/statistique (Wu 2002) est une évolution de la fusion par unification qui ajoute des processus statistiques aux techniques de fusion décrites ci-dessus. Ce type de fusion hybride a été démontré pour obtenir des résultats fiables et robustes. Un exemple classique d'une technique de fusion statistique/symbolique est l’architecture

member-Team Committee (MTC) du système (Wu 1999) . Dans cet algorithme, les entrées de

la parole et des gestes sont organisées dans une « carte associative » (voir Figure 1.4) qui décrit les paires parole-gestes. À côté de cette carte associative, il y a l’algorithme basé sur des statistiques, qui est formé par trois couches : 1) la couche inférieure est composée d'éléments de reconnaissance, dont chacune est un estimateur postérieur local affecté par un sous-ensemble de variables d'entrée, un type de modèle spécifié et de complexité, et la validation d’un ensemble des données. 2) La couche supérieure est composée d’« équipes » de membres qui coopèrent afin de déterminer l'intégration des membres multiples. Le but étant de réduire l'incertitude d’intégration. 3) Enfin, les décisions des différentes équipes sont

soumises à un « comité », qui donne une décision finale après avoir comparé les distributions empiriques postérieures des différentes équipes.

Figure 1.4 Algorithme de fusion hybride Tirée de (Wu 1999)

Il est également intéressant de noter que l'apprentissage automatique a déjà été appliqué pour la fusion de données d'entrée dans des systèmes non interactifs. L'apprentissage de la machine a été principalement appliqué au niveau des fonctionnalités, avec moins de travaux réalisés sur la fusion au niveau de la décision avec l'aide de l'apprentissage automatique. Un exemple d'un tel travail est dans (Pan 1999). Celui-ci a proposé une version de « contexte- dépendant » de la méthode d'inférence bayésienne pour la fusion de données multi- sensorielles. Néanmoins, (Jaimes 2007) estime que « d'autres recherches sont encore nécessaires pour enquêter sur les modèles de fusion capables d'utiliser efficacement les signaux complémentaires fournis par de multiples modalités ».

(Jaimes 2007) a également mentionné : « La plupart des chercheurs traitent chaque canal (visuel, audio) de manière indépendante, et la fusion multimodale en est encore à ses débuts. » Ainsi, les chercheurs dans le domaine de l'interaction multimodale ont travaillé afin d'atteindre une fusion multimodale efficace, avec une considération attentive des différentes modalités disponibles et la manière dont les modalités interagissent. Outre la fusion

multimodale, l’apprentissage des machines aidera les systèmes multimodaux à prendre en compte l'aspect « communication-émotions » en fonction de leurs manifestations physiologiques (McNeill 1992), telles que les expressions faciales, les gestes (Clay 2009), les postures, le ton de la voix, la respiration, etc.

Documents relatifs