• Aucun résultat trouvé

des lieux

2.1 Les m´ ethodes biomim´ etiques

Avant d’entrer dans le d´etail de ces m´ethodes, il convient de pr´eciser le sens du mot ”bio-mim´etique” en robotique. On retrouve ainsi les techniques bas´ees sur l’utilisation de seulement deux microphones : le biomim´etisme est ici ”g´eom´etrique”, puisque le capteur est volontairement

limit´e de fa¸con `a reproduire ext´erieurement l’apparence du syst`eme auditif humain. D’autres m´ethodes proposent de travailler avec les mˆemes indices sonores que ceux manipul´es par notre cerveau pour la localisation. Ici, le biomim´etisme devient ”algorithmique”, le nombre de mi-crophones employ´es pouvant ˆetre sup´erieur `a deux. En robotique, tr`es peu de m´ethodes `a deux microphones sont bas´ees sur l’extraction des indices auditifs habituels. En pratique, le traitement extrˆemement complexe effectu´e par le cerveau sur les informations de pression issues de nos deux oreilles s’av`ere tr`es difficile `a reproduire, si bien que la majorit´e des m´ethodes que nous allons pr´esenter exploite plus de deux microphones. De fa¸con `a mettre en avant le parall`ele existant entre le fonctionnement de notre appareil auditif et les m´ethodes biomim´etiques propos´ees, nous proposons dans cette section d’´etudier successivement comment chaque indice auditif a d´ej`a ´et´e exploit´e en robotique.

2.1.1 Les indices interauraux

L’exploitation des indices interauraux pour la localisation en azimut a ´et´e ´etudi´ee en d´etail par l’´equipe du professeur Okuno de l’universit´e de Tokyo. De nombreux r´esultats exp´erimentaux ont ´et´e propos´es depuis 1999, obtenus sur le robot humano¨ıde SIG et SIG2 dont la structure est pr´esent´ee figure 2.1. Celui-ci fait office de banc d’essai pour l’int´egration multi-sensorielle. Il est bas´e sur une m´ecanique fournissant quatre degr´es de libert´e contrˆol´es par quatre moteurs `a courant continu. Une paire de cam´eras CCD, chacune pourvue de trois degr´es de libert´e (pan, tilt et zoom), est embarqu´ee sur la plate-forme. SIG est ´egalement ´equip´e de deux paires de

Fig. 2.1 – [Nakadaia] - A gauche : l’humano¨ıde SIG (universit´e de Tokyo et Japan Science and Technolgy Corp.). Au milieu : sa structure m´ecanique interne. A droite : d´etails montrant les microphones int´egr´es `a l’int´erieur de la tˆete et le placement des cam´eras.

microphones omnidirectionnels : l’une est plac´ee `a l’int´erieur de la tˆete, de fa¸con `a enregistrer les sons internes au robot provoqu´es par les moteurs, l’autre se situe `a l’ext´erieur pour la per-ception ext´eroceptive. L’ensemble de la m´ecanique est cach´e par une carcasse externe jouant le rˆole de tˆete et visant `a isoler, dans une certaine mesure, les bruits des moteurs ´emis `a l’int´e-rieur du robot [Nakadaib]. ´Evidemment, cette isolation phonique n’est pas parfaite ; un filtre adaptatif exploitant les sorties des deux microphones internes permet de supprimer le bruit des

2.1. Les m´ethodes biomim´etiques moteurs dans les signaux per¸cus `a l’ext´erieur du robot. Il devient donc envisageable d’´ecouter pendant un mouvement, y compris si celui-ci s’av`ere bruyant : on parle alors d’audition ac-tive [Nakadaia]. Cette possibilit´e est originale, puisque la plupart des m´ethodes pr´ec´edentes exploitant des donn´ees sonores ´etaient bas´ees sur une approche du type Arrˆet-Ecoute-Action.

Dans ce cadre, [Huanga] propose de comparer la puissance des signaux de sortie de trois microphones plac´es en triangle afin de d´eterminer l’azimut de la source. Toujours pendant des phases sans mouvement, le robot humano¨ıde de l’universit´e de Waseda exploite la fonction de transfert de la tˆete (Head Related Transfer Function, ou HRTF) en environnement contrˆol´e pour localiser un unique locuteur [Matsusaka], tandis que l’humano¨ıde COG du MIT est dot´e de deux micros embarqu´es dans un pavillon simplifi´e et utilise un apprentissage visuo/auditif pour la localisation de source sonore [Brooks].

L’objectif de toutes ces m´ethodes est d’aboutir aux mˆemes performances que le syst`eme auditif humain en terme d’extraction, reconnaissance et localisation. L’ensemble de ces trois fonctionnalit´es ´el´ementaires nous permet en effet d’analyser les donn´ees sonores en provenance du monde ext´erieur. En robotique,l’analyse de sc`ene auditive (Computational Auditory Scene Analysis, ou CASA) fournit un cadre de travail pour l’´etude de ces ph´enom`enes [Brown].

Son objectif est la compr´ehension d’une mixture de sons (extraction) pouvant ˆetre constitu´ee de voix, de bruit, de musique, etc. Une telle analyse n´ecessite non seulement l’interpr´etation de la signification d’une donn´ee sonore sp´ecifique (reconnaissance), mais aussi la d´etermination des relations g´eom´etriques existant entre les sources (localisation). D`es lors, ˆetre capable d’´ecouter en mouvement peut permettre de compl´eter les autres modalit´es ext´eroceptives ”habituelles”

pour obtenir d’avantage d’informations sur la sc`ene sonore.

De tous les indices sonores extraits `a partir de deux microphones, les indices interauraux demeurent les plus exploit´es en robotique. Les mesures exp´erimentales des diff´erences interau-rales en phase (IPD) ∆ϕexp ou/et en amplitude (ILD) ∆ρexp permettent en effet d’aboutir, `a partir de seulement deux microphones et de calculs simples, `a une localisation en azimut. No-tonsSPg(f) etSPd(f) les transform´ees de Fourier des signaux re¸cus par les capteurs gauche et droite respectivement. Les IPD ∆ϕexp(f) et ILD ∆ρexp(f) exp´erimentaux sont alors simplement d´etermin´es par les expressions :

∆ϕexp(f) = Arg SPg(f)

−Arg SPd(f)

∆ρexp(f) = 20 log10|SPg(f)|

|SPd(f)|. (2.1)

L’enjeu est donc ensuite, `a partir des mesures exp´erimentales de ∆ϕexp et ∆ρexp, de d´e-terminer l’azimut de la source sonore. Ce passage peut s’effectuer rigoureusement en identifiant pr´ealablement la HRTF `a partir de mesures impulsionnelles en chambre an´echo¨ıque. Les signaux re¸cus par les microphones peuvent alors ˆetre exprim´es th´eoriquement tout en tenant compte des r´eflexions et diffusions de l’onde acoustique provoqu´ees par la pr´esence ´eventuelle d’une tˆete ou de tout autre ´el´ement du robot. Cependant, en environnement r´eel, la HRTF doit inclure la r´eponse acoustique de la pi`ece dans laquelle se situe le robot. Son utilisation est donc de fait limit´ee `a un environnement maˆıtris´e et identifi´e. Il est par cons´equent n´ecessaire d’´etablir un autre moyen pour d´eterminer, `a partir des indices interauraux, l’origine d’un son.

2.1.1.1 Mod`eles pour la d´etermination des indices interauraux

Afin d’´etablir une relation simple entre la position de la source sonore `a localiser et les valeurs mesur´ees des indices interauraux (2.1), il est n´ecessaire de poss´eder un mod`ele de la propagation permettant de relier leur valeur th´eorique `a l’azimutθ `a d´eterminer. Diff´erents mod`eles plus ou moins complexes ont ´et´e propos´es. Ils sont examin´es et compar´es ci-dessous.

Cam1 Cam2

Fig. 2.2 – [Nakadai] - G´eom´etrie ´epipolaire auditive. A gauche : parall`ele avec la g´eom´etrie

´epipolaire en vision. Au centre : g´eom´etrie ´epipolaire auditive. A droite : g´eom´etrie ´epipolaire auditive corrig´ee, prenant en compte la pr´esence de la tˆete.

Un mod`ele ´el´ementaire En vision par ordinateur, la contrainte ´epipolaire permet de simpli-fier la recherche de points homologues dans une paire d’images st´er´eoscopiques pour ensuite, par triangulation, aboutir `a une localisation 3D. Lag´eom´etrie ´epipolaire auditive (Auditory Epipolar Geometry, ou AEG) propos´ee par [Nakadaib] peut ˆetre vue comme une extension na¨ıve de la g´eom´etrie ´epipolaire utilis´ee en vision. Une repr´esentation de ces deux g´eom´etries est repr´esent´ee sur la figure 2.2, o`uθrepr´esente l’azimut `a d´eterminer de la source plac´ee enP. L’AEG consiste

`

a relier, pour chaque fr´equencef, la diff´erence interaurale en phase ∆ϕAEG `a l’azimut θpar la formule ´el´ementaire [Nakadai]

∆ϕAEG(θ, f) = 2πf d

c cosθ, (2.2)

o`ucd´esigne la vitesse du son etdl’espacement entre les deux microphones. Notons que l’´equation (2.2) suppose implicitement que la sourceP se situe en champ lointain et que donc la distance l d´efinie sur la figure 2.2 tend vers l’infini.

L’avantage principal de cette formulation r´eside dans l’absence de l’utilisation de la HRTF : aucune identification n’est n´ecessaire et la comparaison de l’IPD mesur´ee ∆ϕexp avec l’IPD th´eorique ∆ϕAEG par inversion de (2.2) permet d’approximer tr`es simplement l’azimut θ. Ce-pendant, si le mod`ele propos´e est int´eressant du point de vue de sa complexit´e calculatoire, il ne permet pas de d´ecrire les modifications induites sur les mesures exp´erimentales par la tˆete du robot plac´ee entre les deux microphones. Ceci est illustr´e sur les figures 2.3(a) et 2.3(b), o`u les mesures exp´erimentales ∆ϕexp, en traits ´epais, effectu´ees en pr´esence ou non de la tˆete, sont compar´ees aux valeurs, en traits fins, pr´edites par le mod`ele de l’AEG. Sans surprise, la

2.1. Les m´ethodes biomim´etiques

(a) R´esultats en chambre an´echo¨ıque sans la tˆete

(b) R´esultats en chambre an´echo¨ıque avec la tˆete

Fig.2.3 – [Nakadai] - Illustration de l’importance du rˆole de la tˆete dans la modification des mesures exp´erimentales de l’IPD.

pr´esence des ph´enom`enes de r´eflexions et diffusions vient perturber sensiblement les valeurs des IPDs mesur´es. Cependant, notons que les mesures obtenues sans la tˆete montrent une grande ressemblance avec les valeurs donn´ees par le mod`ele simple de la g´eom´etrie ´epipolaire auditive.

Ce mˆeme mod`ele, pour les raisons ´evoqu´ees pr´ec´edemment, perd tr`es nettement en pr´ecision pour des fr´equences sup´erieures `a 300Hz lorsque la tˆete est pr´esente. Il est donc n´ecessaire de proposer un second mod`ele prenant cette fois explicitement en compte sa pr´esence.

Un second mod`ele simple prenant en compte la pr´esence de la tˆete Afin d’obtenir une plus grande concordance avec les donn´ees exp´erimentales, [Nakadai] et [Nakadaia] proposent une g´eom´etrie ´epipolaire auditive modifi´ee (Revised Auditory Epipolar Geometry, ou RAEG), prenant en compte, dans une certaine mesure, l’existence de la tˆete. Celle-ci est repr´esent´ee par un demi-disque dans le plan azimutal comme indiqu´e sur la figure 2.2, et peut donc occulter la source. Dans ce cas, l’onde sonore ne suit pas n´ecessairement un chemin direct vers les deux oreilles, mais peut ˆetre amen´ee `a se propager le long de la tˆete. Cet effet de ”guide d’onde” conduit na¨ıvement `a l’´ecriture suivante de l’IPD ∆ϕRAEG(θ, f) :

∆ϕRAEG(θ, f) = πf d

c (θ+ sinθ). (2.3)

La figure 2.4(a) montre que ce nouveau mod`ele permet de mieux d´ecrire les mesures ex-p´erimentales obtenues en chambre an´echo¨ıque, en particulier dans le domaine de fr´equence 500 Hz−800 Hz. Cependant, bien qu’il prenne en compte une partie de la diffusion induite par la pr´esence de la tˆete, les r´eflexions caus´ees par la pr´esence d’´eventuels murs ou obstacles ne sont pas captur´ees. Ainsi, si les mesures exp´erimentales ∆ϕexp de l’IPD sont effectu´ees dans une chambre acoustiquement pr´epar´ee, mais non an´echo¨ıque, les r´esultats obtenus restent tr`es mauvais. La figure 2.4(b) montre les diff´erences mesur´ees dans ces deux environnements acous-tiques distincts. Cette fois, le mod`ele simple de la g´eom´etrie ´epipolaire r´evis´ee ne d´ecrit pas les distorsions caus´ees par l’acoustique de la pi`ece, et il est tr`es difficile d’effectuer une correspon-dance entre l’IPD mesur´ee ∆ϕexp et l’IPD th´eorique ∆ϕRAEG. Nous constatons ´egalement que les fr´equences sup´erieures `a 1200Hzne sont plus du tout d´ecrites correctement. A partir de cette

(a) R´esultats comparatifs avec l’AEG mo-difi´e

(b) Mesures en environnement acoustique pr´epar´e

Fig.2.4 – [Nakadai] - Mesures de l’IPD dans diff´erentes conditions acoustique, et comparaison avec le mod`ele donn´e par la g´eom´etrie ´epipolaire auditive (AEG).

limite, la valeur de l’IPD d´epasse±2π et devient ambigu¨e, ph´enom`ene li´e `a l’espacementdentre les deux microphones (cf. chapitre pr´ec´edent, page 20).

En conclusion, l’IPD ne peut donc pas ˆetre utilis´ee pour localiser les hautes fr´equences. On retrouve l`a le mˆeme type de comportement que celui observ´e chez l’homme, o`u le cerveau base la localisation des hautes fr´equences sur l’ILD seulement. [Nakadai] propose le mˆeme type de distinction dans l’utilisation des indices interauraux, et int`egre l’ILD pour les fr´equences su-p´erieures `a environ 1500Hz. Cependant, l’obtention d’un mod`ele simple d´ecrivant les variations th´eoriques de l’ILD s’av`ere beaucoup moins imm´ediat que pour l’IPD. [Huang] propose d’en repr´esenter les variations en faisant l’hypoth`ese que l’´energie de l’onde sonore d´ecroˆıt de mani`ere inversement proportionnelle `a la distance qu’elle parcourt `a la surface d’une tˆete sph´erique. Ce mod`ele de simulation simple ne peut d´ecrire que les tendances des courbes exp´erimentales rele-v´ees en chambre an´echo¨ıque, si bien que l’erreur de mod´elisation s’av`ere parfois tr`es importante.

De ce fait, [Nakadai] propose d’utiliser l’ILD uniquement pour d´etecter si un son provient de la droite ou de la gauche, par une simple comparaison des puissances des signaux re¸cus, tandis que l’IPD produit une estimation permanente de l’azimut grˆace `a l’AEG. Il est donc opportun de proposer un troisi`eme mod`ele permettant de d´ecrire aussi fid`element que possible les ´evolutions de l’ILD en fonction de l’azimut.

Un troisi`eme mod`ele plus d´evelopp´e bas´e sur la diffusion acoustique [Handzel] et [Nakadai] exploitent tous deux la th´eorie de la diffusion acoustique (Scattering Theory, ou ST) pour exprimer le champ de pression capt´e par deux microphones plac´es diam´etralement de part et d’autre d’une sph`ere suppos´ee rigide. [Handzel] propose de valider exp´erimentalement ce formalisme sur une sph`ere en PVC d’un diam`etre d’environ 9.5cm, cf. figure 2.5. Une telle sph`ere rigide permet donc de mod´eliser plus finement les propri´et´es de diffusion acoustique de la tˆete. En particulier, quand une source se situe sur le cˆot´e, l’onde de pression parcourant l’arri`ere de la tˆete vient modifier le signal per¸cu par le microphone plac´e du cˆot´e oppos´e. La g´eom´etrie

´epipolaire ne prend pas en compte ce ph´enom`ene de diffusion et se r´ev`ele donc incompl`ete.

La th´eorie de la diffusion est utilis´ee ici pour exprimer la valeur du potentiel des vitesses φ(r), dont la d´efinition a ´et´e introduite dans le chapitre pr´ec´edent page 9, en fonction des ondes

2.1. Les m´ethodes biomim´etiques

Fig. 2.5 – [Handzel] - Plateforme exp´erimentale permettant d’´etudier l’influence de la pr´e-sence d’une tˆete entre deux microphones. La tˆete est ici ´emul´ee par une sph`ere en plastique, d’un rayon d’environ 10 cm, dont les pˆoles sont plats.

acoustiques incidente et r´efl´echie `a la surface de la sph`ere. Ainsi, en supposant qu’une source sonore ´emet depuis la position rep´er´ee par (r0,0,0) dans le syst`eme de coordonn´ees sph´eriques d´efini figure 1.3 page 12, le potentiel des vitessesφ(r) =φ(θ, f) s’´ecrit [Ziomek]

φ(θ, f) = X

m=0

(−j)m(2m+ 1)jm kd 2

Pm(cosθ)h(2)m (kr0)

h(2)m(kd2), (2.4) o`u jm(.) d´esigne la fonction sph´erique de Bessel de premi`ere esp`ece et d’ordrem, tandis que la notation repr´esente l’op´eration de d´erivation. Si les deux microphones gauche et droite sont plac´es en Mg = (d/2, π/2,0) et Md = (d/2,−π/2,0), alors les indices interauraux sont donn´es par [Nakadai] :

∆ϕST(θ, f) = Arg φg(θ, f)

−Arg φd(θ, f)

∆ρST(θ, f) = 20 log10g(θ, f)|

d(θ, f)|, (2.5)

avec φg(θ, f) = φ(π

2 −θ, f) et φd(θ, f) =φ(−π

2 −θ, f) (2.6)

Contrairement au mod`ele bas´e sur la g´eom´etrie ´epipolaire, la th´eorie de la diffusion permet donc l’obtention d’expressions th´eoriquement mieux ´etay´ees de l’IPD et ILD en fonction de l’azimutθ, et l’inversion de ces formules pourra ˆetre utilis´ee pour la localisation. La figure 2.6 propose une comparaison de ces deux mod`eles, et montre que la prise en compte de la diffusion acoustique permet d’approximer avec nettement moins d’erreur la valeur de l’IPD mesur´ee en chambre an´echo¨ıque. Cependant, bien que ceci ne soit pas mentionn´e dans [Nakadai], le mod`ele de la diffusion acoustique ne peut toujours pas prendre en compte l’acoustique de la pi`ece, et la comparaison entre les IPD/ILD mesur´ees et les IPD/ILD th´eoriques sera tr`es probablement fortement perturb´ee en environnement r´eel.

Autres approches D’autres utilisations simples des indices interauraux ont ´et´e propos´ees dans la communaut´e robotique. Par exemple, [Berglund] pr´esente un syst`eme construit `a partir d’un r´eseau de neurones et impl´ement´e sur un robot Aibo de Sony. Les IPDs et ILDs sont d´etermin´ees, pour chaque fr´equence, `a partir de (2.1), tandis que l’ITD (mesure du d´ecalage temporel entre deux signaux) provient d’un calcul de corr´elation. Enfin, un quatri`eme indice

(a) Mesures de l’IPD en chambre an´echo¨ıque, avec la tˆete

(b) Mod`ele bas´e sur la th´eorie de la diffusion

(c) R´esultats comparatifs entre la th´eorie de la diffusion et la RAEG

Fig. 2.6 – [Nakadai] - Mesures de l’IPD sur le robot SIG, et comparaison entre le mod`ele donn´e par la g´eom´etrie ´epipolaire auditive (AEG) et la th´eorie de la diffusion.

interaural est introduit. Appel´ediff´erence relative interaurale en amplitude(Relative Interaural Level Difference, ou RILD), il repr´esente une normalisation de l’ILD par rapport `a la puissance du signal re¸cu `a la fr´equence consid´er´ee. L’ensemble de ces indices interauraux est ensuite re-group´e en un unique vecteur d’entr´ee du r´eseau de neurones, puis est utilis´e dans la proc´edure d’apprentissage.

Une autre approche, propos´ee dans [Cavaco], est bas´ee uniquement sur les ITDs. Les signaux issus des deux microphones sont tout d’abord trait´es par une banque de filtres de Bessel telle que le ii`eme filtre poss`ede une bande passante Bi = [f1/2i−1, f2/2i−1], les deux fr´equences f1 etf2 v´erifiant f1 > f2 > f1/2. Ensuite, chacune des sorties des filtres est utilis´ee de fa¸con `a calculer l’ITD par une simple mesure du point de passage `a z´ero. Bien que cette m´ethode soit extrˆemement simple, elle n´ecessite de fixer arbitrairement des seuils de d´etection et s’av`ere tr`es sensible au bruit venant modifier les points de passage `a z´ero des signaux.

2.1.1.2 Strat´egies de localisation

Nous avons d´etaill´e dans la partie pr´ec´edente la fa¸con dont les indices interauraux peuvent ˆetre reli´es th´eoriquement `a l’azimut de la source. Nous allons maintenant parcourir les diff´erentes m´ethodes permettant, `a partir des diff´erents mod`eles pr´esent´es pr´ec´edemment, de localiser une source sonore. [Nakadaia] propose un syst`eme complet, bas´e sur le mod`ele de la diffusion acoustique de la tˆete, pour d´eterminer l’origine g´eom´etrique d’un son et l’extraire de l’ensemble de la mixture sonore de l’environnement. Ce syst`eme, appel´e “Active Direction Pass Filter”

(ADPF), est repr´esent´e sur la figure 2.7. Les signaux re¸cus par les deux microphones sont d’abord d´ecompos´es dans le domaine fr´equentiel par une FFT. Les pics du spectre obtenu sont ensuite utilis´es pour la localisation comme suit. Pour des fr´equences inf´erieures `a fth = 1500Hz, le syst`eme calcule, pour chaque valeur possible de θ, l’IPD th´eorique ∆ϕST(θ, f) pr´edit selon le mod`ele (2.4). Une premi`ere fonction de coˆut dIP D est alors construite [Nakadaia] :

dIP D(θ) = 1 nf≤fth

fth

X

f=fmin

1

f ∆ϕST(θ, f)−∆ϕ(f)2

, (2.7)

o`u ∆ϕ(f) repr´esente la mesure exp´erimentale de l’IPD, etnf≤fth le nombre d’harmoniques dont la fr´equence est inf´erieure `a fth. De la mˆeme fa¸con, pour les fr´equences sup´erieures `a fth, une