• Aucun résultat trouvé

Ecoute permanente et robustesse de la reconnaissance de la parole 176 ´

8.4.1

Introduction

Le domaine de la reconnaissance de la parole a connu de nombreuses ´evolutions jusqu’`a pr´esent, que ce soit pour la param´etrisation du signal, la s´election des symboles, la mod´elisation des unit´es acoustiques ou encore l’agr´egation des unit´es mod´elis´ees. Certaines ´etapes ont eu plus d’impact que d’autres telles que la proposition des MFCCs [46], l’introduction des HMMs pour la mod´elisation [59, 90, 151, 152, 154, 211, 219] et l’impl´ementation des n-grammes [33, 34, 139, 181, 186, 222] pour remplacer les grammaires d´eterministes. Malgr´e ces progr`es, la tˆache reste encore tr`es d´ependante des conditions d’enregistrement, de la qualit´e et de la quantit´e des donn´ees d’apprentissage. Depuis peu, le secteur est domin´e par des entreprises mondiales qui traitent et collectent d’immenses masses de donn´ees.

Il existe un compromis lors de la construction d’un syst`eme de reconnaissance ou de classification: augmenter le nombre de classes ou l’espace de recherche influe sur la pr´ecision et le rappel de mani`ere inversement proportionnelle. En d’autres termes, un large syst`eme sera moins pr´ecis pour une tˆache donn´ee mais offrira plus de nuances/variations tandis qu’un syst`eme restreint conservera une pr´ecision importante sur les donn´ees d’apprentissage mais se d´egradera vite lorsqu’il est n´ecessaire de g´en´eraliser ou d’´etendre `a d’autres domaines. C’est de ce principe, qui sugg`ere que l’´equilibre d’un syst`eme se situe entre les deux extrˆemes, que la m´ethode propos´ee ici s’inspire.

Dans un premier temps, les conditions de la tˆache sont pr´esent´ees, avec une analyse des cons´equences sur un syst`eme de reconnaissance vocale. Sera ensuite d´ecrit la m´ethode propos´ee, la th´eorie de son application pour finir par une ´evaluation chiffr´ee de ses capacit´es.

8.4.2

Probl´ematiques

Le module de reconnaissance de la parole avait pour objectif d’ˆetre int´egr´e `a un syst`eme r´eparti dont le noeud principal est un robot assistant autonome et mobile au sein d’une maison connect´ee. La prise de son est effectu´ee avec un microphone CMT (Coincidence Microphone Technology) omnidirectionnel et sans fil. Celui-ci est plac´e au sommet du robot compagnon, soit `a environ 1,5m du sol. Le son est capt´e et transmis en continu vers le module de traitement audio dont la tˆache est de segmenter le signal, faire une hypoth`ese unique sur le contenu vocal des segments et transmettre celle-ci au gestionnaire de dialogue multi-modal.

Cette configuration a plusieurs cons´equences sur la mani`ere de traiter le flux continu de parole et de bruit captur´e par le microphone.

La premi`ere d’entre elle est la distance au locuteur qui peut varier de quelques centim`etres `a une dizaine de m`etres (selon la configuration et la taille de l’habitation

concern´ee).

La r´everb´eration sur les murs, les plafonds, les sols et les objets de taille cons´equente ajoute des signaux parasites convolu´es et retard´es.

A ces probl´ematiques spatiales vient s’ajouter celle des bruits de l’environnement: les m´edias (radio, t´el´evisions), les appareils m´enagers (machine `a laver, four `a micro-ondes, aspirateur), les bruits de portes, de cl´es, d’eau, de pas, de toux, les bris de verre, la pluie sur les fenˆetres et le toit, etc... Il existe une solution de filtrage dans laquelle on mod´elise les bruits nuisibles susceptibles d’ˆetre enten- dus et on tente de les reconnaˆıtre dans le flux et de les ´eliminer [199]. D’autres ´equipes de recherche ont plac´e des microphones aux abords des sources sonores majeures pour en soustraire l’influence dans le signal per¸cu [102, 103].

Enfin, le son provenant des moteurs du robot sur lequel est plac´e le micro- phone et de ses haut-parleurs peut ˆetre directement annul´e du fait du contrˆole sur leur activit´e.

Contrairement `a d’autres prototypes abordant les mˆemes probl´ematiques, le syst`eme ne poss`ede que d’un unique capteur mobile et de fait ne permet pas les techniques de s´eparation de sources bas´e sur les r´eseaux de microphones ou la mod´elisation de l’espace.

Pour finir, la derni`ere question qui se pose concerne l’attention du robot. En effet, en admettant que le syst`eme filtre parfaitement le bruit environnant, les effets d’´echo et ram`ene l’amplitude `a une distance constante, ce signal propre de parole pourrait correspondre `a une discussion entre deux personnes pr´esentes dans la zone de capture du microphone, `a un appel t´el´ephonique, `a un d´ebat t´el´evis´e ou tout autre ´enonc´e non destin´e `a une interaction avec la machine. Il est donc indispensable de cr´eer des m´ecanismes qui contrˆole l’attention du robot et ce de mani`ere transparente et vocale.

8.4.3

M´ethode d’´ecoute continue

La m´ethode propos´ee est construite comme suit:

Le flux audio est segment´e selon un seuil de niveau sonore et un d´elai de silence.

Un segment se d´edouble pour qu’une copie, identifi´ee par horodatage, suive la branche de reconnaissance de la parole tandis que l’autre, identifi´ee de la mˆeme fa¸con, se dirige vers celle du le classeur de sons.

Ce dernier classe le segment selon un crit`ere binaire son/parole par com- paraison `a des mod`eles de mixtures de gaussiennes. Il y a 5 classes de sons. Le r´esultat du traitement est un param`etre bool´een qui valide le segment comme n’´etant pas un bruit connu et identifiable.

La reconnaissance automatique de la parole parall´elise le traitement. Il y a n + 1 moteurs configur´es avec des mod`eles de langage diff´erents mais partageant le mˆeme lexique et les mˆemes mod`eles acoustiques. n correspond au nombre de “dialogues” diff´erents pour le syst`eme. Pour chacun d’eux, un mod`ele de langage ferm´e est cr´e´e `a partir de l’ensemble des formulations possibles pour les commandes disponibles. Le n + 1`eme moteur de reconnaissance est configur´e avec un mod`ele de langage large vocabulaire appris sur le corpus CGN: c’est le mod`ele g´en´eral (par opposition `a ceux des moteurs sp´ecifiques). Chaque moteur produit, par segment, une hypoth`ese de transcription tandis que le module g´en´eral en produit trois (mes trois meilleures).

Toutes ces hypoth`eses passent ensuite un test de similarit´e, i.e. chaque hypoth`ese est compar´ee aux 3 hypoth`eses issues du moteur g´en´eral et la distance de Levenstein normalis´ee par le nombre de mots ´etablit la mesure de similarit´e. Selon si cette distance est sup´erieure ou inf´erieure au seuil exp´erimentalement d´efini, l’hypoth`ese est valid´ee ou rejet´ee. Dans le cas o`u plus d’une hypoth`ese est valide, la distance la plus courte ou, le cas ´ech´eant, une s´election al´eatoire, d´ecide de l’unique transcription qui est le r´esultat du test de similarit´e. Si aucune hypoth`ese ne passe le test, le segment original est rejet´e.

En dernier lieu, le r´esultat du test de similarit´e est filtr´e par la valeur du bool´een produit par le classeur de sons pour le mˆeme segment initial. Si un segment a ´et´e associ´e `a une classe de son, mˆeme si la branche de reconnaissance de la parole produit une transcription, celle-ci est rejet´ee.

Deux m´ecanismes suppl´ementaires, pour am´eliorer la fiabilit´e de l’analyse sonore, ont ´et´e ajout´ees.

La premi`ere consiste en l’utilisation d’un niveau d’attention ajust´e en fonc- tion de la d´etection d’un mot cl´e combin´e `a la progression dans le dialogue.

En second, une adaptation sp´ecifique `a l’utilisateur cible est appliqu´ee. Dix phrases phon´etiquement ´equilibr´ees sont enregistr´ees par l’utilisateur servant `

a ajuster les param`etres des mod`eles acoustiques partag´es selon la m´ethode Maximum Likelihood Linear Regression [70].

8.4.4

Evaluation

Rappelons les deux axes d’am´elioration envisag´es: • Fiabilit´e de la reconnaissance

La fiabilit´e est optimis´ee de par l’adaptation acoustique au locuteur, la vali- dation ou le rejet des hypoth`eses avec la reconnaissance parall`ele, le classement des sons et le test de similarit´e. Ce denier test permet trois actions:

• Confirmer une hypoth`ese correcte • Rejeter une hypoth`ese incorrecte

• Corriger une hypoth`ese partiellement correcte

Du cˆot´e de l’attention, celle-ci est g´er´ee par, dans l’ordre, la d´etection d’un mot cl´e, une progression significative dans le dialogue, la reconnaissance parall`ele et le test de similarit´e.

Le syst`eme de traitement audio a ´et´e test´e sur des donn´ees collect´ees dans les conditions r´eelles de d´eploiement, i.e. enregistr´ees dans la maison cible. Cinq utilisateurs ont ´et´e enregistr´es, chacun pronon¸cant 58 ´enonc´es: 10 phrases phon´etiquement ´equilibr´ees pour l’adaptation acoustique, 20 phrases incluses dans les commandes disponibles, 22 phrases en dehors du p´erim`etre des dia- logues et 6 phrases qui constituent des commandes disponibles auxquelles on enl`eve un ou deux mots de mani`ere al´eatoire. Les r´esultats de la premi`ere phase de test sont montr´es dans les tables 8.1 `a 8.4.

System Recognition rate

False-positive rate Baseline + adaptation 15% 0% Baseline + adaptation + similarity test 85% 0% Table 8.1: Taux de validation pour les commandes du syst`eme

System Recognitionrate False-positiverate Baseline + adaptation 9.09% 0% Baseline + adaptation + similarity test 0% 0% Table 8.2: Taux de validation pour les commandes non incluses dans le syst`eme

System Recognition rate

False-positive rate Baseline + adaptation 16.67% 0% Baseline + adaptation + similarity test 66.67% 0%

Table 8.3: Taux de validation pour les commandes partielles du syst`eme Dans une seconde phase du syst`eme, la robustesse au bruit a ´et´e mise `a l’´epreuve. Divers types de bruits environnants ont ´et´e jou´es en mˆeme temps que les segments vocaux `a traiter.

Noise type Recognition rate False-positive rate Washing machine 74% 11%

Dutch speaker 53% 11%

Music 47% 5%

Crowd 42% 11%

Table 8.4: Taux de validation pour les commandes du syst`eme

Noise type Recognition rate False-positive rate Washing machine 0% 0%

Dutch speaker 0% 0%

Music 0% 0%

Crowd 0% 3.64%

Table 8.5: Taux de validation pour les commandes non incluses dans le syst`eme

Noise type Recognition rate False-positive rate Washing machine 40% 0%

Dutch speaker 60% 0%

Music 20% 0%

Crowd 60% 0%

Table 8.6: Taux de validation pour les commandes partielles du syst`eme

Le syst`eme atteint un taux de 85% de reconnaissance dans un environnement propre, ne donne aucun faux positifs et corrige 66% des commandes partielles. En environnement bruit´e, ces taux se d´egrade.

Plus de d´etails sur le protocole d’´evaluation et les r´esultats obtenus sont inclus dans le document de th`ese.

8.5

Compr´ehension du langage appliqu´e au dia-

Documents relatifs