• Aucun résultat trouvé

Evolution des campagnes

Dans le document The DART-Europe E-theses Portal (Page 31-37)

1.3 Corpus et campagnes d’évaluation (LDC - NIST)

1.3.2 Evolution des campagnes

En dehors de l’élargissement du spectre des caractéristiques du corpus (cité plus haut), les campagnes NIST ont évolué par une inflation des volume de tests. A l’heure dubig data, cette politique -coûteuse pour les participants- espère multiplier les tests de comparaison et permettre ainsi de mieux cerner certaines insuffisances particulières des systèmes.

Les paramètres de coût, pour les conditions principales, ont connu l’évolution indi-quée sur la table1.1.

2. National Institute of Standard and Technologyhttp ://www.itl.nist.gov/iad/mig/tests/sre/

3. LDC The Linguistic Data Consortium http ://www.ldc.upenn.edu/

1.3. Corpus et campagnes d’évaluation (LDC - NIST)

Jusqu’en 2008, le système pénalisait principalement les fausses alertes (une politique habituelle dans les procédures de détection d’événements rares, où la prudence est de mise). Les nouveaux paramètres depuis 2010 accentuent encore ce déséquilibre.

Il faut également noter que la fréquence a priori des tests-cibleπciblene correspond pas à celle, effective, des jeux d’évaluation, ce qui ne facilite pas l’appréciation exacte de la qualité d’un système.

Depuis la campagne d’évaluation en reconnaissance du locuteur 2012, NIST pro-pose une nouvelle DCF. Celle-ci tient compte du fait que l’apprentissage de modèles des locuteurs-cibles à partir de plusieurs de leurs segments de voix est autorisé (Bousquet et al.,2012c), ainsi que l’inclusion de locuteurs-cibles dans les données d’apprentissage des modèles de représentation. Ainsi, NIST distingue, parmi les tests-imposteur, ceux pour lesquels le locuteur proposé appartient à la liste des locuteurs-cible et ceux où il s’agit d’un inconnu vis à vis de cette liste. La nouvelle DCF calculée est :

DCF =CFRπcibletFR+CFA(1−πcible) tFA/connuπconnu+tFA|inconnu(1−πconnu)) (1.11) où πconnu est une fréquence a priori, imposée, qu’un test-imposteur porte sur un locuteur de la liste cible ettFA/connu (resp. tFA/inconnu) le taux de fausse alerte sur les test-imposteurs de locuteurs connus (resp. inconnus).

Les expériences que nous avons menées pour évaluer et comparer des méthodes sont basées sur les conditions NIST-SRE (Speaker Recognition Evaluation) 2008 et 2010 les plus largement utilisées. La mesure de performance que nous avons privilégiée est celle par EER. Son analyse dégage en effet des enseignements plus généralisables sur les méthodes employées.

Les nombreux résultats consignés dans la littérature, sur ces conditions et en terme d’EER, ont également permis une meilleure appréciation du caractère significatif de la performance d’un système.

Chapitre 2

Systèmes de vérification automatique du locuteur

Nous décrivons dans ce chapitre les étapes constitutives d’un système de VAL. Le signal de voix n’est pas traité directement par ces systèmes. La phase de "paramétrisa-tion acoustique", décrite à la sec"paramétrisa-tion2.1convertit la version numérique de ce signal en données exploitables. Les représentations vectorielles des énoncés de voix adaptées à la discrimination du locuteur sont présentées à la section2.2. Nous inventorions briè-vement un certain nombre de méthodes de représentation et de décision, avant de dé-tailler celles basées sur les lois probabilistes par mixture de gaussiennes, qui ont occupé nos recherches.

Dans ce cadre formel, les techniques de décomposition des représentations vecto-rielles en facteurs, attachés à des causes de variabilité précises, ont grandement contri-bué à la progression des systèmes. Nous décrivons ces techniques à la section2.4.

La solution i-vectors est ensuite présentée, avec les différentes modélisations et mé-triques décisionnelles qui y sont appliquées.

Afin de mieux estimer l’impact des avancées dans le domaine, les performances de systèmes successifs basés sur les mixtures de gaussiennes sont indiquées dans la dernière section.

2.1 Paramétrisation acoustique

Le signal de parole est une onde acoustique convertie en signal électrique par un mi-crophone. Ce dernier ne peut être traité directement. Après numérisation, la phase de paramétrisation acoustique a pour objectif de transformer ce signal, afin d’en extraire des caractéristiques morphologiques du conduit vocal du locuteur. La démarche adop-tée suit une voie usuelle en traitement du signal : ce dernier est découpé en séquences de durée suffisamment courte pour considérer ses paramètres périodiques comme

in-variants (pseudo-stationnarité du signal sur un bref intervalle de temps). Chaque sé-quence doit être alors résumée par un jeu de mesures prédéfini, aboutissant à une représentation vectorielle de dimension fixe de cette séquence, appelée trame (frame, feature) : la théorie de Fourier sur les fonctions périodiques permet de considérer l’onde comme une combinaison linéaire de fonctions périodiques et de la résumer par des coefficients de ces fonctions.

La prise en compte du problème de reconnaissance du locuteur dès cette phase de paramétrisation est un point important, qui a fait l’objet de nombreuses études. La dif-férenciation des locuteurs sera facilitée par une paramétrisation acoustique moins sen-sible à leurs variabilités extrinsèques : conditions d’enregistrement, bruit, variabilité intra-locuteur, ... A cet effet, des étapes de pré-traitement sont habituellement réalisées : pré-accentuation des hautes fréquences, filtrage passe-bande, ...

Les séquences de signal sont extraites sur une fenêtre temporelle glissante, avec recouvrement partiel, de durée variant généralement entre 20 et 50 millisecondes. Les trames sont constituées des vecteurs de coefficients cepstraux (coefficients de décompo-sition en série de Fourier du logarithme de la densité spectrale de puissance du signal (Bogert et al.,1963)). D’autres techniques de vectorisation, plus complémentaires que concurrentielles de l’analyse cepstrale, seront citées plus bas.

L’extraction des coefficients cepstraux est réalisée suivant deux approches ; elles ont en commun de produire des coefficients statistiquement décorrélés, cette indépendance permettant en théorie d’en limiter le volume.

La première approche utilise la transformée de Fourier rapide (FFT) sur chaque trame, puis une analyse par bancs de filtres qui est censée mieux rendre compte de la perception des fréquences par l’oreille humaine. Les fréquences centrales des coeffi-cients d’énergie obtenus sont alors fixés suivant une échelle linéaire (Linear Frequency Cepstral Coefficient : LFCC) ou une échelle Mel (Mel Frequency Cepstral Coefficient : MFCC) (Stevens et al., 1937) (Davis and Mermelstein, 1980). Enfin, une transformée en cosinus discrète (DCT) appliquée au logarithme de ces coefficients d’énergie permet de les décorréler.

La seconde approche s’appuie sur la corrélation entre les échantillons successifs de paroles, attribuable à la résonance du conduit vocal. Une prédiction linéaire (Linear Predictive Coding, LPC) permet d’estimer des coefficients supposés significatifs de l’en-veloppe spectrale. Leur transformation dans l’espace cepstral génère alors des coeffi-cients cepstraux (Linear Predictive Cepstral Coefficient : LPCC) (Atal,1974). La technique de prédiction linéaire est également utilisée pour produire des coefficients censés te-nir compte du modèle de perception humaine de la parole (Perceptual Linear Prediction, PLP)(Hermansky, 1990), en particulier la perception non linéaire des fréquences par l’oreille. Une analyse spectrale relative (RASTA) peut alors éventuellement être effec-tuée, simulant l’insensibilité de l’oreille aux variations temporelles lentes (Hermansky et al.,1991) (Hermansky et al.,1992).

Citons également l’approche VTLN (Vocal Tract Length Normalisation) (Eide and Gish, 1996) de modélisation du conduit vocal du locuteur pour extraire des paramètres

ca-2.1. Paramétrisation acoustique

ractéristiques du locuteur. Elle est actuellement utilisée dans (Singer et al.,2012) pour un système de reconnaissance du langage.

Dans tous les cas de paramétrisations précédents, seuls les premiers coefficients cepstraux sont conservés (moins d’une vingtaine en général). La paramétrisation peut être enrichie par des informations dites "dynamiques" : il s’agit des variations immé-diates du spectre. La vitesse et l’accélération de ces variations sont contenues dans les dérivées temporelles, première (∆) et seconde (∆∆), formant les coefficients habi-tuellement retenus pour tenir compte du caractère dynamique du signal (Furui,1981).

Remarquons que ces dérivées sont estimées localement par l’étude du taux d’accroisse-ment sur des séries de trames consécutives et que des coefficients suppléd’accroisse-mentaires de mesure dynamique ont été proposés (Fredouille,2000) (Magrin-Chagnolleau,1997), les coefficients∆et∆∆restant toutefois les plus répandus.

Le vecteur acoustique d’une trame contient au final un nombre de coefficients va-riant en général entre 30 et 60. Le LIA, par exemple, utilise actuellement les 19 premiers coefficients cepstraux de fréquence linéaire (LFCC), leurs 19∆correspondants, 11 ∆∆

et enfin le∆d’énergie, soit 50 valeurs par trame.

D’autres méthodes de paramétrisation ont été proposées. Certaines visent à mieux prendre en compte certaines informations phonologiques de haut niveau : c’est le cas des paramétrisations prosodiques qui s’appuient sur des indices et paramètres tels que les formants F0, les intensités, "vallées" des éléments voisés, durées des mots, états ou pauses, ... (L. Ferrer and and et E. Shriberg,2010) (Shriberg and Stolcke,2008). Il existe également des paramétrisations basées sur les niveaux glottique, segmental ou lexi-cal (Campbell et al.,2004). Ces paramétrisations sont utilisées par certains laboratoires (Scheffer et al., 2011), mais toujours en combinaison avec des systèmes basés sur les paramètres acoustiques -en général les coefficients cepstraux-, pour gagner en perfor-mance.

La paramétrisation ayant ici pour seul objectif la reconnaissance du locuteur, il est indispensable de faciliter la différenciation des locuteurs en éliminant la part la plus importante possible de données non-informatives. L’objectif de la sélection de trames (Voice Activity Detection : VAD) est de supprimer les parts de bruit, silence qui risquent de perturber les étapes de modélisation. Chaque trame issue du signal est soumise à un classifieur, visant à la conserver ou à l’éliminer. La décision est effectuée à partir de la quantité d’énergie de la trame : les périodes de "bruit seul" et celles de "parole dominante + bruit", définies comme celles de faible ou forte énergie, sont modélisées par des lois gaussiennes, entraînant une décision par seuil (Magrin-Chagnolleau,1997).

D’autres classifieurs, basés sur des machines à vecteur de support SVM (Vapnik,1998) (Vapnik,1995) (Enqing et al.,2002) (Larcher,2009) ou des réseaux de neurones (Ikedo, 1998) ont également été proposés.

Une dernière étape de normalisation des vecteurs acoustiques est, en général, effec-tuée. Elle consiste en un centrage-réduction des coefficients cepstraux, par soustraction de leur moyenne (Cepstral Mean Substraction CMS) et éventuellement division par leur

écart-type. Combinées, ces deux opérations ramènent les paramètres de tendance cen-trale de l’échantillon aléatoire aux valeurs de moyenne 0 et variance 1 d’une loi normale standard. Il a été en effet remarqué (Furui,1981) un décalage de la moyenne cepstrale induit par le type de canal de transmission. De même, des bruits peuvent occasion-ner une diminution de la variance spectrale. C’est donc un ensemble de biais induits par l’environnement de la session que cette étape de normalisation tente d’atténuer.

Citons également la technique dite defeature warping(Pelecanos and Sridharan,2001), qui centre et réduit la distribution des coefficients cepstraux suivant un principe assez courant de correspondance des fonctions de répartition.

Dans le document The DART-Europe E-theses Portal (Page 31-37)