• Aucun résultat trouvé

1.4 Focus sur la phase de paramétrisation

1.4.1 Analyses cepstrales

Les paramètres issus d’analyses cepstrales sont utilisés dans tous les systèmes de vérification du locuteur. Nous pouvons en distinguer différents types (Furui, 1981) : les MFCC, les LFCC, les LPCC et les PLP. L’atout majeur de ces paramètres est qu’ils sontdécorrélés entre eux ((Haton et al.,2006), (Larcher, 2009)). La décorrélation des

13. Ces statistiques sont tirées des descriptions de systèmes fournies par les participants de NIST-SRE 2010 lors du workshop NIST-SRE de Brno les 24 et 25 juin 2010

FIGURE1.8 –Processus de calcul des différents paramètres cepstraux utilisés

coefficients permet de limiter le nombre de coefficients nécessaires pour définir l’espace à modéliser puisque toutes les valeurs sont indépendantes les unes des autres.Tous ces coefficients reposent sur une analyse fréquentielle trame par trame du signal.

L’information temporelle est abandonnée dans les systèmes de RAL contrairement aux systèmes de reconnaissance de la parole qui utilisent égelent ces coefficients (Haton et al.,2006).

Sélection de trames

Il est important de souligner quetoutes les trames du signal ne sont pas utilisées.

Une technique de détection d’activité vocale est employée par tous les systèmes ayant participé à NIST-SRE 2010. Cette technique consiste à classifier chacune des trames en trame deparole ou de non-parole en utilisant la quantité d’énergie.

La majorité des systèmes utilisent pour leur modèle l’ensemble des trames détectée

comme parole, mais certains systèmes utilisent des sélections plus précises. Par exem-ple, le système du SRI International (Scheffer et al.,2011) combine plusieurs systèmes dont un n’utilise queles trames issues des phonèmes nasals. Ils utilisent alors un sys-tème de transcription de la parole pour déterminer les trames qui seront utilisées. Dans le même ordre d’idée, un autre de leurs systèmes ne sélectionne queles trames en fin de groupe de souffle. Tous ces choix partent des hypothèses que ces zones sont plus porteuses d’information sur le locuteur14.

LFCC et MFCC

Les MFCC (Davis et Mermelstein, 1980) et LFCC sont le résultat d’une analyse fréquentielle du signal de parole réalisée à l’aide de calcul de spectres de Fourier à court terme sur une fenêtre temporelle. Pour les MFCC, une fois dans l’espace des fréquences, le module du spectre est filtré par un banc de filtre dont les fréquences centrales sont fixées par l’échelle Mel (Stevens et al.,1937). Cette transformation, illustrée par la Fig-ure1.9, permet de mieuxrendre compte de la perception des fréquences par l’oreille humaine. Dans le cas des LFCC, ce filtre n’est pas appliqué.

FIGURE1.9 –Banc de filtres à l’échelle Mel d’après (Haton et al.,2006)

Le logarithme de ces valeurs est ensuite calculé. La dernière étape consiste à appliquer une transformée inverse en cosinus discrète (Calliope,1989). La durée des fenêtres varie entre 20 millisecondes et 250 millisecondes selon les systèmes. La grande majorité des systèmes utilise des fenêtres de Hamming d’une durée de 20 millisecondes avec un pas

14. Les nasales sont produites en faisant passer de l’air dans la cavité nasale dont la forme est propre au locuteur ; en fin de groupe de souffle, on observe souvent un relâchement des articulateurs qui peut donner une information sur la taille du conduit vocal (Shriberg et Stolcke,2008)

de 10 millisecondes. Ce choix permet de respecter l’hypothèse de stationnarité du sig-nal mais a pour conséquence d’utiliser des trames dont la durée est bien inférieure à un segment de parole15. Le tableau1.4résume les différentes durées de fenêtres pour les paramètres cepstraux. Il est à noter que le pas de trame correspond le plus souvent à la moitié de la durée des trames.

Longueur de la trame (millisecondes) Nombre de systèmes

20 19

TABLE1.4 –Longueur de trames pour le calcul des coefficients cepstraux

La dimension des vecteurs varie en fonction des systèmes. Si le nombre de coef-ficients cepstraux fluctue entre 12 et 20, la majorité des systèmes ayant participé à NIST-SRE 2010 utilise 19 coefficients cepstraux ainsi que c0 qui correspond à l’énergie présente dans la trame de signal analysé. Il est à noter qu’en reconnaissance de la pa-role, où nous sommes principalement intéressé à rendre compte de l’enveloppe spec-trale pour reconnaître le phone prononcé, les systèmes utilisent en moyenne 12 coeffi-cients cepstraux (Haton et al.,2006). En tenant compte d’un nombre de coefficients plus grand, nous supposons récupérer également l’information sur la source du signal de parole.

Coefficients issus d’une Prédiction linéaire

Les LPCC, quant à eux, s’appuient sur la technique de prédiction linéaire (Markel et Gray,1976). Cette technique se fonde surla corrélation entre les échantillons suc-cessifs de parole, corrélation qui peut être attribuée aux résonances du conduit vocal d’après la théorie source-filtre (Fant, 1970). Ces coefficients rendent compte de l’en-veloppe spectrale. Une fois les coefficients de prédiction linéaires calculés, ceux-ci sont

15. A titre d’exemple, (Marchal,2007) cite une durée entre 50 et 150 ms pour les occlusives (Ladefoged, 2005) illustre son propos avec des spectrogramme où les voyelles ont une durée autour de 150 millisecon-des

transformés dans l’espace cepstral. La majorité des systèmes de NIST-SRE 2010 qui utilisent des LPCC a opté pour des vecteurs de 18 coefficients.

Les coefficients PLP (Furui,1981), (Hermansky,1990) permettent detenir compte de la perception non linéaire des fréquences par l’oreille humaine. Ils reposent eux aussi sur une analyse fréquentielle du signal de parole, dont les valeurs seront transformées à l’aide d’une échelle perceptive Bark (Zwicker et Feldtkeller,1981). Une transformée de Fourier inverse est ensuite appliquée sur ces coefficients afin d’obtenir les PLP. Les sys-tèmes utilisent entre 12 et 15 coefficients PLP. Cette analyse peut être renforcée par une analyse spectrale relative (RASTA) qui simule l’insensibilité de l’oreille aux variations temporelles lentes (Hermansky et al.,1991).

Informations dynamiques

La majorité des systèmes (72% des systèmes pour NIST-SRE 2010) souhaitent tenir compte d’une information dynamique dans leurs vecteurs de paramètres. Pour cela, ils utilisent les variations immédiates des paramètres acoustiques en calculant les dérivées temporelles première (∆) et seconde (∆∆) (Furui,1981). La dérivée première peut être liée àla vitesse de variation du spectretandis que la dérivée seconde rend compte del’accélération. Nous retrouvons ces calculs de∆et de∆∆avec tous les types de paramètres (cepstraux ou PLP).

1.4.2 Autres paramètres utilisés