• Aucun résultat trouvé

caract´ erisation d’unit´ es prosodiques

4.3 Cadre exp´ erimental

Fig. 4.3 : R´esultat de la segmentation en segments consonantiques, vocalique et de silence sur un enregistrement d’espagnol du corpus MULTEXT

A cause des propri´` et´es intrins`eques de l’algorithme (et en particulier le fait que les parties vois´ees et non vois´ees d un mˆeme phon`eme peuvent ˆetre s´epar´ees), il est quelque part incorrect de consid´erer cette segmentation comme ´etant une exacte dichotomie entre les consonnes et les voyelles.

Toutefois, elle est ind´eniablement corr´el´ee `a la structure rythmique de la parole. Nous

´etudions l’hypoth`ese que cette corr´elation peut permettre `a un mod`ele statistique de discriminer les langues suivant leur structure rythmique.

4.3 Cadre exp´ erimental

La d´etection automatique des voyelles permet l’´evaluation des diff´erents algorithmes pr´esent´es dans le chapitre 3, dans une version automatis´ee et unifi´ee, sur un corpus plus cons´equent : « Multext»[20].

Toutes les exp´eriences men´ees par la suite seront effectu´ees sur ce mˆeme corpus et avec le mˆeme protocole exp´erimental quels que soient les param`etres ´etudi´es.

4.3.1 Corpus

Les enregistrements sont extraits du corpus de paroleEurom1, r´ealis´e `a l’occasion du projet Esprit 2589 « multi-lingual speech input/output assessment, methodology and standardisation » [22]. Les enregistrements audio sont de haute qualit´e (´echantillonnage

`

a 20 KHz, 16 bits) et effectu´es en chambre an´echo¨ıque. Ils ont ´et´e contrˆol´es durant

l’ac-quisition de mani`ere `a rejeter toute donn´ee bruit´ee ou toute erreur de lecture. Multext reprend cinq des huit langues deEurom1(allemand, anglais, espagnol, fran¸cais et italien).

Les donn´ees correspondent au jeu de locuteurs « Few talker set » comprenant dix locuteurs par langue - cinq femmes et cinq hommes - et `a des passages lus de cinq phrases connect´ees par une structure s´emantique coh´erente. Il est demand´e `a chaque locuteur de lire un extrait du passage et d’essayer d’avoir l’intonation la plus naturelle possible. La dur´ee de chaque passage est d’environ 20 s et la dur´ee des enregistrements par langue est de 45 minutes en moyenne.

Un ensemble de phrases en japonais a ´et´e rajout´e `a ce corpus par Kitazawa [67]. Ces phrases sont enregistr´ees dans des conditions similaires `a celles du corpus original. Un autre ensemble de phrase en mandarin a ´egalement ´et´e enregistr´e dans les mˆemes conditions [70]. De mˆeme que pour le japonais, ces ensembles sont ajout´es au corpus initial.

Au final, le corpus se compose de sept langues : anglais, fran¸cais, allemand, italien, japonais, mandarin et espagnol.

Nous avons choisi d’utiliser le maximum de locuteurs pour l’apprentissage, c’est-`a-dire quatre hommes et quatre femmes pour toutes les langues sauf le japonais pour lequel on dispose de deux hommes et deux femmes. Les tests seront effectu´es avec les deux locuteurs restants pour chaque langue, un homme et une femme.

Notons qu’une mˆeme phrase peut ˆetre prononc´ee par deux ou trois locuteurs et que cela entraˆıne une d´ependance possible au texte dans les mod´elisations. Pour pallier `a ce d´efaut, nous avons divis´e le corpus en ensembles disjoints de test et d’apprentissage, tant au niveau des locuteurs qu’au niveau des textes prononc´es par ces mˆemes locuteurs.

Trois jeux de donn´ees sont ainsi d´etermin´es, en changeant les locuteurs de test et d’apprentissage. L’ensemble d’apprentissage est aussi l’ensemble de d´eveloppement `a cause du manque de donn´ees. Le premier jeu est d´ecrit ci-dessous (tableaux 4.2 et 4.3). Les deux autres jeux de donn´ees sont d´ecrits dans l’annexe B.

Les exp´eriences rapport´ees dans le corps de ce manuscrit correspondent `a celles effec-tu´ees sur le jeu n˚1. Le cas ´ech´eant, les exp´eriences sur les autres jeux de donn´ees seront report´ees en annexe.

4.3. Cadre exp´erimental Tab. 4.2 : Description de l’ensemble d’apprentissage du jeu1 (Multext).

Langue Nombre de

Tab. 4.3 : Description de l’ensemble de test du jeu1 (Multext).

Langue Nombre de

Le protocole exp´erimental se d´ecompose en trois ´etapes :

1. Pr´etraitement : le signal de parole est ´etiquet´e automatiquement en segments voca-liques, consonantiques et de silence.

2. Les distributions des diff´erents param`etres sont repr´esent´ees graphiquement afin de d´eterminer leur pouvoir discriminant. ´Etant donn´e le nombre de points `a repr´esenter, nous avons d´ecid´e par souci de lisibilit´e de nous limiter `a visualiser la moyenne des param`etres pour chaque langue autour de laquelle nous avons dessin´e une barre d’erreur ayant pour longueur l’´ecart-type.

3. Des exp´eriences en identification des langues sont men´ees, avec l’emploi de mod`eles de m´elange de lois gaussiennes.

(a) Les mod`eles, des Mod`eles de M´elanges de lois Gaussiennes (MMG), sont estim´es

`

a partir des donn´ees de l’ensemble d’apprentissage. Ces mod`eles sont appris pour diff´erents nombres de composantes gaussiennes (2, 4, 8, 16, 32, 64) dans le MMG.

(b) Pour chaque dimension des MMG, des exp´eriences sont effectu´ees en utilisant l’ensemble d’apprentissage comme ensemble de d´eveloppement. Cela permet de d´eterminer le nombre de lois gaussiennes optimal, mais ne r´eduit pas les risques de sur-apprentissage.

(c) Une fois le nombre de lois gaussiennes d´etermin´e, les exp´eriences d’identification sont effectu´ees sur l’ensemble de test et les matrices de confusion correspon-dantes sont donn´ees. Des regroupements `a l’int´erieur des matrices de confusion permettent de visualiser les diff´erents groupes rythmiques et d’interpr´eter les r´esultats.

4.3.3 Mod´ elisation : cadre statistique

Chaque observation est d´efinie par un vecteur de param`etres de dimension d : ψ = (x1, x2, x3, ..xd). L’ensemble des observations composant une phrase est trait´e. On note Ψ ={ψ1, ψ2, ..., ψnp} la suite desnp vecteurs d’observations de la phrase.

Pour chaque langue, les param`etres d’un Mod`ele de M´elange de lois Gaussiennes (MMG) sont appris `a partir des observations, en utilisant l’algorithme LBG [79] suivi de l’algorithme EM (annexe F).

La probabilit´e d’observer ψk sachant que la langue Li est utilis´ee s’exprime sous la forme suivante :

o`uQiest le nombre de composantes du m´elange de lois gaussiennes,dest la dimension du vecteur ψk, et (µjj) repr´esente les param`etres de la loi Gaussienne j.

En faisant l’hypoth`ese que les observations sont ind´ependantes, nous obtenons :

p(Ψ|Li) =

np

Y

k=1

p(ψk|Li) (4.7)

Dans le cadre de l’approche bay´esienne classique, la langue la plus probable L est d´efinie par l’´equation suivante :

L =arg max

1≤i≤NL

p(Li|Ψ) (4.8)

4.4. Adaptation de quelques approches pr´esent´ees au chapitre pr´ecedent

4.4 Adaptation de quelques approches pr´ esent´ ees au