• Aucun résultat trouvé

Les protocoles d’´evaluation ´etant pr´esent´es, il nous reste `a d´etailler le corpus utilis´e pour effectuer l’analyse. L’objectif de cette partie est de d´ecrire le corpus, que nous appellerons corpusCordial, afin de tenir compte de ces particularit´es lors de l’analyse des r´esultats.

5.3.1 Statistiques g´en´erales

Le corpus Cordialest r´esum´e globalement par le tableau 5.1qui pr´esente le nombre total d’occurrences pour chacun des horizons utilis´es pour qualifier un segment acoustique.

Unit´e phone/NSS syllabe mot syntagme ´enonc´e

Nb. d’occ. 419742 165320 104731 4138 3339

Table5.1 – R´esum´e du nombre d’occurrences par unit´e linguistique.

En d´etaillant les occurrences pour l’ensemble des horizons, comme pr´esent´e dans le ta-bleau5.2, nous pouvons observer que le corpusCordialest un corpus vari´e. En effet, non seulement l’´ecart entre les valeurs minimales et les valeurs maximales est important mais les ´ecarts-types sont g´en´eralement ´elev´es montrant une dispersion forte entre les occur-rences. Parmi ces statistiques, des cas particuliers existent. Par exemple, quelques ´enonc´es ne sont constitu´es que d’un seul mot, d’une seule syllabe et d’une s´equence de quatre labels phon´etiques (par exemple, l’´enonc´eAh ! dont la s´equence phonologique associ´ee eststart-insp-aa-end). Bien que pr´esents dans les statistiques du corpus, ces ´enonc´es seront ´ecart´es lors de la phase d’apprentissage des mod`eles HTS et lors de la phase d’´evaluation.

En appliquant une analyse analogue pour les dur´ees, dont le r´esum´e est pr´esent´e dans le tableau 5.3, les conclusions sont identiques.

5.3.2 D´efinition des sous-corpus

Pour r´ealiser les exp´eriences, dont les protocoles ont ´et´e d´ecrits dans le chapitre pr´ec´e-dent, il est n´ecessaire d’extraire un ensemble de corpus disjoints `a partir corpusCordial. En effet, afin de pouvoir comparer les donn´ees g´en´er´ees par HTS, il est n´ecessaire de disposer de signaux qui ne sont pas utilis´es pour l’apprentissage des mod`eles d’HTS mais qui sont issus du mˆeme corpus.

tel-00913565, version 1 - 3 Dec 2013

Unit´e Nb. de taille taille Nb. min Nb. max Nb. moy. σ tailles6= min. max. occ/taille occ/taille occ/taille

S ph. 8 1 8 1 96003 20665 34277.25

M syl. 6 1 6 49 61419 17455.17 24294.72

ph. 15 1 15 2 33658 6982.07 9432.23

SY

Table 5.2 – Statistiques du nombre d’occurrences sur les syllabes, mots et ´enonc´es du corpus Cordial en fonction de leur taille. La premi`ere colonne repr´esente les unit´es linguistiques analys´ees : S=Syllabe, M=Mots, SY=syntagme et U=´enonc´e. Ainsi, une ligne du tableau permet de d´efinir la composition en fonction des unit´es linguistiques de niveau inf´erieur. Les statistiques associ´ees au niveau phonologique ne portent que sur les informations relatives aux phon`emes (les NSS sont ignor´es). Cette description est une adaptation de celle pr´esent´ee dans [Francois2001]

Dur´ee min (s) Dur´ee max (s) Dur´ee moyenne (s) σ

Ph. / NSS 0.03 2.12 0.72 0.43

Syllabes 0.03 0.86 0.38 0.21

Mots 0.03 1.63 0.62 0.36

Syntagmes 0.07 63.76 12.15 9.40

Enonc´e´ 0.66 82.41 14.37 10.63

Table5.3 – Statistiques sur les dur´ees des phon`emes, syllabes et mots du corpusCordial. Comme nous le verrons par la suite, nous devons s´electionner trois sous-ensembles d’´enonc´es pour former les corpus d’apprentissage, de validation et de test. Le corpus d’apprentissage sert `a apprendre les mod`eles et le corpus de test va permettre d’effectuer l’analyse. Le corpus de validation sera d´ecrit ult´erieurement.

La s´election des corpus a ´et´e effectu´ee de mani`ere al´eatoire en respectant les contraintes suivantes :

— les corpus doivent ˆetre disjoints (un ´enonc´e ne peut ˆetre pr´esent dans deux corpus) ;

— la dur´ee de chaque corpus a ´et´e impos´ee : environ 1h pour le corpus d’apprentissage, 10min pour les corpus de validation et de test. Ces tailles ont ´et´e s´electionn´ees pour rester comparables `a la d´emonstration fournie par les concepteurs du syst`eme HTS et ainsi v´erifier, subjectivement et dans une moindre mesure, que la synth`ese r´ealis´ee est coh´erente.

De la mˆeme mani`ere que dans le chapitre pr´ec´edent, nous allons d´ecrire ces corpus et les caract´eriser en fonction du corpus global en se focalisant sur les horizons suivants : le phon`eme, la syllabe et le mot.

tel-00913565, version 1 - 3 Dec 2013

5.3.3 Focus sur les phon`emes et les NSS

Le premier horizon utilis´e est le phon`eme. La figure 5.5 permet de comparer les dis-tributions phon´emiques des diff´erents corpus. La figure se d´ecoupe en trois parties : en haut `a gauche, la distribution des voyelles et semi-voyelles, en haut `a droite la distri-bution des NSS et enfin en bas, la distridistri-bution des consonnes. Pour un phon`eme, nous avons, de gauche `a droite, son taux de repr´esentation dans le corpus global, le corpus d’apprentissage, le corpus de test et enfin le corpus de validation.

La figure montre que, malgr´e quelques diff´erences, les distributions des quatre corpus sont proches. On peut donc supposer que les trois sous-corpus disjoints sont repr´esentatifs, de part leurs contenus phonologiques. Cela permet ´egalement de supposer que l’analyse qui sera effectu´ee dans les chapitres suivants serait identique si un autre tirage al´eatoire avait ´et´e effectu´e.

La plupart des diff´erences concerne le corpus de test. En effet, les phon`emes /kk/, /ss/

et /tt/ y sont significativement sous-repr´esent´es (plus de 1% d’´ecart). Cela peut poser probl`eme si le nombre de trames associ´ees aux phon`emes sous-repr´esent´es est insuffisant pour effectuer une analyse statistique. N´eanmoins, le nombre de segments associ´es `a ces phon`emes est sup´erieur `a 150 ce qui constitue un nombre de repr´esentants raisonnable pour une telle analyse. Ainsi, nous pouvons supposer que la sous-repr´esentation de ces phon`emes a peu d’influence sur les analyses qui sont d´ecrites dans la partie suivante.

Enfin, il existe deux phon`emes particuliers : le phon`eme /ng/ qui n’est pr´esent dans aucun des sous-corpus et le phon`eme /gn/ qui est peu pr´esent (4 exemplaires dans le corpus test). Aucune conclusion ne pourra ˆetre ´emise pour ces deux phon`emes.

tel-00913565, version 1 - 3 Dec 2013

Chapitre5.Donn´eesexp´erimentales 0%

1%

2%

3%

4%

5%

6%

7%

8%

rr ll ss tt dd kk mm pp nn vv zz yy jj ff bb ch gg gn ng

global apprentissage test validation

0%

1%

2%

3%

4%

5%

6%

7%

8%

aa ai ei ii eu an ou uu ee oo on yy in au ww oe uy end insp start spause

Figure5.5 – Comparaison de la distribution des phon`emes pour le corpus global (en bleu), le corpus d’apprentissage (en rouge), le corpus de test (en vert) et le corpus de validation (en gris). L’axe des abscisses correspond aux phon`emes class´es en fonction de leur taux de repr´esentation dans le corpus global. Le graphe en bas illustre la distribution des consonnes, le graphe en haut `a gauche illustre la distribution des voyelles et semi-voyelles, le graphe en haut `a droite illustre la distribution des NSS (segments acoustiques hors parole).

tel-00913565, version 1 - 3 Dec 2013

5.3.4 Focus sur les syllabes

Pour analyser les syllabes du corpusCordial, nous avons d´eterminer les distributions de structures syllabiques. Ces distributions sont illustr´ees dans la figure5.6.

0%

10%

20%

30%

40%

50%

60%

CV CVC CCV V VC CCVC CVCC CCCV CCVCC CCCVC VCC CVCCC CCCCV CCCVCCCCCCVCCCCCCVCCVCCC

global apprentissage test validation

Figure 5.6 – Distribution des syllabes pour les corpus global (en bleu), d’apprentissage (en rouge), de test (en vert) et de validation (en gris) en fonction de leur structure.

Toute d’abord, les distributions associ´ees au corpusCordialet au sous-corpus utilis´es sont proches du fran¸cais. En effet, [Leon1992] indique que les trois structures dominantes du fran¸cais sont CV (59.9%), CVC (17.1%) et CCV (14.1%). Dans un second temps, nous pouvons constater que les distributions sont relativement homog`enes. Ceci indique que les r´esultats obtenus lors de l’´evaluation ne pr´esentent pas de biais concernant les descripteurs associ´es `a la syllabe.

0 1 10 100 1000

Proeminente Non proeminente

global apprentissage test validation

Figure 5.7 – Distribution des syllabes pour les corpus global (en bleu), d’apprentissage (en rouge), de test (en vert) et de validation (en gris) en fonction de leur pro´eminence.

De plus, en ce qui concerne la description d’une syllabe, le jeu de descripteurs propos´e pour le fran¸cais utilise la notion de pro´eminence. Pour compl´eter l’analyse du corpus Cordial, la figure5.7pr´esente les distributions des syllabes en fonction de leur propri´et´e de pro´eminence. Cette figure confirme que le d´ecoupage en sous corpus ne biaise pas la repr´esentation syllabique car les distributions pr´esent´ees dans cette figure sont ´egalement homog`enes.

tel-00913565, version 1 - 3 Dec 2013

5.3.5 Focus sur les mots

Le dernier horizon analys´e concerne le mot. Tout d’abord, la figure5.8 pr´esente la dis-tribution des occurrences de mots en fonction du nombre de phon`emes qui les composent.

Le premier constat est une homog´en´eit´e de taille de mots, en phon`emes, entre les diff´erents corpus. Quelques diff´erences subsistent mais elles sont, en proportion, mineures.

0%

5%

10%

15%

20%

25%

30%

35%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

global apprentissage test validation

Figure 5.8 – Distribution des mots pour les corpus global (en bleu), d’apprentissage (en rouge), de test (en vert) et de validation (en gris) en fonction de leur taille en nombre de phon`emes.

Concernant le jeu des descripteurs propos´es pour le fran¸cais, la signifiance d’un mot est ´egalement prise en compte. Il est donc n´ecessaire de comparer les corpus en fonction de cette propri´et´e ici r´eduite au fait que le mot soit un mot grammatical ou non. Ainsi, la figure 5.9 pr´esente la distribution des mots en fonction de leur signifiance. Les r´esultats obtenus sont homog`enes ce qui implique que l’analyse de la description `a l’horizon d’un mot n’est pas biais´ee. De plus, en comparant les proportions entre les trois cat´egories, nous constatons que la propri´et´e de signifiance est discriminante. En effet, la moiti´e des mots pr´esents dans le corpus sont consid´er´es comme signifiants. L’autre moiti´e se r´epartie

´equitablement entre les mots non-signifiants et les mots pour lesquelles cette propri´et´e n’est pas d´efinie.

0 1 10 100 1000

signifiant non signifiant indefini

global apprentissage test validation

Figure 5.9 – Distribution des mots pour les corpus global (en bleu), d’apprentissage (en rouge), de test (en vert) et de validation (en gris) en fonction de leur propri´et´e de signifiance.

tel-00913565, version 1 - 3 Dec 2013