Enonc´e (utterance) ´

4.2 Evaluation non param´etrique ´

S1 O N S2 O N S3 O N S4 O N S5 O N S6 O N S7 O N

4.2 Evaluation non param´etrique ´

5.1.3 Enonc´e (utterance) ´

5.2.1 D´ecoupage du signal de parole et alignement avec le texte . . . . 97

5.2.2 Annotation . . . . 98

5.3 Pr´esentation du corpusCordial. . . . 99

5.3.1 Statistiques g´en´erales . . . . 99

5.3.2 D´efinition des sous-corpus . . . . 99

5.3.3 Focus sur les phon`emes et les NSS . . . . 101

5.3.4 Focus sur les syllabes . . . . 103

5.3.5 Focus sur les mots . . . . 104

5.4 Jeux de descripteurs ´evalu´es. . . . 105

5.4.1 Corpus . . . . 105

5.4.2 Arbres de d´ecision et HTS. . . . 106

5.4.3 Coh´erence STRAIGHT . . . . 107

5.5 Conclusion . . . . 111

Pour évaluer l’influence des descripteurs sur la modélisation effectuée par HTS, il est

n´ecessaire de disposer d’un corpus de parole annot´ee. L’ensemble des annotations doit

permettre d’obtenir les descripteurs utilis´es en synth`ese. L’objectif de ce chapitre est de

présenter ce corpus ainsi que l’ensemble des données expérimentales utilisées pour effectuer

les ´evaluations.

Ce chapitre débute par la présentation de la structure de données Roots qui a été

con¸cue pour pouvoir stocker l’ensemble des annotations en assurant des relations coh´erentes

entre tous les niveaux de description des ´enonc´es. En se basant sur la structureRoots, et

en tirant ainsi avantage de ses sp´ecificit´es, un processus d’annotation automatique

com-plet a été mis en place. Ce processus, utilisé pour obtenir le corpus, est présenté dans

la seconde section de ce chapitre. La troisième section est consacrée à la présentation du

corpus utilisé pour les évaluations. Enfin, la dernière section de ce chapitre présente les

jeux de descripteurs ´evalu´es.

5.1 Repr´esentation des donn´ees par Roots

Pour annoter un corpus, il est n´ecessaire d’utiliser un ensemble d’outils

complémen-taires qui représentent rarement les données observées sous un même format. La diversité

des outils et des formats associés implique le besoin de définir des systèmes cohérents

d’annotation de corpus. L’objectif est de pouvoir croiser les informations fournies par

divers outils analysant les diff´erents niveaux de description de la parole en s’affranchissant

de la complexit´e des relations qui lient les diff´erents niveaux de description.

Au début des années 2000, plusieurs systèmes de représentation ont été publiés. En

2001, S. Bird [Bird2001] propose une repr´esentation sous forme de graphes compos´es

d’annotations directement ancr´ees sur le signal ind´ependamment les unes des autres. Les

graphes d’annotation ont été implantés dans deux applicationsAtlas[Bird2000] etAgtk.

Cassidy et al. [Cassidy1996, Cassidy2001] ont de leur côté développé un outil dont le

premier objectif ´etait de fournir des m´ethodes d’interrogation et d’analyse de corpus.

Leur outil, Emu, repose sur une structure organis´ee en niveaux d’annotations compos´ees

d’éléments (tokens) associés ou non à une information temporelle ; une relation de

do-minance, de séquencement ou d’association permet de relier les divers éléments de cette

structure.

Une autre structure a également été proposée au début des années 2000 : la structure

Hrg (Heterogeneous relation graphe). Contrairement aux structures pr´ec´edentes, Hrg

veut apporter une réponse à la représentation homogène des annotations en vue d’une

uti-lisation dans un système de synthèse. Ainsi, répondant à un souci de rapidité et de sécurité,

ce syst`eme permet de repr´esenter une information linguistique sous forme de graphes dont

les nœuds ne contiennent pas d’information mais sont reli´es aux entit´es linguistiques et

dont les arcs d´efinissent les liens entre ces items. Toute redondance d’information est

supprimée grâce à cette structure et à l’emploi massif de pointeurs garantissant ainsi la

mise à jour et la cohérence des informations. Dans [Rojc2007], une structure de données

de type Hrg est combinée à des machines à états finis. Les auteurs mettent en avant

une séparation claire entre ce qui est dépendant et indépendant de la langue. Enfin,

l’IR-CAM [Veaux2008], dans sa plateforme IrcamCorpusTools, organise la repr´esentation

des annotations en deux classes : l’une apporte le contenu des annotations et l’autre les

relations hi´erarchiques et/ou s´equentielles qui existent entre elles.

d’ac-5.1. Repr´esentation des donn´ees parRoots 91

céder à l’ensemble des informations et des liens entre différentes informations possibles

pour décrire un énoncé de parole. L’utilisation de la structure choisie, bien que spécifique

`a la parole, ne doit pas se limiter `a l’annotation d’un signal acoustique. Elle doit pouvoir,

par exemple, servir pour stocker les annotations li´ees uniquement `a un texte. La structure

d’annotation la mieux adaptée au contexte de nos travaux nous a semblé être Hrg.

Ce-pendant, dans notre cas et contrairement `a Hrg, nous souhaitons favoriser l’exhaustivit´e

des annotations et la versatilité des accès au détriment de la rapidité d’accès.

Pour satisfaire l’ensemble des contraintes précédentes, le système d’annotation d’énoncés

Roots [Barbot2011] a été con¸cu. Il permet de décrire un corpus de parole en se basant

sur le paradigme objet. L’objectif est de conserver la totalit´e des informations ainsi que

l’ensemble des liens entre ces informations. Pour cela,Rootsrepose sur quatre concepts

principaux, illustr´es par la figure5.1:

– Des items permettent de décrire des éléments d’annotation ;

– Des s´equences structurent les items dans le temps.

– Des relations lient les items de deux s´equences diff´erentes ;

– Un énoncé rassemble un ensemble de séquences et de relations.

Afin d’alléger la figure 5.1, les items ne sont pas représentés mais inclus au sein d’une

s´equence.

ROOTS::Relation ROOTS::Utterance

5.3 Pr´esentation du corpus_Cordial. . . . 99

Ce chapitre débute par la présentation de la structure de données _Roots qui a été

entre tous les niveaux de description des ´enonc´es. En se basant sur la structure_Roots, et

5.1 Repr´esentation des donn´ees par _Roots

graphes d’annotation ont été implantés dans deux applications_Atlas[Bird2000] et_Agtk.

Hrg (Heterogeneous relation graphe). Contrairement aux structures pr´ec´edentes, _Hrg

de type _Hrg est combinée à des machines à états finis. Les auteurs mettent en avant

l’IR-CAM [Veaux2008], dans sa plateforme _{IrcamCorpusTools}, organise la repr´esentation

d’annotation la mieux adaptée au contexte de nos travaux nous a semblé être _Hrg.

l’ensemble des liens entre ces informations. Pour cela,_Rootsrepose sur quatre concepts

Figure 5.1 – Sp´ecification fonctionnelle_Roots

Pour repr´esenter un niveau d’annotation, _Roots utilise le concept d’item. Un item

Dans _Roots, les items ne peuvent exister qu’au sein d’une s´equence (´eventuellement

Une s´equence est un objet qui permet de stocker les items _Rootsen respectant

les mots. Afin de respecter ces contraintes,_Rootsintroduit, de mani`ere analogue `a_Hrg,

Pour le moment, les items composés implémentés dans _Roots sont des arbres

v u n _˜_a _k ö w a ö e p a v o z j ø

par_Roots.