• Aucun résultat trouvé

Les tˆ aches d’´ etiquetage de s´ equences consid´ er´ ees

4.3 Exp´ erimentations

4.3.2 Les tˆ aches d’´ etiquetage de s´ equences consid´ er´ ees

a un SVM multi-classes « simple » n’utilisant aucune information sur les ´

etiquettes du voisinage et `a un CRF de chaine lin´eaire5 consid´erant uni-quement l’´etiquette pr´ec´edente comme information de structure et r´ealisant une recherche exacte de la solution optimale.

4.3.2 Les tˆaches d’´etiquetage de s´equences consid´er´ees

Toutes les tˆaches consid´er´ees ont ´et´e d´ecrites en d´etail dans le chapitre 2. On se concentrera ici sur la pr´esentation des corpus utilis´es pour l’ap-prentissage et le test ainsi que sur l’exploitation de l’information `a longue distance.

5. Nous avons utilis´e l’impl´ementation Wapiti [Lavergne et al., 2010] http:// wapiti.limsi.fr

Figure 4.5 – Exemple de donn´ees pr´e-segment´ees pour la reconnaissanse de l’´ecriture manuscrite.

Reconnaissance de l’´ecriture manuscrite Le corpus6 utilis´e contient 44 images de 150 mots (soit 6 600 exemples au total). Il s’agit d’un corpus artificiel, tr`es structur´e (la plupart des combinaisons d’´etiquettes sont inter-dites et la connaissance d’une ´etiquette d´esambigu¨ıse fortement les lettres voisines) qui est g´en´eralement utilis´e pour tester les m´ethodes d’apprentis-sage structur´e.

Chaque image est pr´e-segment´ee en s´equence d’images de lettres de taille 8 × 16 pixels. Quelques exemples de donn´ees pr´e-segment´ees sont repr´esent´ees sur la Figure4.5. L’´evaluation est r´ealis´ee en validation crois´ee : les donn´ees sont r´eparties en dix paquets ; neuf d’entre eux seront utilis´es pour l’entraˆınement et un pour le test.

Nous utilisons comme caract´eristiques la valeur de chacun des 144 pixels ainsi que les 9 ´etiquettes pr´ec´edentes.

Prononciation automatique Dans nos exp´eriences, nous utilisons le corpus NetTalk7 [Sejnowski and Rosenberg, 1987], qui contient 20 008 mots anglais accompagn´es d’une information de prononciation. Pour chaque mot anglais contenant T lettres, la repr´esentation phonologique correspon-dante est encod´ees par deux s´equences de T symboles : une s´equence de phon`emes, utilisant un alphabet de 51 ´etiquettes (dont un symbole Null) et une s´equence d´ecrivant la structure prosodique (pour les consonnes, la position dans la syllabe, pour les voyelles le degr´e d’accentuation) avec un alphabet de 6 symboles (dont un symbole Null). Un extrait de NetTalk est repr´esent´e sur la figure 4.6. Nous utilisons 80% des donn´ees pour l’en-traˆınement, 10% pour l’optimisation des hyper-param`etres et 10% pour le test.

6. http://www.seas.upenn.edu/~taskar/ocr/

7. https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+ (Nettalk+Corpus)

4.3. EXP ´ERIMENTATIONS 81 aerodrome E-rxdrom- 1− < 0 >> 2 < −

aeronaut E-rxnc-t 1− < 0 > 2− <

aeronautics E-rxnc-tIks 2− < 0 > 1− < 0 <<

aeroplane E-rxplen- 1− < 0 >> 2 < −

Figure 4.6 – Extrait de NetTalk : `a chaque mot est associ´e une s´equence de phon`emes (avec ’-’ un symbole « NULL »), et structure prosodique (0,1,2 marquent differents degr´es d’accentuation pour les voyelles, > et < marquent respectivement les attaques et coda de syllabes).

ADV VMFIN PIS ADV ADV ADJA NN APPR NN VVINF $ Zeitweise m¨usse man allerdings noch l¨angere Wartezeiten in Kauf nehmen . Figure 4.7 – Extrait de TIGER : une phrase allemande avec les cat´egories syntaxiques des mots.

Les caract´eristiques sont les 4-grammes de lettres dans une fenˆetre de taille ±9 par rapport `a la position courante. Les caract´eristiques de struc-ture correspondent aux ´etiquettes d´ecod´ees (phon`emes ou marques proso-diques) ainsi que leurs combinaisons avec les caract´eristiques de base. Analyse morpho-syntaxique de l’allemand Dans ce travail nous avons d´ecider de r´ealiser l’analyse morpho-syntaxique de l’allemand. Pour cela nous avons utilis´e le corpus TIGER8, contenant 50 000 phases alle-mandes, soit 900 000 mots ´etiquet´es avec leur cat´egorie syntaxique. Ce cor-pus distingue 54 cat´egories grammaticales. Un exemple de phrase ´etiquet´ee du corpus est pr´esent´e sur la figure 4.7. Nous utilisons le partitionnement standard de ce corpus (80% des donn´ees pour l’entraˆınement, 10% pour la validation et 10% pour le test).

Dans nos exp´eriences nous utilisons les caract´eristiques suivantes : les informations de surface relatives au mot courant (pr´esence de majuscules, de chiffres. . .), les pr´efixes et les suffixes de taille de 1 `a 4 ainsi que les mots voisins dans une fenˆetre de taille 2 par rapport au mot consid´er´e. Le mot courant est ´egalement combin´e avec les 9 ´etiquettes pr´ec´edentes.

Identification structur´ee du locuteur Les exp´eriences pour cette tˆache ont ´et´e conduites sur la premi`ere saison de la s´erie t´el´evisuelle « The Big Bang Theory ». Les annotations manuelles sont disponibles pour les ´

episodes 1 `a 6 avec les ´etiquettes suivantes : absence de parole, Howard, 8. http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger. en.html

00'00" 05'00" 10'00" 15'00" time

Other

SheldonRaj

Penny

LeonardHoward

Figure 4.8 – R´epartition du temps de parole sur la dur´ee de l’´episode 2 de la premi`ere saison de la t´el´e-s´erie « The Big Bang Theory ».

Leonard, Penny, Raj, Sheldon, autre. L’´etiquette autre r´eunit tous les per-sonnages que l’on peut rencontrer dans la s´erie `a l’exception des 5 per-sonnages principaux. Le corpus d´ecrit est petit (≈ 2 heures de contenu vid´eo, repartis sur 6 ´episodes), nous utilisons donc une validation crois´ee sur les 6 configurations diff´erentes (4 ´episodes pour l’entrainement, 1 pour le d´eveloppement et 1 pour le test).

La m´etrique d’´evaluation pour cette tˆache est diff´erente de celle prenant en compte juste la proportion de bonnes ´etiquettes, car la d´etection d’absence de parole n’a pas le mˆeme poids que la d´etection d’un bon locuteur. Nous utilisons la m´etrique standard pour cette tˆache appel´ee proportion d’erreur d’identification (Identification Error Rate [Knyazeva et al., 2015a]) :

IER = ND · FD · CONF DUR

o`u ND est la dur´ee totale de parole non-d´etect´ee (´etiquet´ee « absence de parole »), FD est la dur´ee totale de parole incorrectement d´etect´ee, CONF est la dur´ee de parole d´etect´ee mais o`u un mauvais locuteur a ´et´e attribu´e, DUR est la dur´ee totale de la parole selon la r´ef´erence.

R´e-inflexion Les donn´ees d’entrainement ont ´et´e extraites du projet Uni-versal Dependencies Treebank9. Les corpus Czech and Czech-CAC ont ´et´es utilis´es, ce qui repr´esente 2 millions de mots (dont 170 000 ont ´et´e r´eserv´es pour le jeu de d´eveloppement).

4.3. EXP ´ERIMENTATIONS 83

La pr´eparation des donn´ees avec les informations morphologiques man-quantes a ´et´e r´ealis´ee `a l’aide de l’outil Morphodita [Strakov´a et al., 2014] : chaque mot a ´et´e remplac´e par son lemme combin´e avec une ´etiquette conte-nant les informations morphologiques de mani`ere `a ce que la forme originale puissent ˆetre retrouv´ee `a l’aide d’un dictionnaire. Ensuite, les attributs sui-vants ont ´et´e retir´es10 :

— le cas pour les noms, les adjectifs, les pronoms et les num´eriques ; — le genre pour les adjectifs et les num´eriques ;

— le nombre pour les adjectifs et les num´eriques.

L’´evaluation a ´et´e r´ealis´ee dans le cadre de l’´etude des performances d’un syst`eme de traduction r´ealisant la premi`ere ´etape de traduction pour les donn´ees avec les attributs manquants et reconstruisant la forme fl´echie lors d’une deuxi`eme ´etape. Pour cela le syst`eme de traduction NCODE, pr´esent´e plus en d´etails dans le chapitre suivant, a ´et´e utilis´e11.