• Aucun résultat trouvé

L’identification automatique des langues : m´ ethodes & approches

2.6 Le syst` eme du LIMSI [49]

2.6.2 Exp´ eriences

Les exp´eriences ont ´et´e men´ees sur le corpus CallFriend pour une tˆache de v´ eri-fication avec les mˆemes contraintes que pour la campagne d’´evaluation Nist 2003 (voir

§2.5).

La structure du syst`eme correspond `a l’architecture PPRLM d´ecrite plus haut (figure 2.3). Il y a trois d´ecodeurs acoustico-phon´etiques (anglais, espagnol et arabe). Chacun de ces d´ecodeurs est entraˆın´e avec des corpus diff´erents. Pour l’espagnol et l’arabe, des conver-sations extraites du corpus CallHome (parole t´el´ephonique conversationnelle, http:

//www.ldc.upenn.edu) sont utilis´ees. Pour l’anglais, il s’agit de conversations extraites deSwitchBoard(parole t´el´ephonique conversationnelle,http://www.ldc.upenn.edu).

A la sortie de chacun des d´` ecodeurs, 12 mod`eles de langage tri-grammes (correspondant

`

a chacune des langues `a reconnaˆıtre) sont entraˆın´es sur les donn´ees d’apprentissage de

Callfriend. La d´ecision est prise soit en moyennant les probabilit´es a posteriori obtenues pour chaque d´ecodeur acoustico-phon´etique soit en employant un r´eseau de neurones.

Les r´esultats sont r´esum´es dans le tableau suivant :

Tab. 2.2 : R´esultats (en taux d’erreur EER) du syst`eme de r´ef´erence (PPRLM), du syst`eme employant les treillis de phones effectuant ou non la fusion des scores par r´eseaux de neurones

M´ethode 3s 10s 30s

R´ef´erence (PPRLM) 23,7 12,6 6,8 PPRLM (Treillis) 18,3 8,3 4,0 PPRLM (Treillis et RN) 18,3 7,9 2,7

Sur ces donn´ees, le syst`eme du LIMSI est actuellement le plus performant (2,7% d’EER par rapport `a 2,8% pour le MIT (§2.5.2)). La principale diff´erence entre ces deux approches est le temps de calcul n´ecessaire, beaucoup plus faible pour le LIMSI (0,5xRT contre 15*RT pour le MTI).

2.7 Conclusion

Ce panorama des syst`emes actuels d’identification automatique des langues montre que soit les caract´eristiques acoustiques des langues, soit les caract´eristiques phon´etiques ou phonotactiques sont privil´egi´ees.

L’ensemble des sources d’information pr´esent´ees au chapitre 1 n’est pas toujours pris en compte. La dimension prosodique, malgr´e l’int´erˆet certain qu’elle pr´esente, n’est que marginalement employ´ee, voire pas du tout lorsque l’objectif premier est la performance.

Lors de l’´evaluationNist pr´ec´edente de 1996, tous les syst`emes pr´esent´es n’utilisaient que la mod´elisation phonotactique. Au cours de la derni`ere ´evaluation, nous avons pu voir une ´evolution, avec des syst`emes employant des mod´elisations acoustiques, qui exploitent une autre source d’information. Les principales am´eliorations des performances sont dues : – au nombre de lois gaussiennes employ´e dans les MMG, qui a nettement augment´e, – `a la cr´eation et l’adaptation de mod`eles UBM

– `a l’´emergence de nouveaux param`etres, les Shifted Delta Cepstra.

Derni`erement, le syst`eme du LIMSI montre que l’emploi de treillis de phones per-met d’obtenir des estimations des fr´equences de n-grammes plus pr´ecises, ce qui offre de meilleures performances.

Nous allons voir dans le chapitre suivant quelques mod´elisations de certains aspects de la prosodie. Les syst`emes pr´esent´es ne sont plus alors dirig´es vers les performances mais sont ´etablis dans une optique de v´erifications de th´eories linguistiques.

Chapitre 3

L’identification automatique des langues : m´ ethodes & approches

prosodiques

Sommaire

3.1 Syst`emes comparatifs . . . 54 3.1.1 Les travaux de Ramus . . . 54 3.1.2 Les travaux de Grabe . . . 55 3.1.3 Les travaux de Galves . . . 55 3.2 Syst`emes descriptifs (intonation) . . . 57 3.2.1 Le syst`eme ToBI [119] . . . 58 3.2.2 Le syst`eme IViE [51] . . . 60 3.2.3 Mod`ele Intsint [60] . . . 62 3.2.4 Mod`ele de Fujisaki [42] . . . 63 3.2.5 Mod`ele de G˚arding [48] . . . 67 3.2.6 Mod`ele de Mertens [89] . . . 68 3.3 Syst`emes applicatifs . . . 71 3.3.1 Mod`ele de Leavers [76] . . . 71 3.3.2 Mod`ele d’Itahashi [66] . . . 72 3.3.3 Le syst`eme de Cummins [24] . . . 74 3.3.4 Le syst`eme de Li [78] . . . 76 3.3.5 Mod`ele d’Adami [2] . . . 77 3.4 Conclusion . . . 79

C

e chapitre est consacr´e aux approches prosodiques employ´ees ou employables pour l’identification automatique des langues. Ces syst`emes peuvent ˆetre class´es en trois grandes cat´egories :

– les syst`emes comparatifs, con¸cus dans le but de v´erifier les hypoth`eses linguistiques de diff´erences entre les langues (classes rythmiques, isochronie),

– les syst`emes descriptifs, con¸cus pour prendre en compte les r´ealit´es perceptuelles et de production de parole, qui peuvent permettre de mettre en valeur des diff´erences entre les langues,

– les syst`emes applicatifs, con¸cus dans un but d’am´elioration de performances en iden-tification des langues.

Les syst`emes comparatifs sont consacr´es `a l’´etude des diff´erences rythmiques entre les langues. Le point faible de ces syst`emes est le manque d’automatisation des processus (une segmentation et un ´etiquetage manuel sont souvent n´ecessaires), ce qui rend difficile les exp´eriences portant sur des bases de donn´ees de taille importante.

Les syst`emes applicatifs peuvent aussi bien prendre en compte des param`etres ryth-miques qu’intonatifs, voire corr´el´es `a la fois au rythme et `a l’intonation. Ces syst`emes sont directement appliqu´es `a des tˆaches d’identification des langues sur des bases de donn´ees cons´equentes, et permettent ainsi de mesurer les apports de la mod´elisation de la proso-die. Cependant, le manque de lien avec des th´eories linguistiques nuit `a l’int´erˆet de tels syst`emes.

Les syst`emes descriptifs sont uniquement con¸cus pour la repr´esentation et la com-pr´ehension des ph´enom`enes prosodiques. Ils sont souvent appliqu´es `a une seule langue, mˆeme si les recherches s’orientent de plus en plus vers des descriptions ind´ependantes de la langue. L’application de ces syst`emes `a plusieurs langues permet de visualiser les diff´erences exploitables pour l’identification des langues.