Utilisation de la linguistique en reconnaissance de la parole : un état de l'art

(1)

HAL Id: inria-00077386

https://hal.inria.fr/inria-00077386v2

Submitted on 1 Jun 2006

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

parole : un état de l’art

Stéphane Huet, Pascale Sébillot, Guillaume Gravier

To cite this version:

Stéphane Huet, Pascale Sébillot, Guillaume Gravier. Utilisation de la linguistique en reconnaissance de

la parole : un état de l’art. [Rapport de recherche] RR-5917, INRIA. 2006, pp.72. �inria-00077386v2�

(2)

inria-00077386, version 2 - 1 Jun 2006

a p p o r t

d e r e c h e r c h e

9 -6

3

9

9 IS

R

N

IN

R

IA

/R

R

--5

9

1

7 --F

R

+

E

N

G

Thèmes SYM et COG

Utilisation de la linguistique en reconnaissance de la

parole : un état de l’art

Stéphane Huet, Pascale Sébillot et Guillaume Gravier

N° 5917

(3)

(4)

Stéphane Huet, Pas ale Sébillotet GuillaumeGravier

∗

ThèmesSYM etCOGSystèmessymboliquesetSystèmes ognitifs ProjetsTexMexet Metiss

Rapportdere her he n°5917Mai200672pages

Résumé:Pourtrans riredesdo umentssonores,lessystèmesdere onnaissan edelaparole fontappelàdes méthodesstatistiques, notamment aux haînesde Markov a héeset aux modèlesN-grammes.Mêmesi este hniquessesontrévéléesperformantes,ellesappro hent dumaximumdeleurspossibilitésave lamiseàdispositionde orpusdetaillesusanteetil semblené essaire,pourtenterd'allerau-delàdesrésultatsa tuels,d'utiliserdesinformations supplémentaires,enparti ulierliéesaulangage.Intégrerdetelles onnaissan eslinguistiques doittoutefois sefaireentenant omptedesspé i itésdel'oral (présen ed'hésitations par exemple) et en étant robuste à d'éventuelles erreurs de re onnaissan e de ertains mots. Ce do ument présente unétat de l'artdes re her hes de e type,en évaluant l'impa t de l'insertiondesinformationslinguistiquessurlaqualité delatrans ription.

Mots- lés: re onnaissan edelaparole,langueparlée, orpusoral,traitementautomatique deslangues,modèledelangage, onnaissan eslinguistiques,disuen es

∗

(5)

Abstra t:Totrans ribespee h,automati spee hre ognitionsystemsusestatisti al meth-ods,parti ularlyhiddenMarkovmodelandN-grammodels.Althoughthesete hniques per-formwellandleadtoe ientsystems,theyapproa htheirmaximumpossibilities.Itseems thus ne essary, in order to outperform urrent results, to use additional information, es-pe ially bound to language.However,introdu ing su hknowledgemust be realizedtaking into a ountspe i itiesof spoken language(hesitationsfor example) andbeingrobustto possiblemisre ognizedwords.Thisdo umentpresentsastateoftheartoftheseresear hes, evaluatingthe impa tof theinsertion oflinguisti information onthe quality ofthe tran-s ription.

Key-words: spee h re ognition,spoken language, spoken orpus,natural language pro- essing,languagemodel, linguisti sknowledge,disuen ies

(6)

Table des matières

1 Introdu tion 4

2 Prin ipesde la re onnaissan e de la parole 6

2.1 Di ultésdelatrans ription . . . 6

2.2 Modélisationstatistiquedelare onnaissan edelaparole . . . 8

2.2.1 Extra tionde ara téristiques. . . 9

2.2.2 Modèlea oustique . . . 11

2.2.3 Modèledelangage . . . 13

2.3 Sortiesdessystèmes detrans ription . . . 18

2.4 Méthodesd'évaluation . . . 20

3 Cara téristiques de la langueparlée 23 3.1 Langueparléeetlangue é rite. . . 23

3.2 Vo abulaireet syntaxe . . . 25

3.3 Phénomènesd'hésitation. . . 26

3.4 Corpusoraux . . . 28

3.4.1 Formesdes orpusoraux. . . 29

3.4.2 Étiquetage des orpusoraux. . . 30

3.5 Trans riptionautomatiquedesdialoguesspontanés . . . 32

4 La linguistiquepour la re onnaissan e de la parole 34 4.1 Adaptationdupro essusdetrans ription . . . 35

4.1.1 Intégrationdumodèlea oustiqueave lemodèledelangage . . . 35

4.1.2 Linguistique etmodèledelangage . . . 37

4.2 Quelles onnaissan eslinguistiques? . . . 38

4.2.1 Phonologieetphonétique . . . 39 4.2.2 Morphologie. . . 40 4.2.3 Syntaxe . . . 41 4.2.4 Sémantique . . . 51 4.2.5 Pragmatique . . . 52 5 Con lusion 56 Référen es 58

(7)

1 Introdu tion

De nombreuxdo uments sonores ontiennent delaparole. Raressontlesémissions ra-diophoniques ou audiovisuelles sans dis ours, dialogues ou en ore ommentaires, et il ex-istemaintenant ertainesbasesdedonnéessonorestrèsvolumineuses.En Fran e,l'Institut national de l'audiovisuel olle te ainsi haque année 80 000 heures de programmes radio-phoniques ou télévisuels. Une des plusgrandes ar hivesdigitales aumonde, ontenantles témoignagesdessurvivantsdelaShoah, ontientquantàelleplusde115000heuresde dis- oursnon ontraints,provenantde52000lo uteurss'exprimantdans32languesdiérentes [FRWP03℄.Fa eàlataille des donnéesàtraiter,lere oursà desméthodesautomatiques, notamment à ellesde re onnaissan edelaparole, fa ilitelamanipulation desdo uments etapporteune aidepour ertainestâ hes,telles quel'indexation.

L'obje tif d'unsystèmedere onnaissan eautomatiquedelaparole(RAP)est de tran-s rireautomatiquementunsignalsonoreentexte.Un telsystème her hedansunpremier tempsàre onnaîtredesmots,ensebasantuniquementsurdes ritèresd'ordrea oustique, sansessayerd'interpréterle ontenu transmisparl'ensemble de esmots.L'analysedu signal onduitalorsàunensembled'hypothèsessurlasu essiondesmotspronon és,auquel sontadjointsdes s oresditsa oustiques.Une se ondeétape hoisitlameilleure hypothèse enne onsidérantpluslesignal ommeunesuitedesonsmaisplutt ommeunesu ession demotsporteursd'information.L'utilisationdelalinguistique, entantques ien edu lan-gage,s'ins ritnaturellementdans e ontextepuisquedes onnaissan essurlamorphologie, lasyntaxeoulesenssemblentpouvoirguiderlaséle tiondelameilleurehypothèse. Néan-moins,biensouventlessystèmesdeRAPnes'appuientdansleur hoixquesurdes ritères prin ipalementstatistiques,et e,essentiellementpourdesraisonshistoriques.

Pendant une longue période, les linguistes et les adeptes du traitement automatique des langues (TAL) ont en eet délaissé les méthodes empiriques permettant d'estimer la probabilitéd'observationd'unphénomèneàpartird'unegrande olle tiondedo umentsou orpus.NoamChomskyditainsien1969:Butitmustbere ognizedthatthe notion proba-bilityofasenten e isanentirelyuselessone,underanyknowninterpretationofthisterm

1 . Le point de vue des linguistess'intéressantà l'é rit s'est alors éloigné despréo upations des her heurs en re onnaissan e de la parole, àtel point que Frederi kJelinek, en 1988, alorsàIBM,dé lara:Anytimealinguistleaves the groupthe re ognitionrategoesup

2 .Les méthodesstatistiques,àbasedeN-grammes,sesonteneetrévéléesbeau ouppluse a es quelessolutionsproposéesparleslinguistespour hoisirlameilleure hypothèsedemots.

Depuislandesannées80,lesméthodesstatistiquesonttoutefois ommen éàatteindre leurslimitesdansl'améliorationdessystèmesdeRAP,notammentave lamiseàdisposition de orpusdetaillessatisfaisantes.Danslemême temps,ledomaineduTALfaisaitdeplus en plus appel aux modèles probabilistes. Une des pistes envisageables pour améliorer les performan esdelare onnaissan edelaparolepeutdon onsisteràemployerdavantagede linguistiquedanslessystèmesdeRAP.

1

Maisildoitêtrere onnuquelanotiondeprobabilitédephraseestabsolumentinutile,et e,quelle quesoitl'interprétationde eterme.

(8)

Ce do ument sepropose de faire une synthèse de l'introdu tion de onnaissan es lin-guistiques au ours de la re onnaissan e de la parole. Il expose des tentatives ee tuées pourutiliser ertainesinformations telles quela morphologie,lasyntaxeou lasémantique danslesdiérentesétapesdupro essusdetrans ription.Unepremièrepartiedé ritle fon -tionnementgénérald'unsystème deRAP, eninsistantsur seslimitationsàtraiter ertains phénomènes.Elleprésentelasu essiondesétapesné essaires,àsavoirl'extra tion d'infor-mationsnumériques pertinentes àpartir du son,la onversionde es valeurs en plusieurs hypothèses possiblesde su ession demotset enn le hoix dela meilleurehypothèse.La deuxièmepartie examineles propriétésdela langue parlée.Les méthodesde TAL sonten eetsouventappliquéesàdesdo umentsqui restentdansledomainedel'é rit, ommedes ouvragesoudesarti les dejournaux;or,lesdo umentsanalysésparlessystèmesde RAP sontd'uneautrenature.Ladernièrese tionexposeàquelniveaudupro essusde trans rip-tionles onnaissan eslinguistiquespeuventêtremobilisées.Ellesefo aliseparti ulièrement sur l'introdu tion de onnaissan es linguistiques au sein des modèles de langages, un des deux onstituants,ave lemodèlea oustique,d'unsystèmedeRAP.Silemodèlea oustique utilisedesressour espurementa oustiques,selimitantdon ,surleplandelalinguistique,à laphonétiqueetàlaphonologie,lemodèledelangagepeutau ontraireprendreen ompte des onnaissan es linguistiques plus variées puisque son rle est justement d'examiner les informationsvéhi uléesparleshypothèsesdemots.Ce ipeutdon onduireàl'exploitation demorphologie,desyntaxe,desémantiqueouen oredepragmatique.

(9)

2 Prin ipes de la re onnaissan e de la parole

L'obje tif d'un système de RAP est d'extraire les mots pronon és à partir du signal a oustique.Lerésultatproduitreprésentelanalitéd'uneappli ationdedi téevo alemais peut également être utilisé par d'autres dispositifs. La trans ription onstitue ainsi une sour e d'informations pour indexer des do uments audio ou audiovisuels. Les interfa es vo ales homme-ma hine intègrent quant àelles unmodule de ompréhensionde laparole ensusd'unsystèmedeRAP.

La re onnaissan e de la parole est un problème omplexe, notamment du fait de la grande variabilité des signauxà traiter. Après avoir présenté les prin ipales di ultés de la trans ription, nous exposons la modélisation qui est employée pour dé oder le signal a oustique. Nous évoquons ensuite sous quelles formes les systèmes de RAP produisent leursrésultats et nous terminons ettese tion parune des riptiondes te hniquesutilisées pourévaluer essystèmes.

2.1 Di ultés de la trans ription

Lesdi ultésdelatrans riptiondelaparolesontduespourunegrandepartàladiversité dessignauxàtraiter.Laparoleproduitepourunemêmephrasepronon éepeutainsivarier d'un individu à un autre. Outre le fait que haque individu possède une voix qui lui est propre, on ren ontre d'importantes diéren es telles que les variations homme/femme, le régionalisme ou en ore les di ultés de pronon iation ren ontrées par des lo uteurs non natifs. Cette variabilité est qualiée d'inter-lo uteurs. Il existe également une variabilité, dite intra-lo uteur, orrespondantà une modi ation de la parole produite par un même individu. Cette variabilité peut on erner aussi bien les ara téristiques de la voix, dans les as d'un rhume ou d'un état émotionnel, ou bien la qualité d'élo ution, selon que la paroleintervientlorsd'undis oursformeloud'undialoguespontané.Ensusdesvariabilités au niveaude laparole pronon ée parle lo uteur, les onditionsd'enregistrement peuvent dégraderle signalqui sera traitépar lesystème de RAP. Ilpeut parexempley avoirune modi ation de la qualité du signal, notammentsi elui- i doittransiter par un anal de ommuni ationquiaunebandepassantelimitée, ommeunelignetéléphonique.Demême, l'environnementa oustiquepeut être disparate. Le bruit de fondpeut être plusou moins importantet de natures diverses (musique, parolesd'autreslo uteurs,parasitesdumi ro, bruitsdebou he...).

Par ailleurs,le lexique des do uments àtrans rire est unautre fa teur- léinuençant laqualité desrésultats et dépendantde haque appli ation. La taille du vo abulaire peut êtretrèsréduite(moinsde100mots)dansle asd'unsystèmedenavigationdansunmenu, moyenne (quelques milliersde mots) pour des re her hesd'information dans une base de donnéesdansundomainepré is,oularge(plusieursdizainesdemilliersdemots)pourfaire deladi téevo ale[Sto97℄.

Laparolehumaine, onlevoitdon ,est trèsvariable. Lamodélisation d'unetelle varia-tionétantdi ileàfairedemanière ompa teetla ompréhensiondesmé anismes ognitifs

(10)

essentiellementdesméthodesstatistiques.Cesméthodesextraientautomatiquementles in-formationssurlelangageetlarelationentrelesonetlesmotspronon ésàpartirde orpus dans lesquels les textes sont alignés ave les signaux a oustiques. Elles utilisent ainsi des modèlesdontlesparamètressontapprissurdes orpusd'apprentissage[DGP99℄.

Pourréduirelesdi ultésimpliquéesparlavariabilitéinter-lo uteurs, ertainssystèmes deRAP requièrentdelapartde haquelo uteurune pronon iationpréalable d'un ertain nombrede mots.Toutefois, e pro édéétant ontraignant, lessystèmessontgénéralement indépendantsdulo uteur.And'augmenterlarobustesse vis-à-visdulo uteuret de l'envi-ronnement,ils ombinentplusieursmodèlesstatistiques[Jou96, GAAD

+

05℄. Ainsi,dansle as dela variabilitéinter-lo uteurs,unmodèlespé iquepeutêtre réépourles hommes, unautrepourlesfemmes.Demême, desmé anismesd'adaptationpermettentdemodier le traitement a oustique en fon tion des ara téristiques de la voix du lo uteur. Dans le asde hangementsde onditionsd'enregistrement,lessystèmesdeRAP peuventavoirun modèleparti ulierpourlesentretienstéléphoniquesetavoirdesdéte teursbruit/parole oumusique/parolepour ne her heràtrans rireque lessegments dusignal ontenant delaparole.Enoutre,unltrageadaptatifpeutêtremenépouréliminerlebruitdusignal. En e qui on erne le lexique, an d'avoir un espa e de re her he raisonnable lors du dé odagedusignala oustique,lessystèmes deRAP ontunvo abulairefermé. Ilsutilisent a tuellementunlexiquebeau oup plusimportantque euxemployésauparavant,qui pou-vaientselimiter àquelquesdizainesdemots.Les systèmesdeRAP lesplusperfe tionnés, ditsàtrèsgrandvo abulaire,ontainsiunlexiquedontlevolumeavoisineles65000,voire 200000mots. L'ensemble desmots re onnaissablesest hoisien fon tion de l'appli ation. Dans le as de re onnaissan e d'un dialogue spontané, il pourra ainsi être utile d'in lure dans lelexique des motsqui n'en sont pasvraimentmais qui ontpourtant une fréquen e élevée, telsque leeuh marquantune hésitation ( f.se tion 3.3). Si l'on prend l'exem-ple d'une trans ription d'émissions d'a tualité diusées à la radio, le vo abulaire pourra in lurelesmotsren ontrésré emment.Cedomained'appli ationseheurteàdesdi ultés parti ulières dues à l'apparitiondes noms propres(noms de personnes ou de lieu) au gré del'a tualité. Demanièreàpouvoirmodier levo abulaireprisen ompte parlesystème deRAP,lare onnaissan edoitêtreexible, equisignie qu'elledoitautoriser l'introdu -tionde motsdansle di tionnaire quin'ont pasétéutilisés au ours de l'apprentissagedes paramètresdesmodèles.

Notons au passagel'ambiguïtédu terme mot [Pol03℄. Ilpeutpar exempledésigner un sens pré isou bien un signelinguistique. En re onnaissan e de la parole, mot désigne un mot-formedéniparsonorthographe.Ainsi,deuxexionsoudérivationsd'unmêmelemme, e.g.mangeetmanges,seront onsidérées ommedeuxmotsdiérents.Demême,deux homographesappartenantàdeux atégoriesdiérentes(e.g. mérite[VERBE℄etmérite [NOM℄)oudeuxsensdiérents(e.g.avo at[AUXILIAIREDEJUSTICE℄etavo at[FRUIT COMESTIBLE℄) nereprésenterontpaslemêmemot[Jel97℄.Parlasuite, haqueemploidu termemot désigneraenréalitéunmot-forme.

Malgré les di ultés ren ontrées, les systèmes de RAP parviennent à dé oder le sig-nal a oustique ave d'assez bonnes performan es. La trans ription de mots pronon és de

(11)

manièreisolée,parunlo uteurunique,est unete hnologiean ienneet bien maîtrisée.Son hampd'appli ationestnéanmoinstrèsrestreintpuisquelelo uteurdoitmarquerunepause brève entre haque mot.Les her heurs et ingénieursen parole ontpar lasuite développé des systèmes de trans ription de parole ontinue, e qui aaugmenté onsidérablementla omplexitédu problème.Les systèmesa tuels lesplusperformantsre onnaissenttoutefois sanserreur plus de90% des motsd'uneémission d'a tualité enanglais [Pal03℄et plusde 88%desmotspouruneémissiondumêmetypeenfrançais[GAAD

+

05℄.Dansdessituations plus omplexesàanalyser, ommedes onversationstéléphoniques,où ha undeslo uteurs n'apaspréparésondis ourset est don sujet àdenombreuseshésitations,lessystèmesde RAPpeuventre onnaîtresanserreurjusqu'à80%desmots[Pal03,GAL

+

04℄. 2.2 Modélisation statistique de la re onnaissan e de la parole

Lesignalsonoreàétudierpeutêtreinterprété ommeuneversiondelaphrasepronon ée qui serait passée parun analde ommuni ation.Ce anal introduit dubruit dansla version originale. L'obje tif d'un système de RAP est de modéliser le anal de manière à retrouverla phrase pronon ée après dé odage (Fig. 1). Ce i revient à her her parmi un très grandnombre dephrasessour espotentielles ellequi alaplus grandeprobabilitéde générerlaphrasebruitée[JM00℄.Autrementdit, dans ettemétaphoredu analbruité, unsystèmedeRAP her heàtrouverlaséquen edemotslaplusprobable

W

parmitoutes lesséquen esd'unlangage

L

,étantdonnélesignala oustique

A

.

Fig.1Modèledu analbruité

L'entrée a oustique

A

représente une séquen e d'observations

a

1 . . . a

t

, obtenue en dé- oupantl'entrée parexemple toutesles 10millise ondes et en asso iantà haquemor eau les oe ientsreprésentantl'enveloppespe traledusignal.Lasortie

W

dusystèmedeRAP estune haînedemots

w

1 . . . w

n

appartenantàunvo abulaireni.

Enutilisantuneformalisationstatistiqueissuedelathéoriedel'information,leproblème delare onnaissan edelaparoleseramènealorsà her her:

ˆ

W

= arg max

W ∈L

P(W |A)

(1) Cette équation peut être réé rite sous la forme suivante à l'aide de la formule de Bayes [Jel97℄:

ˆ

W

= arg max

P

(W )P (A|W )

P

(A)

(12)

où

P

(W )

estlaprobabilitéque

W

soitpronon ée,

P(A|W )

estlaprobabilitéquelelo uteur émettelessons

A

ensouhaitantpronon erlesmots

W

et

P

(A)

est laprobabilitémoyenne que

A

soit produit.

W

ˆ

étant estimé en xant

A

,

P

(A)

n'intervient pas et l'équation (2) devient:

ˆ

W

= arg max

W ∈L

P

(W )P (A|W )

(3) Leproblèmedelare onnaissan edelaparoleseramèneainsiàl'extra tiondesindi es a oustiques

A

,au al ul delavraisemblan ed'observation

P

(A|W )

ainsi quede la proba-bilitéapriori

P(W )

,et àlare her hedelaséquen edemots

W

laplusprobable.Pour e faire,latrans riptionsedé omposeenplusieursmodules(Fig.2):

l'extra tionde ara téristiquesproduisant

A

,

l'utilisationdumodèlea oustique(MA) al ulant

P(A|W )

et her hantleshypothèses

W

qui sontvraisemblablementasso iéesà

A

,

l'utilisationdumodèle delangage (ML) al ulant

P

(W )

pour hoisiruneouplusieurs hypothèsessur

W

enfon tionde onnaissan essurlalangue.

Pourévaluer

P

(W )

,leMLdoitdisposeraupréalabledeshypothèses

W

établiesparleMA sur lesmotspronon és. Néanmoins, lessystèmes deRAP a tuels ne selimitentpas àune juxtaposition séquentielle des deux modules; de manière àutiliser le plus tt possibleles informationssurlalangue,ilsfontappelauMLdèsqu'unehypothèsedemotestproposée parleMAetnonàlandutraitementdelatotalitédusignal.

Lesse tionssuivantes dé riventlesprin ipesdefon tionnementde ha unde es mod-ules.

2.2.1 Extra tion de ara téristiques

Le signal sonoreà analyserse présente sous la forme d'uneonde dontl'intensité varie au ours du temps. La première étape du pro essus de trans ription onsiste à extraire unesu essiondevaleursnumériquessusammentinformativessurleplana oustiquepour dé oderlesignalparlasuite.

Le signalest sus eptible de ontenirdes zonesde silen e,de bruit ou de musique. Ces zonessonttoutd'abordéliminéesanden'avoirquedesportionsdusignalutilesàla tran-s ription,i.e., ellesqui orrespondentàdelaparole.Lesignalsonoreestensuitesegmenté en e que l'onqualie degroupes de soue,en utilisant omme délimiteursdes pauses si-len ieuses susamment longues (de l'ordre de 0,3 s). L'intérêt de ette segmentation est d'avoirunsignalsonore ontinude taille raisonnable parrapport aux apa itésde al uls desmodèlesdusystème deRAP; dans lasuitedu pro essusde trans ription, l'analyse se feraséparémentpour haquegroupedesoue.

Pour repérer les u tuations du signal sonore, qui varie généralement rapidement au oursdutemps, legroupedesoueest lui-mêmedé oupé enfenêtres d'étudedequelques millise ondes(habituellementde20ou30ms).Demanièreànepasperdred'informations im-portantessetrouvantendébutoundefenêtres,onfaitensorteque elles- ise hevau hent, equi onduitàextrairedes ara téristiquestoutesles10msenviron.

(13)

(14)

À partir du signal ontenu dans haque fenêtre d'analyse sont al ulées des valeurs numériques ara térisantla voix humaine. À l'issue de ette étape, le signaldevientalors unesu essiondeve teursditsa oustiques,dedimensionsouventsupérieureouégaleà39. 2.2.2 Modèlea oustique

Une étapesuivante onsisteàasso ier auxve teursa oustiques,qui sont, ommenous venons de le voir, des ve teurs numériques, un ensemble d'hypothèses de mots, i.e., des symboles.Enseréférantàl'équation(3)delamodélisationstatistique, elarevientàestimer

P

(A|W )

.Leste hniquesquipermettentde al uler ettevaleurforment equ'onappellele modèlea oustique.

L'outil le plus utilisé pour la modélisation du MA est la haîne de Markov a hée (désignéeaussisousleterme deHMMpourHidden Markov Model).LesHMMonteneet montré dans la pratique leur e a ité pour re onnaître la parole. Même s'ils présentent quelqueslimitationspourmodéliser ertaines ara téristiquesdusignal, ommeladuréeou ladépendan e desobservations a oustiquessu essives, lesHMMorentun adre mathé-matiquebiendénipour al ulerlesprobabilités

P

(A|W )

[Rab89℄.LesMA fontintervenir troisniveauxdeHMM(Fig.3).

Ils her hent dans un premier temps à re onnaître les types de son, autrement dit à identierdesphones

3

.Pour efaire,ilsmodélisentunphoneparunHMM,généralementà troisétatsreprésentantsesdébut, milieuetn.La variable a héeest alorsunsous-phone et lesobservationssontdesve teursa oustiques, i.e., desve teurs ontinus. Pour al uler les probabilités d'observation dans haque état, deux appro hes sont souvent envisagées, l'unebasée sur lareprésentationdes densitésde probabilitépardes gaussiennes et l'autre reposantsur desréseauxde neurones.Ces diérentes méthodesétablissent deshypothèses sur laprobabilitédes phones pronon és.Or, l'obje tif desMA est de déterminerune su - essiondemots.LesMAutilisentà ettenundi tionnairedepronon iations,quiee tue la orrespondan eentreunmotetsespronon iations.Commeunmotestsus eptibled'être pronon édediérentesmanières,selonsonprédé esseuret sonsu esseur,outout simple-mentselonleshabitudesdulo uteur,ilpeutyavoirplusieursentréesdans elexiquepour unmêmemot.Lesindi ationssontdonnéesaumoyendesphonèmes

4

ara téristiquesdela pronon iation.Surlagure4,lesphonèmessonttrans ritsdanslesystèmedereprésentation SAMPA.

Le deuxième niveau de HMM modélise les mots à partir des HMM représentant des phoneset dulexiquedepronon iations.Ilseprésentesouslaformed'unarbre lexi al on-tenantinitialementtouslesmotsduvo abulaire,progressivementélaguéaufuretàmesure quesontre onnus desphones.Puisque lesHMMdepremierniveaumodélisentdesphones etnon desphonèmes,lesphonèmesdisponiblesdansledi tionnairedepronon iationssont

3

Sonspronon ésparunlo uteuretdénispardes ara téristiquespré ises. 4

Unitélinguistiqueasso iéeàuntypedepronon iationd'unelanguedonnée.Lephonèmenal/p/pourra parexempleêtrepronon éenfrançaisparlephone[b℄dans l'expressiongrippeaviaireetparlephone [p℄dansgrippedupoulet.

(15)

Fig.3Niveauxdemodélisationdumodèlea oustique adorateurs adORat9Rz adorateurs adORat9R adoration adORasjo~ adore adOR adore adOR

(16)

onvertisen phones ande re onnaître desmots. Desrègles detransformation dépendant du ontexted'apparitionduphonème sontalorsutilisées.

Le troisième niveau modélise enn la su ession des mots

W

au sein d'un groupe de soueetpeutalorsin orporerles onnaissan esapportéesparleMLsur

W

.Pourétablir e HMMéquivalentàungraphedemots,leHMM orrespondantàl'arbrelexi alestdupliqué à haquefoisqueleMAee tuel'hypothèsequ'unnouveaumotaété re onnu[ONA97℄.

Le fon tionnement du MA que nous venons de dé rire se heurte à un problème ma-jeur:l'espa edere her heduHMMdeplushautniveaudevientfréquemment onsidérable, surtoutsilevo abulaireestimportantetsilegroupedesoueàanalyser ontientplusieurs mots. Des algorithmes issus de la programmation dynamique permettent de al uler e- a ementlesprobabilités;il s'agitprin ipalementdel'algorithmedeViterbietledé odage parpile,appeléaussidé odageA*.Deplus,ilestfaitre ourstrèsrégulièrementàl'élagage pourne onserverqueleshypothèsessus eptiblesd'êtrelesplusintéressantes[DGP99℄.

Le rleduMA onsisteainsiàaligner lesignalsonoreave deshypothèses demotsen utilisant uniquement des indi es d'ordre a oustique. Il in lut dans son dernier niveau de modélisation lesinformationssurlesmotsapportéesparleML.

2.2.3 Modèlede langage

Le ML apourobje tif de trouverles séquen es demots lesplus probables,autrement dit ellesquimaximisentlavaleur

P

(W )

del'équation(3).Sil'onseréfèreauHMMdeplus hautniveauduMA(Fig.3),lesvaleurs

P(W )

orrespondentauxprobabilitésdesu ession demots.

Fon tionnementd'un modèle de langage Enposant

W

= w

n

1 = w

1 . . . w

n

,où

w

i

estlemotderang

i

delaséquen e

W

,laprobabilité

P

(W )

sedé omposedelamanièresuivante:

P

(w

n

1 ) = P (w

1 )

n

Y

i=2

P

(w

i

|w

1 . . . w

i−1

)

(4)

L'évaluation de

P

(W )

se ramènealors au al ul des valeurs

P

(w

i

)

et

P

(w

i

|w

i−1

1 )

qui s'obtiennentrespe tivementàl'aidedeségalités :

P

(w

i

) =

C(w

i

)

P

w∈V

C(w)

(5)

P

(w

i

|w

i−1

1 ) =

C(w

i

1 )

P

w

i

C(w

i

1 )

(6) où

V

est le vo abulaire utilisé parle système deRAP, et

C(w

i

)

et

C(w

i

1 )

représententles nombresd'o urren esrespe tifs du mot

w

i

et de laséquen e de mots

w

i

1

dans le orpus d'apprentissage.

(17)

Malheureusement, pour prédire lasuite de mots

w

n

1

, le nombre des paramètres

P

(w

i

)

et

P(w

i

|w

i−1

1 )

duMLàestimeraugmentedemanièreexponentielle ave

n

.Dans lebutde réduire e nombre,

P

(w

i

|w

i−1

1 )

est modélisépar unmodèle N-gramme, i.e., une haînede Markovd'ordre

N

− 1

(ave

N >

1

),àl'aidedel'équationsuivante:

P

(w

i

|w

1 i−1

) ≈ P (w

i

|w

i−1

i−N +1

)

(7) Cetteéquationindiqueque haquemot

w

i

peutêtrepréditàpartirdes

N

−1

motspré édents. Pour

N

= 2, 3

ou

4

, on parle respe tivement de modèle bigramme, trigramme ou quadri-gramme.Pour

N

= 1

,lemodèleestditunigrammeetrevientàestimer

P

(w

i

)

.Généralement, esontlesmodèlesbigrammes,trigrammesetquadrigrammesquisontutilisésdanslesML dessystèmesdeRAP.

Cette appro he ren ontre des limites dufait de l'absen e de nombreusesséquen es de motsdetaille

N

,appeléesdesN-grammes,dansles orpusd'apprentissage,bienque eux- i puissent être de taille onséquente. En eet, même en ayantune valeurde

N

réduite, de nombreuxmotsserontrares,voireabsentsdu orpus.Ondità esujetquelesmotssuivent uneloideZipf,stipulantquelafréquen ed'apparitiond'unmotdé roîtrapidementave son rangd'apparition. Pourpallier ettedi ulté, il est faitappelàdesméthodesstatistiques delissage.

Unpremierpro édédelissage, onnusouslenomdedis ounting, onsisteàretran herau omptagedesN-grammesune ertainevaleurquiseraensuiteredistribuéeversle omptage des N-grammes absents du orpus d'apprentissage. Il existe de nombreuses méthodes de dis ounting. Un pro édé très simple onsiste par exemple à ajouter un à l'ensemble des omptages,y ompris euxasso iésauxN-grammesabsents.

Un autre moyen d'ee tuer le lissage est d'utiliser les fréquen es d'apparition des N-grammes d'ordres inférieurs si le N-gramme étudié est peu présent dans le di tionnaire. On distingue alors la te hnique de l'interpolation linéaire de elle du repli (appelée aussi ba ko).

L'interpolation linéaire onsiste à évaluer la probabilité

P

ˆ

(w

i

|w

i−1

i−N +1

)

en faisant une ombinaisonlinéairedesprobabilités al uléespourlesN-grammesd'ordreinférieur.Dans le as d'un modèle trigramme par exemple, le al ul s'ee tue à partir des probabilités unigramme,bigrammeettrigrammedelamanièresuivante :

ˆ

P

(w

i

|w

i−2

w

i−1

) = λ

1 P

(w

i

|w

i−2

w

i−1

) + λ

2 P(w

i

|w

i−1

) + λ

3 P

(w

i

)

(8) ave :

3 X

k=1

λ

k

= 1

(9)

demanièreà e que

P

ˆ

demeureune probabilité.

P

est al uléeaumoyendel'équation (6) utilisantles omptages.Lesvaleurs

λ

k

sontestiméesdefaçonàmaximiserlavraisemblan e de

P

ˆ

surun orpusdetest, diérentdu orpusd'apprentissage.

(18)

detaillesplusréduitesn'estpassystématique[Kat87℄.Le al ul desprobabilitéss'exprime delamanièresuivante:

ˆ

P(w

i

|w

i−1

i−N +1

) =

˜

P

(w

i

|w

i−N +1

i−1

)

si

C(w

i

i−N +1

) > 0

α(w

_{i−N +1}

i−1

) × ˆ

P

(w

i

|w

i−N +2

i−1

)

sinon

(10) De même quepour les

λ

i

de l'équation (8), les oe ients

α

sont al ulés pour que

P

ˆ

soituneprobabilité.Lesymbole~surle

P

sertàindiquerque

P

˜

estsouventobtenuàpartir d'unpro édédedis ounting.

Au-delà de este hniquesde lissage,il existe denombreusesvariantes basées surleurs prin ipes,parmi lesquelles gurelaversionmodiée dulissagedeKneser-Ney qui, d'après desétudesempiriques,donnedebonsrésultats[CG98℄.

LesmodèlesN-grammes,qu'ilsutilisentounondeste hniquesdelissage,sontdes méth-odes statistiques dont lenombre de paramètresà estimer est très grand, e qui né essite dedisposer d'unegrande quantité de donnéesd'apprentissage.Depuislesdébuts d'utilisa-tiondes N-grammes, denombreux textes de natures diérentes ontété olle tés, e qui a largementproté àl'amélioration de es te hniques. Toutefois, ette évolutionsuit depuis quelquetempsuneasymptote.Selonuneestimationinformelled'IBM,lesperforman esdes modèlesbigrammesn'enregistrentplusdegainimportantau-delàdequelques entainesde millionsdemots,tandis quelesmodèlestrigrammes semblentsaturer àpartirdequelques milliardsde mots.Or,dans plusieursdomaines d'appli ationde systèmesde RAP, de tels volumesdedonnéesontdéjàété olle tés[Ros00b℄.

Pourtenter d'améliorerlesperforman esdesML, desévolutionsdumodede al uldes probabilités par lesmodèles N-grammesont été envisagées.Le prin ipal repro he qui est fait aux modèles N-grammes est l'hypothèse qui a permis l'élaboration des premiers ML performantsetutilisables,àsavoirlapriseen ompted'unhistorique

h

i

detaillelimitée.Le al uldesprobabilitésest eneetréaliséaumoyend'uneégalité dutype:

P

(w

1 n

) = P (w

1 )

n

Y

i=2

P

(w

i

|h

i

)

(11)

Plusieurs études ont été menées pour examiner un historique plus étendu que

w

i−1

i−N +1

[Goo01℄.

Modi ations de l'historiquedans le al ul des probabilités

La prise en ompte d'un historique de très grande taille est sus eptible d'améliorer les performan es du ML. Toutefois,les modi ations envisagéesdoiventtenir ompte du fait queparmil'ensembledeshistoriquespossibles,beau oup deviennentraresvoireinexistants dansle orpusd'apprentissagequandonaugmentelenombredemotsprisen ompte.

Un moyen trèssimple pourétendre lesN-grammesest d'utiliser l'interpolation linéaire ( f. équation(8)) pour ombiner desmodèlesN-grammes d'ordresdiérents. Ce i permet d'avoirun historique étendu mais aussi de faire fa e à la raretédes données dans le or-pusd'apprentissage.Cesmodèlessontnommésmodèlespolygrammes [KNST94,GSTN96℄.

(19)

Cetteméthodeprésentedeuxin onvénients.Ellené essitetoutd'abordl'évaluationde nom-breuxparamètrespuisqueles al ulsdeprobabilitésontee tuésàpartirdeplusieurstailles d'historique.Deplus,iln'estpaspossibled'augmenterindénimentlatailledel'historique, mêmeen utilisantdesméthodes delissageperfe tionnées.On onsidèresouventà e sujet quelesmodèlesN-grammesd'ordresupérieurà5n'apportentpasdegainparrapportaux modèlesd'ordresinférieurs[Goo01℄.

Une autrevariationdesmodèlesN-grammes onsisteàignorer ertainespositionsdans l'historique;ils'agitalorsdemodèlesskipping.L'interpolationlinéairedemodèles5-grammes skipping peutainsiavoirlaforme:

λ

1 P(w

i

|w

i−4

w

i−3

w

i−2

w

i−1

) + λ

2 P

(w

i

|w

i−4

w

i−3

w

i−1

) + λ

3 P

(w

i

|w

i−4

w

i−2

w

i−1

)

(12) Ces types de modèles permettent de prendre en ompte des historiques qui sont pro hes mais nonstri tement identiquesau ontexte ourant. Cettepropriété est parti ulièrement importantequandonaugmentelatailledesN-grammes aril devientalorsdeplusenplus raredetrouverdeuxhistoriquesidentiques[Goo01℄.

Lesmodèlesditspermugrammes adoptentuneappro hesimilaireen e qui on erneles historiques,enee tuant unepermutationdes motspris dansle ontexte. Ils redénissent le al uldesprobabilitésparl'équation:

P

(W ) = P (w

π(1)

)

n

Y

i=2

P

(w

π(i)

|w

π(i−N +1)

. . . w

π(i−1)

)

(13)

où

π

estunepermutationquiréordonnelasu essiondesmots.Cetteéquation onduitainsi àdeshistoriquesdelaforme

h

i

= w

i−3

, w

i+1

[STHKN95℄.L'utilisationde esmodèlespeut parfoisapporter unelégèreaméliorationdesperforman esdes N-grammes.Ils augmentent toutefoisdemanièreimportante l'espa edere her heainsiquelenombredeparamètresà al uler.

D'autresétudesont onsidérél'historiquenon pas ommeune su essiondemotsmais omme une suite de groupes de mots. Cette appro he s'appuie sur une segmentation en séquen es de mots, en xant une taille maximum

M

pour es séquen es. Le al ul de la probabilité

P(w

1 w

2 w

3 )

devient par exemple, ave

M

= 3

et en prenant unhistorique de longueurmaximale2:

P(w

1 w

2 w

3 ) = max











P

([w

1 w

2 w

3 ])

P

([w

1 ])P ([w

2 w

3 ]|[w

1 ])

P

([w

1 w

2 ])P ([w

3 ]|[w

1 w

2 ])

P

([w

1 ])P ([w

2 ]|[w

1 ])P ([w

3 ]|[w

1 ][w

2 ])











(14)

Il existe une variante de e al ul, remplaçant

max

par la somme de toutes les segmen-tationspossibles. Ces modèles, qualiésde multigrammes, n'ontpas permis pourl'instant d'améliorervéritablementlesperforman esparrapportauxML lassiques[BPLA95,DB95, AB05℄.

(20)

Un autretyped'extensiondesN-grammesreposesurunhistoriqueàlongueurvariable, e quipermet defaire desdistin tionssupplémentairesdans ertains asambigus,tout en onservantunnombreraisonnabledeparamètresàestimer.LesN-grammesprisen ompte dansle al ul desprobabilitéssontalorsprésentéssouslaformed'un arbre(Fig. 5). Dans le as des modèles N-grammes lassiques, où la taille de l'historique est xe, et arbre a une profondeur xe égaleà

N

− 1

. Dans le as des modèles varigrammes au ontraire,la profondeurvarieselonlesbran hespuisquedesn÷udspro hesdansl'arbreetasso iésàdes probabilités onditionnellessimilairessontfusionnés[SO00,Kne96,NW96b℄. La on eption

Fig.5Représentationsousformed'arbred'unmodèlevarigramme

desmodèlesvarigrammes onduitàunediminutiondelatailledesML,sansmodierleurs performan es. Les modèles dits x-grammes poursuivent également le même obje tif, i.e., la fusion des historiques très pro hes. Leur parti ularité est de modéliser les ML par des automatesàétatsnis.

Enn,onpeut iterl'utilisationdesmodèlesàbase de a he.Cesmodèles onduisentà l'utilisationd'historiquesde l'ordrede plusieurs entainesde mots,i.e., de taillebeau oup plusimportantequelesmodèlesN-grammes.Ilssontbaséssurleprin ipequesiunlo uteur utiliseunmot,laprobabilitéqu'ill'utiliseraànouveaudansunfuturtrèspro heaugmente onsidérablement.Ilsredénissentalorsle al uldesprobabilités

P

(W )

parl'équation:

P(W ) = ˜

P

(w

1 )

n

Y

i=2

˜

P

(w

i

|w

i−N +1

. . . w

i−1

)

(15)

où lesprobabilités

P

˜

sont évaluées à partirdes omptages des mots dans le a he et non plusdansun orpusd'apprentissage omme elaestle aspourlesmodèlesN-grammes.Les modèlesàbasede a hesontsystématiquement ombinésave desmodèlesN-grammes.Ils peuvent ontribueràaméliorerlesperforman esdesML,mais e,audétrimentdelavitesse de al uldesprobabilitéslorsdelatrans ription[Goo01, KDM90,CR97℄.

(21)

REF: il AURA ALORS fa e à lui une fronde syndi ale *** UNIE HYP: il **** VALEUR fa e à lui une fronde syndi ale EST PUNI

D S I S

Fig. 6 Alignement de la trans ription automatique (HYP) et de la trans ription de référen e(REF)

On le voit don , de nombreusestentatives ont été faitespour essayer de saisirles dé-pendan es à longue distan e, i.e., les relationsentre lesmotsqui sontséparéspar plusde

N

− 1

mots. Leste hniquesqui viennent d'être présentéespermettentsouventd'améliorer légèrement lesperforman es parrapportà desmodèlestrigrammes. Toutefois,les progrès sontbiensouventpeusigni atifs,alorsqueleurutilisationengendreuna roissementdela omplexitédes al ulslorsdelare onnaissan eouuneaugmentationimportantedunombre deparamètresàestimer[Goo01℄.

Cettese tionaprésentélesprin ipesdesML,ladernièreétapeintervenantdans l'asso i-ationdusignala oustiqueàunesu essiondemots.Ilnousresteàvoirsousquellesformes seprésententlessortiesdupro essusdetrans riptiondelaparole.

2.3 Sorties des systèmes de trans ription

Commeditpré édemment,lerled'unsystèmedeRAPestdeproduireunetrans ription d'unsignalsonore.Le résultatpourra don êtrenaturellementuntexte. Toutefois,selonle adred'utilisationd'untelsystème, ilexisted'autrestypesdesortieenvisageables.

Texte brut Lorsqu'un système de RAP produit un texte, elui- i orrespond à la su - essionde motsquiaobtenu laplushauteprobabilitédelapartdusystème. Ce texteest organisésouslaforme de groupesde soue,le dé odage dela parolese basantsur la dé-te tiondepausessilen ieuses.Cetteformepurementtextuellelaisseenvisagerlapossibilité d'appliquerdeste hniquesdeTALpouraméliorerlesrésultatsproduits.

Dans le as où l'on dispose d'une trans ription de référen e, obtenue généralement manuellement, elle- ipeutêtrealignéeave letexteproduitparlesystèmedeRAP(Fig.6) pouree tuerdes al ulsdeperforman e( f.se tion2.4).L'alignementestobtenuenfaisant orrespondreun maximumde mots desdeux trans riptions au moyen d'un algorithmede typeViterbi.Troistypesd'erreursontalorsdistingués:

lesinsertions,repéréespardesI, orrespondantàunajoutd'unmotdelatrans ription automatiqueparrapportàlatrans riptionderéféren e,

les suppressions, marquées pardes D (pourdeletion), asso iées àun mot manquant danslatrans riptionautomatique,

les substitutions,représentées pardes S, indiquant unrempla ement d'unmot dela trans riptionderéféren eparunautremotprésentdanslatrans riptionautomatique.

(22)

Lorsquedestraitementsdoiventêtreopérésaprèslepro essusdetrans ription,on hoisit parfoisde onservernon pasla meilleure hypothèse, mais plutt laliste des

N

meilleures hypothèses.Ce ilaisselapossibilitéderéordonnerleshypothèses,siondisposede onnais-san essupplémentairesparlasuite.

Graphes de mots La listedes

N

meilleures hypothèsesprésente de nombreuses redon-dan es, les éléments de la liste diérant bien souvent par un seul mot. Une sortie plus ompa tequi lui est souventpréférée est le graphe de mots(Fig. 7). Ce graphe peut être unevarianteduHMM deplushautniveauduMA ( f.se tion2.2.2).Les ar ssontvalués parlesprobabilitésétabliesparle MAet leML, et représententdeshypothèsesousurles motspronon ésousurlaprésen edepausessilen ieuses(notéesparsil surlagure 7). Lesn÷udssontquantàeuxasso iésauxinstantspossiblesoùunmotsetermineetunautre débute. Puisque les informations on ernantl'instant de pronon iationdes motssontpeu employées,legrapheestsouvent ompa téensupprimantlesar setlesn÷udsqui représen-tentlesmêmeshypothèsesdesu essiondemots[DGP99℄.De sur roît,latailledugraphe de mots onstruit pouvant être onsidérable, il peut être utile de l'élaguer en xant par exempleunnombremaximumden÷uds.Un autre ritèrepossibled'élagageestle nombre

k

d'hypothèsesretenuessurlessu essionsdemots.

Fig.7Exempledegraphedemots(nonvalué)

Réseauxde onfusion Cetautretypedesortie orrespondàun ompa tagedesgraphes de mots,en onservant davantaged'informations queles

k

meilleureshypothèses.La on-stru tion des réseaux de onfusion, également appelés saussisses (Fig. 8), onsiste à aligner leshypothèsesde su essionde mots,un peu ommeon leferait sil'on souhaitait aligner la trans ription automatique ave la trans ription de référen e (Fig. 6). L'extra -tiondesmeilleureshypothèsessefaiti iententantdeminimiserleserreursd'insertion,de suppression ou de substitution, et non pas en déterminantla su ession de mots asso iée auxplusfaiblesprobabilitésaposteriori, ommedans le asdesgraphesdemots.Ce i est unepropriétéintéressantedesréseauxde onfusiondanslamesureoùlessystèmesdeRAP

(23)

her hentpluttàobtenirunetrans riptionayantleminimumd'erreursqu'untexteayant unbons oredeprobabilité[MBS00℄.

Fig.8Exemplederéseaude onfusion

À l'issue de la présentation des diérents types de sorties de la trans ription, la se -tionsuivante s'intéresseàlades riptiondeméthodes demesuredelaqualité desrésultats produits.

2.4 Méthodes d'évaluation

Lamesure qui est ommunémentemployéepourmesurerlaqualité d'unetrans ription estletauxd'erreursurlesmots dénipar:

tauxd'erreur

=

nbd'insertions

+

nbdesuppressions

+

nb desubstitutions nbdemotsdanslatrans riptionderéféren e

(16) Dans e al ulrevenantàdéterminerladistan ed'éditionentrelatrans ription automa-tiqueetlatrans riptionderéféren e,les oûtsd'insertion,desuppressionoudesubstitution ont une valeurxe qui ne dépend pasdu nombrede ara tères erronésdans la trans rip-tion automatique.La trans ription étant envisagée omme une su ession de mots-formes ( f.se tion2.1), e iimpliquequ'unesimpleerreurd'a ordengenreet ennombreaurale même oûtqu'unesubstitutionparunmotquin'aau unrapportsurleplana oustiqueou sémantiqueave lemot orre t.Onvoitainsiqueletauxd'erreur,mêmes'ilesttrèsutilisé, n'indiquepasdire tementsilerésultatproduitest orre tdupointdevuedesinformations transmises.Bienentendu,s'ildevientfaible, laprobabilitéqu'ils'estproduituneerreursur lesmotsinformatifsdiminuemais en'estpassystématique.

Letauxd'erreursurlesmotspermetd'évaluerglobalementlesystèmedeRAP.Ilexiste d'autresmesures, telles que l'entropie roisée oula perplexité, pour mesurer laqualité du MLseul[JM00℄.Pourdénirlapremière,pré isonspourdébuterlanotiond'entropie.

L'entropie, notée

H

, est unemesure d'informationqui se al ulepourune séquen ede mots

w

n

1

delamanièresuivante :

H(w

n

1 ) = −

X

w

n

1 ∈L

P

(w

1 n

) log

2 P(w

n

1 )

(17)

(24)

Pourunlangage

L

, elles'obtientpar:

H

(L) =

lim

n→∞

1 n

H(w

n

1 )

(18)

=

lim

n→∞

−

1 n

X

w

n

1 ∈L

P(w

n

1 ) log

2 P

(w

1 n

)

(19)

La mesured'entropie roisée, dire tement dérivée del'entropie et souventabusivement appelée de manière identique, permet d'évaluer la performan e d'un ML. Si l'estimation de la probabilité par un ML est notée

P

ˆ

et si

P

est la distribution réelle de probabilité, l'entropie roiséede emodèlese al ulepar:

H

(P, ˆ

P

) = lim

n→∞

−

1 n

X

w

n

1 ∈L

P

(w

n

1 ) log

2 P

ˆ

(w

n

1 )

(20)

En supposantquele langage

L

possède debonnespropriétés,lethéorèmede Shannon-M Millan-Breimanpermet d'é rire:

H

(P, ˆ

P

) = lim

n→∞

−

1 n

log

2 P

ˆ

(w

n

1 )

(21)

Enpratique,pour omparerlaperforman ededeuxML,on omparelesentropies roisées al uléespour esdeuxmodèlessurun orpusdetest

T

aussigrandquepossible,demanière àapproximeraumieuxlalimiteversl'inni :

H

T

(P, ˆ

P

) = −

1 t

log

2 P

ˆ

(T )

(22)

où

t

représente le nombre de mots du orpus de test. Cette équation est très pro he de l'obje tifdelamodélisationstatistiqueduML( f.équation(3)),i.e.,trouver

P

ˆ

maximisant

ˆ

P

(L)

. Plusl'entropie roiséeest faible,meilleurest ainsilemodèle.

Dans la plupart des études évaluant les ML, la perplexité

P P

est souvent préférée à l'entropie roisée.Ellese al ulesurunensembledetest

T

àpartirde:

P P

T

( ˆ

P) = 2

H

T

(P, ˆ

P )

(23)

Bien que très utilisé pour la omparaison des ML, e ritère possède des limites. Une baisseimportantedelaperplexiténe orrespondpasfor émentàunebaissedemêmeordre dutauxd'erreursurlesmots,sionintègreleMLdansunsystèmedeRAP;seulesdes rédu -tionsdelaperplexitéd'aumoins10-20%semblentêtrevraimentsigni atives[Ros00b℄.Son prin ipal in onvénientest qu'il favorise lesmodèles a ordantune plus grande probabilité auxmotsprésentsdansle orpusdetest,etignorelamanièreave laquellesontdistribuées les probabilités auxautres mots. Or, es mots peuvent onduire, lors du dé odage par le systèmede RAP,àdesprobabilitésplusélevées que ellesobtenuespourlesmots orre ts [CR99℄. Dans ertainessituations,on peutainsi observerune augmentationdu taux d'er-reurenmêmetempsqu'unediminutiondelaperplexité.Certainsauteurspré onisentdon d'utiliserpluttl'entropie roisée,qui sembleplus orréléeave letauxd'erreur[Goo01℄.

(25)

Cettese tion2dédiéeauxprin ipesdefon tionnementdessystèmesdeRAPnousadonné l'o asiond'évoquerleslimitationsdesMLlespluspopulaires,i.e.,lesmodèlesN-grammes. Avantde voiren détail ommentil est possibled'intégrerdavantagede onnaissan es lin-guistiquespouraméliorerlesperforman esdelatrans ription,lase tionsuivantesefo alise surlesspé i itésdelalangueparlée.

(26)

3 Cara téristiques de la langue parlée

Les do uments traités par lessystèmes de RAP sont par dénition pronon és pardes lo uteurs et relèvent don du domaine de la langue parlée. Ces types de do uments ont malheureusementétépeuétudiésparleslinguistesetlesadeptesduTAL, omparativement auxtextesé rits. Cette onstatationtrouvesasour edanslemodedepensée dela ulture o identale,quiétablit trèssouventquel'é rit, onsidéré ommeprestigieux,estseuldigne d'intérêt.En outre,peude orpusorauxexistentet euxqui sontdisponiblessontsouvent de taille peu importante. Les plus volumineux d'entre eux pour le français ne possèdent ainsi que quelques millions d'o urren es. Ce i a pour résultat que les systèmes de RAP a tuelsee tuentl'apprentissagedesML surun orpusoralde taille réduite,a ompagné d'un orpusé rit beau oup plus volumineux, aurisque de paramétrerles modèles ave la langue utilisée dans lejournal Le Monde pourle françaisou elui duWall StreetJournal pourl'anglais[Vér04℄.

Deux questions se posent alors. Peut-on modéliser la langue parlée à l'aide de orpus de la langue é rite, disponibles en plus grands volumes que les orpus oraux? Quel est le omportement du TAL et du pro essus de trans ription par rapport aux phénomènes spé iquesdelalangueparlée?Pourrépondreà esquestions,nouspré isonstoutd'abord e qui dénit la langue parlée par rapport à la langue é rite. Nous présentons ensuiteles prin ipales ara téristiques de ette langue parlée en e qui on erne son vo abulaire et sasyntaxe,avantde dé rire lesperturbations provoquées par lesphénomènes d'hésitation très fréquents qu'elle ontient. Nous abordons ensuite la onstitution des orpus oraux, en montrantbrièvementsous quellesformes ils se présentent et omment ils peuvent être annotés.Nous terminons ettese tionen étudiant le omportementdessystèmes de RAP vis-à-visdesdialoguesspontanés,quisontlaformedel'oralsedistinguantleplusdesformes onventionnellesdel'é rit.

3.1 Langue parlée et langue é rite

La langueparlée est dénie ommeétant e quiest pronon é pardeslo uteursàl'oral et fait don appel à la voix et à l'oreille. La langue é rite représente quant à elle e qui s'é ritetimplique don l'usagede lamain etdesyeux. Lalangue parléeetlalangueé rite exploitentainsides anauxdiérentsquiontdes ontraintesimportantes surleurmodede produ tion[Mel00℄.

Le analoralimposeune ertainelinéaritélorssonémissionetdesoné oute,mêmesion peutparfoisavoirre oursàdesdispositifsd'enregistrementpermettantdefairedesretoursen arrière.L'oral,produiten ontinu,ex lutengénéraltouteformedepréparationpréalable,de plani ation.La ongurationtypiquedel'oralest ara tériséeparuneré eptionimmédiate par un ou plusieurs interlo uteurs, qui ont la possibilité de réagir au ours même de la produ tion.Ce ipeutobligerlelo uteuràadaptersondis oursenfon tionde esréa tions. Le analé ritau ontraireexploitelapageetfaitintervenirdeuxdimensions:lalargeur etlahauteur,fa ilitantainsilesretoursàdesélémentsantérieurs.Letexteestgénéralement produitendiéréetpeutdon êtreformuléetreformuléavantd'êtrelivréauxdestinataires.

(27)

Lesré epteursnesontpasau onta tdus ripteuret elui- isetrouveengénéral ontraint deproposeruntextedésambiguïsé,informatifet stru turé.

Ilexisteen outreuneoppositionentre l'oralet l'é ritauniveaudelasegmentationdes produ tions.Laprosodie,quire ouvredesinformationssurl'intonation,l'a ent,lespauses et même le débit, joue un rle important dans la segmentation de la langue orale, sans toutefoispermettreunestru turationaussiimportanteque equ'onpeutattendrepourles textesé rits.Iln'existeeneetpasàl'oraldedémar ationaussinetteque ellepermisepar lessignesdepon tuation;onnepeutvraimentd'ailleursyparlerdephrase( f.se tion3.4.1). Lespro édésde mise en pagede l'é rit,àsavoirles alinéas,les paragraphesouen oreles se tions,autorisentau ontraireunestru turationdedo umentsdetailleimportante.

Les modes deprodu tion deslangues parlée et é rite, quenous venonsd'évoquer,font que l'é rit est stable et laparole instable. Cette ara téristiquea ainsi onduit la ulture o identaleàvaloriserl'é rit surl'oral,même sinalementl'é rit peutêtrevu uniquement ommeunsimplesystèmede odagedelalangue parléeaumoyendesignesvisibles. Alors queleslois,les ontrats,lestextesreligieuxfondamentauxsontdesdo umentsé rits,l'oral nené essitepasunapprentissageàl'é oleaussiformel quel'é rit.Ave l'inventionde l'im-primerie,quiagrandementfavoriséladiusiondestextes,le odeé ritaprisdeplusenplus d'importan e.L'apparitiondesordinateurs etd'Internetafait roîtredemanière exponen-tiellelaprodu tionetladiusiondedo umentsé rits,maisfavoriseégalementl'apparition denouvellesformesde do uments, ommeles ourriels oulesblogs.Dans lemême temps, lesmédias ontpermis ladiusion massivede dis ourstélévisésou bien en ored'émissions radiophoniques.L'opposition entre langue parlée et langue oraleest ainsiloin d'être aussi laireque elleprésentéeaudébutde ettese tionetonassisteàunehybridationdes odes [Pol03℄.Sil'onpeutfa ilementopposerlesdialoguesauxromanslittéraires,onnetrouvepas toujoursde ontrastesaussifortsentrelalangueparléeetlalangueé rite,notammenten e qui on ernel'intera tivitéet lapréparationdesdo uments.Ledis ourstélévisédu hefde l'état àlanation serapar exemplepréparé et n'autorise pas l'intervention desré epteurs. Le ourrieréle troniqueautorisequantàluidavantaged'intera tionsave lesdestinataires etserappro heplusdudialogueoral.

Lalanguequiestemployéedanslesdo umentsé ritsouorauxpeutsubird'importantes variationsselonlesrégionalismes,les périodes onsidérées,les groupesso iauxet ulturels ouen ore les registres[Mel00℄. Dansle domaine de l'oral,la linguisteBlan he-Benveniste dénit six genres majeurs : les onversations fa e à fa e, les onversations par téléphone, lesdébats et entrevuesen publi , les émissionsde radio ou de télévision, les dis oursnon préparésetennlesdis ourspréparés[BB97℄.

Leslanguesparléeet é rite orrespondentdon àdeux odesdiérentspuisqu'elles n'u-tilisent pas le même anal de ommuni ation. On ne peut ainsi onsidérer l'oral omme une simpleformedégradéede l'é rit.De même, bien que ertainesé ritures soient phono-graphiqueset odent en partie les sons, omme elaest le as dufrançais, l'é rit est loin d'être une seule trans ription de l'oral, ne serait- e que par e que le s ripteur hoisit la manièrede présenter lesinformations [GT04℄. Les diéren esentre l'oralet l'é rit ne sont

(28)

toutefois pas susantes pour qu'il faille les étudier de manière totalement indépendante [BB90℄.

Les se tionssuivantesseproposentdedégager desphénomènesrevenantplus fréquem-mentàl'oralqu'àl'é rit.

3.2 Vo abulaire et syntaxe

Mêmes'ilestin orre tdedirequel'oralestuneformerelâ héedel'é rit,leregistredela langue parléeestgénéralementmoinssoutenudanslamesureoùelleest souventemployée dans des adres moins formels. Du point de vue lexi al, la langue parlée se fonde sur un ensemblefamilierdemots,plusrestreintque eluidelalangueé rite.Uneétude omparant deux orpusde 20 millionsd'o urren esde mots ha un,le premier orrespondantàdes journaux é rits et le se ond à des émissions journalistiques radiophoniques et télévisées trans ritesmanuellement,aainsiobtenu127000motsdistin tspourl'oralet215000pour l'é rit, et e, en onsidérant une même année de produ tion. Toujours selon ette même étude, l'utilisation des atégories grammati ales suit des répartitions diérentes dans les deux orpus. Un taux plus important de pronoms et un taux moins important de noms sontainsi observésàl'oral[GAD02℄. Ony observeaussil'introdu tionde petits mots, notammentappelés ligateurs,marqueursdedis oursouen oreinserts, ommeparexemple quoi ,bon ,don ,ennougenre.

Auniveaudelasyntaxe,ilexistedestournurespropresàl'oral.Sienfrançaislepas estfa ultatif àl'é ritdans lanégationne ...pas, 'est lene qui ledevientàl'oral. Leil prendégalementàl'oral un ara tèrefa ultatifdanslesformulesil fautet il y a. Onpeutaussi iterl'invariabilité du 'est dans desexpressionstellesque 'est lesvoisinsqui sonnaient. Cesexpressionssontduesau ontexted'utilisationdelalangue oralequi favorise l'intera tivité et impose don untemps limité de formulationdes idées. Pourlamême raison,etmême si elaest loind'êtresystématique,lesa ordsduparti ipe passéserontmoinsrespe tésàl'oralqu'àl'é rit[Mel00℄.

Ilsembleégalementquel'ordredes motssoit unpeuplussouple danslalangue parlée que dans l'é rite, bien que les langues rigides sur l'ordre des mots omme le français ou l'anglais lesoient en oreàl'oral [AG01℄.Les éléments régis parleverbepeuvent, àl'oral, sepla eravantlegroupesujet-verbe, ommedansl'exempleleshari otsj'aimepas.On observeaussidavantagede livées( 'est le oieur qui est ontent ),de pseudos- livées ( e qui l'intéresse 'est le pognon ), de doubles marquages(moi j'en ai jamais vu en Suissedesimmeubles)ouen orededislo ations(j'ai hoisi la bleue derobe)[BB90℄.

Ces phénomènesnejustientpastoutefois deproposerune grammairespé ialepourla langueparlée.Pourlefrançais,Blan he-Benvenisteindiqueainsiquelasyntaxedel'oralne dièreenrien de elledel'é rit,saufen termesdeproportions[BB90,BCD

+

04℄.Bienque elasoitplusrarequ'àl'oral,onobserveégalementàl'é ritdes livéesoumêmedeserreurs d'a orddeparti ipepassé.

Cettese tionamontrélesprin ipalesdiéren esquel'onpouvaitobserverentrel'oralet l'é ritdupointdevuedulexiqueetdelasyntaxe.Toutefois,elleao ultélesperturbations

(29)

de la syntaxe par les phénomènes d'hésitation, plus nombreux dans la langue parlée. La se tionsuivanteétudiel'inuen ede esphénomènes.

3.3 Phénomènes d'hésitation

Les marquesd'hésitationnesontpaspropresàl'oral puisqu'ellessemanifestent égale-ment dans les nouvelles formes de ommuni ation é rite omme les ourriels, les forums, les hatsouen orelesSMS [Ben04℄.Ellessontégalementprésentes danslesbrouillonsdes textesé ritssousla formederatures. Néanmoins,ellessontavanttout ara téristiquesde l'oral spontané. Ilestainsi estiméqu'elles représententenviron5% desmotsdans les or-pus spontanés et moins de 0,5% des mots dans les orpus de parole lue ou préparée ( f. se tion3.4).Ellesnepeuventdon êtreignoréeslorsdelatrans ription.

Lesphénomènesd'hésitation orrespondentgénéralementàuntravaildeformulationde la part dulo uteur, dans la mesure où le dis ours est omposé au fur et àmesure de sa produ tion.Ilspeuvent ependantavoird'autresrlestelsquelamanifestationd'undoute, l'envoid'unsignalauré epteurpourgarderlaparoleouau ontrairelalui éder,lemarquage defrontièresdansledis ours,oubienen orel'expressiond'unstressoud'unedé ontra tion. Commelesmarquesd'hésitationintroduisentunerupturedansla ontinuitédudis ours, ouplusexa tementdansledéroulementsyntagmatique,ellessontégalementappelées disu-en es.Ilexistebiend'autrestermesutilisésdanslalittératurepourlesnommer, ertainsne désignantpasexa tementlesmêmesphénomènes:turbulen es,fauxdéparts,lapsus, inatten-dusstru turels,spontanéités,modesdeprodu tiondelalangueparlée,marquesderéparation, marques dutravail de formulation,extragrammati alités,et .Une telleprofusion determes témoignedeladis ordan eentre ertainslinguistessur equirelèveounondel'hésitationà l'oral.Toutefois,depuisquelquesannées,plusieursétudessesontintéresséesauxphénomènes d'hésitationset unenomen lature ommen eàsedégager.

Ces phénomènespeuventêtredenaturesdiérentes.Ilsin luentparexemplelespauses silen ieuses,maispastoutes, ertainesjouantd'autresrlesquel'hésitation ommela hiérar- hisationetlastru turationdes onstituants,ouen orelamiseenvaleurstylistiquede er-tainssyntagmes.Lespausesremplies, orrespondantauumouauuhenanglaisetau euh enfrançais,ouen orelesallongements vo aliques enndemotssontdes marques d'hésitationtrèsemployées[Hen02a,Can00℄.Onpeutaussi iter[Shr01℄:

lesrépétitions:tousles- lesjours 5

, lessuppressions: 'est - ilest arrivé lundi ,

lessubstitutions:tousles jours-touteslessemaines,

lesinsertions:je suis onvain u- je suisintimement onvain u, leserreursd'arti ulation:en jouin- en juin.

Cesquatredernierstypesdedisuen esontparfoisdésignéssousletermed'auto orre tions [Hen02a℄.

Ilestpossibledefaireuneautre lassi ationdesphénomènesd'hésitation,endistinguant [PH04℄:

5

(30)

lesbribes, orrespondantàunerepriseàpartirdesyntagmesina hevés:ila quand même un- une brepédagogique,

lesamor es,asso iéesauxmotsina hevés: 'estpasmalho- 'estpasmalhonnête. Lesdiérentsphénomènesd'hésitationsontrarementproduitsseulsmaisplutten om-binaison.Ilpeutainsiyavoirdesrépétitionsdefragmentsdemots(onlere-re-revendique en oreunefois)[HP03℄.Demême,pourassurerunrled'hésitation,lespausessilen ieuses sontgénéralementasso iéesàdesallongementsvo aliquesouàdespausesremplies[CV04℄. La fréquen e d'apparition des marques d'hésitation est très variable selon le lo uteur et le ontexte d'élo ution. Dans les dialogues homme-ma hine, on onstate généralement moinsdedisuen esquedanslesdialoguesentredeuxhumains.Ilsembleégalementqueles hommesproduisentenmoyennedavantagededisuen esquelesfemmes.Lafréquen edes marquesd'hésitation est deplusdépendante delaposition danslaphrase. Lesdisuen es ontainsitendan e àseproduireplutten débutdephrase,lorsquel'eortde plani ation est le plusimportant. Pourla même raison,leur tauxaugmente souventave la longueur de la phrase [Shr01℄. Les phénomènes d'hésitation ae tent enn diéremment les mots. En distinguant deux types de mots, à savoir les lexi aux, représentant eux qui ont une harge lexi ale pleine

6

et les grammati aux, parti ipant à la stru turation de la langue 7

, on onstate que les répétitions on ernentplus souventles motsgrammati auxet queles amor esae tentplusfréquemmentleslexi aux[PH04,Hen02b℄.

En analysantlesdisuen es, despsy holinguistesontmisenéviden eplusieursrégions (Fig.9)[Shr94,Shr01℄:

lereperandum,désignantunepartieoulatotalitédelaséquen equiseraabandonnée auprotdelaréparation,

lepointd'interruption,marquantunerupturedanslauiditédudis ours,

l'interregnum, pouvant être des pauses remplies, mais aussi des termes d'édition, ommeben,hein ,tuvois,disonspoursimplier ,jesaispasmoiou en oreje merappelleplusdunom ,

laréparation, représentantlapartie orrigéedureparandum.

Fig.9Régionsdansunedisuen e(d'après[Shr01℄)

Lasegmentationdesdisuen esenrégionsestliéeàdesmodi ationsdespropriétés a ous-tiqueset phonétiques.Onobserveainsi généralementunallongementdessyllabesavantle

6

Engénérallesnoms,lesadje tifs,lesverbesetlesadverbes. 7

(31)

point d'interruption, ou au ontraire, dans le as d'une déte tion d'erreur de la part du lo uteur, unra our issement des syllabes. Cettestru turation permettraitde réduireles énon ésàunoralpropre,pro hedel'é rit,enéliminantlereparandumetl'interregnum. Malheureusement, etteappro heneren ontrepasl'unanimitédeslinguistesétudiantl'oral. 3.4 Corpus oraux

Ondisposeàl'heurea tuellede orpusé ritsdetaillevolumineuse.LeBritish National Corpus (BNC) ontientainsi 100millions d'o urren es pour l'anglais,tandis quela base Frantext omporte 210 millions d'o urren es pour le français. Les pages disponibles sur Internet, bien quesouventbruitées,peuventêtreégalement onsidérées ommeunesour e gigantesqued'informations [Vér04℄. Iln'existe malheureusement paspour l'oral de orpus de taille omparable.Le plus grand,àsavoirlapartie orale duBNC, ontient 10millions d'o urren esenanglais.Onpeut iterpourlefrançaisdeBelgiquele orpusValibel omp-tant près de4 millions d'o urren eset pour le françaisde l'hexagone, le orpusCorpaix omptantenviron2,5millionsd'o urren es[CVD05℄,et leCorpus deréféren edufrançais parlé omptant440000o urren es[ÉD04℄.

Les orpusoraux, onstituésaumoyendetrans riptionsmanuelles, on ernentaussibien delaparolelue,préparéeouen orespontanée.Laparolelueestasso iéeàlale tureàhaute devoixdetextes,qui biensouventappartiennentaudomainedelalangueé rite.Laparole spontanée orrespondàdessituations delaviequotidienneoùle lo uteurparlesansavoir préparéaupréalable equ'ilallaitdire eten s'adaptant onstammentàsesinterlo uteurs. Laparolepréparéeestuneformeintermédiaireparrapportauxdeuxpré édentesetestplus déli ateàdénir.Elledésignedes prisesdeparoleoù lelo uteuraréfé hiauparavantaux idéesqu'ilsouhaitetransmettre;ilpeutmêmedisposerd'untexte ontenantune partiede son dis ours, qu'il n'ira pas toutefois jusqu'à lire mot à mot pour pouvoirinteragirave les interlo uteurs. Les questions posées par unjournaliste et lesentretiens donnés par un hommepolitiquesontdeux exemplesdeprodu tiondeparolepréparée.

Selon les onventions adoptées,les orpus peuvent avoirplusieursformats; ils peuvent ontenir des informations pré ises sur laprosodie, être pon tués ou bien en oreavoirdes annotationssur des événementsautres que lapronon iation des mots.A essoirement, ils sont souventétiquetéspourfa iliter leur exploitation.Ils sontalorssegmentésen motsou groupesdemots,auxquelssontasso iéesdesinformations(e.g.syntaxiquesousémantiques) surlerlede es onstituantsdanslegroupedesoue ourant.Laforme hoisiedu orpus dépend del'utilisationprévuemaisaussidesressour eshumainesdisponibles, omptetenu deladi ultéetdutempsné essairepouree tuerunetrans riptionmanuelle.L'indi ation delaprosodie dansles orpusoraux, bienquesouhaitable,demande notammentuntemps onsidérable et se limite souvent à quelques informations. Même si des logi iels tels que Trans riber simplientl'alignementdusonave latrans ription[BGWL01℄, ilaété estimé qu'environ40heuresdetravailsontné essairespourfaireunetrans riptionorthographique pré ise d'une heure de parole, et e, ave de bonnes onditions d'enregistrement et sans alternan edelo uteurs[Cam01,Vér04℄.Lasuitede ettese tiondé ritsousquellesformes

(32)

peuventseprésenter les orpusoraux, avantde présenter lamanièredontils peuventêtre étiquetés.

3.4.1 Formesdes orpus oraux

La transposition du signal sonore sous la forme d'un autre anal de ommuni ation, à savoir le texte, né essite ertaines onventions. Elle se heurte à des di ultés qui sont prin ipalement: la présen ed'événementsnon linguistiques dans leux audio,l'existen e dephénomènespropresàlalangueparléeet lasegmentationdudis ours.

La per eption desmotsàpartirdusignalsonorepeut tout d'abordêtre perturbée par desévénementsnonlinguistiques qu'ilestintéressantd'annoterdans lamesureoùils peu-vent rendre la parole inaudible. Ces phénomènes peuvent être liés aux onditions d'en-registrement, tels les parasitesou les bruits de fond, ou bien en ore être produits parles lo uteurs, ommelesinspirations,lesriresoulestoux.

Des événements propresà la langue parlée né essitent égalementdes onventions.Les hevau hements entre lesdis ours pronon és en même temps par plusieurslo uteurs sont ainsiproblématiques,danslamesureoùilfautindiquerlasimultanéitédansletexte,quiaun formatséquentiel.Lesphénomènesd'hésitationné essitentquantàeuxuneattention parti -ulièredelapartdutrans ripteur arilssontnaturellementignoréslorsdela ompréhension des dialogues. Ils présentent pourtant un intérêt pour les linguistes, qui en les observant peuventvoirlaprodu tiondulangageentraindeseréaliser.Ilfautdon adopterdesrègles pourindiquerlespausessilen ieusesouen orelesamor es.Ilexisteaussiplusieurstypesde pronon iationpour ertainsmots, equ'ilestutiled'indiquer.Ce ipeut onduireàfaireune trans riptionphonétiquepluttqu'unetrans riptionplus lassique,diteorthographique,sous formedemots.On hoisitgénéralementd'avoirunetrans riptionorthographique,ave une onventionpourdistinguerlespronon iationsdemotsproblématiques,telsquelessigles.

Unedesdi ultésmajeuresdela onstitutiondes orpusorauxrésidedansleur segmen-tation.Pour fa iliterleur lisibilité,ils ne peuventen eetseprésenter souslaformed'une suiteininterrompuede mots.Un premierniveaude segmentation onsisteà distinguerles tours de parole, i.e., les suites de mots pronon ées par un lo uteur donné avant qu'il ne èdelaparole.Iln'existepasd'unitéqui soitaussinettementdénie quelaphrasepourla langueé rite. L'unitéde lalangue parlée, quel'on qualied'énon é,peutainsireprésenter l'ensembledu tourde parole. Certainslinguisteset psy holinguistes ara térisentaussi un énon é ommeétantdélimitéparlaprosodie.D'autresledénissent ommeunesu ession demots représentantune idée ohérente;dans lesdire tivesd'annotationmetadata adop-tées dansles évaluations Ri h Trans ription onduitespar le NIST,on parleainsi deSU, asso iéeàplusieurssigni ations:SententialUnit,Synta ti Unit,Semanti Unit ouSlash Unit [Str03℄.

Malgrélasubje tivitéque elaentraînedelapartdutrans ripteur, ertaines re omman-dations de trans ription demandent d'indiquer les signes de pon tuation dans les orpus oraux, e qui les rappro he detextes plus onventionnels.La prosodie et lespauses silen- ieuses apportent alors des informations pré ieuses quant à la pon tuation. La gure 10 montreainsiunextraitde orpustrans ritave despon tuations.D'autres onventionsde

(33)

Legouvernement améri ainva présenter, [i℄euh,au onseilde sé uritéde l'!ONU,[i℄ unprojetd(e)résolution,[mi ℄untextequipermettrait,[i℄la levéed(e)l'embargo Noëlle ^^Véli.

où [i℄ marque une inspiration, !ONU représente un a ronyme, d(e) indique uneabsen e depronon iationdu e, [mi ℄témoigne delaprésen e d'unbruit de mi roet ^^Véli pré isequelemotestin onnuparletrans ripteur.

Fig.10Extrait d'un orpustrans ritselonles onventionsdeTrans riber ils ont desouvrierseuh payés

spé ialisés

sup-surles hantiersde fouille Fig.11Miseengrilled'unénon é(d'après[Gué05℄)

trans riptionre ommandentau ontrairedenepasindiquerdesignesdepon tuation arle dé oupage ee tué parle trans ripteuren syntagmes ouen phrasespréjugede l'analyse à faire[BB90℄.Lespausessilen ieusesserévèlentdeplusimpré isespourdéte ter es pon tu-ations,y omprisquandle orpustrans rit orrespondàuntextelu[CV02℄.Pouraméliorer lalisibilité destrans riptions,Blan he-Benvenisteproposeune segmentationplusne sous formedegrille.Lorsdelaprodu tiondelaparole,ilexisteeneetuntravaildeformulation importantqui vient perturberla su ession des motset ledis ours s'apparente souvent à uneénumération.Ce typedeprésentation onduit àpositionner l'unendessousde l'autre desélémentspronon éssu essivementetquio upentunemêmepla esyntaxique(Fig.11) [BB90℄.

3.4.2 Étiquetage des orpus oraux

Pourfa iliterl'utilisationdes orpus,qu'ilssoientorauxoué rits,unétiquetage morpho-syntaxiqueestsouventréalisé.Cetétiquetage onsisteàattribuerà haquemot,voireàdes groupesde motsdansle asde lo utions,uneétiquetteque l'onappellepartie du dis ours ouPoS (pourPartofSpee h).UnePoS orrespondàunepropriétégrammati aledansune phrase,tellequenom, verbe,adje tif, préposition,et .,quel'on peutpré iserparlegenre, lenombre, la personne, et . Le hoixdes PoSà onsidérern'est pas xepour une langue donnée.Lesétiqueteurspeuventainsiavoirdesjeuxd'étiquettes diverspourdesmotstrès employés[CVD05℄.

Devantlataille des orpusàanalyser,l'étiquetageautomatiqueserévèleindispensable. Lespremiersprogrammesd'étiquetageautomatiquesontapparuspourl'é ritdèslesannées 50. Ils étaient basés sur la produ tion manuelle de règles. Depuis les années 80, ertains étiqueteurs utilisent des méthodes statistiques, telles que les HMM [Bra00℄ ou les arbres