• Aucun résultat trouvé

3.4 Corpus oraux

3.4.2 Étiquetage des orpus oraux

Pourfa iliterl'utilisationdes orpus,qu'ilssoientorauxoué rits,unétiquetagemorpho- syntaxiqueestsouventréalisé.Cetétiquetage onsisteàattribuerà haquemot,voireàdes groupesde motsdansle asde lo utions,uneétiquetteque l'onappellepartie du dis ours ouPoS (pourPartofSpee h).UnePoS orrespondàunepropriétégrammati aledansune phrase,tellequenom, verbe,adje tif, préposition,et .,quel'on peutpré iserparlegenre, lenombre, la personne, et . Le hoixdes PoSà onsidérern'est pas xepour une langue donnée.Lesétiqueteurspeuventainsiavoirdesjeuxd'étiquettes diverspourdesmotstrès employés[CVD05℄.

Devantlataille des orpusàanalyser,l'étiquetageautomatiqueserévèleindispensable. Lespremiersprogrammesd'étiquetageautomatiquesontapparuspourl'é ritdèslesannées 50. Ils étaient basés sur la produ tion manuelle de règles. Depuis les années 80, ertains étiqueteurs utilisent des méthodes statistiques, telles que les HMM [Bra00℄ ou les arbres

dedé ision[S h94, S h95℄, pourprédirelaprobabilitéd'attributiondesétiquettes.Mais e n'estqueré emmentquedesétudesontétémenéessurl'étiquetagede orpusoraux.

Iln'existepasàl'heurea tuelle,toutdumoinsànotre onnaissan e,d'étiqueteurs onçus spé iquementpourl'oral.Dessystèmesprévusinitialementpourétiqueterdesdo uments é rits ontété utilisés sur des orpusoraux, que e soit pour l'anglais [Gar95℄, le français [VV99, CVD05℄, le suédois [NG01℄, le néerlandais [VEZD00℄, l'espagnol [MG03℄, le por- tugais [MAB03℄, l'italien [PPM04℄ ou en ore le japonais [UNY

+

02℄. Ces étiqueteurs sont souventadaptésàl'oralenmodiantlégèrementleur omportementpour ertainsmotset enappliquantau orpusuntraitementpréalablepouréliminer ertaines ara téristiquesde l'oral,telles quelesamor es.Dansle asoùle orpusne ontientpasdesignedepon tua- tion,lesmarquesdepausespeuventêtrerempla éespardespointsdesuspension,i.e., par lapon tuation laplus neutrepossible parrapport aufon tionnement de l'étiqueteur. Les amor esdemotssontengénéralignoréesparl'étiqueteur arilestparfoisdi ilededeviner lemot pronon é. Ilpeut être égalementutile d'éliminerdes événementsnon lexi aux, tels quehein  eteuh, ouen oredesévénementsnonlinguistiques ommelesignalement d'applaudissements.Deplus, ertainsmotsapparaissentbeau oupplusfréquemmentàl'oral qu'àl'é rit,notammentles ontra tionsdemotsetlesinterje tions;lesmots ara téristiques del'oralsontainsiinsérésdanslelexiquedel'étiqueteur.Demême,onajoutemanuellement desrèglesouonmodiemanuellementlesprobabilitésd'assignationdesétiquettespourles motsqui ontun omportementdiérentàl'é ritet àl'oral.

Pourmesurerlesperforman esdel'étiquetageautomatique,unextraitde orpusétiqueté automatiquementest omparéave lemêmeextraitétiquetémanuellement.L'évaluationest uneopérationdéli ateàee tuer danslamesureoùl'étiquetagederéféren e,i.e.,l'étique- tagemanuel, peutdiérer selonlesannotateurs pour ertainsmots problématiques.Il est leplussouvent hoiside onsidérer ommea eptable une étiquettedèsqu'ellerelèved'un pointdedis ussionentrelinguistes.Le ritèredeperforman eestalorslepour entaged'éti- quettesa eptables.La omparaisondesperforman esentreétiqueteurs n'estpasnonplus hose aisée arlejeu d'étiquettesoulasegmentationenunités àétiqueterpeuventdiérer [AMP

+

99℄. En e qui on erne l'étiquetage de l'é rit,les performan es sont supérieures à 95% d'étiquettes orre tes.En utilisant desétiqueteurs onçusinitialement pour l'é rit et adaptéspourl'oral,desexpérien esontpermisd'atteindre98,75%pourlefrançais[VV99℄, entre 95% et 97% pourlesuédois[NG01℄,94,3%pourlenéerlandais[VEZD00℄ou en ore 98,3%pourl'espagnol[MG03℄.

Lesperforman essontdon trèspro hesde equiestobservépourl'é rit, ontrairement à e que l'on aurait pu penser. L'expli ationqui est souvent donnéepour justier es ré- sultatsestquelesétiqueteurssebasentsurdesphénomèneslo aux etserévèlentdon peu sensibles aux phénomènes propres àla langue parlée. Une analyse qualitative des erreurs montre toutefois que l'étiquetage est mis enerreur par ertainesparti ularités des orpus oraux ommel'absen edepon tuation,lesrépétitionsoules hevau hementsentredesmots pronon éssimultanément[VV99℄.

Outre l'étiquetage par des PoS, il existe d'autres niveaux d'annotation envisageables pourles orpusoraux.Onpeutainsi iter:

 l'annotation pragmatique ara térisant lesa tes de dis ours,tels que la question,le onseil,la onrmation,lesremer iements...[LMW97℄,

 l'annotationstylistique ara térisantlaprésentation dudis oursetde lapensée,e.g. parnarration,dis oursdire t,dis oursindire t,dis oursindire tlibre...[LMW97℄  l'annotation syntaxique indiquant les dépendan es entre mots ou groupes de mots

[BCD

+

04,BV05℄.

Toutes es annotationssontbeau oupmoins ourantes quel'étiquetagemorphosyntaxique et ne peuvent être obtenues onvenablement par des méthodes automatiques. L'analyse syntaxiquedel'oralpardesgrammairesposeainside nombreuxproblèmes.Aux di ultés ren ontrées pour la langue é rite et qui sont également présentes dans la langue parlée, ommel'ambiguïtédesanalysespossibles,s'ajoutentdesproblèmesbienspé iquesàl'oral, telsquelaprésen ededisuen es,lerespe tpluslâ hedesrèglesdelalangueet l'absen e de segmentation bien laire enphrases. Les distorsions de lalangue parlée requièrent une granderobustesse delapartdes analyseurssyntaxiques.Pour on evoir es systèmes, une appro he similaire à la démar he adoptée pour l'étiquetage morphosyntaxique onsiste à utiliser un analyseur développé pour l'é rit et à lui adjoindre des pro édures traitant les extragrammati alitésdel'oral [BDM98℄.

Documents relatifs