• Aucun résultat trouvé

Une transcription facilitant l'application de méthodes du TAL

5.2 Réordonnancement des N meilleures hypothèses

5.2.4 Une transcription facilitant l'application de méthodes du TAL

morpho-syntaxiques, ce qui nous permet déjà de valider notre approche. Des indices

supplémen-taires suggèrent que les transcriptions ainsi produites facilitent l'exploitation des sorties

du système de RAP par des méthodes de TAL.

5.2.4.1 Une transcription rendue plus grammaticale

L'évolution du SER (pour sentence error rate) en recourant aux informations

morpho-syntaxiques (Tab. 5.6, 3 dernières colonnes) montre que la diminution du WER

se traduit systématiquement par une réduction du SER. En outre, en étudiant

manuel-lement certaines erreurs corrigées par l'emploi des POS, nous avons constaté que, d'une

manière générale, les groupes de soue modiés tendent à être plus grammaticaux .

Cela se traduit par une baisse du nombre d'erreurs de transcription, mais aussi parfois

par une apparition de mots mal reconnus. Ainsi, dans les deux premiers exemples

four-nis (Fig. 5.6), le recours aux informations morpho-syntaxiques permet de reconnaître

correctement un passé-composé et de corriger une faute d'accord. Le dernier exemple

présenté montre un cas où les POS favorisent une hypothèse syntaxiquement correcte,

mais qui dière davantage de la référence par rapport à la séquence de mots proposée

initialement.

5.2.4.2 Calculs du taux d'erreur sur les lemmes

Le WER est la métrique la plus répandue pour évaluer la qualité d'une transcription.

Elle présente néanmoins l'inconvénient d'accorder autant d'importance à une erreur

commise sur une préposition que sur un nom qui apporte une indication importante sur

le contenu du document étudié. Dans certaines applications du TAL ou de la recherche

d'information, les textes sont considérés comme des sacs de mots , en ignorant l'ordre

dans lequel apparaissent les mots et en supprimant de plus les termes les plus courants,

notamment ceux appartenant aux classes grammaticales ; c'est par exemple le cas des

techniques de segmentation des textes suivant les sujets qu'ils traitent, application à

laquelle nous nous intéressons dans le chapitre 7. Parfois, les mots sont également

ra-menés à des formes canoniques, telle que des lemmes, de manière à assimiler comme

identiques des mots ne se distinguant que par la exion, voire la dérivation. Nous

pro-posons une nouvelle métrique en RAP, qui permet de mieux rendre compte que le WER

de la qualité de la transcription pour ce genre d'applications, en comptabilisant le taux

d'erreur sur les lemmes.

Cette mesure, notée LER pour lemma error rate est dénie de manière similaire au

WER en calculant le nombre d'insertions, de suppressions et de substitutions, mais en

lemmatisant cette fois au préalable la transcription de référence et celle produite par

le système de RAP. Nous annotons à cette n ces deux transcriptions à l'aide de notre

étiqueteur morpho-syntaxique, convertissons notre jeu d'étiquettes vers celui de

Tree-Tagger, puis utilisons le lemmatiseur Flemm [Namer, 2000]. Dans la mesure où ces

outils sont automatiques, des erreurs sont introduites, ce qui biaise légèrement les calculs

du LER. Notre étiqueteur a néanmoins montré de bonnes performances pour annoter

des émissions radiophoniques (cf. section 4.4.3), d'autant plus que de nombreuses

er-Erreurs corrigées

REF : une date qui A DONNÉ le vertige à une partie de la

france

HYP(sans POS): une date qui À DONNER le vertige à une partie de la

france

HYP(avec POS): une date qui a donné le vertige à une partie de la

france

REF : mais il souligne que les inspecteurs VOUDRAIENT

travailler en toute indépendance

HYP(sans POS): mais il souligne que les inspecteurs VOUDRAIT

travailler en toute indépendance

HYP(avec POS): mais il souligne que les inspecteurs voudraient

travailler en toute indépendance

Erreurs introduites

REF : addition des électorats chirac balladur ELLE se

CONTENTE de huit millions d' électeurs en deux

mille deux

HYP(sans POS): addition des électorats chirac balladur **** se

CONTENTENT de huit millions d' électeurs en deux

mille deux

HYP(avec POS): addition des électorats chirac balladur PARCE QU'

ON COMPTE DIX millions d' électeurs en deux

mille deux

Fig. 5.6:Exemples de groupes de soue modiés par la connaissance des POS

reurs concernent des mots grammaticaux comme que simples à lemmatiser. Flemm

est de surcroît un lemmatiseur jugé performant sur le français.

L'intérêt principal du LER est qu'il ignore les erreurs d'accord ou de conjugaison

qui sont peu pénalisantes pour des méthodes opérant sur des lemmes plutôt que sur

des mots. En outre, les transcriptions étant étiquetées, il est possible de se limiter à

certaines classes grammaticales. Seuls sont alors conservés dans les transcriptions de

référence et les hypothèses produites par le système de RAP, les lemmes correspondant

aux mots lexicaux que nous avons restreints aux noms communs, aux noms propres,

aux adjectifs et aux verbes. Les suites de lemmes ainsi produites sont alors comparées

an de calculer une mesure que nous notons LER

lex

. Nous dénissons également LER

0

lex

en ignorant les erreurs concernant les verbes auxiliaires les plus courants

8

, qui jouent

un rôle mineur dans la sémantique d'un texte.

8

Verbes employés pour apporter des précisions sémantiques ou syntaxiques sur un autre verbe

dit principal. Les verbes que nous avons considérés comme auxiliaires, quel que soit leur contexte

d'utilisation, sont avoir , être ainsi que les verbes modaux falloir , devoir , pouvoir et

vouloir .

WER LER LER

lex

LER

0 lex

sans POS 19,9 17,2 18,5 17,5

s(w

n 1

) 19,1 16,9 18,3 17,5

s

0

(w

n 1

) 19,0 16,6 17,7 16,7

Tab. 5.7:WER et LER (%) calculés sur le corpus de test avec un décodage par critère MAP

La diminution relative du LER par rapport au WER mesurée sur le corpus de test

(Tab. 5.7, deux premières colonnes) montrent que 13,6 % des erreurs produites par le

système de RAP sans POS sont dus à des confusions sur la exion des lemmes. Ce chire

est à peine inférieur lorsque l'on prend en compte des informations morpho-syntaxiques

(11,5 % avec s(w

n

1

), 12,6 % avecs

0

(w

n

1

)), ce qui suggère que les POS corrigent

propor-tionnellement un peu plus ce type d'erreurs mais qu'ils en rectient également beaucoup

d'autres. La comparaison des valeurs de LER

lex

et LER

0

lex

suivant que l'on recoure ou

non aux POS établit l'intérêt des

0

(w

n

1

)pour améliorer la reconnaissance des lemmes. En

revanche, aucun gain n'est observé pours(w

1n

)qui a tendance à privilégier les séquences

de POS probables sans tenir compte des mots reconnus.