• Aucun résultat trouvé

Conception d'un étiqueteur morpho-syntaxique pour l'oral

Il existe de nombreux étiqueteurs morpho-syntaxiques disponibles ; nous avons

tou-tefois décidé de développer notre propre étiqueteur. Les raisons sont nombreuses et

essentiellement pratiques. Cela nous permet tout d'abord de pouvoir modier plus

fa-cilement notre outil pour le paramétrer pour l'oral, les étiqueteurs n'étant pas toujours

distribués en compagnie de leur code. De plus, nous voulons un outil assez rapide pour

étiqueter un grand nombre d'hypothèses de transcription en un temps raisonnable.

L'éti-queteur Multext, lent lors de l'étiquetage, ne satisfaisait pas à ce critère. En outre,

nous souhaitons un étiqueteur susamment exible pour choisir nos propres jeux

d'éti-quettes et le vocabulaire des mots reconnus par l'étiqueteur. Cette dernière possibilité

s'est avéré importante dans la mesure où les noms propres, transcrits sans majuscules

par notre système de RAP, sont systématiquement associés à une mauvaise classe

gram-maticale pour la plupart des outils que nous avons pu tester.

Nous avons choisi de construire un étiqueteur stochastique basé sur les MMC, une

première comparaison de la qualité de l'étiquetage produit par diérents outils sur

des transcriptions automatiques montrant que l'étiqueteur de Brill conduisait à des

résultats un peu moins bons que ceux obtenus avec Multext, TnT [Brants, 2000] ou

TreeTagger. L'utilisation d'étiqueteurs statistiques présente l'inconvénient de devoir

construire un corpus étiqueté, mais ce corpus nous est également utile pour apprendre

les paramètres du modèle intégrant les POS dans le calcul des probabilités du système

de RAP (cf. section 5.2). La suite de cette section expose le modèle statistique qui

est à la base de notre étiqueteur, puis présente brièvement le corpus d'apprentissage

et le lexique que nous avons utilisés pour notre étiqueteur. Elle décrit ensuite la phase

d'apprentissage de l'étiqueteur, puis celle d'étiquetage.

4.3.1 Le modèle utilisé et ses paramètres

Notre étiqueteur évalue la probabilité que W soit associé à la suite d'étiquettesT

à partir des paramètres P(w

i

|t

i

) et P(t

i

|t

i−i−N1 +1

) (cf. équation (4.1)). Il existe deux

approches pour estimer ces deux types de paramètres [Merialdo, 1994]. Une première

consiste à recourir à l'algorithme ordinairement utilisé pour l'apprentissage des

pro-babilités dans un MMC, i.e., l'algorithme de Baum-Welch. Sa particularité consiste à

estimer simultanément les deux types de paramètres en cherchant le modèle Mˆ qui

satisfait au critère du maximum de vraisemblance :

ˆ

M= arg max

M

X

T

P

M

(W, T) (4.2)

W représente les mots du corpus etT une succession possible d'étiquettes pour W.

Le principal avantage de cette méthode est de pouvoir paramétrer le modèle à partir

d'un corpus non étiqueté en estimant de manière itérative les probabilités, jusqu'à ce

que la probabilité P

T

P

M

(W, T)n'augmente plus. Toutefois, pour obtenir de meilleurs

résultats, l'algorithme gagne à être initialisé à partir des nombres d'occurrences des

séquences t

i

i−N+1

dans un corpus étiqueté, ce qui réduit son intérêt.

Une seconde approche évalue séparément les deux types de probabilité P(w

i

|t

i

) et

P(t

i

|t

i−i−N1 +1

) au moyen des fréquences relatives. Les valeurs sont alors déterminées à

partir des nombres d'occurrences des étiquettes et des mots dans un corpus

d'appren-tissage :

P(w

i

|t

i

) = C(w

i

, t

i

)

C(t

i

) (4.3)

P(t

i

|t

i−i−N1+1

) = C(t

i i−N+1

)

C(t

i−i−N1 +1

) (4.4)

C(w

i

, t

i

) représente le nombre de fois où le mot w

i

est associé à l'étiquette t

i

et

C(t

i

i−N+1

) le nombre d'occurrences de la séquence d'étiquettes t

i

i−N+1

dans un corpus

d'apprentissage étiqueté. Même si les deux types de paramètres ne sont pas réestimés

en-semble pour améliorer la perplexité (cf. section 1.3.1) du corpus d'apprentissage comme

dans le cas de l'algorithme de Baum-Welch, cette seconde approche a des performances

d'étiquetage aussi bonnes, voire meilleures que la première [Merialdo, 1994]. Nous avons

donc opté pour un apprentissage basé sur les fréquences relatives.

4.3.2 Corpus d'apprentissage et vocabulaire

Le corpus utilisé pour l'apprentissage des paramètres de l'étiqueteur est un extrait

du corpus Ester. Ce corpus contenant des émissions d'information radiophoniques, il

relève à la fois de la parole préparée et spontanée et est donc plus adéquat que des

corpus de langue écrite pour étiqueter des documents oraux. Une expérience menée à

partir de deux étiqueteurs

2

a montré l'intérêt d'estimer les paramètres sur un corpus de

langue parlée pour étiqueter de l'oral puisqu'en faisant l'apprentissage sur un extrait du

corpus oral Switchboard, le pourcentage d'étiquettes correctes avoisinait 85 %, alors

qu'il n'était que de 75 % à partir du Wall Street Journal [Hamaker, 1999].

Nous avons constitué un corpus d'apprentissage d'environ 200 000 mots

représen-tant une durée de 16 heures. Il est extrait de la partie du corpus Ester que nous avons

utilisée pour l'apprentissage du système de RAP (Tab. 3.1 page 54). Les transcriptions

manuelles, contenant à l'origine des majuscules et des ponctuations, ont été étiquetées

par des POS au moyen du logiciel Cordial

3

. Le résultat a été converti

automatique-ment vers le jeu d'étiquettes que nous avons adopté, puis vérié manuelleautomatique-ment pour

corriger les erreurs d'étiquetage. Conservées dans un premier temps pour ne pas

pertur-ber Cordial, les majuscules et les marques de ponctuation dans le texte ont ensuite

été ôtées, avant de nalement segmenter le résultat en groupes de soue pour que le

format de notre corpus soit cohérent avec celui du texte produit par notre système de

transcription.

Nous recourons à un lexique étiqueté an de connaître les POS possibles pour chaque

mot. Ce dictionnaire a été construit à partir de celui élaboré pour le français dans le

cadre du projet Multext [Ide et Véronis, 1994], en le restreignant aux mots

apparte-nant au dictionnaire de prononciation que nous utilisons

4

. Il ne contient ni ponctuation,

ni mots composés. Nous avons toutefois ajouté une dizaine de locutions telles que parce

que ou a priori . Le choix des étiquettes morpho-syntaxiques a été fait de manière

à discriminer le genre et le nombre des adjectifs, des noms, des déterminants et des

pronoms, et le temps et le mode des verbes, ce qui conduit à un jeu de 93 étiquettes

diérentes (cf. annexe A). Cet ensemble d'étiquettes est très proche de celui proposé

dans les grammaires scolaires et est directement inspiré de celui de Cordial.

4.3.3 Apprentissage du modèle

L'apprentissage de l'étiqueteur consiste à estimer deux types de paramètres : les

probabilités lexicales P(w

i

|t

i

) et les probabilités contextuellesP(t

i

|t

i−i−N1+1

).

4.3.3.1 Probabilités lexicales

Un vocabulaire ayant été xé pour l'étiqueteur, seules les probabilités lexicales

P(w

i

|t

i

) concernant les mots w

i

de ce vocabulaire sont calculées à partir du corpus

d'apprentissage. En outre, l'application que nous visons étant l'étiquetage de

transcrip-tions automatiques produites par notre propre système de RAP, les textes à étiqueter ne

peuvent pas contenir de mots hors vocabulaire. Il n'est donc pas nécessaire d'eectuer

un traitement particulier pour les mots inconnus en réservant par exemple une masse

de probabilité P(w

unk

|t

i

) aux mots absents du vocabulaire du système de RAP mais

susceptibles de se présenter dans les textes à étiqueter. Certains mots du dictionnaire

sont en revanche absents du corpus d'apprentissage, ce qui conduit à adopter la

straté-gie suivante. Dans le cas où un mot w

i

est associé une étiquette t

i

totalement absente

3

Version 8.1 distribuée par la société Synapse Développement.

du corpus d'apprentissage

5

, la probabilité P(w

i

|t

i

) est estimée selon une distribution

répartie uniformément entre les mots associés à t

i

d'après le dictionnaire. Dans le cas

contraire, C(t

i

)devenant diérent de 0, les probabilités sont évaluées à l'aide de

l'éga-lité (4.3). Certains couples (w

i

, t

i

) n'apparaissant pas dans le corpus d'apprentissage,

il devient nécessaire d'appliquer des méthodes de lissage (cf. section 1.2.1) pour éviter

d'avoir des probabilités P(w

i

|t

i

) égales à 0. Nous avons testé deux types de lissage. Le

premier, qualié d'additif, calcule les probabilités par :

P(w

i

|t

i

) = C(w

i

, t

i

) +δ

δ× |V

ti

|+C(t

i

) (4.5)

δest une constante xée à 0,5 ou 1, et|V

ti

|représente le nombre de mots pouvant être

étiquetés par t

i

selon le vocabulaire de l'étiqueteur. Le deuxième, dit de Good-Turing,

procède de la manière suivante :

P(w

i

|t

i

) = C

(w

i

, t

i

)

C(t

i

) (4.6)

C

(w

i

, t

i

) est calculé au moyen de l'égalité (1.13) page 20. Dans la pratique, nous

avons utilisé une variante, la méthode simple de Good-Turing [Gale et Sampson, 1995],

qui tient compte du fait que pour certaines valeurs c, le nombre N

c

de couples qui ont

été observés c fois dans le corpus peut être nul.

An de connaître les paramètres les plus satisfaisants pour lisser les probabilités

lexicales, nous avons mesuré le nombre d'étiquettes correctes attribuées par l'étiqueteur

sur un corpus de développement de 6 780 mots. Nos résultats montrent que le lissage

additif avec δ = 1 est légèrement plus performant (cf. annexe B), ce qui contredit

une des conclusions présentées dans [Nivre, 2000]. Les diérences observées peuvent

toutefois être liées aux diérences existant entre les corpus étudiés puisque notre corpus

de développement contient uniquement 46 mots absents du lexique de notre étiqueteur,

ce qui représente 0,7 % du total, alors que celui utilisé dans [Nivre, 2000] est en langue

suédoise et contient une proportion de mots inconnus nettement plus élevée de 7,3 %.

4.3.3.2 Probabilités contextuelles

Pour évaluer les probabilités contextuelles, nous avons construit des modèles de

langage sur les étiquettes au moyen de la boîte à outils SRILM

6

[Stolcke, 2002]. Le

calcul de ces probabilités, contrairement à celui des probabilités lexicales, concerne des

N-grammes, ce qui autorise l'usage du repli pour lisser les probabilités :

P

repli

(t

i

|t

i−i−N1+1

) =

½

P

(t

i

|t

i−i−N1+1

) siC(t

i

i−N+1

)> k

α(t

i−i−N1+1

)×P

repli

(t

i

|t

i−i−N1 +2

) sinon (4.7)

Lorsque le nombre d'occurrences det

i

i−N+1

dans le corpus d'apprentissage a dépassé un

seuil critiquek, xé à 0 par exemple, les probabilités contextuellesP

repli

(t

i

|t

i−i−N1 +1

)sont

5

Cela peut se produire pour des étiquettes rares, notamment celles correspondant au subjonctif

imparfait.

estimées à partir des nombres d'occurrences constatées dans le corpus d'apprentissage.

De manière à conserver une masse de probabilité pour les séquences peu ou même non

observées, les probabilités P

(t

i

|t

i−i−N1+1

) incluent un facteur d'escompte :

P

(t

i

|t

i−i−N1+1

) = C

(t

i i−N+1

)

C(t

i−i−N1 +1

) . (4.8)

Nous avons testé pour notre part les méthodes disponibles dans SRILM : les lissages

de Katz, Witten-Bell, Kneser-Ney et Kneser-Ney modié, dont la description peut être

trouvée dans [Chen et Goodman, 1998], et celui de Ristad [Ristad, 1995].

Pour les séquences observées moins de k fois dans le corpus, les probabilités sont

estimées à partir des N-grammes d'ordre inférieur.P

repli

(t

i

|t

i−i−N1+2

) est alors pondérée

par un coecient α(t

i−i−N1+1

) an que les estimations des probabilités conditionnelles

respectent les contraintes stochastiques, i.e.,

X

ti

P

repli

(t

i

|t

i−i−N1+1

) = 1 . (4.9)

Ce coecient est déterminé à partir de la masse de probabilité réservée auxN-grammes

peu observés en remarquant que (4.9) est équivalent à :

X

tit.q.C(ti i−N+1)>k

P

(t

i

|t

i−i−N1+1

) + X

tit.q.C(ti i−N+1)≤k

α(t

i−i−N1+1

)×P

repli

(t

i

|t

i−i−N1 +2

) = 1 ,

(4.10)

ce qui donne :

α(t

i−i−N1 +1

) = 1

P

tit.q.C(ti i−N+1)>k

P

(t

i

|t

i−i−N1+1

)

P

tit.q.C(ti

i−N+1)≤k

P

repli

(t

i

|t

i−i−N1+2

) . (4.11)

Pour calculerP

repli

(t

i

|t

i−i−N1 +1

), SRILM débute par les probabilités unigrammesP

repli

(t

i

)

en les assimilant à P

(t

i

), puis calcule les probabilités contextuelles utilisant un ordre

de plus en plus grand.

Dans le but d'optimiser les calculs de l'étiqueteur, nous avons mesuré le nombre

d'étiquettes correctes sur le corpus de développement déjà employé pour paramétrer les

probabilités lexicales (cf. annexe B). En testant diérents ordres N et en comparant

plusieurs méthodes de lissage, nos expériences montrent qu'un ordre trigrammes sut

et qu'il y a peu de diérences observées entre les diérentes techniques de lissage. En

n'utilisant aucun lissage, nous n'observons notamment pas de dégradation signicative

des performances, ce qui montre donc que, dans le cas de l'étiquetage où le nombre de

classes envisagé reste restreint, le lissage est beaucoup moins primordial qu'il ne l'est

pour les modèles N-grammes de mots utilisés en RAP. Nous avons nalement adopté

un ordre de 3, qui est celui généralement employé pour les étiqueteurs stochastiques

[Merialdo, 1994 ; Brants, 2000], et un lissage de Katz pour le calcul des probabilités

contextuelles.

4.3.4 Utilisation du modèle pour l'étiquetage

Pour étiqueter un nouveau texte, celui-ci est tout d'abord préédité, de manière à

avoir une cohérence vis-à-vis du dictionnaire de l'étiqueteur. Cette opération consiste à

découper chaque groupe de soue en mots, en reconnaissant des locutions intégrées dans

le lexique, telles que parce que ou a priori . L'étiqueteur est ensuite utilisé sur le

texte ainsi transformé, de manière à estimer pour chaque groupe de soue la séquence

d'étiquettes la plus probableˆt

n

1

parmi toutes celles possiblest

n

1

d'après le dictionnaire. Le

choix deˆt

n

1

pour chaque suite de motsw

n

1

peut être réalisé selon deux critères [Merialdo,

1994]. Le premier, reposant sur l'utilisation de l'algorithme de Viterbi, consiste à choisir

globalement la séquence d'étiquettes la plus probable selon un critère MAP :

ˆ

t

n1

= arg max

tn 1

P(t

n1

|w

n1

) . (4.12)

La seconde méthode, reposant sur l'algorithme forward-backward [Rabiner, 1989], choisit

séparément pour chaque mot w

i

l'étiquette tˆ

i

qui lui paraît la plus probable :

ˆ

t

i

= arg max

ti

P(t

i

|w

1n

) . (4.13)

Cette seconde approche minimise le nombre d'erreurs par mot, tout en requérant un

nombre de calculs supplémentaires très réduit par rapport à la première

7

. Nous utilisons

donc l'algorithme forward-backward durant la phase d'étiquetage, même si

l'améliora-tion du nombre d'étiquettes correctes apportée par cette méthode reste très réduite (de

l'ordre de 0,1 % en variation absolue sur nos données).

Après avoir exposé le paramétrage et le mode de fonctionnement de notre étiqueteur,

nous mesurons la qualité de ses résultats sur des transcriptions, aussi bien manuelles

qu'automatiques.

4.4 Évaluation de l'étiquetage automatique sur des