Conception d'un étiqueteur morpho-syntaxique pour l'oral

ⁱ⁻_i−N¹ ₊₁

ⁱ⁻_i−N¹ ₊₁

ⁱ⁻_i−N¹ ₊₁

ⁱ⁻_i−N¹ ₊₂

ⁱ⁻_i−N¹ ₊₁

ⁱ⁻_i−N¹ ₊₁

tit.q.C(ti i−N+1)>k

tit.q.C(ti i−N+1)≤k

ⁱ⁻_i−N¹ ₊₂

ⁱ⁻_i−N¹ ₊₁

tit.q.C(ti i−N+1)>k

ⁱ⁻_i−N¹ ₊₁

Conception d'un étiqueteur morpho-syntaxique pour l'oral

Il existe de nombreux étiqueteurs morpho-syntaxiques disponibles ; nous avons

tou-tefois décidé de développer notre propre étiqueteur. Les raisons sont nombreuses et

essentiellement pratiques. Cela nous permet tout d'abord de pouvoir modier plus

fa-cilement notre outil pour le paramétrer pour l'oral, les étiqueteurs n'étant pas toujours

distribués en compagnie de leur code. De plus, nous voulons un outil assez rapide pour

étiqueter un grand nombre d'hypothèses de transcription en un temps raisonnable.

L'éti-queteur Multext, lent lors de l'étiquetage, ne satisfaisait pas à ce critère. En outre,

nous souhaitons un étiqueteur susamment exible pour choisir nos propres jeux

d'éti-quettes et le vocabulaire des mots reconnus par l'étiqueteur. Cette dernière possibilité

s'est avéré importante dans la mesure où les noms propres, transcrits sans majuscules

par notre système de RAP, sont systématiquement associés à une mauvaise classe

gram-maticale pour la plupart des outils que nous avons pu tester.

Nous avons choisi de construire un étiqueteur stochastique basé sur les MMC, une

première comparaison de la qualité de l'étiquetage produit par diérents outils sur

des transcriptions automatiques montrant que l'étiqueteur de Brill conduisait à des

résultats un peu moins bons que ceux obtenus avec Multext, TnT [Brants, 2000] ou

TreeTagger. L'utilisation d'étiqueteurs statistiques présente l'inconvénient de devoir

construire un corpus étiqueté, mais ce corpus nous est également utile pour apprendre

les paramètres du modèle intégrant les POS dans le calcul des probabilités du système

de RAP (cf. section 5.2). La suite de cette section expose le modèle statistique qui

est à la base de notre étiqueteur, puis présente brièvement le corpus d'apprentissage

et le lexique que nous avons utilisés pour notre étiqueteur. Elle décrit ensuite la phase

d'apprentissage de l'étiqueteur, puis celle d'étiquetage.

4.3.1 Le modèle utilisé et ses paramètres

Notre étiqueteur évalue la probabilité que W soit associé à la suite d'étiquettesT

à partir des paramètres P(w

|t

) et P(t

|t

) (cf. équation (4.1)). Il existe deux

approches pour estimer ces deux types de paramètres [Merialdo, 1994]. Une première

consiste à recourir à l'algorithme ordinairement utilisé pour l'apprentissage des

pro-babilités dans un MMC, i.e., l'algorithme de Baum-Welch. Sa particularité consiste à

estimer simultanément les deux types de paramètres en cherchant le modèle Mˆ qui

satisfait au critère du maximum de vraisemblance :

ˆ

M= arg max

X

P

(W, T) (4.2)

où W représente les mots du corpus etT une succession possible d'étiquettes pour W.

Le principal avantage de cette méthode est de pouvoir paramétrer le modèle à partir

d'un corpus non étiqueté en estimant de manière itérative les probabilités, jusqu'à ce

que la probabilité P

P

(W, T)n'augmente plus. Toutefois, pour obtenir de meilleurs

résultats, l'algorithme gagne à être initialisé à partir des nombres d'occurrences des

séquences t

dans un corpus étiqueté, ce qui réduit son intérêt.

Une seconde approche évalue séparément les deux types de probabilité P(w

|t

) et

P(t

|t

) au moyen des fréquences relatives. Les valeurs sont alors déterminées à

partir des nombres d'occurrences des étiquettes et des mots dans un corpus

d'appren-tissage :

P(w

|t

) = C(w

, t

)

C(t

) (4.3)

P(t

|t

) = C(t

)

C(t

) (4.4)

où C(w

, t

) représente le nombre de fois où le mot w

est associé à l'étiquette t

et

C(t

) le nombre d'occurrences de la séquence d'étiquettes t

dans un corpus

d'apprentissage étiqueté. Même si les deux types de paramètres ne sont pas réestimés

estimer simultanément les deux types de paramètres en cherchant le modèle _Mˆ qui

que la probabilité ^P

) = ^C⁽^w

^{, t}

⁾

) = ^C⁽^t