Méthodes hybrides génératives et discriminantes pour l’extrac-

6.2 Classification

7.1.1 Méthodes hybrides génératives et discriminantes pour l’extrac-

7.1.2 Mise à jour du modèle d’étiquetage avec un corpus non

éti-queté de grande taille . . . 93 7.1.3 Introduction de métadonnées . . . 94 7.1.4 Expériences et résultats . . . 94

7.2 Système d’étiquetage multilingue . . . 95

7.2.1 Génération automatique de corpus d’apprentissage multilingue 96 7.2.2 Entraînement du CRF . . . 99 7.2.3 Résultats . . . 99 7.2.4 Résultats . . . 101

7.3 Conclusion . . . 101

Lors de la modélisation de phrases, nous faisons intervenir un processus d’étique-tage qui rend les entités susceptibles d’être réemployées dans un processus de GAT, les plus abstraites possible. Ceci signifie notamment que dans une phrase candidate au réemploi, les éléments substituables doivent être remplacés par une forme symbolique. Le nom d’une personne, d’un lieu, d’une organisation, une date ou une quantité font partie de ces éléments aisément substituables. Ils doivent donc être détectés et mar-qués en vue de leur remplacement. L’EEN est la tâche d’extraction d’information qui correspond à ce besoin. Les entités détectées correspondent aux principaux concepts de base qui peuvent être trouvés dans un document. Depuis la campagne d’évaluation

MUC, suivie par CoNLL (Tjong et Meulder, 2003) et ACE, de nombreuses méthodes

ont été proposées et évaluées pour entraîner des systèmes d’EEN fonctionnant par ap-prentissage automatique sur des corpus annotés. Ces corpus proposent des taxonomies d’étiquetage qui varient en fonction de l’objectif envisagé par la campagne (Charton et Torres-Moreno,2009). L’entraînement des systèmes peut par ailleurs être conditionné par la nature du texte à étiqueter. Certains campagnes comme CoNLL s’appliquent à

soumettre à l’étiquetage des corpus issus de publications dans lesquelles de nombreux points de repères typographiques peuvent être utilisés, telles que les lettres majuscules et minuscules. D’autres - telle que les campagnes ESTER - proposent d’appliquer un éti-queteur sur des sorties de système de dialogue très bruités, dans lesquelles ces points de repère disparaissent.

L’utilisation de lexique d’entités, de plus en plus fréquemment issus de corpus tels que Wikipédia (Bunescu et Pasca,2006;Nothman et al.,2009;Kazama et Torisawa,2007) est une solution applicable pour rechercher et étiqueter ces entités mais insuffisante pour plusieurs raisons. En premier lieu de nombreuses entités à détecter sont absentes de ces corpus de ressource (fussent ils aussi vastes que Wikipédia) selon le principe desmots hors vocabulaire (OOV) ; en second lieu, de nombreusesentités nommées(EN) sont hautement ambiguës (par exemple Paris qui est un nom de personne, de plusieurs villes, de paquebot) et ne permettent pas une détection efficace sans utiliser une analyse du contexte.

Dans ce chapitre, nous présentons un système d’EEN, entraîné par méthode au-tomatique, initialement conçu pour fonctionner de manière robuste avec des corpus bruités issus de transcription automatiques de la parole, mais applicable à notre prob-lématique d’étiquetage dephrases modèles.

La première implémentation décrite dans ce chapitre, a été mis au point dans la per-spective de la campagne d’évaluation ESTER 2 (Galliano et al.,2009) où elle a obtenu les meilleurs résultats. Nous la qualifierons debaselineau sens où elle a servi à valider et évaluer les principes d’un système d’étiquetage appris entièrement automatiquement, et adaptable facilement dans une autre langue. Son principe est de collecter par des méthodes non supervisées toutes les entités contenues dans un lexique issu d’un sys-tème de reconnaissance automatique de la parole (RAP). Cette connaissance est ex-ploitée de deux manières : en extrayant automatiquement les EN contenues dans un grand corpus de données et en exploitant directement lesmétadonnéesissues de Wikipé-dia. Son intérêt dans notre cadre applicatif est qu’il utilise lesmétadonnées collectées dans le chapitre précédent pour augmenter la capacité inférentielle du système statis-tique qu’il utilise. Le module d’EEN mis au point combine une approche générative à base de Modèles de Markov Cachés (HMM) et un modèle discriminant à base de Champs Conditionnels Aléatoires (Conditional Random Field) (CRF).

La seconde implémentation décrite est qualifiée de multilingue. Elle reprend les grands principes du systèmebaselinemais substitue au processus de conception de cor-pus d’apprentissage par HMM une méthode utilisant lesmétadonnéesextraites depuis Wikipédia, en association avec les liens internes contenus dans cette encyclopédie. Cette méthode permet d’extrapoler automatiquement des corpus d’apprentissage étiquetés, utilisés pour entraîner le modèle discriminant à base de CRF. Elle simplifie ainsi le processus de production d’un étiqueteur d’EN pour une langue donnée sans perte de performance.

7.1. Systèmebaseline

7.1 Système baseline

De nombreuses méthodes ont été proposées pour extraire des EN depuis un texte : des plus simples basées sur des règles, aux plus complexes, reposant sur un apprentis-sage automatique recourant à des corpus étiquetés. Au fil des années, deux approches principales ont fini par se dégager : les méthodes génératives, à base de HMM (Bikel et al.,1999) et celles de nature discriminantes telles que leMaximum Entropy (Borthwick et al.,1998) ou les CRF (McCallum et Li,2003). On se reportera à la section5.2pour une étude sur cette question.

7.1.1 Méthodes hybrides génératives et discriminantes pour l’extraction d’EN

Pour les méthodes d’étiquetage à base d’apprentissage sur corpus, le système d’EEN est vu comme un processus d’étiquetage, par lequel un label est attribué à chaque mot d’une phrase. En étiquetant avec le même label plusieurs mots consécutifs, il est possi-ble de déterminer qu’une entité est décrite par plusieurs mots, y compris si le processus d’étiquetage considère chacun des mots isolément. Deux types de caractéristiques peu-vent être utilisées pour prédire l’étiquette d’EN d’un motwi:

– on pourra observer les caractéristiques du contexte tels quele mot précédent : w_i−1 oule mot suivant : wi+1, si le motwi débute avec une lettre capitale, ou si le motwi−1

est un signe de ponctuation, . . .

– on pourra aussi utiliser des informationsa priorisurw_i, telles quew_iest un nom de ville, ouwiest un prénom, . . .

On notera que dans le cas de contextes bruités, tels que les transcriptions issues de système de RAP, les caractéristiques du contexte peuvent devenir rapidement inutilis-ables que ce soit pour des raisons d’erreurs de transcription ou par défaut de respect des usages typographiques. Un système de RAP par exemple, retourne souvent un flux de texte sans ponctuation et sans lettre capitale. Pour notre cadre applicatif de la GAT, ce problème du bruitage des transcriptions est intéressant car il éprouve le degré de robustesse d’une système d’EEN.

Pour étiqueter des sorties de systèmes de RAP, plusieurs méthodes dédiées ont été proposées. Par exemple en associant aux mots décodés le score de confiance de chaque mot retourné lors du processus de RAP (Sudoh et al.,2006). Une autre méthode - proche de celle que nous allons développer pour les deux systèmes présentés dans ce chapitre -consiste à accroître le poids des connaissancesa prioriintégrées au système d’EEN. Ces connaissances peuvent être intégrées lors du processus d’apprentissage, pour améliorer

à postérioriles capacités d’inférences des modèles HMM ou CRF appris. Il a été montré à de nombreuses reprises que cette connaissanceà prioripouvait être obtenue depuis des dictionnaires, extraits depuis des ressources textuelles structurées telles que Wikipé-dia (Kazama et Torisawa,2007), des corpus textuels bruts (Hori et Nakamura,2006).

Nous proposons dans le système baseline une approche mixte d’EEN reposant en

de prédire des étiquettes sémantiques et syntaxiques pour chaque mot d’une phrase. Dans un second temps nous utilisons en tant que processus discriminant des classi-fieurs à base de CRF, utilisés pour identifier les étiquettes d’entités nommées en util-isant le contexte des mots à étiqueter. On attend de cette méthode qu’elle s’assure que l’ambiguïté des mots soit levée autant que possible par les étiquettes fournies par l’éti-queteur HMM, avant d’entraîner le classifieur CRF.

L’étiqueteur HMM utilisé pour ce système est un étiqueteur morphosyntaxique complété par une fonction d’affectation d’étiquettes sémantiques aux noms propres. Il introduit ainsi un niveau intermédiaire d’identification entre le mot et l’entité nommée étiquetée. Les étiquettes sémantiques sont simplifiées et ne concernent que les person-nes, organisations, lieux et produits. Pour prédire la meilleure séquence des étiquettest_1,_n

sur une séquence denmotsw_1,_n(retournés parτ

(

w_1,_n

)), nous utilisons l’équation

7.1.

(

w_1,_n

) =

argmax

t1,n P

(

t_1,_n,w_1,_n

)

(7.1)

En définissant des termes tels quet1,0et leur probabilité d’apparition, nous obtenons l’équation générale duPart Of Speech(POS) indiquée en7.2.

(

w_1,_n

) =

argmax t1,n n

∏

i=1 P

(

t_i

|

t_i−2,i−1

)

(

w_i

|

t_i

)

(7.2)

Dans7.2, la valeur de P

(

w_i

|

t_i

)

est obtenue directement par le critère de maximum de vraisemblance en calculantC

(

wi,ti

)/

(

)

oùC

(

wi,ti

)

est égal au nombre de fois où

w_iest associé àt_idans le corpus d’entraînement et oùC

(

t_i

)

est le nombre de fois où sont rencontrés les mots étiquetés avect_i dans le corpus d’entraînement. En collectant le dé-compte des diverses ressources textuelles telles que présentées dans les sections 7.1.2

et 7.1.3, nous pouvons facilement modéliser l’ambiguïté sémantique d’un nom pro-pre donné. On notera que le modèle de positionnement BIO est adopté (Begin, Inside,

Outside). A titre d’exemple, nous obtenons dans les comptages menés lors de nos ex-périences les valeurs de quantités suivantes pour le nom propreMarseille: LOC=32973,

ORG=15731,PERS=1140,PROD=317.

La valeur correspondant à P

(

t_i

|

t_i−2,i−1

)

est obtenue d’après un modèle de langage 3-grammes appris sur les étiquettes de POS et sémantiques d’un corpus annoté au-tomatiquement selon la méthode expliquée dans la section7.1.2. Le classifieur CRF est finalement entraîné avec les sorties de l’étiqueteur HMM appliqué à un corpus d’en-traînement. Un exemple de corpus d’entraînement est donné dans la table7.1. Le clas-sifieur utilisé estCRF++¹.

7.1. Systèmebaseline

Mot POS+étiquette sémantique EN+position

bonjour NMS O investiture NFS O aujourd’hui ADV B-TIME à PREPADE O bamako XLOC B-LOC mali XLOC B-LOC du PREPDU O président NMS B-FONC amadou XPERS B-PERS toumani XPERS I-PERS touré XPERS I-PERS réélu VPPMS O en PREP B-TIME avril NMS I-TIME dernier AMS I-TIME

TABLE7.1 –Exemple du corpus d’entraînement pour le classifieur CRF tel que produit par l’éti-queteur HMM avec ses étiquettes de Part Of Speech et ses étiquettes sémantiques, associées à la position de l’étiquette d’entité nommée à prédire.

7.1.2 Mise à jour du modèle d’étiquetage avec un corpus non étiqueté de

Dans le document Génération de phrases multilingues par apprentissage automatique de modèles de phrases (Page 90-94)