• Aucun résultat trouvé

2.5 Reconnaissance des entit´es nomm´ees

2.5.2 Les approches pour la d´etection des entit´es nomm´ees

L’identification des entit´es nomm´ees (EN) constitue une tˆache fondamen- tale en mati`ere d’extraction d’information. Cette tˆache a ´et´e l’objet de plusieurs campagnes d’´evaluations, parmi elles MUC-71

, CoNLL-20022

, CoNLL-20033 , ES- TER4

, etc. Ces travaux ont permis de traiter cette probl´ematique dans divers

1 http://www-nlpir.nist.gov/related_projects/muc/proceedings/muc_7_toc.html 2 http://www.clips.ua.ac.be/conll2002/ner/ 3 http://www.clips.ua.ac.be/conll2003/ner/ 4 http://www.afcp-parole.org/camp_eval_systemes_transcription/

Rachat de <O>BEA Systems</O> par <O>Oracle</O> : c'est fait. Au prix fort. Le géant de la base de données annonce en effet ce <D>mercredi 16 janvier</D> avoir finalisé un accord en vue du rachat de <O>BEA Systems</O>. <O>Oracle</O> a accepté les conditions de </O>BEA Systems</O>, fixant le montant du rachat à <M>8,5 milliards de dollars</M>.

Il s’agira d’un des plus grands coups de Larry Ellison, le p-dg d’<O>Oracle</O>. Le précédent record était de <M>10 milliards </M> pour l'acquisition de <O>PeopleSoft</O> en <D>2004</D>.

Date : <D> Organisation : <O> Montant : <M>

Fig. 2.1 – Exemple de reconnaissance d’entit´es nomm´ees

domaines (terrorisme, gestion de successions), langues (anglais, espagnol, japo- nais, fran¸cais) et type de documents (articles de presse, courriers ´electroniques) [Nadeau and Sekine, 2007].

Ainsi, de nombreux syst`emes faisant de la reconnaissance d’entit´es nomm´ees (Named Entity Recognition – NER) ont ´et´e d´evelopp´es. On peut noter qu’`a partir du milieu des ann´ees 90, les syst`emes `a base de r`egles con¸cues manuellement ont fait place aux syst`emes statistiques. Ce changement s’est effectu´e en partie grˆace `a un point fort des syst`emes statistiques : ils sont plus rapidement adaptables `a de nouveaux domaines que leurs ´equivalents symboliques.

2.5.2.1 Utilisation de r`egles

Nous pr´esentons de fa¸con succincte quelques propri´et´es d’un syst`eme sym- bolique de reconnaissances d’entit´es nomm´ees. Le tableau 3 reprend les princi- paux attributs utilis´es par les syst`emes `a base de r`egles pour d´etecter les entit´es nomm´ees [Sarawagi, 2008].

L’exemple de la figure 2.2 illustre la construction de r`egles pour la d´etection des entit´es de type MONTANT `a partir de deux phrases. Notons que dans cette mˆeme figure, les exemples sont utilis´es pour cr´eer une expression rationnelle qui recouvre les deux formes d’apparition de l’entit´e. La d´emarche suivie dans ce cas est une d´emarche g´en´eralisante : on combine les r`egles obtenues pour chaque

Types d’attributs Description

Forme de surface Le/les mots qui composent l’entit´e

Capitalisation Divers indices sur la forme de capitalisation des mots (premi`ere lettre en majuscule, tout le mot en majus- cule), pr´esence de caract`eres sp´eciaux, pr´esence de ponctuation, etc.

Cat´egorie morpho- syntaxique

La cat´egorie morpho-syntaxique des mots Pr´esence dans une liste

ferm´ee de valeurs (gazee- ter)

Il s’agit de v´erifier la pr´esence de l’entit´e dans une liste connue d’entit´es (exemple liste de noms de lieux)

Autres pr´e-traitements Il s’agit d’utiliser les attributs provenant d’autres traitements linguistiques pr´ec´edents (par exemple l’analyse syntaxique)

Tab. 3 – Attributs des r`egles utilis´es par les syst`emes symboliques

Détection des entités avec une expression régulière (syntaxe AWK)

/pour (.*)? ([0-9]\,[0-9]) (.*) de dollars/

pour la somme de 12,5 milliards de dollars <MONTANT>

Cant Cpos

pour 6,68 milliards de dollars <MONTANT>

Cpos Cant

Cant <MONTANT> Cpos

Google vient d'annoncer le rachat de la branche mobilité de Motorola pour la somme de 12,5 milliards de dollars.

Oracle veut racherter BEA Systems pour 6,68 milliards de dollars.

passage contenant des mentions d’entit´es afin d’obtenir des r`egles recouvrant le plus de formes possible. La r`egle g´en´er´ee dans l’exemple pr´ec´edent est assez basique puisqu’elle utilise tr`es peu d’informations linguistiques. En pratique les syst`emes symboliques de r´ef´erence utilisent des r`egles plus ´elabor´ees qui peuvent soit ˆetre cr´e´ees manuellement comme dans GATE [Cunningham et al., 2002], soit construites automatiquement, par exemple dans les syst`emes AutoSlug [Riloff, 1993], Rapier [Califf and Mooney, 1997], LP2

[Ciravegna, 2001] ou plus r´ecemment TEXTMARKER [Atzm¨uller et al., 2008], [Reiss et al., 2008].

Les syst`emes `a base de r`egles permettent ´egalement d’introduire de fa¸con simple des connaissances encyclop´ediques existantes sous la forme de listes ou de dictionnaires qui int`egrent des entit´es ou des ´el´ements d’entit´es d´ej`a connus. On peut, par exemple, introduire des listes de noms de villes connues pour la reconnaissance des noms de lieux, ou utiliser des listes de pr´enoms connus pour la reconnaissance des noms de personnes. Notons que ce type de connaissances peuvent aussi ˆetre int´egr´ees dans le cadre des syst`emes par apprentissage statis- tique en tant qu’attributs d’une observation.

2.5.2.2 Utilisation d’apprentissage statistique

Les syst`emes `a base d’apprentissage statistique abordent la reconnaissance des entit´es comme un probl`eme de classification. Il s’agit alors d’apprendre les param`etres d’un mod`ele capable de d´eterminer pour chacun des mots d’un docu- ment s’il appartient `a une entit´e, et si oui, quel type d’entit´e doit lui ˆetre associ´e. En ce qui concerne la d´elimitation de la fronti`ere des entit´es, la repr´esentation adopt´ee vise `a sp´ecifier si un mot fait ou non partie d’une entit´e et, dans le cas positif, pr´eciser s’il amorce l’entit´e ou s’il fait partie du corps de l’entit´e. Les classes `a identifier pour les mots sont alors les classes Begin pour un mot d´ebutant une entit´e, Inside pour un mot ´etant `a l’int´erieur d’une entit´e et Outside pour un mot n’appartenant pas `a une entit´e. Ce mod`ele est connu sous le nom de mod`ele BIO (Begin – Inside – Outside) [Sarawagi, 2008]. N´eanmoins, cette m´ethode ne distingue pas les mots qui terminent une entit´e des mots qui sont `a l’int´erieur d’une entit´e. La m´ethode BCEO (Begin - Continue - End - Other) permet de faire cette distinction [Sarawagi, 2008].

Le tableau 4montre un exemple d’application de ces deux m´ethodes. Notons que, dans l’exemple, l’annotation prend en compte `a la fois la d´etermination de la fronti`ere d’une entit´e et la d´etermination du type d’entit´e.

Mots Notation BIO Notation BCEO

Le O O pr´ec´edent O O record O O ´etait O O de O O 10 B-MONTANT B-MONTANT

milliards I-MONTANT E-MONTANT

pour O O

l’ O O

acquisition O O

de O O

PeopleSoft B-ORGANISATION B-ORGANISATION

le O O

31 B-DATE B-DATE

d´ecembre I-DATE C-DATE

2004 I-DATE E-DATE

. O O

Tab. 4 – Exemple de d´elimitation des fronti`eres des entit´es nomm´ees avec les mod`eles BIO et BCEO

Pour ce qui est des types d’entit´es `a associer aux mots, le probl`eme est trait´e par des approches g´en´eratives ou discriminantes. Le plus souvent, les mod`eles sont adapt´es `a la classification de s´equences, afin de prendre en compte l’aspect s´equentiel des phrases et les d´ependances ´eventuelles entre les types d’entit´es (par exemple il y a une probabilit´e non nulle que les chiffres suivant une entit´e de type organisation soient une date). Il s’agit alors de trouver, pour une phrase x contenant n mots not´es x = {x1, ..., xn}, la s´equence cach´ee des types d’entit´es

nomm´ees y = {y1, .., yn} qui lui correspond. L’int´erˆet des mod`eles de s´equence

est qu’ils permettent de prendre en compte les d´ependances entre les cat´egories d’entit´es successives yi et yi−1. Selon les mod`eles, le choix d’une cat´egorie d’entit´e

nomm´ee se fait `a partir des observables xi (ex. HMM), ou `a partir d’un ensemble

features permettent de mod´eliser les propri´et´es intrins`eques des mots de l’entit´e et des mots dans le voisinage de l’entit´e.

Les features g´en´eralement utilis´es pour la d´etection des entit´es sont de trois types [Sarawagi, 2008] :

– les features sur les mots, ou les formes de surface (ex. la cat´egorie morpho- syntaxique associ´ees aux mots) ;

– les features orthographiques (ex. le mot commence-t-il par une lettre ma- juscule ?) ;

– les features utilisant des dictionnaires de valeurs (ex. le mot appartient-il `a une liste de noms de pays ?).

Plusieurs syst`emes de reconnaissance des entit´es nomm´ees ont ´et´e construits `a partir de tels features, en utilisant des mod`eles diff´erents : algorithme MaxEnt [Borthwick, 1999], algorithme HMM [Bikel et al., 1999; Seymore et al., 1999], al- gorithme CMM (Conditional Markov Model ) [Malouf, 2002], algorithme MEMM (Maximum Entropy Markov Model ) [McCallum et al., 2000], algorithme CRF [Lafferty et al., 2001]. [Nadeau and Sekine, 2007] pr´esente un inventaire des ap- proches utilis´ees pour la d´etection des entit´es nomm´ees, en particulier les ap- proches statistiques, entre 1991 et 2006.