La Reconnaissance d’Entités Nommées - Identification automatique d'entités pour l'enrichissemen

En tant qu’éléments informatifs constitutifs des structures visées par l’EI — scénarios, événements, prédications pertinentes pour le domaine considéré —, les entités se dégagent de la tâche globale pour former une cible d’analyse particulière. Il s’agit de l’illustration la plus probante du caractère modulaire atteint par l’EI à l’issue de ses principaux développements dans les années 1990 : la reconnaissance des entités dans les contenus analysés constitue en effet une étape incontournable dans le processus de structuration, et c’est à ce titre que la campagne MUC propose à partir de sa sixième édition en 1995 une sous-tâche de Reconnaissance d’Entités Nommées (ci-après REN). Celle- ci se présente alors non seulement un composant de l’EI, de ceux que ses initiateurs cherchent à identifier comme modules génériques et intégrables dans une tâche globale, quelle que soit sa nature et le domaine traité, mais elle devient également une tâche à part entière, dont les résultats peuvent être exploités pour eux-mêmes. Cette tâche est caractérisée par le repérage puis le typage de segments textuels dénotant des entités dont la nature est préalablement définie. Évalués sur l’anglais, plusieurs systèmes de REN participant à MUC-6 obtiennent une F-mesure supérieure à 0.90 et la meilleure performance atteint 0.96 — qualité qui peut être relativisée par la taille réduite, le caractère homogène et la régularité rédactionnelle du corpus utilisé, comme le rappelle Ehrmann [Ehr08] à la suite de Sundheim ; Grishman et Sundheim [Sun95 ; GS96].2

À la suite de l’apparition et du succès de la REN dans le cadre de MUC, la tâche suscite un intérêt grandissant — deux des systèmes de MUC-6 sont commercialisés [Ehr08] — et donne lieu à des campagnes d’évaluation dédiées :

MET (Multilingual Entity Task) se tient parallèlement à MUC-6 et MUC-7 et est consacrée à la

REN dans des langues autres que l’anglais : l’espagnol, le japonais et le chinois [MOC96].

ACE De 2000 à 2008, les campagnes ACE (Automatic Content Extraction) [Dod+04] succèdent à

MUC avec des tâches de reconnaissance d’événements, de relations, de scénarios et surtout de REN. L’effort se concentre dans le cadre d’ACE sur la mise au point de technologies innovantes et fiables plutôt que sur le caractère applicatif de la tâche, à la manière de MUC. Une perspective plus sémantique s’ouvre dans la caractérisation faite des entités, comme le soulignent Maynard et al. [MBC03]. Leur identification est recherchée au niveau conceptuel et non plus seulement au niveau surfacique des chaînes de caractère, avec notamment une sous-tâche de résolution de coréférence pour la constitution de chaînes référentielles.

CoNLL Deux éditions (2002 et 2003) de CoNLL (Conference on Natural Language Learning) pro-

posent une tâche de REN pour l’espagnol, le hollandais, l’anglais et l’allemand [TKS02 ; TKSDM03].

ESTER Dans le cadre du projet d’évaluation des technologies de la langue Evalda3, la campagne

ESTER a été menée de 2002 à 2006 pour l’évaluation des systèmes de transcription sur des corpus d’émissions radiophoniques en français et l’enrichissement des transcriptions à l’aide d’informations telles que les EN.

Quae<ro Dans le cadre du programme de recherche et d’innovation industrielle Quaero4, une

définition étendue et renouvelée des entités nommées est proposée, associée à une attention particulière portée à leur structuration interne ainsi qu’à leur annotation et l’évaluation de leur reconnaissance pour le français [Ros+11].

2. La métrique utilisée pour le calcul de ces performances, introduite lors de MUC-5, accorde par ailleurs des scores positifs aux résultats partiellement corrects — frontières erronées et/ou type incorrect — au lieu de les considérer comme faux, ce qui contribue à l’obtention de taux de réussite élevés.

3. http://www.elda.org/rubrique69.html 4. http://www.quaero.org/

En tant que composant autonome, la REN devient par ailleurs un sujet de recherche et de développement important en TAL. L’identification des segments correspondant à des EN se présente en effet comme une étape utile à des traitements de plus large portée. Ehrmann [Ehr08] rend compte des différentes tâches pouvant bénéficier d’une intégration de la REN :

• L’analyse syntaxique obtient ainsi des informations de segmentation et d’étiquetage au niveau des parties du discours permettant d’éviter des analyses non pertinentes : par exemple, l’analyse de loan en verbe transitif dans Dinosaur Savings & Loan ; plus généralement, la REN indique le caractère syntaxique atomique de certaines entités nommées, sont il s’agit de ne pas analyser la structure interne à ce niveau. Elle peut également s’appuyer sur la catégorisation des EN dans la dérivation de dépendances syntaxiques.

• La résolution de coréférence s’appuie sur la REN grâce à l’identification d’une partie des éléments de la chaîne référentielle, ceux-ci pouvant consister en des noms propres, des groupes nominaux ou des pronoms, et à la classification des EN : un typage d’EN en personne fournit, par exemple, une information utile à la résolution anaphorique de pronoms. Dans l’énoncé suivant, l’ambiguïté de référence du pronom souligné peut être levée grâce au type sémantique des arguments attendus par le verbe de la seconde phrase :

La ministre Christiane Taubira a défendu la loi sur le mariage pour tous à la tribune de l’Assemblée. Elle a été votée le 12 février.

• La REN peut assister la désambiguïsation lexicale [IV98] dans l’analyse des restrictions de sélection : la classification des EN lui fournit des indications sur le type sémantique des arguments relatifs aux prédicats (verbes, noms...) dont il s’agit d’identifier le sens. Les deux sens de quitter peuvent être distingués dans l’expression quitter Paris, ainsi que dans quitter

l’UMP, si le type de son argument dans chacun des deux cas est pris en compte (exemple

d’Ehrmann [Ehr08]).

• La traduction automatique peut opérer une distinction entre segments à translittérer et segments à traduire à partir des indications d’EN et de leur type, comme pour le nom

Jack London pour lequel une traduction par Jack Londres est non pertinente (exemple

d’Ehrmann [Ehr08]).

On peut observer de façon générale que la REN, grâce au repérage des segments textuels correspondant à des EN, permet aux autres composants de tâches de TAL de disposer d’une segmentation adéquate du texte donné en entrée, et ainsi d’optimiser les opérations en aval en évitant un certain nombre de redondances et d’ambiguïtés au niveau de l’analyse et de la reconnaissance.

L’intérêt du TAL pour la problématique des EN se porte également sur le problème de défi- nition qu’elles posent, dès lors qu’il s’agit, comme dans toute tâche d’EI, de déterminer les types d’objets à d’obtenir par structuration des données textuelles. Trois grandes catégories d’EN sont gé- néralement identifiées : noms, quantités, dates et durées. La question du périmètre définitoire des EN a par ailleurs donné lieu à des études approfondies, principalement celle d’Ehrmann [Ehr08], notamment autour de la notion de sens attribuée aux éléments désignés ou non comme EN selon les tâches et applications. La résolution de cette question demeure hors de notre sujet d’étude, pour lequel les EN sont réduites aux noms propres et donc à l’ensemble d’entités pour lesquelles la dénotation peut fonctionner à l’aide de noms propres. Cette restriction n’est cependant pas étrangère aux pratiques générales en REN, où sont au moins considérés les types personne, organisation et lieu. On peut également observer que certaines tâches de REN visent la reconnaissance des entités sous la forme de descriptions définies, telles que le président de la République fran-

çaise, tandis que notre étude se limite aux noms propres, que l’on peut considérer comme la

3. Entités et entités nommées 65 Au niveau méthodologique, la REN hérite des propriétés principales de l’EI. Il s’agit d’une part de repérer les segments jugés pertinents, ici les EN, et d’autre part de les classifier selon un modèle défini au préalable. Celui-ci correspond en REN à des classes permettant de définir et de distinguer les différents types d’EN auxquelles la tâche s’intéresse. En termes de TAL, la REN s’apparente à l’étiquetage en parties du discours — assignation d’une étiquette choisie parmi un ensemble défini (nom, verbe, adjectif, préposition...) aux unités obtenues par segmentation du texte —, ou au chunking — segmentation du texte en constituants et étiquetage des constituants selon leur catégorie syntaxique. Plus généralement, on peut la voir comme une opération d’étiquetage de séquences au sein d’un signal linguistique textuel, éventuellement transcrit de l’oral. Dans ce type de tâche, les indications exploitées dans les données traitées sont de deux types :

• La forme surfacique des segments est examinée. Pour les EN, la casse typographique est à ce titre pertinente dans les langues où les majuscules initiales signalent généralement un nom propre, sauf en début de phrase (français, anglais...) ; cette indication est moins utile, voire hors de propos, dans des langues comme l’allemand, où tout nom, propre ou commun, est capitalisé à l’initiale, ou l’arabe, qui n’opère pas de distinction entre minuscules et majuscules dans sa typographie. La classification des EN peut également relever de la forme des segments : un nom de personne se présente par exemple régulièrement sous la forme d’un prénom suivi d’un nom ; une séquence de deux mots capitalisés à l’initiale peut ainsi orienter la classification vers le type personne. Dans un segment comme Time

Bank Inc., la présence du token « Inc. » indique l’appartenance à une classe rassemblant les

organisations.

• Le contexte des segments, plus ou moins immédiat, permet de renforcer ou d’écarter des possibilités d’étiquetage : des marqueurs lexicaux identifiés, tels que les titres (Monsieur, abrégé en M., ou Dr) ou les noms de fonction (par exemple le président dans « le président Hollande »), signalent avec un fort degré de certitude la présence d’une EN à leur droite, du moins en français.

La REN s’appuie souvent, en plus de ces indices internes (forme des segments) et externes (mar- queurs contextuels, notamment lexicaux), selon la formulation de McDonald [McD96], sur un ensemble de ressources généralement constituées d’un ou plusieurs lexiques, également nommés par le terme anglais gazeteer. Ceux-ci peuvent rassembler, sous forme de liste, des quantités va- riables de noms, collectés à partir de ressources externes. Les éléments ainsi listés sont par ailleurs typiquement munis d’une indication de type, correspondant a priori aux classes recherchées dans une tâche donnée. Les lexiques peuvent également rassembler des éléments partiels utiles à la REN, notamment dans le cas de lexiques de prénoms.

Comme en EI, la mise en œuvre de la REN peut s’appuyer sur des méthodes :

• symboliques, où les règles de reconnaissance et de classification sont élaborées par un spécialiste humain ; elles prennent le plus souvent la forme de grammaires locales reposant sur des automates et transducteurs ou des grammaires non contextuelles. Le système GATE [Cun+11b], par exemple, implémente la REN à l’aide de transducteurs couplés à un lexique d’EN. Dans l’approche d’Ehrmann [Ehr08], les EN sont repérées via une analyse syntaxique : tout nom ou groupe nominal dont la tête est capitalisée à l’initiale constitue une EN potentielle.

• numériques, où le processus d’extraction repose sur un apprentissage automatique proba- biliste, le plus souvent supervisé, c’est-à-dire utilisant des données annotées. Le système LIAne [BC10] en est un exemple, entraîné sur le corpus de la campagne ESTER évoquée plus haut et reposant sur le modèle statistique des CRF [LMP01] pour l’apprentissage. Le

système Stanford NER [FGM05], reposant également sur les CRF, connaît une large diffusion et fonctionne sur l’anglais, l’allemand et le chinois.

• hybrides, avec notamment l’intégration de données quantifiées dans le processus de géné- ration de règles [Lin98 ; Nou12]

L’identification claire de la tâche de REN dans le cadre de campagnes d’évaluation, mais également les nombreux développements en la matière sortant du seul champ académique et pris en charge au niveau industriel, sont accompagnés et encouragés par de bons résultats. La F-mesure correspondante dépasse 90% pour l’anglais lors de MUC-7 [MP98], quand les autres langues donnent lieu à des scores relativement moins bons mais toujours satisfaisants pour l’efficacité attendue (86% pour le japonais lors de la campagne IREX [SI99], 75% environ pour le français lors de la campagne ESTER 25 _{[GGC09]). Ce succès témoigne de l’utilité, voire de la}

nécessité d’un recours à la REN automatique lorsqu’il s’agit de mettre en œuvre un accès aux entités constituant une part essentielle des connaissances véhiculées par les contenus textuels.

Bénéficiant de traitements efficaces et éprouvés, la tâche de REN est en grande partie définie par des problèmes auxquels les techniques de TAL cherchent à apporter une solution : ces pro- blèmes, centrés sur la question du repérage et de la classification sémantique, constituent donc les points principaux de développement et d’innovation proposés en REN. On peut caractériser la problématique générale comme un cas d’ambiguïté double, que la REN vise à lever, le plus souvent de façon jointe. En effet, le repérage des EN consiste en premier lieu en une segmentation adéquate du texte donné en entrée, c’est-à-dire en l’indication des frontières sur l’axe syntagma- tique au sein desquelles une EN est présente. Le typage de l’EN ainsi localisée linéairement relève d’un niveau de représentation différent du texte — l’axe paradigmatique des classes définies —, mais peut dériver d’informations communes au processus de localisation. Les règles d’extraction élaborées pour un système de REN peuvent ainsi définir concomitamment les critères de localisation et de typage, voire être elles-mêmes typées (en formulant par exemple la présence d’une EN de type personne lorsque deux mots inconnus du lexique se suivent et sont capitalisés à l’initiale, ou la présence à droite du marqueur lexicalisé « la ville de » d’une EN de type lieu). L’ambiguïté découle ici, d’une part, du fait qu’un même segment de texte peut recouvrir plus d’une EN, ou être partiellement commun à plus d’une EN et, d’autre part, du typage possiblement non univoque des segments repérés. L’ambiguïté de segmentation, apparaissant lorsque plusieurs règles de reconnaissance sont applicables à une même région de texte, peut être levée par une pondération des règles, donnant la priorité à l’une d’elles ; dans un système numérique, cette

priorisation est souvent inhérente au modèle résultant de l’apprentissage. L’ambiguïté de type subsiste en revanche même après la levée d’une ambiguïté de segmentation, lorsqu’un segment unique peut être classifié de façon multiple. L’exemple suivant illustre cette ambiguïté double :

(1) Le maire d’Orange Alain Labé enseignait l’histoire et la géographie.

Si la grammaire d’extraction correspondante définit une règle de reconnaissance des noms de personne par une succession de plusieurs mots capitalisés à l’initiale — pour assurer le repérage de noms tels que Célimène Mater Durand6 _{—, ainsi qu’un lexique indiquant que la chaîne de}

caractères Orange peut correspondre à une EN de type lieu ou à une EN de type organisation, la région soulignée peut alors donner lieu à plusieurs découpages :

5. Les différentes performances de REN selon les langues ne sont comparables que de façon limitée, puisque les données d’évaluation ainsi que les consignes d’annotation et de conduite de la tâche diffèrent pour chacune d’elles et pour chaque campagne.

6. Exemple extrait d’un article du blog http://www.maitre-eolas.fr/ sur le problème juridique du double nom de famille

3. Entités et entités nommées 67 - [Orange Alain Labé], un nom de personne

- [Orange] et [Alain Labé], un nom de lieu, suivi d’un nom de personne - [Orange] et [Alain Labé], un nom d’organisation, suivi d’un nom de personne

L’ambiguïté de découpage dans cet exemple correspond à plusieurs analyses possibles, dont une seule s’avère correcte en termes d’interprétation. Elle peut en revanche relever de l’interprétation elle-même, lorsque plusieurs découpages sont possibles ; les frontières considérées comme cor- rectes dépendent alors de critères posés a priori pour la tâche courante. Les exemples suivants illustrent ce type d’ambiguïté, qui peut être provoqué par la coordination d’EN (2) ou l’imbrication d’EN (3) :

(2) Bill and Hillary Clinton are to visit Northern Ireland on Friday7

(3) l’Université de Corte8

Pour prendre en charge de tels cas, il est nécessaire de déterminer au préalable si une seule ou deux EN doivent être extraites dans Bill and Hillary Clinton (exemple 2), et si la cible d’extraction est l’EN englobante ou l’EN imbriquée (exemple 3).

L’ambiguïté relevant du type à assigner aux EN repérées pose quant à elle un problème inhérent à la notion d’entité et à son rapport avec la réalisation linguistique que constituent les EN. Bien que le contexte surfacique d’occurrence des EN puisse dans certains cas déterminer leur type, notamment lorsqu’un marqueur externe agit comme classificateur (par exemple « la ville » dans la

ville d’Orange), la classification dont il s’agit porte sur les EN en tant qu’elles dénotent des entités,

c’est-à-dire des objets extra-linguistiques, et non en tant que formes pour elles-mêmes.

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 64-68)