Reconnaissance de mentions d’entités - Identification automatique d'entités pour l'enrichisseme

Les contenus concernés par la tâche d’enrichissement étant constitués de données textuelles brutes, l’acquisition de métadonnées procède d’une phase de sélection des éléments textuels pouvant donner lieu à des métadonnées, avant une seconde étape d’identification de ces éléments en termes d’entités. Autrement dit, l’Annotation Sémantique doit faire intervenir une phase de reconnaissance des mentions qu’il s’agit d’identifier. Comme cela a été évoqué dans le chapitre 3, l’Annotation Sémantique ne traite pas cette étape comme un problème particulier. Elle revient dans le système Spotlight à considérer toutes les variantes d’entités recensées dans la ressource associée ; le système Wikimeta intègre quant à lui de façon explicite un composant de Reconnais- sance d’Entités Nommées (REN), dont les résultats donnent ensuite lieu à l’Annotation Sémantique, qui fait cependant seule l’objet d’une évaluation [CGO11]. Dans les deux cas, tout élément repéré est considéré comme devant recevoir une annotation, quelle que soit la méthode ayant conduit à sa sélection. Du côté du Liage d’Entités dans le cadre de la campagne TAC-KBP [MD09 ; Ji+10 ; JGD11], cette sélection est de fait ignorée, dans la mesure où les mentions à aligner (une seule

1. Reconnaissance et identification d’entités : une approche jointe 155 mention par document du corpus d’évaluation) sont présentées en tant que requêtes aux systèmes participants. Document Texte brut Document NIL Ontologie - Entités E1 E2 E3 E4 ... ! Entités Mentions Liage d'Entités Annotation sémantique Document Reconnaissance des mentions

Figure 5.1 : Périmètre des tâches réalisées en Annotation Sémantique et en Liage.

Le traitement de contenus textuels dans le contexte de l’enrichissement en métadonnées trouve ainsi dans l’Annotation Sémantique une réponse méthodologique consistant en une pro- longation directe de la REN, sous sa forme classique de module d’Extraction d’Information ou réalisée par d’autres moyens, tandis que ce traitement est absent en Liage (figure 5.1). Notre tâche relevant d’une configuration d’Annotation Sémantique sur des données textuelles brutes, le déploiement d’une étape de reconnaissance automatique de mentions d’entités est nécessaire afin de présenter à l’étape d’identification les éléments à même de constituer des métadonnées. L’intégration de la REN et du Liage dans un système d’Annotation Sémantique peut donner lieu à la distribution des tâches suivantes :

Reconnaissance d’Entités Nommées La REN résulte en une segmentation du texte donné en

entrée et un marquage des segments correspondant à des mentions d’entités, au terme d’une analyse à deux niveaux :

• Reconnaissance des segments textuels constituant des dénotations d’entités, avec désambiguïsation totale en cas de découpages concurrents (chevauchements, imbrica- tion, sous-analyse...)

• Typage des mentions selon le modèle adopté, avec désambiguïsation lorsque les res- sources font état de variantes lexicales identiques pouvant correspondre à plusieurs types sémantiques, ou lorsque plusieurs règles de reconnaissance relatives à plusieurs types sont applicables ; les ambiguïtés de type correspondent aux cas de polysémie (homonymie ou métonymie), non visibles entre plusieurs entités de même type au niveau de la reconnaissance.

Liage Le liage considère chaque mention d’entité comme une requête munie d’un contexte —

le document correspondant — à aligner vers l’une des entités recensées dans la BC à disposition, ou à reconnaître comme dénotation d’une entité ne figurant pas dans cette

base (cas NIL). Cet alignement fait intervenir un ensemble de caractéristiques sémantiques dérivées du contexte de la mention d’une part, et des connaissances disponibles pour les entités de la base d’autre part, leur similarité constituant le critère essentiel de calcul des probabilités d’alignement.

1.1.2 Propagation d’erreurs

En intégrant de façon explicite et nécessaire une étape de traitement automatique avant la tâche d’identification elle-même, la configuration de notre tâche pose la question de la relation entre- tenue entre ces deux niveaux. En effet, les résultats de la première étape doivent être envisagés en termes de taux de réussite et d’erreurs, propres à tout traitement et a fortiori automatisé. Il s’agit alors principalement de prendre en compte une possible propagation d’erreurs de la REN vers l’étape d’identification : les erreurs pouvant être retournées par un module de REN, relevant de la précision dans le cas de faux positifs et du rappel dans le cas de mentions non détectées, produisent en effet nécessairement des résultats incorrects au niveau de l’identification et de l’ajout de métadonnées.

Les sorties de REN peuvent constituer des faux positifs à deux égards : il s’agit d’une part de segments incorrectement étiquetés comme mentions d’entités, tels que CV (abréviation de

curriculum vitae) identifié comme mention de type organisation dans

(23) L’entreprise avait employé 12 personnes parmi les 135 qui avaient laissé un CV.

par le système SxPipe/NP (cf. infra, section 3.1.1). D’autre part, une erreur de segmentation peut mener à la détection d’une mention incorrecte au niveau d’une autre mention à repérer, générant ainsi à la fois un faux positif et une mention non détectée ; c’est le cas avec le segment Pasteur, reconnu comme mention de type personne dans

(24) Sanofi Pasteur est ainsi venu recruter une cinquantaine d’ouvriers en intérim

par SxPipe/NP, masquant ainsi la mention de type organisation Sanofi Pasteur. Un cas de recon- naissance partielle comme

(25) Le président Barack Obama a approuvé un accord de coopération nucléaire civile

ou le segment Obama est reconnu comme mention de type personne, là où la mention à détecter correspond au segment Barack Obama, pose de façon plus problématique la question de la correction du résultat : il est ici à proprement parler partiel et plus difficilement qualifiable de faux que dans l’exemple précédent.

Qu’il s’agisse de faux positifs ou de correspondances partielles, de telles erreurs introduisent dans une configuration en cascade des données erronées affectant de façon particulièrement tan- gible la précision : un faux positif retourné par la REN donne lieu à un processus d’identification non pertinent, dont le résultat est nécessairement incorrect — la correction de l’identité assignée à une telle mention étant sans objet ; un faux positif est alors également introduit au niveau des métadonnées obtenues à l’issue de la tâche. Pour ce qui concerne le rappel, une mention non retournée n’est de fait pas traitée par le module chargé de l’identification — les résultats de la tâche à cet égard ne sont alors pas caractérisés par un bruit supplémentaire mais par un silence équivalent à celui du module de REN. Comme cela a été évoqué au chapitre 4, un cadre applicatif tel que celui de l’AFP induit une attention plus particulière portée aux performances en termes de précision, étant donnée des performances de rappel jugées satisfaisantes.

Le problème de la propagation d’erreurs au niveau d’une application séquentielle de modules est notamment formulé par Stoyanov et al. [Sto+09] dans le cadre de la résolution de coréférence, qui partage avec la tâche d’identification d’entités la nécessité de disposer préalablement des

1. Reconnaissance et identification d’entités : une approche jointe 157 éléments (groupes nominaux, noms propres, pronoms) constituant la cible de la résolution. Les auteurs de cette étude soulignent notamment la difficulté à évaluer de façon conclusive les systèmes reposant sur des données manuellement annotées, fournissant les éléments cibles ainsi que les données linguistiques utiles sans erreur. La comparabilité entre systèmes est également discutable, selon que l’un dispose de données de référence, par exemple celui de McCallum et Wellner [MW04], alors que l’autre repose partiellement ou totalement sur un repérage automatique des éléments cibles, par exemple celui de Yang et al. [Yan+03] ; on constate ainsi des écarts de performance de l’ordre de 20 points de F-mesure, avec un score de 91,5 pour le premier et de 71,3 pour le second, sans qu’il soit possible de conclure à la moindre qualité de ce dernier.

Cette situation renvoie au mode d’évaluation de la tâche de Liage dans TAC-KBP ainsi que dans plusieurs systèmes d’Annotation Sémantique présentés au chapitre 3 (section 2), où seule est mesurée la correction des liens établis au niveau des mentions dénotant effectivement des entités. Pour le Liage, il est alors malaisé de prédire leurs performances relativement à une configuration plus réaliste, où les mentions ne sont pas données préalablement à l’identification. Pour l’Annotation Sémantique, l’évaluation de correction des liens sur le seul ensemble des mentions correctes ne donne pas une vue générale des performances relativement à la tâche globale. Il est en revanche possible d’estimer ces performances en associant les résultats habituellement constatés pour la REN, jugés très satisfaisants avec des scores de l’ordre de 90% en F-mesure pour anglais, au taux de correction en Liage de l’ordre de 85% : une application intégrant ces deux sous-tâches aboutirait à une F-mesure de l’ordre de 76%, à même de relativiser les bonnes performances de chaque module examiné séparément et présentant une marge de progression non négligeable. La prise en charge de la relation existant entre REN et identification à proprement parler apparaît alors comme un sujet de réflexion et de propositions méthodologiques pertinent dans la perspective d’une minimisation de l’impact des erreurs d’un module à l’autre. Ce constat est d’autant plus valable pour une application de l’Annotation Sémantique au français, pour lequel la REN présente des résultats généralement inférieurs à ceux de l’anglais et peut donc nuire à la qualité de l’identification de façon plus prégnante.

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 155-158)