• Aucun résultat trouvé

Chapitre II

Reconnaissance des entités nommées

1. Introduction

Dans ce chapitre on aborde le sujet des entités nommées, leur reconnaissance dans un texte brut et leur attribution de types. Ce chapitre sert comme un background théorique pour le chapitre V, car dans ce dernier on mettra en œuvre toutes les notions théoriques exposées dans le chapitre courant.

Comme il le note Ehrmann dans (Ehrmann 2008), le traitement des entités nommées fait actuellement figure d’incontournable en Traitement Automatique des Langues. Apparue au milieu des années 1990 à la faveur des dernières conférences MUC (Message Understanding Conferences), la tâche de reconnaissance et de catégorisation des noms de personnes, de lieux, d’organisations, etc. apparaît en effet comme fondamentale pour diverses applications participant de l’analyse de contenu et nombreux sont les travaux se consacrant à sa mise en œuvre, obtenant des résultats plus qu’honorables. Fort de ce succès, le traitement des entités nommées s’oriente désormais vers de nouvelles perspectives avec, entre autres, la désambiguïsation et une annotation enrichie de ces unités.

2. De quoi s’agit-il

Le cours de l’histoire, ou plutôt de la recherche, a voulu que l’on désigne un certain nombre des unités linguistiques de niveaux différents sous le nom d’Entités Nommées (EN) (named entities en anglais). Ces dernières correspondent traditionnellement à l’ensemble des noms propres présents dans un texte, qu’il s’agisse de noms de personnes, de lieux ou d’organisation, ensemble auquel sont souvent ajoutées d’autres expressions comme les dates, les unités monétaires, les pourcentages et autres. Contemporain des travaux en Extraction d’Information initiés au début des années 1990, le traitement des entités nommées s’articule en deux processus :

• identification ou reconnaissance de ces unités dans les textes tout d’abord,

• catégorisation ou typage selon des catégories sémantiques larges prédéfinies ensuite.

3. Les entités nommées

3.1. La quantité d’information dans les entités nommées

Du point de vue humain, la contribution des EN dans une communication facile et plus précise est évidente. Cependant, on aura besoin d’une preuve scientifique pour émettre la même affirmation. Dans le contexte de TAL stochastique on rappelle la théorie de l’information de Shannon qui stipule que la quantité d’information (self-information) contenu dans un événement x est définie par la quantité de surprise que cet événement peut apporter. Par exemple, si une personne A informe une personne B en un vendredi que ‘demain c’est

38

XVI s’est converti à l’islam’ alors la quantité de surprise sera grande (Benajiba 2009). Ainsi

Shannon explique que la quantité d’information d’un événement x est inversement proportionnelle à sa probabilité d’occurrence. Et par conséquent, elle peut être exprimée par la formule de l’équation :

= − log où

I(x) : la self-information de x et

p(x) : la probabilité d’occurrence de l’événement x

Benajiba a mené dans (Benajiba 2009) une expérimentation sur les EN arabes afin de calculer leurs self-informations. Cette expérimentation a été effectuée en plusieurs étapes comme suit :

• Segmenter et annoter en POS (catégories syntaxiques) un corpus déjà annoté pour la tâche de reconnaissance des EN arabe,

• Calculer les probabilités d’occurrence pour les catégories : EN, Verbes, Noms communs et Mots vides.

• Et enfin, appliquer la formule citée ci-dessus pour calculer la self-information pour chaque catégorie syntaxique citée dans le deuxième point.

La Figure 5 illustre les résultats obtenus dans cette expérimentation. Elle montre que la seule catégorie syntaxique qui dépasse les EN (représentant 11% du corpus de test de l’étude) en terme de quantité d’information c’est bien les verbes.

Figure 5 : Quantité d’informations des entités nommées par rapport à d’autres catégories syntaxiques (Benajiba 2009)

39 3.2. Discussion linguistique

En grammaire, le nom propre est en général considéré comme une sous-catégorie du nom et se distingue du nom commun. Ainsi, un nom commun est un nom employé pour designer tous les éléments d’un même ensemble. Par exemple, animal, poème, pièce de théâtre. Le nom commun dispose d’une définition et d’une signification et il est utilisé en fonction de cette signification. Par exemple, le nom commun cuillère dispose d’une définition ; et le fait d’évoquer cette définition permet à chacun d’imaginer à quoi ressemble une cuillère (W. Zaghouani 2009).

Concernant les noms propres, Jonasson dans (Jonasson 1994) propose trois définitions de leurs sens :

1. un nom propre est un prédicat de dénomination : il ne décrit pas l’objet dénoté, mais lui colle une étiquette, par exemple telle fille est nommée Anissa.

2. le nom propre est vide de sens puisqu’il permet de référer sans désigner.

3. le sens du nom propre est une description du référent, soit il a un sens réduit à des traits sémantiques généraux comme la distinction féminin / masculin, animé / non animé, soit il dispose d’un sens fort et il permet d’identifier clairement un référent. Enfin Boulanger et Cormier dans (Boulanger and Cormier 2001), proposent la définition suivante : le nom propre fait partie des éléments de nature langagière auxquels recourent les

locuteurs pour produire des discours et pour construire leur image du monde ainsi que celle des réalités qui les entourent. Ainsi, le nom propre réfère principalement à une entité unique

que cela soit pour représenter des objets, des personnes, des lieux géographiques, des marques déposées ou même des événements (W. Zaghouani 2009).

Du point de vue conceptuel sémantique, les noms propres s’appuient sur les réflexions qui établissent un lien entre le langage comme ensemble de symboles signifiants et les objets ou concepts du monde réel que le langage référence. De ce point de vue, diverses théories évoquent un lien reposant, selon, sur le sens, la dénotation, la référence, la désignation, etc.

D. Nouvel dans (Nouvel 2012) reprend la thèse du mathématicien Frege qui est le premier à établir une distinction claire entre le sens et la référence. La référence pointe vers un concept, qui peut correspondre à un objet du monde réel. De manière plus abstraite, le sens est un mécanisme par lequel un signe (symbole, nom propre par exemple) peut désigner une ou plusieurs références. Il peut y avoir plusieurs sens désignant une même référence ou a contrario certains sens ne désignant aucune référence.

En outre, Frege tient également compte du fait que le sens est nécessairement lié à une représentation individuelle, chaque humain interprétant les signes selon son expérience personnelle. Il doit donc exister une convention permettant à plusieurs individus d’attribuer un sens similaire à des expressions complexes du langage naturel.

3.3. Propos définitoires

Ehrmann dans (Ehrmann 2008) expose différentes définitions de l’objet Entité Nommée en tant que objet linguistique et objet TAL. Cette liste de propos vient majoritairement des compagnes d’évaluation de la tâche de reconnaissance d’entités nommées. On énumère dans cette section les propos définitoires les plus distinguées à notre avis. On préfère laisser le texte d’origine (en anglais) de quelques définitions comme l’a fait l’auteur de la référence.

40

On the level of entity extraction, Named Entities (NE) were defined as proper names and quantities of interest. Person, organization, and location names were marked as well as dates, times, percentages, and monetary amounts

Definition des campagnes CoNLL :

Named entities are phrases that contain the names of persons, organizations and locations

Définition de T. Poibeau dans son ouvrage sur l’extraction d’information :

On appelle traditionnellement entités nommée (de l’anglais named entity) l’ensemble des noms de personnes, d’entreprises et de lieux présents dans un texte donné. On associe souvent à ces éléments d’autres syntagmes comme les dates, les unités monétaires ou les pourcentages repérables par les mêmes techniques à base de grammaires locales.

Définition du National Institute of Standards and Technology :

Named Entity: a named object of interest such as a person, organization, or location

Définition de S. Sekine:

The names of particular things or classes, and numeric expressions is regarded as an important component technology for many NLP applications.(...) the term Named Entity includes names (which is the narrow sense of Named Entity) and numeric expressions. The definition of this Named Entity is not simple, but, intuitively, this is a class that people are often willing to know in newspaper articles.

Définition de N. Friburger dans (Friburger 2002) :

En fait il semble difficile de délimiter les noms propres des autres noms; il y a une continuité entre l’ensemble des noms propres et l’ensemble des noms communs. Les informaticiens qui travaillent dans le domaine de l’extraction d’information, ont abordé le problème de manière pragmatique. Ils ont défini la notion d’entités nommées pour regrouper tous les éléments du langage définis par référence : les noms propres au sens classique, les noms propres dans un sens élargi mais aussi les expressions de temps et de quantités

Définition de la campagne ESTER

Même s’il n’existe pas de définition standard, on peut dire que les EN sont des types d’unités lexicales particuliers qui font référence à une entité du monde concret dans certains domaines spécifiques notamment humains, sociaux, politiques, économiques ou géographiques et qui ont un nom (typiquement un nom propre ou un acronyme)

Définition d’ATALApédie15:

Les entités nommées désignent l’ensemble des noms de personnes, de lieux, d’entreprises, etc. contenues dans un texte. On ajoute souvent à ces éléments les dates et d’autres données chiffrées. Par extension, les entités désignent parfois les éléments de base pour une tâche donnée (par exemple, les noms de gènes dans le cadre de l’étude des textes de biologie). (...) Ces séquences référentielles sont primordiales pour beaucoup d’applications linguistiques, que ce soit la recherche ou l’extraction d’information, la traduction automatique ou la compréhension de textes

15