• Aucun résultat trouvé

Portée et limites de la sémantique typologique des entités

L’aspect structurant de l’EI se trouve réalisé en REN dans la tâche de classification des EN repérées, à l’aide de catégories qualifiées de sémantiques. Ces catégories enrichissent les extractions d’indi- cations à même de les rendre interprétables en aval. Ces catégories font l’objet d’une explicitation préalable, la classification ainsi réalisée faisant office de modèle pour la tâche d’EI considérée. Les entités constituant des éléments centraux dans le processus de traitement de l’information, le choix des types correspondant occupe une place importante dans les développements de la tâche de REN.

Il s’agit en premier lieu de déterminer les types d’entités répondant de la façon la plus immédiate au besoin sous-jacent à l’accomplissement de la REN, c’est-à-dire ceux dont la valeur informative est incontournable. Les différentes éditions de MUC proposent ainsi de s’intéresser aux noms de personnes, de lieux et d’organisations, ainsi qu’aux dates, expressions temporelles, valeurs monétaires et pourcentages. La campagne ACE ajoute notamment les noms de bâtiments, véhicules et armes ; les noms de produits sont considérés dans la campagne IREX [SI99], dédiée au japonais. Mais la définition de la classification répond également à un objectif plus large et distinct de la tâche elle-même, consistant en une volonté de modélisation exacte et pertinente du monde tel qu’il peut être envisagé à travers les catégories existantes d’entités manipulées dans le langage. La tâche de REN étant largement définie les campagnes d’évaluation, la nécessité de produire des données annotées manuellement encourage cette réflexion sur les choix à opérer en termes de classification, et les cas de doute, d’hésitation et ou de désaccord y participent d’autant

7. Exemple extrait du journal en ligne Belfast Telegraph, 29 novembre 2012 8. Exemple emprunté à [Ehr08]

plus. Un exemple de difficulté d’annotation notoire est celui des noms de lieux pouvant également désigner des entités de type institutionnel, agissant comme des organisations. Les noms de pays, notamment, peuvent être employés dans des prédications attachées à l’entité gouvernante du pays en question :

(4) La France signe le traité de Versailles en 1919.

Ce cas conduit à la création du type GPE (geo-political entities) pour la tâche de REN de la campagne ACE, ainsi que du type GSP (groupe géo-socio-politique) pour l’annotation du corpus ESTER. En 2002, Sekine et al. [SSN02] proposent un modèle de classification d’EN destiné à la REN consistant en une hiérarchie de 150 types, communs et généraux (personne, organisation, événement...) d’une part, précis et de granularité conceptuelle fine d’autre part (monnaie, journal, parti politique, crime...).

Comme cela a été évoqué, l’effort de modélisation, dans lequel s’inscrit la classification des EN, et par là même des entités, est nécessairement circonscrit à une vision particulière du monde ou d’un domaine et non exhaustif quant à sa fidélité aux catégories existantes, qu’une opération d’inventaire ne saurait identifier définitivement. On peut par ailleurs observer qu’une part de la complexité inhérente à l’établissement d’une classification revient au problème de typages non triviaux, dans des cas comme celui des GPE mentionné plus haut. Une fois les catégories établies, le choix de classification pour les EN relevant de tels cas se heurte à la difficulté de l’ambiguïté, qu’un système de REN doit être à même de lever.

L’ambiguïté touchant l’assignation d’un type aux EN repérées peut être considérée, si l’on suit entre autres l’analyse d’Ehrmann [Ehr08], comme un problème de polysémie, qui découle, selon les cas :

d’une homonymie, lorsque plusieurs entités peuvent être dénotées par la même expression linguistique, de façon coïncidentelle ; c’est le cas de la ville française d’Orange et de l’en- treprise de télécommunications Orange, qui n’entretiennent aucune relation sémantique ou extra-linguistique ;

d’une métonymie, lorsque le nom d’une entité est employé pour en dénoter une autre, les deux entités en question entretenant une relation (cause et effet, contenant et contenu, créateur et artefact, lieu et occupant du lieu, lieu et institution qui y est hébergée...). Dans

(5) Marseille a gagné 2-0 en finale de la Ligue des Champions

la chaîne Marseille désigne non la ville française mais l’équipe de football locale, l’Olympique

de Marseille.

de facettes pouvant être attachées à une entité, lorsque celle-ci peut être vue de différentes façons, notamment dans le cas de différentes fonctions occupées par une personne dans une organisation : François Hollande peut par exemple être une expression de même sens que Premier Secrétaire du PS ou Président de la République française, selon la date d’énon- ciation ; on retrouve ici la distinction entre sens et dénotation formulée par Frege [Fre92 ; FI71], qui permet de considérer les facettes d’entités comme cause de polysémie.

L’homonymie est en jeu dans l’exemple 1 (section 3.1), où il importe non seulement de repérer l’EN correspondant au segment textuel Orange, mais également de lui attribuer le type adéquat, choisi entre lieu et organisation, si ces deux types sont définis dans le modèle sous-jacent. La REN vise à rendre compte de la métonymie en assignant à l’EN le type correspondant à l’entité effectivement dénotée, et non à celle dont le nom est employé. Homonymie et métonymie constituent ainsi les

3. Entités et entités nommées 69 deux objets principaux des nombreux travaux attenants à la REN portant sur la désambiguïsation d’EN ; ce terme est en effet employé pour désigner le processus qui revient de fait à sélectionner le type adéquat pour une occurrence d’EN donnée. Quant aux facettes, elles peuvent donner lieu, plutôt qu’à une désambiguïsation à proprement parler, à un raffinement de typage. Une EN extraite pourra alors recevoir une classe de portée plus fine que les classes génériques habituelles (acteur ou chanteur plutôt que personne), et ainsi enrichir l’information apportée par la tâche de REN, comme le proposentt notamment Ehrmann [Ehr08] ou Fleischman et Hovy [FH02].

La notion de désambiguïsation dont la REN use pour caractériser le repérage des EN en cas d’ambiguïté entre types est dépendante de la définition des EN en TAL : comme le formule Ehrmann dans une thèse en grande partie consacrée à cette définition [Ehr08], les EN sont des expressions mono-référentielles étant donné un modèle défini. Le type à assigner à une EN correspond donc à celui de l’entité à laquelle il est considéré qu’elle réfère, ce qui justifie de classifier l’EN Orange en lieu ou organisation selon qu’il s’agit de la ville ou de l’entreprise. La modélisation adoptée en REN pour prendre en compte les ambiguïtés relevant de la polysémie est examinée par Ehrmann [Ehr08] : en cas d’homonymie ou de métonymie, il s’agit pour le système considéré de réaliser la désambiguïsation nécessaire en fonction des classes qui lui sont rendues disponibles. En cas d’ambiguïté entre deux types, comme dans le cas d’Orange, il ne peut y avoir désambiguïsation que si ces deux types sont définis. Dans le cas contraire, l’EN est considérée comme monosémique. La classe GPE proposée dans le cadre de la campagne ACE fournit un moyen de contournement du problème en opérant une fusion entre les types lieu et organisation, ce qui revient à modéliser le phénomène de métonymie touchant de façon régulière certains ensembles d’EN, notamment les pays et capitales.

On peut observer, dans la méthodologie généralement adoptée en REN pour aborder le pro- blème de l’ambiguïté, que plusieurs niveaux d’analyse coexistent et peuvent, dans une certaine mesure, révéler une limitation quant à l’accomplissement de la tâche visée. En effet, si les EN peuvent être définies comme des expressions mono-référentielles, le traitement qui en fait en REN s’attache à une notion du sens associée au principe de la classification. En assignant un type à une EN, la REN lui attribue un sens, ce qui peut nécessiter une levée d’ambiguïté lorsque plu- sieurs types, autrement dit plusieurs sens, sont envisageables pour une seule forme de surface. Il convient de noter que l’association d’une EN à une classe sémantique est rendue possible par le lien dénotationnel existant entre une EN et l’entité à laquelle elle réfère, selon la définition adop- tée, mais que la sémantique ainsi exprimée par la REN demeure celle de la classe considérée, et non celle de l’entité dénotée. La REN se présente ainsi, en tant que tâche relevant de l’EI, comme un moyen d’accès à l’information dont le niveau d’analyse franchit la frontière entre surface et connaissances extra-linguistiques, mais de façon partielle. Le phénomène dénotationnel n’est en effet pas pris en compte en tant que tel dans l’approche des entités par la REN, qui s’intéresse de façon privilégiée à leurs réalisations linguistiques — les EN. Les éléments informatifs ainsi retournés par la REN se présentent en effet sous la forme de chaînes de caractères, associées à un type sémantique et éventuellement regroupées en variantes d’une même forme canonique : ils ne se distinguent donc pas du niveau textuel, même s’ils sont extraits de la chaîne syntagmatique et participent de la structuration de l’information attendue à l’issue d’une tâche de REN.

La relation entretenue entre entité et EN, qui relève de la dénotation, se distingue de l’appar- tenance d’une EN à une classe sémantique en tant qu’elle met en jeu l’existence d’un référent, dont l’EN est une expression linguistique possible. La dénotation opère grâce à la possibilité de nommer les objets du monde dans le langage, mais ne véhicule pas par elle-même l’élément de connaissance constitué par l’entité considérée ; il s’agit d’un processus d’évocation, par lequel l’au- diteur ou le lecteur est amené à accéder à sa propre connaissance de cette entité afin d’interpréter les énoncés qui lui sont soumis. Si la REN permet un degré d’accès à l’information en isolant et

en typant sémantiquement les éléments pertinents dans des données textuelles, elle se limite en revanche à la description de leur comportement linguistique et informatif. Il est intéressant d’ob- server que la majeure partie des travaux en REN approchent le concept de l’entité, à travers les EN, en s’efforçant de spécifier de la façon la plus pertinente possible le type sémantique qui peut leur être attaché, et en proposant des structures informatives complexes et détaillées — notamment par le biais des formulaires introduits par MUC — dont les éléments sont des attributs descriptifs des entités dénotées. La relation entre EN et entité n’est cependant pas clairement établie dans la mesure où la désambiguïsation opérée en REN se limite au type sémantique. Dans le cas de l’EN Orange, un système peut retourner l’un des deux types lieu ou organisation en adéquation avec le contexte d’occurrence, mais ce comportement ignore un second niveau d’homonymie, puisqu’il existe dans le monde une vingtaine de villes dont le nom est Orange, ainsi que plusieurs entreprises du même nom. Cette approche rappelle ainsi que le terme de désambiguïsation, ainsi que la sémantique adoptée en REN, s’entendent au niveau classificatoire et non référentiel.

En privilégiant une analyse des entités portant sur leur réalisation linguistique et relevant d’une représentation sémantique typologique, la REN ne fait donc pas intervenir de façon explicite et intégrée leur aspect référentiel. La dichotomie entre niveaux linguistique et extra-linguistique, qui caractérise les entités nommées et les entités dans le phénomène dénotationnel, n’y est en effet pas spécifiquement représentée, tout comme les entités en elles-mêmes en tant que référents extra-linguistiques n’y trouvent pas de modélisation explicite.