• Aucun résultat trouvé

Une sémantique par classification : des formulaires aux ontologies

La présentation de l’EI et de sa relation à l’Annotation Sémantique a souligné, dans le début de ce chapitre, son lien fondamental avec la définition préalable d’un domaine. De cette association découle une structuration de l’information reflétant une conceptualisation du domaine considéré et de la vue particulière adoptée à son égard dans le cadre de l’opération d’EI. La spécification de la conceptualisation adéquate est accomplie en amont du déploiement d’un système d’EI, celui-ci devant s’y conformer afin de produire les résultats attendus en termes de structuration

1. Le corpus peut être seulement partiellement annoté ou ne recevoir aucune annotation dans le cas de méthodes d’apprentissage faiblement ou non supervisé.

des éléments informatifs extraits. Les modalités de reconnaissance de ces éléments — règles d’extraction élaborées manuellement ou motifs acquis automatiquement à partir d’annotations — sont en effet conçues en fonction de la structuration donnée.

L’effort de conceptualisation associé au domaine traité rend compte, par la sélection des élé- ments à extraire ainsi que de leurs relations, du sens que l’on souhaite attribuer à l’information ainsi rendue disponible. La structuration correspondant à cette conceptualisation est en effet le moyen par lequel les traitements envisagés en aval de la collecte effectuée par l’EI peuvent s’appli- quer. Concrètement, une extraction similaire à l’exemple de la table 2.1 permet, par le typage des données en organisation ou année de conduire de façon systématique des opérations liées à ces types : l’identification des recrutements effectués par une entreprise entre deux années données, par exemple, peut être obtenue grâce à la formulation d’une requête lancée sur l’ensemble des informations extraites et construite en référence aux types de données spécifiés dans la concep- tualisation sous-jacente. Ceci implique que l’on dispose pour ces types d’une algèbre définie, avec par exemple les opérateurs leq et geq pouvant s’appliquer aux données de type date, mais pas organization.

La forme prototypique de la conceptualisation en EI est celle du formulaire, introduite en tant que structure fondamentale par les campagnes MUC. Comme évoqué précédemment, un formulaire correspond à un scénario ou à un élément central du domaine, tel que les entités ; il présente un ensemble de champs correspondant aux caractéristiques définitoires de ces scénarios et entités, choisies en fonction de la perspective particulière adoptée sur le domaine considéré. Les formulaires de scénarios représentent un ensemble informatif complexe, dans lequel interviennent des entités mises en relation par des prédicats pertinents pour sa description. La figure 2.5 illustre la décomposition des scénarios en champs ou slots, qui renvoient à des caractéristiques de l’événement ainsi modélisé — sa date, par exemple —, ainsi qu’à des entités dont la relation avec l’événement est exprimée par le champ en question — l’auteur d’un attentat, par exemple. Les formulaires d’entités correspondent en revanche à des unités informatives auxquelles ils

19 March – A bomb went off this morning near a power tower in San Salvador leaving a large part of the city without energy, but no casualties have been reported. According to unoffial sources, the bomb – allegedly detonated by urban guerrilla commandos – blew up a power tower in the northwestern part of San Salvador at 0650 (1250 GMT).

INCIDENT TYPE bombing

DATE March 19

LOCATION El Salvador : San Salvador (city) PERPETRATOR urban guerrilla commandos PHYSICAL TARGET power tower

HUMAN TARGET -

EFFECT ON PHYSICAL TARGET destroyed EFFECT ON HUMAN TARGET no injury or death

INSTRUMENT bomb

Figure 2.5 : Formulaire pour les scénarios d’actes terroristes (MUC-3, extrait de [Ehr08]). attribuent une formalisation et ainsi un type ou une classe. Chaque champ correspond à une propriété considérée comme inhérente à la classe ainsi définie, comme le montre la figure 2.6 où les formulaires pour les personnes et les organisations conçus pour MUC-6 présentent les types de valeurs acceptées par chaque champ. Les formulaires de ce type constituent une norme dans le cadre de l’EI défini par les campagnes MUC, mais s’inscrivent également dans le mode de représentation des structures de connaissances proposé par la théorie des cadres, évoquée en 2.1 et reposant sur des champs aux valeurs typées ainsi que sur une organisation en réseau formant

2. La tâche d’Extraction d’Information 61

Figure 2.6 : Formulaires d’entités (MUC-6, d’après [Gri12]).

un ensemble de description sémantique.

L’analogie avec les cadres souligne la fonction conceptuelle des formulaires, destinés à repré- senter les éléments informatifs d’un domaine donné. S’ils constituent le mode usuel de structu- ration de l’information en EI, les formulaires constituent seulement un des moyens d’ancrer les descriptions dans une sémantique définie. Plus généralement, il s’agit de spécifier une concep- tualisation relativement à une vue particulière d’un domaine, en vue d’en trouver des réalisations sous forme textuelle. Comme cela a été évoqué au chapitre 1, une telle conceptualisation peut prendre la forme d’une taxonomie établissant un ensemble de classes conceptuelles correspon- dant aux éléments structurants du domaine. Sous une forme hiérarchisée, c’est-à-dire munie de relations de sous-classes, avec la spécification d’attributs relatifs aux classes définies et de rela- tions conceptuelles entre classes, une taxonomie prend le tour d’une ontologie, telle que définie au chapitre 1 (section 1.2.2).

L’utilisation d’ontologies en tant que moyen de spécification conceptuelle et de structuration sous-jacent à la tâche d’EI repose sur leur adéquation quant à la formalisation des connaissances et de la sémantique qui leur est associée dans la perspective d’une interprétabilité des informations extraites. Un système d’EI lié à une ontologie procède donc au repérage des éléments informatifs dans les contenus traités, puis à leur classification au sein de l’ontologie adoptée. Chaque élément ainsi classifié est vu comme la réalisation linguistique du concept sélectionné, ou d’une instance de ce concept, selon que le segment textuel en question en constitue une dénotation générique ou particulière — ce second cas concernant les entités, auxquelles nous nous intéresserons plus précisément dans la suite de ce travail. Les attributs de classes ainsi que les relations entre concepts peuvent également faire l’objet d’une association avec le texte si la tâche d’EI en définit les règles.

L’apport majeur de l’ancrage de contenus dans une modélisation ontologique réside dans la formalisation logique caractérisant les connaissances ainsi représentées. À cet égard, l’EI ainsi envisagée peut être reformulée en une opération de population d’ontologie, comme cela est proposé par Nédellec et al. [NNB09] dans une étude consacrée à cette relation. Il y est également souligné que cette relation permet de rassembler et de structurer des connaissances sur un domaine

a priori, et de les rendre ainsi disponibles aux outils d’EI au cours du processus d’extraction

lui-même. L’EI ainsi guidée par une ontologie, réalisée notamment par Buitelaar et al. [Bui+08], constitue un mode d’accès à l’information reposant sur des connaissances non exclusivement linguistiques et surfaciques, mais également de type conceptuel.

L’ancrage de l’EI dans une modélisation de type ontologique s’illustre notamment dans des campagnes d’évaluation telles que TAC (Text Analysis Conference), que Grishman qualifie de suc- cesseur de MUC [Gri12] tout en en soulignant le caractère novateur porté par la tâche de population

de bases de connaissances (Knowledge Base Population, KBP). Contrairement aux composants de MUC, cette tâche dépasse l’unité documentaire dans le processus de collecte d’informations, qu’il s’agit d’agréger à partir d’un ensemble documentaire avec pour cible d’ancrage une base ras- semblant les entités d’intérêt en une structure de représentation unifiée et ontologique. La tâche KBP de TAC s’apparente en effet à l’EI en tant qu’elle vise à une structuration de l’information à partir de données textuelles, mais elle s’en distingue également par la nature et l’étendue des éléments qu’il s’agit de repérer ; ces aspects particuliers feront l’objet d’un examen dans la suite de ce travail, au chapitre 3 (section 3).

La vue générale de l’EI proposée ici se situe dans la perspective d’une intégration dans le processus d’Annotation Sémantique. Les modalités d’accès à l’information permises par l’EI ont donc été mises en avant afin d’expliquer dans quelle mesure cette intégration est pertinente et sur quels aspects particuliers l’Annotation Sémantique peut s’appuyer pour faire émerger de façon explicite les éléments informatifs pertinents relativement à l’objectif d’enrichissement de contenus textuels. À cet égard, il convient d’orienter cette présentation vers le cas des entités, qui constituent la cible première de l’enrichissement dans notre contexte de travail. En tant qu’objets manipulés par l’EI, elles présentent des problèmes spécifiques quant à la définition de la sémantique qui leur est attribuée. La question de l’adéquation de cette sémantique, déterminée par la tâche d’EI et le TAL, aux fonctionnalités attendues par l’enrichissement se pose de façon centrale et permet de délimiter le rôle de l’EI dans l’Annotation Sémantique, qui pourra ensuite faire l’objet d’une définition plus avancée (chapitre 3).

3

Entités et entités nommées

Les entités ont été évoquées à plusieurs reprises au cours de la description de la tâche d’EI, dans laquelle elles occupent de fait une place centrale. En tant qu’ensemble regroupant notamment des personnes, lieux ou organisations, leurs réalisations linguistiques dans les contenus textuels, que désigne le terme entités nommées, constituent les éléments informatifs principaux des structures qu’il s’agit de dériver des textes par l’EI. Quel que soit le domaine traité, les entités sont en effet les actants constitutifs des événements rapportés. L’intérêt qui leur est porté dans le cadre de l’enrichissement de contenus est d’ailleurs lié à cette place centrale.

Le repérage des entités nommées dans un système d’EI correspond ainsi en premier lieu à une nécessité méthodologique pour la compositions des structures informatives attendues, mais acquiert également le statut de module indépendant, voire de tâche autonome motivée par l’in- térêt informationnel des entités elles-mêmes. Conjointement à la place qui leur est faite en EI, centrée sur leur reconnaissance et leur classification, les entités nommées sont un objet d’étude et de questionnement pour le TAL en général, en tant que leur définition et les modalités de leur repérage se situent à la croisée de la linguistique et de la représentation des connaissances. La réalisation linguistique des entités sous la forme d’entités nommées souligne par ailleurs de façon prégnante le problème pris en charge par l’EI du passage entre texte et représentation, d’autant que les phénomènes d’ambiguïté qu’elle présente sont particulièrement prégnants et po- lymorphes. Ceux-ci interrogent en particulier le statut référentiel des entités nommées, renvoyant à des éléments extra-linguistiques — les entités elles-mêmes —, auxquels l’EI ne s’intéresse pas directement. Au-delà de la reconnaissance des entités nommées et de la structuration par classifi- cation inhérente à l’EI, les entités posent ainsi le problème de la référence et de sa représentation, notamment dans la perspective de l’Annotation Sémantique et de l’acquisition de métadonnées.

3. Entités et entités nommées 63