L’Extraction d’Information, une application du TAL pour

SHOE : Simple HTML Ontology Extension

Chapitre 2. L’Extraction d’Information, une application du TAL pour

l’annotation sémantique

Nous venons de voir que les moteurs d’extraction d’information permettent d’automatiser tout ou partie du processus d’annotation sémantique. Le choix d’un moteur d’extraction est donc particulièrement important pour la mise en pratique de ces tâches, surtout dans un contexte d’applications en entreprise ou sur le Web. Or, nous sommes arrivés à la conclusion dans le chapitre précédent qu’il existait aujourd’hui un fossé non encore comblé entre le résultat de ces moteurs d’extraction et la représentation sémantique des annotations.

Nous allons donc tenter de comprendre dans ce chapitre pourquoi un tel fossé persiste en étudiant le domaine de l’extraction d’information, ses tâches et ses méthodes. Puis nous donnerons l’exemple de deux outils figurant parmi les plus aboutis, que ce soit du côté de la recherche ou de l’industrie. Enfin, nous chercherons à apporter des réponses aux constats que nous avons posés précédemment en nous penchant sur la représentation des résultats des outils présentés.

2.1 Présentation de l’Extraction d’Information

L’Extraction d’Information (EI) est une des applications du Traitement Automatique du Langage Naturel (TALN), aussi appelé Traitement Automatique des Langues (TAL) [FUC 93]. Le TALN, discipline à la frontière entre la linguistique et l'informatique, a été créée pour tenter d’apporter des réponses à une société qui manipule un volume croissant de documents exprimés en langage naturel, qu’ils soient écrits ou parlés. Son objectif est donc de concevoir des modèles d’analyse et de génération du langage naturel à partir desquels il devient possible de réaliser des logiciels capables de traiter automatiquement des données linguistiques, i.e. de comprendre ou de produire des énoncés exprimés en langue naturelle. Le langage naturel se réfère au langage humain : complexe, irrégulier, divers, avec tous les problèmes liés au sens et au contexte [WEH 97]. Les données linguistiques peuvent être de différentes tailles : des textes jusqu’aux mots, en passant par l’étude des phrases, des énoncés, des groupes de mots, etc. [FUC 93]. Elles ne sont pas forcément monolingues, le TAL s’étant également intéressé aux problématiques liées au multilinguisme. Outre l’extraction d’information, le TALN a donné lieu à d’autres sortes d’applications telles que la recherche d’information, les vérificateurs et correcteurs orthographiques, la dictée vocale, la synthèse de la parole, la traduction automatique, le résumé automatique, les systèmes de question/réponse, etc. [PIE 00].

Si le TALN est né dans les années 1950, l’extraction d’information (EI) a été clairement définie seulement à partir de 1987 grâce aux conférences des Message Understanding Conference (MUC)

organisées par le DARPA. Dans ce cadre, l’EI « consiste, dans un domaine restreint, à extraire des éléments d’information précis à partir d’un ensemble de textes homogènes et à remplir des formulaires prédéfinis avec ces éléments d’information » [POI 99]. Les campagnes d’évaluation MUC ont été organisées afin de confronter les systèmes d’extraction d’information réalisés par différentes équipes en comparant leurs performances avec des mesures précises et objectives. Ces mesures, inspirées de celles définies pour le domaine de la Recherche d’Information, sont devenues un standard pour toute évaluation des résultats de l’EI. Ainsi, la précision mesure le bruit produit par le système, c'est-à-dire le nombre d’informations extraites correctement par rapport au nombre d’informations extraites. Le rappel lui mesure le silence du système, c'est-à-dire le nombre d’informations correctement extraites par rapport au nombre d’informations correctes présentes dans le corpus. Enfin, la F-mesure permet de disposer d’une évaluation globale du système en combinant précision et rappel [GRI 96]. Nous reparlerons plus en détail de ces mesures dans le chapitre consacré à l’évaluation (cf. Chapitre 7).

L’apport des conférences MUC a été considérable : aussi bien en termes d’identification des problèmes à prendre en compte (linguistique, représentation des connaissances, acquisition de ressources, travail sur corpus…) qu’en termes de méthodes et de techniques pour les résoudre. Divers systèmes d’extraction d’information ont été testés sur différents types de textes : récits d’attentats (MUC-3 et MUC-4), annonces de produits (MUC-5), annonces financières concernant les prises de participation des entreprises (MUC-6), etc. Les systèmes en compétition devaient remplir un ou plusieurs formulaires (« template » en anglais) fixés à l’avance en fonction du domaine. Par exemple, pour les annonces financières, ils devaient extraire les différentes sociétés (acheteurs, vendeurs, achetés), la date, le lieu et le montant de la transaction financière, etc.

2.1.1 Les tâches de l’extraction d’information

Lors de la conférence MUC-7, cinq épreuves ont été identifiées : la reconnaissance des entités nommées, la coréférence, la reconnaissance des attributs, la reconnaissance des relations et enfin la reconnaissance des scénarios [ENJ 05b]. Nous allons brièvement présenter en quoi consiste chacune de ces tâches. Les chiffres présentés pour chacune des tâches représentent le score moyen atteint par les systèmes évalués lors du MUC-7 [CUN 99].

2.1.1.1 Les Entités Nommées (EN)

Le terme « entité nommée » [GRI 96] désigne toutes les formes linguistiques bien identifiées, à l’instar des noms propres (de personnes, d’organisations, de lieux) mais également les expressions temporelles (dates, durées, horaires), les quantités (monétaires, unités de mesure, pourcentages), etc. La tâche de reconnaissance des entités nommées consiste donc à les repérer dans le texte concerné et à leur affecter une étiquette sémantique choisie dans une liste prédéfinie. Certaines entités peuvent être ambiguës (« Peugeot » peut représenter une voiture particulière, des personnes ou une société) mais elles sont généralement faciles à repérer et moins polysémiques que d’autres unités textuelles.

Les systèmes de reconnaissance d’entités nommées exploitent généralement des dictionnaires, ou lexiques, (de noms propres, de noms de villes, etc.) couplés avec des règles d’extraction permettant de repérer de nouvelles entités nommées sur la base de leur contexte. Par exemple, la règle « <titre><prénom><Mot inconnu avec majuscule> » détecte un nom propre de personne à la place du « <Mot inconnu avec majuscule> », comme « Hugo » dans « Mr Victor Hugo ». Des méthodes d’apprentissage [POI 03] ont aussi été développées pour induire des règles d’extraction à partir de documents à la fois suffisamment fiables et productives.

Les performances des systèmes de reconnaissance d’entités nommées sont évidemment variables en fonction du type des entités nommées recherchées, de la couverture des dictionnaires et des règles, du style rédactionnel et de la structuration des textes analysés. Mais en général, ils fournissent une bonne précision à défaut d’avoir un bon rappel [NAZ 05]. En effet, d’après [CUN 99], la précision des systèmes atteint environ 95%, ce qui correspond à un taux similaire à celui atteint par les annotateurs humains (taux mesuré en comparant les annotations produites par des annotateurs humains sur un même corpus de documents).

2.1.1.2 La Coréférence (CO)

Cette épreuve consiste à reconnaître toutes les formes linguistiques qui se réfèrent à une entité nommée. Par exemple, dans « Sofia Coppola est la fille du réalisateur américain. Elle s’est mariée à Paris avec Spike Jonze », la résolution des coréférences devrait relier « Elle » à « Sofia Coppola ». Cette tâche est importante pour les tâches suivantes de résolution des attributs et des relations. Elle se subdivise en deux sous-tâches : la résolution des anaphores (l’exemple précédent) et l’identification des variantes de forme des noms propres. Cette deuxième tâche revient à trouver toutes les occurrences des mêmes entités orthographiées différemment ou leurs alias, comme pour « FT », « France Telecom », « France Télécommunication », etc. Mais la coréférence est un processus imprécis, particulièrement lorsqu’elle est appliquée à la résolution des références anaphoriques. Selon [CUN 99], les résultats varient donc grandement d’un domaine à un autre, atteignant une précision entre 50% et 60%.

2.1.1.3 Les Attributs (Element Template)

La reconnaissance des éléments du formulaire associe en fait de l’information descriptive, généralement sous la forme de groupes nominaux, aux entités précédemment identifiées. Cette information descriptive correspond à un attribut de l’entité concernée. Dans l’exemple précédent, cette tâche devrait identifier « réalisateur américain » par rapport à l’entité nommée « Francis Ford Coppola » si suffisamment d’information est présente dans le texte environnant.

De bons scores sont obtenus par les systèmes avec une précision moyenne de 80% [CUN 99], malgré le fait qu’ils dépendent fortement d’un domaine en particulier et que l’évolution de ces systèmes vers un autre domaine entraînerait une redéfinition importante des règles ou des dictionnaires sur lesquels ils s’appuient.

2.1.1.4 Les Relations (Relation Template)

La reconnaissance des relations s’attache à identifier un certain nombre de relations, le plus souvent binaires, entre les entités extraites précédemment. Ainsi, dans l’exemple précédent, cette tâche permet de repérer une relation de mariage entre les entités personnes « Sofia Coppola » et « Spike Jonze » et une relation de parenté entre les entités « Sofia Coppola » et « Francis Ford Coppola ». L’extraction des relations entre les entités est une tâche centrale pour les applications d’extraction d’information, surtout pour des applications en entreprise [APP 99]. En général, les bons systèmes de reconnaissance des relations ont des scores environnant 75% et tout comme la tâche précédente, ils dépendent fortement du domaine pour lequel ils ont été créés [CUN 99].

2.1.1.5 Les Scénarios (Scenario Template)

L’épreuve de reconnaissance des scénarios relient entre eux les entités et les relations précédemment repérées dans des descriptions d’événement relatif au domaine étudié (un attentat, une transaction financière, une hospitalisation, etc.). Pour chaque événement, sont également associés les différents traits complémentaires tels que la localisation spatiale et temporelle s’il y a lieu. Par exemple, la reconnaissance d’entités a repéré « Sofia Coppola » et « Spike Jonze » comme des entités personnes et « Paris » comme une entité de lieu. La reconnaissance de relations a identifié une relation de mariage entre ces personnes. La reconnaissance d’un scénario identifie l’événement mariage dans son ensemble, i.e. que ces deux personnes se sont mariées dans le lieu cité.

La reconnaissance des scénarios est une tâche particulièrement difficile. Elle dépend des résultats des étapes précédentes et possède donc un score plus faible, dépendant de la composition de leurs résultats. Les meilleurs systèmes d’EI ont un score de 60% environ. Le score des annotateurs humains est autour de 80% de consensus, ce qui illustre la complexité de la tâche [CUN 99]. En plus d’être liée au domaine concerné, cette tâche est également fortement dépendante de l’application devant être réalisée pour les utilisateurs finaux.

2.1.2 Les règles d’extraction d’information

Les moteurs d’extraction d’information reposent sur un ensemble de règles d’extraction [NAZ 05]. Ces règles (cf. Figure 4) comportent une première partie qui stipule quelles sont les conditions que la portion de texte analysée doit vérifier pour qu’on puisse extraire certains éléments textuels. Il s’agit du patron d’extraction. L’ensemble des patrons d’extractions sont ensuite compilés dans un automate (ou transducteurs) à états finis [WEH 97]. La seconde partie indique comment interpréter ces éléments pour remplir un ou plusieurs champ(s) du formulaire. Elle correspond à l’action qui sera déclenchée dans le cas où un patron est reconnu dans le texte analysé : remplir le formulaire prédéfini pour la tâche d’extraction, étiqueter le texte avec les résultats obtenus, alimenter automatiquement des bases de données ou mieux encore, des bases de connaissances, qui dès lors pourront être consultées en lieu et place des textes eux-mêmes [FUC 93].

Figure 18. Exemple d’application d’une règle d’extraction pour remplir un formulaire « Naissance »

Les patrons d’extraction reposent généralement sur des expressions régulières. Celles-ci s’écrivent soit à partir de la structure des ressources documentaires lorsque celles-ci sont explicites (les balises HTML d’une page Web par exemple), soit à partir d’une analyse linguistique plus ou moins complète (impliquant partie ou tout des différents niveaux d’analyse évoqués à la section 1.1.2, i.e. morphologique, syntaxique et sémantique), soit à partir d’une combinaison des deux. L’écriture de ces règles d’extraction peut être entièrement manuelle ou bien guidée par des systèmes d’apprentissage, supervisés ou non [APP 99].

Dans la plupart des applications, les informations à extraire sont étroitement ciblées. Elles répondent à un format prédéfini, le formulaire à remplir ou les étiquettes à apposer aux unités textuelles du document source, dans un domaine de connaissance déterminé et restreint. Le corpus documentaire à traiter est lui-même fortement spécialisé et réputé contenir cette information. Autrement dit, en extraction d’information, on connaît ce que l’on cherche (scénarios), on sait où le trouver (corpus) et à peu près dans quelle forme l’information sera exprimée (expression) [PIE 00]. Pourtant, il n’existe aucune méthodologie formelle pour l’écriture des règles d’extraction même si nous pouvons dégager deux types d’approches, qui peuvent également être combinées [ENJ 05b] :

- Ascendante : l’étude du corpus textuel déclenche et guide la définition des scénarios et formulaires qui feront l’objet des règles d’extraction d’information.

- Descendante : en fonction des formulaires et scénarios prédéfinis, le corpus est analysé pour dégager les expressions régulières pertinentes qui permettront de les instancier.

Il est également possible d’utiliser des méthodes quantitatives, d’ordre statistique, pour aider le linguiste à rechercher des régularités langagières, et notamment lexicales, dans les corpus documentaires à analyser [CON 05].

Les règles d’extraction seront ensuite intégrées au moteur d’extraction d’information. Ce dernier procèdera au traitement du corpus documentaire, lequel se découpe généralement en trois phases [ENJ 05b] :

Le clan

Dans le document Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d'une plateforme logicielle (Page 72-76)