• Aucun résultat trouvé

Systématisation de l’Extraction d’Information

Au cours des années 1980, l’intérêt porté aux possibilités de traitements automatisés de l’infor- mation est grandissant et est notamment manifesté par des communautés et institutions pour lesquelles elle constitue un enjeu crucial. Dans ce contexte, l’EI émerge en tant que tâche identi- fiée et utile, autour de processus d’évaluation par comparaison avec les performances humaines sur les problèmes visés. L’empirisme devient concomitamment l’approche dominante, tant au niveau de la définition de l’EI que de sa mise en œuvre fonctionnelle.

Comme le souligne Grishman [Gri12], une caractéristique notable de l’EI réside dans l’im- portance de l’évaluation, encouragée par des institutions gouvernementales américaines, dans les recherches menées au cours des années 1980. En particulier, les campagnes MUC (Message Unders-

tanding Conference) initiées par la Marine américaine en 1987 et financées par La DARPA (Defense Advanced Research Projects Agency) jusqu’en 1998 réunissent des équipes de recherche autour du

problème de la compréhension de messages et contribuent principalement à une définition systé- matique de la tâche d’EI. L’histoire et la méthodologie des campagnes MUC sont désormais bien connues et étudiées, notamment par Grishman et Sundheim [GS96], Hirschman [Hir98] ou Cowie et Wilks [CW00]. En suivant Ehrmann [Ehr08], on peut dégager trois cycles dans la description de MUC, autour de la définition et de la complexité de la tâche d’EI, des données fournies aux participants et des modalités d’évaluation mises en œuvre.

Les deux premières éditions de MUC sont principalement exploratoires et ne concernent que de courts messages de la Marine américaine. Le principe des formulaires de structuration des données (nommés templates), à remplir par les participants à partir du contenu des messages, ainsi que les premières mesures d’évaluation — précision et rappel, empruntés à la recherche d’in- formation — sont adoptés lors de MUC-2 (1989). À partir de MUC-3 (1991), les données intègrent des corpus journalistiques sur le thème du terrorisme en Amérique Latine et les formulaires présentent des champs à remplir en plus grand nombre. MUC-4 (1992) ajoute la F-mesure aux métriques d’évaluation, combinant précision et rappel pour une meilleure comparaison entre les systèmes. Des corpus de domaines différents — microélectronique, vente d’entreprises — sont incorporés à MUC-5 (1993), qui présente des tâches à réaliser pour le japonais en plus de l’anglais. La diversification et la complexité accrue de MUC-5 révèlent un besoin de généricité et donnent lieu à un effort de développement vers la portabilité des systèmes, sans que leur performance ne progresse notablement. Leur adaptation reste longue et laborieuse, mais un certain nombre de sous-tâches sont identifiées comme distinctes et indépendantes de la tâche globale et orientent les développements vers la conception de modules liés à des fonctionnalités précises. MUC-6 et MUC-7 (1995 et 1998) présentent ainsi des systèmes modulaires et encouragent leur conception autour de la portabilité. Les tâches de résolution de coréférence, de désambiguïsation lexicale et de détection des structures prédicatives sont envisagées, la première seulement étant réalisée. Les formulaires sont simplifiés et normalisés ; ils modélisent les entités (Template Element) ainsi que les relations entre entités (Scenario Template). Le principe de sous-tâches distinctes et de modules indépendants s’illustre dans la création de la tâche de détection d’entités nommées, sur laquelle nous reviendrons plus loin dans ce chapitre (section 3.1). Ces dernières éditions voient également

2. La tâche d’Extraction d’Information 57 la généralisation des méthodes probabilistes et d’apprentissage automatique concurrencer les mé- thodes symboliques. Les performances encourageantes obtenues par les participants légitiment l’approche favorisant une décomposition des tâches.

À l’issue de cette décennie de campagnes, la tâche d’EI apparaît comme bien définie, ras- semble une communauté de recherche et de développement active et fournit des résultats d’une qualité proche des performances humaines. Cowie et Wilks [CW00] soulignent cependant un travers lié à une évaluation placée au centre des préoccupations, qui consiste en une tendance à concevoir des solutions de court terme, où l’innovation ne joue pas un rôle central, afin de répondre aux attentes précises et restreintes des applications dans le cadre de MUC. L’utilité des technologies émergeant de MUC est cependant reconnue, mais il est également mis en avant que l’impératif d’adaptabilité et de vitesse de développement tend à éviter le déploiement de l’ensemble des méthodes de TAL disponibles, ce qui pose la question d’une relation lâche entre EI et TAL. On peut à cet égard observer que la tâche de résolution de coréférence introduite lors de la dernière édition de MUC ouvre des perspectives de recherches plus fondamentales.

Parallèlement et en relation avec les campagnes MUC, la majorité des systèmes d’EI proposés au cours des années 1990 prennent la suite des ambitions de compréhension du langage na- turel, formulées lors des décennies précédentes et évoquées précédemment, autour du principe de localité et selon un mode applicatif. L’EI se présente alors, selon la formule de Poibeau et Nazarenko [PN99], comme un outil de compréhension locale et guidée par le but. Il s’agit en effet d’instancier des schémas informationnels définis en fonction de tâches précises ainsi que de types de texte et de domaines circonscrits. Les méthodes symboliques s’attachant à la reconnaissance des éléments de ces schémas sont à ce titre longtemps dominantes ; elles opèrent à partir du repérage d’amorces, du déploiement d’automates et d’heuristiques locales. Chaque nouvelle tâche d’EI donne donc lieu à la mise au point d’un nouveau système, dont les fonctionnalités sont étroitement liées à l’identification de ses éléments informatifs caractéristiques ; ceux-ci pouvant être différents pour chaque domaine et type de texte, l’adaptabilité des systèmes est donc peu opérationnelle.

Les dernières éditions des campagnes MUC orientent la conception des systèmes vers un effort de généralisation et de modularité qui constitue un tournant dans l’approche de l’EI. Cette discipline demeure cependant ancrée dans l’objectif de l’applicabilité et le principe de définition préalable des structures informatives relatives aux domaines traités reste prégnant dans la mise en œuvre de l’EI. L’adaptabilité s’y trouve alors concentrée sur les modes d’acquisition des ressources nécessaires — règles de reconnaissance, lexiques ou bases de connaissances — pour le traitement adéquat de domaines variés.

Les développements informatiques de la fin du XXe siècle se traduisant notamment par une capacité accrue des ordinateurs en termes de mémoire, la manipulation de grandes quantités de données constitue un problème de moins en moins prégnant. La période s’accompagne donc d’un mouvement vers le recours aux données dans la constitution des modèles employés en TAL, qui se traduit notamment par l’émergence de la linguistique dite de corpus, mais également dans l’idée que les structures sous-jacentes au langage, permettant une représentation de l’information, peuvent émerger des corpus de textes eux-mêmes : Cowie et Wilks [CW00] soulignent ainsi une attention moindre portée aux théories linguistiques dans un effort de dérivation des structures à partir des données, désormais en quantité suffisante pour rendre possible les généralisations sur le langage.

Les méthodes numériques et notamment probabilistes à partir d’apprentissage supervisé, c’est-à-dire de données annotées selon les schémas informationnels visés, s’inscrivent dans ce mouvement empirique et apparaissent comme l’une des réponses apportées au besoin d’adap-

tabilité accrue. Il s’agit d’ancrer les capacités des systèmes d’EI dans une représentation dérivée des données elles-mêmes, mais également de contourner le problème du coût engendré par la conception manuelle de systèmes : celle-ci nécessite la mise au point de règles et motifs de reconnaissance par des experts, ainsi qu’un processus d’acquisition de ressources, lexicales ou relevant des connaissances du monde. L’annotation de corpus se présente comme plus aisée et favorise une distinction des compétences entre expertise du domaine et implémentation infor- matique. Le coût de l’annotation n’étant lui-même pas négligeable, les méthodes d’apprentissage semi-supervisé ou non supervisé connaissent également un intérêt grandissant, surtout à partir des années 1990. Moens et De Busser [Moe06] soulignent cependant que la majorité des travaux à base d’apprentissage portent sur l’acquisition des motifs pour la reconnaissance et le typage d’en- tités, le repérage des relations entre entités, la classification de rôles sémantiques et la résolution d’expressions temporelles, c’est-à-dire sur les éléments composant les scénarios sous-jacents aux tâches d’EI. L’apprentissage des scénarios eux-mêmes ou des scripts qui leur sont associés, à la manière de ce qui est proposé par la CDT (cf. supra 2.1), reste rare. Une présentation détaillée des différentes méthodes, symboliques et probabilistes, employées depuis les débuts de l’EI jusqu’aux systèmes récents, est proposée par Moens [Moe06].

La systématisation permise notamment par des campagnes d’évaluation dédiées se traduit par une architecture générale et commune, dans un espace de variation autour de caractéristiques typiques de tout système d’EI. Nous reprenons ici une description synthétique de cette architecture à Moens et De Busser [Moe06], en regard du schéma reproduit à la figure 2.4. Ce dernier illustre

INPUT

Corpus d'entraînement Textes sourcesINPUT

OUTPUT Information structurée Prétraitement Normalisation TAL Prétraitement Normalisation TAL Connaissances externes Thesaurus, ontologie, base de connaissances ... Grammaire d'extraction Extraction Acquisition / apprentissage

Phase d'entraînement (T) Phase de déploiement (D)

T1 T2 T2.1 T2.2 T3 D1 D2 D3 D4 D2.1 D2.2

Figure 2.4 : Architecture générale d’un système d’EI (adapté de [Moe06]).

les deux phases distinctes d’un système d’EI : entraînement et déploiement. La première concerne l’acquisition des motifs d’extraction, réalisée par l’intervention d’un spécialiste humain ou par le biais d’un apprentissage automatique. La première étape de sélection d’un corpus textuel

2. La tâche d’Extraction d’Information 59 représentatif de la tâche (fig. 2.4, T1) est suivie d’un prétraitement (fig. 2.4, T2) au cours duquel le texte est normalisé grâce à des outils usuels de TAL, notamment la segmentation en phrases et en mots (fig. 2.4, T1.1), et enrichi d’indications linguistiques (fig. 2.4, T1.2), par exemple un étiquetage en parties du discours, qui pourront être utilisées lors de l’acquisition. Dans cette dernière étape (fig. 2.4, T3), le corpus prétraité est utilisé comme base pour la conception de règles d’extraction dans le cas d’une approche manuelle ; dans le cas d’un apprentissage automatique, il est d’abord annoté selon les éléments textuels pertinents pour la tâche puis fourni à l’algorithme adéquat pour l’induction de la grammaire d’extraction correspondante1. L’élaboration ou l’induction de

cette grammaire peut par ailleurs faire usage de connaissances externes accesibles au système. Durant la phase de déploiement (fig. 2.4, D1 à D4), le système d’EI repère et classifie les infor- mations pertinentes dans de nouveaux textes, distincts du corpus d’entraînement. Le composant de prétraitement (fig. 2.4, D2) est aussi similaire que possible à celui de la phase d’entraînement (fig. 2.4, T2). Le texte est ensuite traité par le composant d’extraction (fig. 2.4, D3) qui repose sur la grammaire acquise lors de l’entraînement et pouvant se référer à d’éventuelles connaissances externes. Les éléments textuels pertinents sont ainsi extraits, organisés relativement aux classes définies pour la tâche puis retournés dans le format structuré correspondant (fig. 2.4, D4). Les études sur l’EI portent usuellement moins sur le déploiement réel et concret d’un système que sur son développement et sur les tests associés ; la phase de déploiement correspond alors le plus souvent à une évaluation du système. Cette architecture générale se trouve notamment réali- sée dans le système d’EI GATE [Cun+11b], développé depuis 1995 principalement à l’Université de Sheffield et toujours maintenu.

Après ces observations générales sur l’évolution historique de la discipline et ses caractéristiques principales, il nous est possible d’arrêter une définition stable de l’EI sur laquelle une réflexion concernant sa place dans le processus d’annotation sémantique peut s’appuyer. En suivant une nouvelle fois les formulations de Moens et De Busser [Moe06], cette définition peut prendre la forme suivante :

[2.1] L’Extraction d’Information consiste en une opération de repérage et de structura- tion en classes sémantiques, par classification consécutive ou simultanée, d’éléments informatifs spécifiques présents dans des données non structurées, notamment tex- tuelles, menée dans le but de donner à l’information une forme adéquate pour des traitements automatiques.

Comme évoqué plus haut (cf. supra 1.3) et en regard de cette définition, la fonctionnalité de repérage des éléments informatifs pertinents en fonction d’un domaine donné confère à l’EI un rôle indispensable pour une automatisation de l’Annotation Sémantique. Dans cette perspective, la relation au domaine constitue un aspect crucial de l’EI et en détermine le modèle de structuration sous-jacent.