• Aucun résultat trouvé

Les techniques de l’Extraction d’Informations

Ce chapitre est dédié à la description de notre approche technique, consistant à inclure des techniques empruntées à l’Extraction d’Informations à une approche

4.3 Les techniques de l’Extraction d’Informations

Le balisage traditionnel ajoute une information au texte, alors que le balisage sémantique du contenu s’intéresse à la sémantique des segments textuels balisés ; dans ce dernier les balises délimitent un segment de texte à partir de son contenu, ce qui ouvre la voie à un balisage automatique à partir de l’identification du sens de certaines descriptions caractéristiques.

On désigne sous le terme d’Extraction d’Informations (Information Extraction) une approche du traitement automatique des textes qui est basée sur l’identification de contenus sémantiques spécifiques dans un domaine précis (des acteurs, des types d’événements, des lieux…), à partir de l’analyse linguistique du texte, dans le but d’instancier à partir des documents des représentations typiques de certains événements (comme des attentats ou des fusions-acquisitions d’entreprises). L’Extraction d’Informations est basée sur des techniques de traitement automatique du langage naturel souvent empiriques, et fait une part importante à la reconnaissance du contenu de certains segments de phrase, comme dans la reconnaissance de descriptions ou Named Entity Recognition (NER).

L’Extraction d’Informations a connu un essor particulier grâce à des évaluations compétitives de la performance des systèmes d’Extraction d’Informations sur les mêmes jeux de test. Ces compétitions sont connues sous l’acronyme de MUC (Message Understanding

Conference) (DARPA Software and Intelligent Systems Technology Oce, 1992), et ont été

initiés par la DARPA (Defense Advanced Research Projects Agency), une des principales agences de financement des recherches dans ce domaine aux USA. Un exemple de balisage est représenté par la Figure 4.46.

Les systèmes d’Extraction d’Informations utilisent différentes combinaisons de techniques de traitement automatique du langage naturel (TALN), par exemple les automates à états finis, les modèles statistiques. Pour faciliter le traitement de phrases

parfois longues, ces systèmes ont développé des stratégies empiriques de segmentation des phrases, ainsi que de traitements à plusieurs niveaux (mots, segments de phrases, phrases entières).

Figure 4.46 – Exemple de balisage dans le système MucBruce (Cowie, Guthrie & Wilks, 1992). Si les systèmes d’Extraction d’Informations adoptent des approches très diverses quant aux techniques qu’ils assemblent, ils partagent en revanche certaines stratégies qui ont donné lieu à des tâches spécifiques comme la reconnaissance de descriptions (Named Entity

Recognition). La Figure 4.47 représente l’architecture d’un système d’Extraction

d’Informations typique, le système Proteus/PET (Yangarber & Grishman, 1998).

En général, pour chaque étape d’un système d’Extraction d’Informations, une technique de TALN est invoquée, produisant un assemblage parfois complexe de techniques hétérogènes. Néanmoins, dans l’histoire des systèmes d’Extraction d’Informations, le système FASTUS s’est distingué par sa démarche empirique entièrement basée sur une cascade d’automates à états finis (Hobbs et al., 1996). Un niveau pouvait être consacré à l’identification de descriptions spécifiques, par exemple les acteurs du récit, puis à d’autres comme à l’attribution de rôles à ces différents acteurs dans l’action reconnue à partir du texte. FASTUS a en particulier prouvé son efficacité pour la reconnaissance d’acteurs à partir de descriptions en langage naturel.

Mais l’Extraction d’Informations a aussi innové dans l’utilisation du balisage au cours du traitement automatique : dès 1992, c’est-à-dire bien avant l’essor des techniques documentaires autour de XML, les systèmes de ce type ont utilisé le balisage en cours

4.3. Les techniques de l’Extraction d’Informations

d’analyse pour signaler l’identification d’une structure linguistique particulière, comme un nom propre, un lieu, etc.

Figure 4.47 – Architecture d’un système typique d’Extraction d’Informations (Proteus/PET) d’après Yangerber et al. (Yangarber & Grishman, 1998).

Cette approche de la reconnaissance de certains motifs a donné naissance à la tâche dite NER (Hirschman & Chinchor, 1998), en tant que sous-tâche de l’Extraction d’Informations. Les tâches de NER consistent en trois sous-tâches : les entités nommées (organisations, personnes, lieux), les expressions temporelles (dates, temps), et les expressions numériques (valeurs monétaires, pourcentages). Par exemple, un système NER produit dans le style MUC la sortie suivante :

Figure 4.48 – Balisage d’une phrase par un système NER selon la représentation MUC. Les systèmes NER permettent la reconnaissance de structures nominales ; nous avons choisi de nous inspirer de cette approche pour la reconnaissance automatique des opérateurs déontiques, qui sont des structures verbales. Dans les deux cas, il s’agit de

reconnaître des motifs à partir de multiples présentations lexicales et syntaxiques. Les structures syntaxiques des opérateurs déontiques tendent à être plus complexes en tant que structures verbales (insertion d’adverbes, constructions actives et passives, impersonnelles …), ce qui justifie bien le recours à des techniques d’analyse.

Nous proposons une approche consistant à fusionner le traitement linguistique et le traitement documentaire. Nous décrivons dans les chapitres suivants la mise en œuvre de notre approche pour reconnaître les opérateurs déontiques. Nous avons choisi d’utiliser les automates à états finis (Roche & Schabes, 1997) comme formalisme de traitement du fait qu’ils fournissent une façon efficace pour définir les structures spécialisées, en incluant leurs variantes morphologiques, et ont une performance prouvée sur certaines tâches d’Extraction d’Informations (Pazienza, 1997) (tel que la reconnaissance de descriptions), qui sont similaires à la reconnaissance de structures déontiques. L’application d’un automate reconnaît une occurrence spécifique d’un opérateur déontique dans le texte et peut délimiter cette occurrence à l’aide de balises qui serviront aussi à la structuration du texte.

Pour développer des automates, de nombreux logiciels existent tels qu’Unitex72, ou, plus

récemment, des Recommandations du W3C ont été proposées pour définir des automates : le

State Chart XML73 (SCXML) pour State Machine Notation for Control Abstraction 1.0 (version

de Juillet 2005). Cette technique aurait également pu être choisie si le développement de nos automates n’avait pas été antérieur à ces Recommandations du W3C.

Néanmoins, nous avons opté pour un développement spécifique qui permet de contrôler l’intégration du système dans un environnement graphique et ne limite pas les utilisations ultérieures du logiciel, y compris son exploitation et sa valorisation.

72http://www-igm.univ-mlv.fr/~unitex/ (dernier accès le 10 juin 2006).

Chapitre 5