Quelques éléments en extraction d’information

4.3 L’extraction d’information

4.3.1 Quelques éléments en extraction d’information

Reconnaissance d’entités nommées

Il existe de très nombreux travaux sur l’apprentissage statistique pour l’extraction d’information à des domaines également très divers.

La reconnaissance d’entités nommées a pour but d’identifier dans les textes les objets spécifiques comme des personnes, des noms de sociétés ou des noms de lieux mais égale-ment, des noms de protéines, de gènes. . . Des ressources propres au domaine peuvent être exploitées : des thésaurus, des dictionnaires ou encore de patrons comme cela peut-être le cas pour repérer des galaxies en astronomie (NGC xxxx, où xxxx sont des chiffres).

[Ned04] montre que les approches les plus répandues pour l’identification d’entités nommées reposent sur des méthodes d’apprentissage numériques. La modélisation statis-tique de séquences par les Modèles de Markov Cachés (HMM) [Rab02] ou les CRF (Condi-tional Random Fields) qui semblent un peu plus performants [LMP01, PM04, SC05], font partie des méthodes très utilisées pour le repérage des entités nommées, notamment dans le system Nymble [BMSW97]. L’apprentissage est effectué sur un corpus annoté et le système annote un nouveau document en assignant l’étiquette la plus probable. D’autres

Source :

SOCCER - BLINKER BAN LIFTED.

LONDON 1996-12-06 Dutch forward Reggie Blinker had his indefinite suspension lifted by FIFA on Friday and was set to make his Sheffield Wednesday comeback against Liverpool on Saturday. Blinker missed his club’s last two games after FIFA slapped a worldwide ban on him for appearing to sign contracts for both Wednesday and Udinese while he was playing for Feyenoord.

Result :

SOCCER - [PER BLINKER ] BAN LIFTED . [LOC LONDON ] 1996-12-06 [MISC Dutch ] forward [PER Reggie Blinker ] had his indefinite suspension lifted by [ORG FIFA ] on Friday and was set to make his [ORG Sheffield Wednesday ] comeback against [ORG Liverpool ] on Saturday . [PER Blinker ] missed his club ’s last two games after [ORG FIFA ] slapped a worldwide ban on him for appearing to sign contracts for both Wednesday and [ORG Udinese ] while he was playing for [ORG Feyenoord ] .

Figure 4.5 – exemple d’extraction d’entités nommées dans un texte (Illinois NER).

approches encore reposent sur le principe du maximum d’entropie [Mik98] ou sur les SVM [TC02].

Certains de ces outils sont accessibles, comme par exemple, le Stanford NER ou l’Illi-nois NER qui est illustré par une démonstration en ligne (voir figure 4.5).

L’utilisation des règles d’association séquentielles pour l’extraction d’entités nommées semble une alternative intéressante [PCK⁺09]. Nous reviendrons sur l’intérêt de ces tra-vaux dans le cadre de mon projet de recherche (section 5) dans la mesure où ils reposent sur les mêmes fondements scientifiques que ceux utilisés pour la construction de l’ontolo-gie.

Extraction de règles

Le remplissage des champs d’un formulaire nécessite d’aller au delà de l’identification des termes ou des entités nommées puisqu’il s’agit de relier un champ à un contenu, ou plus globalement d’identifier des structures de type prédicat-argument, ce qui revient à extraire des relations entre des objets du domaine.

L’extraction de relations peut se faire par la définition, puis la recherche dans les textes, de patrons, impliquant des objets (termes), des entités nommées, et des verbes (ou d’autres marqueurs linguistiques) qui reflètent une relation. Les règles peuvent aussi prendre en compte des contraintes de nature syntaxique. Dans le cadre de la génomique, [OHTT01] repose ainsi sur l’utilisation d’un dictionnaire pour les noms de protéines, de patrons de mots et d’un étiquetage morpho-syntaxique. La figure 4.6 donne un exemple de patrons définis pour la reconnaissance d’interaction entre protéines.

Dans ces travaux, deux types de règles sont définies : les règles positives qui corres-pondent à des situations d’interaction à observer et des règles négatives qui permettent de filtrer les situations que l’on sait ne pas être une interaction. L’idée derrière ces règles né-gatives est de réduire le nombre de faux positifs dans l’extraction. Un exemple de règle est PROTEIN1.*PATTERN.* but NOT PROTEIN2 dans laquelle PATTERN est une forme

4.3. L’extraction d’information 63

Figure 4.6 – Exemple de patrons linguistiques pour l’identification d’interaction entre gènes [OHTT01]

linguistique possible pour identifier une interaction ou une association. . . Il atteignent ainsi sur deux corpus des taux de rappel de plus de 80% et une précision de plus de 93%.

Les règles, dans le cadre de [OHTT01] et comme dans beaucoup d’approches, sont écrites à la main et affinées par essais-erreurs. Il s’agit donc d’une tâche longue et coûteuse. Il existe plusieurs environnements dédiés au développement de systèmes d’extraction d’in-formation comme GATE (General Architecture for Text Engineering), OpenCalais ou Mallet (Machine Learning for Language Toolkit).

Une règle traduit généralement une relation entre deux entités et les problèmes plus complexes sont décomposés en plusieurs problèmes simples, dans le but d’obtenir des règles plus robustes. À l’inverse, des approches un peu plus ancrées dans la linguistique exploitent les structures prédicat-argument dans les phrases [YTMT01, PCZ+02] et les mettent en correspondance avec une structure conceptuelle. La figure 4.7 propose deux règles de mise en correspondance et la figure 4.8 extraite de [YTMT01] donne un exemple de mise en œuvre d’une règle.

Dans [YTMT01], une illustration de cette mise en correspondance entre structure linguistique et structure de frame est donnée par le schéma général du système repris en figure 4.8.

Contrairement à l’extraction d’entités nommées, il y a encore assez peu de travaux à exploiter des techniques d’apprentissage pour l’extraction de règles. Les travaux de Craven et Kumlien [CK99] que je décris ici, bien qu’anciens, montrent bien que disposer d’un éventail assez large de méthodes d’apprentissage ne suffit pas à extraire l’information pertinente des textes. La préparation des textes et la définition des marqueurs utilisés par ces algorithmes sont probablement encore plus importantes.

L’algorithme d’apprentissage utilisé dans [CK99] est un algorithme d’apprentissage relationnel inductif, similaire à FOIL [Qui90]. Les textes sont analysés phrase par phrase,

Figure 4.7 – Mise en correspondance entre des structures prédicat-argument [YTMT01]

tout d’abord en associant aux mots leur partie de discours puis en construisant l’arbre syntaxique de la phrase. L’analyseur Sundance [Ril98], illustré par la figure 4.9, est utilisé pour cette étape. [CK99] se propose de rechercher la localisation d’une protéine dans certains types de cellules ou dans certains tissus et les auteurs cherchent donc à définir un prédicat localisation− sentence(Sentence − ID, Phrase − ID1, Phrase− ID2 qui signifie que la phrase Sentence-ID permet de localiser Phrase− ID2 dans Phrase− ID1. L’analyse syntaxique de la phrase (voir Fig 4.9) est utilisée pour instancier un ensemble de cinq types de prédicats qui seront donnés en entrée au processus d’apprentissage. La figure 4.10 donne les prédicats extraits de la phrase “By immunofluorescence microscopy the PRP20 protein was located in the nucleus.”. Le choix de ces prédicats est crucial et conditionne le succès du processus. :

– phrase− type(Phrase − ID, Phrase − Type) : associe un type à un syntagme (no-minal, prépositionnel. . . ) ;

– next− phrase(Phrase − ID1, Phrase− ID2) : reproduit l’ordre des syntagmes dans la phrase (Phrase− ID2 succède à Phrase− ID1) ;

– constituent− phrase(Phrase − ID1, Phrase− ID2) : établit que le syntagme Phrase− ID2 est un sous-constituant du syntagme Phrase− ID1;

– subject− verb(Phrase − ID1, Phrase− ID2) et

verb− direct − object(Phrase − ID1, Phrase− ID2) : permet de relier le sujet Phrase− ID1 à son verbe Phrase− ID2 ou le verbe Phrase− ID1 à son complé-ment d’objet direct Phrase− ID2;

– same− clause(Phrase − ID1, Phrase− ID2) : relie des syntagmes apparaissant dans une même proposition.

De plus, un typage des mots est réalisé par 4 classifieurs bayésiens. Enfin, la figure 4.11 donne l’exemple d’une règle apprise par le système. Une telle règle est satisfaite si tous les prédicats en partie droite de la règle (situé à droite de “ :-”) sont satisfaits. Cette règle se traduit donc de la façon suivante :

– les deux premiers littéraux sélectionnent des phrases où le syntagme introduisant une protéine doit précéder le syntagme introduisant une localisation intra-cellulaire

4.3. L’extraction d’information 65

Figure 4.8 – Schéma global du système et exemple de transformation depuis la phrase juqu’à la structure de frame extraite [YTMT01]

Figure 4.10 – Transformation de l’arbre syntaxique en prédicats en vue de la phase d’apprentissage ([CK99])

et ces deux syntagmes sont séparés par un autre syntagme (sans contrainte de type) ; – le littéral suivant impose à la phrase d’être classé comme phrase par un classifieur

bayésien ;

– le quatrième littéral doit reconnaître le syntagme désignant la protéine ;

– les deux derniers littéraux constituent les conditions pour une localisation intracel-lulaire.

Au final, il est intéressant de voir qu’en exploitant des littéraux de bas niveau, ne nécessitant pas une analyse linguistique fine, les résultats expérimentaux donnent une très bonne précision (de l’ordre de 92%) mais un faible rappel (21%).

Figure 4.11 – Exemple de règle apprise par [CK99]

Dans le document Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances (Page 68-73)