La campagne d'évaluation TREC - Analyser un texte pour en extraire l'information

1. Le problème de la gestion de l'information

1.2. Analyser un texte pour en extraire l'information

1.2.5. La campagne d'évaluation TREC

Suite au succès rencontré par MUC, diverses autres conférences ont vu le jour, qui abordent des disciplines semblables ou connexes à l’extraction d’information. En particulier, la campagne d’évaluation TREC (Text REtrieval Conference) a ob-tenu un consensus dans le domaine de la recherche d’information. TREC fait ac-tuellement autorité pour tester la valeur des approches qui visent à la sélection de documents qui contiennent une information déterminée. Les systèmes qui con-courent cherchent en effet à déterminer dans une base documentaire les docu-ments qui correspondent à une information réclamée par un utilisateur (Harman,

1992).

Au cours des éditions successives de TREC⁸, différentes tâches ont été déﬁnies qui répondent à des besoins réels d’application réclamées par le public. Ces tâches correspondent à différentes facettes de la gestion de l’information.

• Recherche multilingue. • Filtrage.

• Recherche interactive. • Analyse de requête. • Question-réponse.

• Recherche en documents oraux. • Recherche sur le Web.

Les mesures d’évaluation des systèmes présentés dans les campagnes d’évalua-tion TREC correspondent aux mesures tradid’évalua-tionnelles de rappel et de précision, qui sont par ailleurs utilisées dans le cadre des conférences MUC (cf. section1.2.1 page 8). Seule la tâche de question-réponse, très particulière, fait exception car le rappel n’a pas été jugé prépondérant pour ce type d’application. C’est donc un score correspondant au rang de la première bonne réponse pour chaque question qui in-dique la qualité du système. Par ailleurs, les lacunes du système sont indiquées par le nombre de questions qui n’obtiennent pas de bonne réponse (cf. section7.2.2 page 188).

8. TREC est une campagne d’évaluation annuelle. En novembre 2002 a eu lieu la onzième édition.

1.2. Extraire l’information d’un texte

Parmi les différentes perspectives offertes par TREC, c’est la tâche de question-réponse qui a particulièrement retenu notre attention. En effet, contrairement aux autres, elle exige une fenêtre de réponse inférieure au document entier et réclame une identiﬁcation plus ou moins exacte de l’information recherchée ⁹. De plus, les questions ne sont pas limitées à une information ou à un type d’information. Dès lors, la tâche de question-réponse afﬁrme résolument son caractère généra-liste. Ces deux caractéristiques particulièrement exigeantes nous amènent à nous intéresser à la tâche de question-réponse comme nous l’avons fait pour celle d’ex-traction d’information.

Notre propos n’est pas ici d’étudier les méthodes de question-réponse existan-tes, mais plus élémentairement les techniques qui permettent d’identiﬁer une in-formation et de la traiter, avant toute localisation d’inin-formations correspondantes dans les textes et dans les requêtes. L’objectif de notre thèse est en effet d’élabo-rer une méthodologique de construction d’une structure informationnelle à partir d’une base documentaire. Cette structure informationnelle doit permettre de gé-rer l’information contenue dans la base documentaire quels que soient les besoins de l’utilisateur. L’interrogation particulière de la base documentaire constitue une évaluation de la qualité de la structure, mais elle reste partielle et dirigée. Le but est en effet d’obtenir une méthodologie généraliste reposant sur des méthodes lin-guistiques.

Dès les années septante, la problématique de question-réponse a été envisagée et traitée grâce à des approches de type linguitique. À cette époque, le genre des tex-tes et le domaine auquels ils appartenaient étaient extrèmement spéciﬁques. Par exemple, le système QALM (Lehnert,1977,1979) analyse de courtes histoires sur des sujets très précis et limités pour en extraire une représentation conceptuelle. Le système QALM dispose en outre d’une base de connaissances propres au domaine du scénario analysé, ainsi que d’une typologie des questions disposant de 13 caté-gories de question qui possèdent leur propre heuristique pour trouver la réponse à la question proposée. Ces heuristiques reposent sur une analyse du contenu de la question, sur une recherche dans la représentation conceptuelle du scénario et sur un raisonnement à partir de la base de connaissances.

Les systèmes ultérieurs ne différent de QALM que par une extension des con-naissances, notamment pragmatiques, de l’univers appréhendé, et par une plus grande variété de types de questions (Dyer,1983;Zock et Mitkov,1991). Le système

QUEST (Graesser et al.,1994), qui correspond à la même approche, déﬁnit les quatre composantes de ce type d’architecture :

9. Les huitième et neuvième éditions de TREC prévoyaient deux fenêtres de réponse de 50 et 250 caractères. La dixième édition a supprimé la fenêtre de 250 caractères. La dernière édition supprime l’arbitraire d’une fenêtre limitée pour demander seulement la réponse à la question posée.

1. Gestion de l’information

• catégorisation des questions ;

• identiﬁcation des sources d’information qui permettent de répondre (liées au domaine ou génériques) ;

• processus de mise en correspondance des faits et événements des questions et de propositions de réponse ;

• formulation de la réponse.

Ferret et al.(2002a) estiment que cette architecture exclusivement linguistique n’est pas réalisable pour une application généraliste car les sources d’information devraient alors comprendre une déﬁnition et une formalisation des connaissan-ces pragmatiques sans limite de domaine.Mollá Aliod et al.(2000) ne disent pas autre chose lorsqu’ils utilisent un modèle semblable pour poser des questions sur les commandes UNIX, tout en adjoignant à une analyse syntaxico-sémantique un raisonnement logique reposant sur des inférences liées à un lexique limité par le domaine et à des connaissances sémantiques du domaine.

Et en effet, depuis la première édition de TREC, la plupart des systèmes de ques-tion-réponse généralistes sont basés sur une architecture légèrement différente :

• catégorisation des questions ;

• moteur de recherche permettant une première sélection des documents ou fragments de documents susceptibles de répondre à la question posée ; • traitements linguistiques et autres appliqués sur les documents sélectionnés

pour déterminer les réponses possibles.

Les différences reposent essentiellement dans les traitements d’analyse de la ques-tion et dans ceux des textes. Les traitements appliqués à la quesques-tion sont propres aux méthodologies de question-réponse. Les procédés appliqués aux textes pré-sélectionnés correspondent à un traitement de l’information contenue dans ces textes. Le moteur de recherche permettant de sélectionner les textes candidats n’appartient pas à la méthodologie de question-réponse, mais les processus utili-sés pour sélectionner des documents qui ne contiennent pas forcément les unités lexicales contenues dans l’information extraite de la question ne doivent pas être négligés.

Dès la première évaluation des systèmes de question-réponse dans TREC ( Voo-rhees,1999), cette architecture a été mise en œuvre. Par exemple, le système deHull

(1999) analyse les questions pour en extraire le vocabulaire et pour en catégoriser l’objet grâce à l’interrogatif et à certains patrons lexicaux¹⁰. Le vocabulaire ainsi 10. Une question dont l’interrogatif est How sera normalement catégorisée <How>. Toutefois, si la catégorisation produit <How> Adj (où Adj est un adjectif), la nature de l’adjectif permet d’aboutir à

1.2. Extraire l’information d’un texte

extrait permet de constituer un ensemble de textes qui lui correspondent grâce au système d’extraction d’information de AT&T.

Les textes extraits sont analysés et chacune des phrases de ces textes sont clas-siﬁées en fonction du nombre de mots qu’elles contiennent en commun avec la question. Les noms propres et les nombres reçoivent le poids le plus important, puis les noms communs ou inconnus. Les autres mots sont peu considérés. L’ap-plication d’un module de reconnaissance d’entités (le ThingFinder deTrouilleux,

1998) permet ensuite d’identiﬁer les noms de personne, de lieu, les expressions de date, de prix, de quantité ou de nombre. Ces entités sont mises en correspondance avec le type de la question et les phrases qui ne contiennent pas le type attendu sont éliminées. Les mots ou expressions qui correspondent au type de la question sont considérés comme des réponses potentielles. Le vocabulaire contenu dans la question est éliminé.

Les résultats obtenus par ce système sont relativement honorables. Toutefois, l’auteur regrette à plusieurs reprises les erreurs que le manque de traitements lin-guistiques ne permet pas de corriger. Notamment, lors de son analyse des phrases sélectionnées, il déplore le manque de liens entre les réponses possibles et le con-tenu de la question. Par ailleurs, l’analyse de la question elle-même demande des ressources sémantiques dont le système ne dispose pas.

L’évolution des méthodes et techniques de question-réponse depuis la huitième édition de TREC en 1999 n’a pas modiﬁé l’architecture générale des systèmes, qui sont toujours basés sur une catégorisation des requêtes, sur une recherche par mots-clefs dans les documents à l’aide d’un moteur de recherche généralement ex-terne et sur des traitements des documents sélectionnés par le moteur pour en identiﬁer ou en extraire la meilleure réponse. Le système QALC proposé par Fer-ret et al.(2002b) s’appuie sur la constatation que les méthodes qui comportent les traitements linguistiques les plus élaborés sont également ceux qui atteignent les meilleures performances. Dès lors, et pour chaque partie du système, les traite-ments linguistiques sont privilégiés dans cette approche.

Tout d’abord, l’analyse de la question doit permettre d’obtenir deux informa-tions. D’une part c’est grâce à elle qu’est atteinte la catégorisation de l’objet de la question, et donc de la réponse attendue. Cette catégorisation est réalisée par des patrons qui s’appuient sur des critères lexicaux (principalement la nature de l’in-terrogatif), syntaxiques (la catégorie syntaxique des groupes en relation syntaxi-que directe avec l’interrogatif) et sémantisyntaxi-ques (des catégories sémantisyntaxi-ques four-nies par WordNet). L’application d’un patron de catégorisation identiﬁe la catégo-rie de la réponse attendue à la question parmi quinze étiquettes qui correspon-d’autres catégories : si Adj est long ou short, les type sera <Quantitiy> ; si Adj est rich ou poor, le type sera <Money>.

1. Gestion de l’information

dent aux entités nommées. D’autre part, l’analyse de l’énoncé de la question per-met d’identiﬁer les mots qui la constituent, et plus particulièrement des expres-sions syntaxiques complexes, appelées termes de recherche¹¹. Ces termes et mots sont appelés à servir de mots-clefs lorsque le moteur effectue sa recherche.

Si le choix d’un moteur de recherche dans le cadre de cette application est basé sur la capacité de ce moteur à fournir une bonne réponse dans le plus grand bre de cas par rapport à ses concurrents ainsi qu’à présenter le plus grand nom-bre de bonnes réponses, il repose également sur son aptitude a prendre en compte divers phénomènes linguistiques, et notamment la synonymie et des techniques de racinisation (stemming). L’ensemble de l’information extraite de la requête est donc exploitée pour sélectionner des documents contenant les mêmes données et donc susceptibles de contenir la réponse.

Enfin, divers traitements sont appliqués aux documents proposés par le moteur de recherche afin de déterminer plus précisément la réponse à la question et pour classifier les propositions de réponse en fonction du degré de similitude de la pro-position avec l’énoncé de la question. Le premier traitement est effectué par l’ana-lyseur transformationnel Fastr (Jacquemin,1999) qui permet d’envisager un grand nombre de variations morphologiques (les mots de même racine que l’unité origi-nale) et sémantiques (les mots contenus dans un ensemble synonymique (synset) de WordNet 1.6 où apparaît l’unité originale) de la question. Notons ici qu’aucune désambiguïsation sémantique n’est appliquée et que tous les synsets sont considé-rés. À partir des familles morphologiques et sémantiques, des patrons sont consti-tués qui peuvent identifier l’expression originale de la question et ses variation présentes dans les textes. Il est dès lors possible d’affecter un poids à chaque docu-ment, qui est fonction inverse de son degré de variation par rapport à l’énoncé de la question. La présence de noms propres et celle des termes les plus longs sont deux facteurs qui augmentent le poids accordé à un document. Les vingt documents les plus pertinents sont classifiés et conservés.

Le deuxième traitement consiste à déceler les entités nommées (personnes, or-ganisation, lieux, valeurs) au sein des documents de la sélection. Pour ce faire,

QALC exploite divers dictionnaires d’entités nommées, des lexiques sémantiques

dont il adapte l’information et des règles dédiées à chaque type d’entité, utilisées lorsque les lexiques sont lacunaires. Au niveau numérique, ces règles distinguent les nombres cardinaux et les ordinaux, les expressions complexes « nombre-unité » (distances, valeurs monétaires…), les expressions de temps et les autres nombres. Lesorganisationssontdénotéesparlaprésenced’unitéslexicalesdéterminées(Ad-ministration, Association…) tandis que les noms de personnes correspondent à 11. Les termes sont des expressions lexico-syntaxiques non-lexicalisées qui constituent une unité sémantique selon les critères déﬁnis parJusteson et Katz(1995).

1.2. Extraire l’information d’un texte

des patrons lexicaux (Dr, President…) ou typographiques (majuscules…). L’identi-ﬁcation de ces entités correspond à la catégorisation des questions.

Enﬁn, l’appariement de la question avec la réponse se fait au niveau de la phrase, qui présente une réponse courte dans un contexte sufﬁsant pour juger de sa per-tinence. Chaque phrase de chaque document proposé reçoit un score d’apparie-ment en fonction de trois critères : la présence de mots simple de la question dans la phrase, la présence de termes ou d’une de leurs variantes dans la phrase, la pré-sence des entités nommées dans la phrase. Chaque type d’entité présente à la fois dans la question et dans la phrase reçoit un poids qui lui est propre et le poids de chaque phrase correspond à la combinaison des poids de chaque type, les mots simples valant deux fois les termes et les entités nommées. Toutefois, une propo-sition dans laquelle aucune entité ne correspond à la catégorie de la question est éliminée. La réponse la plus pertinente est celle dont le poids est le plus élevé.

Le système qui obtient les meilleurs résultats dans les différentes évaluations TREC des systèmes de question-réponse est aussi celui qui utilise les procédures d’analyse linguistique les plus élaborées. Il s’agit du système Falcon (Moldovan et al.,

2000;Harabagiu et al.,2000). Comme les autres systèmes de question-réponse, cette application procède en trois étapes : catégorisation de la question, application d’un moteur de recherche sur les documents, analyse des réponses proposées pour déterminer un ordre de pertinence.

D’abord, un analyseur probabiliste est chargé de repérer chaque dépendance entre les mots de la question. Le résultat de cette analyse permet de reformuler la question sous la forme d’un graphe relationnel qui relie les têtes de groupes. Ces dépendances sont anonymes, ce qui ne permet pas de juger de leur importance. Ce graphe, ou formulaire sémantique – car les unités lexicales sont reliées à la

taxi-nomie de WordNet – permet non seulement d’identiﬁer le type de la question (la

tête qui à la plus grande connexion syntaxique), mais aussi les mots-clefs qui sont utilisés par le moteur de recherche (les noms directement reliés au type ainsi que les adjectifs et les adverbes). Le type lui-même appartient à une des 27 catégories d’entités nommées, traduite dans un des 15 nœuds hiérarchiques supérieurs de

WordNet pour la recherche. Aucune désambiguïsation sémantique n’est effectuée.

Trois types d’alternances sont prévus pour pallier les variations de la réponse par rapport à la question. L’alternance peut être morphologique (flexions et déri-vations de mots-clefs), lexicale (utilisation de synonymes) ou sémantique (termes semblables sans être synonymes, hypéronymes).

À partir des éléments extraits de la question, une recherche est lancée grâce à un moteur de recherche booléen qui permet les alternances proposées. La recher-che est menée par paragraphe dans les documents. Les propositions du moteur de

1. Gestion de l’information

recherche sont en effet des paragraphes qui contiennent les entités les plus repré-sentatives de la question et une entité correspondant au type de la question.

Enfin, les propositions du moteur de recherche sont soumises à l’analyseur pro-babiliste et un formulaire sémantique est construit. L’unification du formulaire de la question avec celui de la réponse est tenté, d’abord au niveau lexical, puis avec les alternances possibles. Lorsqu’une unification des formulaires est possible, la méthodologie cherche à décider si l’entité qui correspond au type de la ques-tion répond bien à cette quesques-tion grâce à une représentaques-tion logique et une justi-fication logique basées sur la connaissance du monde apportée par WordNet, ainsi qu’une résolution de coréférence au niveau du paragraphe considérée comme rare dans cette fenêtre. Cette partie logique de la méthodologie est peu détaillée et peu convaincante, peut-être à cause de la nature commerciale du système, dont nom-bre de spécificités et de fonctionnements restent confidentiels.

1.3. Conclusion

Suite à un examen de différentes méthodologies appartenant aux disciplines les plus exigeantes vis-à-vis de la précision d’une information désirée, nous pouvons tirer certaines conclusions. Tout d’abord, dès lors qu’il s’agit de prendre connais-sance du contenu d’un texte, l’analyse linguistique semble inévitable, même si cer-taines approches n’y font qu’un appel très marginal. Les systèmes les plus récents s’essaient d’ailleurs à des analyses linguistiques de plus haut niveau, y intégrant la syntaxe et surtout la sémantique. Ensuite, le principe appliqué pour détecter une information donnée est systématiquement de donner à cette information le plus grand nombre de présentations différentes et de comparer ces présentations avec le contenu des textes. L’extraction d’information constitue pour cela des listes de patrons ou de tableaux, tandis que la discipline de question-réponse y préfère l’ex-pansion de requête. Dans les deux cas, des lexiques ou bases de connaissances sont fréquemment exploités.

Par ailleurs, cet examen nous a permis d’identiﬁer les besoins que le domaine peut avoir d’une structure sémantique informationnelle constituée à partir d’une base textuelle. En fonction des approches étudiées, il s’agit d’effectuer une identi-ﬁcation lexicale, morpho-lexicale, syntaxique voire sémantique de l’information. Il s’agit également de tenir compte d’une éventuelle structure textuelle (textes struc-turés ou semi-strucstruc-turés) et de pouvoir en rendre compte.

Dès lors, l’analyse que nous allons faire du texte devra prendre en compte ces attentes, tout en se montrant capable de fournir une base à un enrichissement considérable de l’information présente. Par ailleurs, la structure devra se révéler 36

1.3. Conclusion

accessible pour son interrogation. Le chapitre prochain va décrire les outils d’ana-lyse qui permettront d’identiﬁer l’information présente dans la base documentaire avant d’effectuer son enrichissement.

Dans le document Construction et interrogation de la structure informationnelle d'une base documentaire en français (Page 45-54)