Protocole MLUCE du GRETS et de l’équipe LaLIC

Evaluer les systèmes de résumé automatique

3.2. Protocole MLUCE du GRETS et de l’équipe LaLIC

L'ambition de ce protocole est de faire évaluer la qualité des résumés automatiques par des utilisateurs potentiels de ceux-ci. Ici, la qualité du résumé ne sera pas définie de manière absolue mais en fonction de l'utilisation que veut en faire le lecteur. Par exemple, si un lecteur cherche l'idée « prouvée » dans un texte, il aura besoin d'en comprendre l'enchaînement argumentatif ; en revanche, s'il souhaite seulement relever la cooccurrence de deux thèmes, cet enchaînement n'est plus indispensable. C'est pourquoi la mesure de « qualité » dépend de l'objectif espéré du résumé [RAT 61]. Il faut donc, au préalable, définir un (ou plusieurs) type(s) d'utilisation de ces sorties et pour chacun, une mesure adéquate de la "distance" entre le texte source et son résumé. Le protocole MLUCE cherche alors à mesurer comment un résumé automatique répond à ces deux objectifs. Deux applications des résumés automatiques de textes ont été retenues.

$SSOLFDWLRQ : le résumé est un outil permettant de décider de la lecture ou non d'un texte source. Pour la première application, les critères définis dans MLUCE visent à évaluer l’intérêt du résumé en tant qu’instrument de décision adéquat pour un lecteur : ils doivent permettre de juger si le résumé contient les informations nécessaires pour décider ou non de lire le texte source. Pour cela il faut :

• Pouvoir identifier le domaine ou la nature du texte source. Chaque lecteur remplit deux grilles (une pour le texte source, une pour son résumé) dans lesquelles figurent les domaines ou natures de textes : scientifique ou technique, politique, sociologique, polémique, général, prospectif, rétrospectif, état des lieux ou état de l’art.

• Vérifier la présence des idées essentielles. Chaque lecteur surligne dans le texte les idées qu’il considère comme essentielles, puis vérifie qu'elles sont présentes dans le résumé. Les résultats du surlignage des « idées essentielles » dans le texte source et de l'indication faite par le lecteur des "idées parasites" présentes dans le résumé, sont regroupés pour définir un indicateur de « proximité ». Cet indicateur est calculé de la manière suivante :

- un résumé est SURFKHGXWH[WH si plus de 75% des phrases le constituant sont parmi les idées essentielles (surlignées) et moins de 10% sont des idées parasites ;

- un résumé est DVVH]SURFKHGXWH[WH si entre 50% et 75% des phrases le constituant sont parmi les idées essentielles et moins de 10% sont des idées parasites ;

- un résumé est DVVH]pORLJQpGXWH[WH si entre 25% et 50% des phrases le constituant sont parmi les idées essentielles et moins de 10% sont des idées parasites ;

- résumé est pORLJQpGXWH[WHdans les autres cas.

• Eviter les idées parasites. Chaque lecteur indique les phrases du résumé Ri qui ne devraient pas figurer dans Ri et les phrases du résumé Ri coupées du contexte (idées essentielles tronquées).

$SSOLFDWLRQ : le résumé est un support de rédaction, d'une synthèse d'un document écrit. Deux critères complètent les deux premiers critères définis précédemment :

• repérer l’enchaînement des idées. Chaque lecteur remplit deux grilles (une pour le texte source, une pour son résumé) dans lesquelles figurent les enchaînements argumentatifs suivants : cause implique conséquence, conséquence induit cause, proposition de solution, du particulier vers le général, du général vers le particulier, juxtaposition de faits motivée, énumération de faits, confrontation. Puis il énonce l’idée « prouvée » dans chacun des documents lus.

• Évaluer si le résumé est clair, assez clair, peu clair, incompréhensible.

Soulignons que la mise en place de ces deux protocoles pour l’évaluation du système SERAPHIN sur un corpus de 27 textes, dont la taille variaient entre 3 et 12 pages, a nécessité huit mois de travail et a mobilisé 6 jurés.

3URWRFROHGHOD'$53$

Le protocole se décompose en deux tâches :

• Une tâche de catégorisation dont la fonction est de vérifier que le résumé peut être utilisé comme instrument de routage automatique vers une catégorie de lecteurs. Les jurés doivent évaluer si, à la lecture du résumé, ils peuvent déterminer les thèmes abordés dans le texte source.

• Une tâche de recherche d’informations ; à partir d’une requête utilisateur sur un thème donné, parmi cinq possibles, le système doit produire un résumé du texte dont la pertinence est évaluée.

Pour ces deux tâches, des critères de mesure ont été définis : un critère quantitatif qui mesure le temps de décision du lecteur pour effectuer la catégorisation ou pour décider de la pertinence et un critère qualitatif qui permet aux jurés d’évaluer le contenu du résumé comparativement au texte source. Ce protocole a été testé sur des documents issus des tests TREC (Text Retrieval Conference) [HAR 96] avec des résumés dont la taille était fixée à 10% du texte source.

&RQFOXVLRQ

Comme le montrent en partie les protocoles mis en place pour évaluer les systèmes de résumé, les recherches actuelles s’éloignent de la volonté de produire des résumés standards. Elles reposent plutôt sur une meilleure prise en compte des besoins de l’utilisateur, rompant ainsi avec les règles en usage dans les sciences de l’information qui ont cherché à imposer le résumé standard ou résumé-auteur. Ce type de résumé, comme son nom l’indique, considère le texte du point de vue de son auteur et par conséquent cherche à présenter au lecteur les thèmes généraux abordés dans le texte. A l’extrême, et il en est de fait souvent ainsi, le résumé-auteur d’un article scientifique est d’une telle généralité qu’il n’apporte aucune information sur le contenu réel du texte. En fait, en cherchant à répondre à tous les utilisateurs potentiels, ce résumé ne satisfait aucun utilisateur. Au contraire, un résumé construit comme une réponse spécifique aux besoins d’un lecteur se focalisera sur des thèmes ou sur des segments textuels qui contiennent les informations recherchées.

La problématique du résumé s’est ainsi déplacée depuis quelques années vers la recherche d’une adéquation entre l’expression d’une requête d’un lecteur et l’identification d’informations dans un texte. Une information n’est pas importante en soi, mais uniquement relativement à l’attente d’un lecteur ; c’est ce que nous appelons le ILOWUDJH Le problème reste néanmoins difficile puisque d’une part, il faut fournir au lecteur des outils plus puissants que ceux généralement utilisés en informatique documentaire (utilisation d’opérateurs booléens et de descripteurs) et d’autre part, le système doit être capable d’identifier certaines informations sémantiques contenues dans le texte.

Un autre axe de recherche consiste à ne plus considérer le résumé comme indépendant du texte dont il est issu. L’informatique et plus généralement les outils du multimédia fournissent en effet des fonctionnalités qui permettent d’offrir au lecteur les moyens de naviguer entre le résumé et le texte. Plutôt que de chercher à produire un résumé autonome en abordant des problèmes comme la résolution des anaphores, le repérage des liens de cohésion et de cohérence, l’objectif se déplace vers la production d’un texte réduit aux informations jugées saillantes pour le lecteur, et vers la construction de liens qui permettent au lecteur, au vu des informations partielles qui lui sont présentées, de fouiller, à la demande, le texte source.

Ce sont ces deux axes de recherche, d’une part le filtrage, et le développement d’outils inter-actifs de fouille de textes, qui nous ont amené à concevoir la plate-forme Filtext.

Dans le document FILTRAGE SEMANTIQUE DE TEXTES<br />PROBLEMES, CONCEPTION ET REALISATION <br />D'UNE PLATE-FORME INFORMATIQUE (Page 61-64)