HAL Id: dumas-01588307
https://dumas.ccsd.cnrs.fr/dumas-01588307
Submitted on 13 Dec 2017
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Évaluation de systèmes de résumé automatique dans le
paradigme usager
Verona Boian
To cite this version:
Verona Boian. Évaluation de systèmes de résumé automatique dans le paradigme usager. Sciences de l’information et de la communication. 2006. �dumas-01588307�
Université Charles-de-Gaulle
-Lille 3
Master 2 Information Communication Documentation
Spécialité Recherche
enSciences de l'Information
etde la
Communication
Evaluation
de
systèmes
de
résumé automatique
dans le
paradigme
usager
Verona BOIAN
Université Charles-de-Gaulle
-Lille 3
Master 2 Information Communication Documentation
Spécialité
Recherche
enSciences
de
l'Information
etde la
Communication
r
Evaluation de
systèmes
de
résumé automatique
dans
le
paradigme
usager
Verona BOIAN
Remerciements
Je tiens à remercier mon directeur de recherche, Monsieur Stéphane Chaudiron, d'avoir suivi mon travail. Ses conseils ont su dissiper mes doutes et ses commentaires et
suggestions m'ont permis d'avancer dans la réalisation demonmémoire.
Je remercie également Monsieur Jean-Michel Rauzier, rédacteur en chef de la revue
Documentaliste -Sciences de l'information pouravoirgénéreusement mis à madisposition le
corpusnécessaire àmarecherche.
Sur le plan personnel, une pensée particulière pour mes parents, qui m'ont toujours
soutenue, moralement etfinancièrement, dans mesprojets etqui ontcrûenmoi ! J'espèreque le retour sur l'investissement ne tardera pas. Je pense aussi à mon frère et le reste de ma famille,qui ontdûpayerparl'éloignement le prix demesambitions professionnelles.
Enfin,jeremercie àtousmesamis quim'ont encouragéetoutaulong demontravail et
qui ont été toujours disponibles dans mes momentsdifficiles : Ana-Maria, Christelle, Corina,
Daliana, Guillaume, Laurent, Meda, Simona, TinaetYoussef. Merci de m'avoir aidée, de loin oudeprès, sciemmentou non, àmenerà bon termecetravail !
laoïc ues maucics
Introduction 1
Chapitre 1
:Le
résumé
-activité complexe
et
produit variable
2
1.L'activité résumante- éléments dedéfinition 2
2. Typesderésumé 4
3.
Étapes
dans la rédaction 74.Évolutiondela notion derésumé 9
5.Besoin des SRA 10
Chapitre
2
:Compréhension des différentes approches des SRA
12
1. Méthodes fondées surlacompréhension 12
2.Méthodes parextraction 14 2.1. Sélectiond'imités textuellesparcalculdescore 15
2.2. Sélection d'unités textuellesbaséesur uncalcul de similarité 17
2.3. Sélection d'unités textuellesbaséesurlerepéraged'expressionsprototypiques 18
2.4.Sélectionparconstructiond'unestructurepragmatique 19 3. Méthodes par filtrage sémantique 21
3.1.Méthode d'explorationcontextuelle 21
3.2. Séraphin 24
3.3. LeprojetFilTextetla plate-formeContextO 24 4. Méthodes parapprentissage 25
Chapitre 3
:Évaluation
-état de
l'art
27
1. L'évaluation : conceptetenjeux 27
2.Types d'évaluation 29
2.1. Distinctionsterminologiques
29
2.2. Évaluationparcalculvsévaluationparjury
32
2.3.Paradigme systèmevsparadigme usager
35
3. Campagnesdéjà réalisées
38
3.1. TREC 38
3.2. DUC 42
3.3. SUMMAC(Tipster) 44 3.4.Lesprotocoles du système Séraphin (MLUCE+FAN)
46
3.5. Technolangue
49
3.6. Autre campagnes : CLEFetAmaryllis
51
Chapitre 4
:Éléments
de mise
enplace
d'une expérimentation
52
1.Définition destâches 52
2. Constitution du corpus
53
3. Proposition critèresdans un paradigmeusager
56
4.Méthodes derecueil dedonnées 57
Conclusion 59
Bibliographie
Introduction
L'information, disponible de plus enplus facilement et en grande quantité, demande à être triée et appréhendée de plus en plus rapidement. En parallèle avec les méthodes classiques, tellesquel'index, la table des matières, etc., de nouvelles modalités d'accès rapide
à l'information se sont développées. Parmi ces modalités, le résumé automatique. Les
nombreuses recherches dans ce domaine ont abouti à des produits commerciaux ou de laboratoire. Face à cette offre technologique importante, l'évaluation de tels systèmes est devenue nécessaire, ayant des rôles multiples : établir un état de l'art, encourager etmesurer leprogrès dansce domaine, justifieretimposer certaines approches plutôtqued'autres. Si des
campagnes d'évaluation importantes ont déjà eu lieu, elles ont très peu pris en compte le paramètre utilisateur. Dans ce contexte, l'objectif denotre recherche aété d'arriver àmontrer
les difficultés théoriques et méthodologiques rencontrées lors de la mise en place d'un
protocole d'évaluation dans le paradigmeusager.
Encequi concerne la méthodologie adoptée, dansunpremiertempsnous avons étudié
l'activité résumante dans une acception classique, documentaire, pour arriver à observer des
évolutionsquise traduisent dans la priseencomptede l'usager, denouveaux usages (lecture à
l'écran) et des possibilités d'interaction et de navigation offertes par les technologies en continuel développement.
Nous avons poursuivi notre démarche avec l'analyse des méthodes utilisées dans la
production automatique de résumé. Cette partie ne se veutpas exhaustive; son intérêt est de nous avoirpermis de comprendre la complexité de ces approches et de la mise enplace d'un protocole d'évaluation.
Nous nous sommes intéressé à l'état de l'art dans l'évaluation des systèmes de résumé
automatique, quitrouve sesbases dans l'évaluation des systèmes de recherche d'informations. Les campagnes d'évaluation déjà réalisées ontproposé des protocoles enpartie réutilisables et réapplicables à d'autres technologies.
Al'issue decetteanalyse, nous avons concluquel'évaluationdes systèmes de résumé automatique, à part ces aspects généralement applicables, présente des spécificités qui n'ont
pas été suffisamment développées et exploitées, surtout dans un paradigme usager. Par
conséquent, il nous a paru impératif de proposer un cadre expérimental, en menant une réflexionsurles difficultésthéoriquesetméthodologiques d'une telle entreprise.
Chapitre 1
Le résumé - activité
complexe
et
produit
variable
1. L'activité résumante-éléments de définition
L'explosion du volume d'information sous forme de documents textuels, surtout avec l'essor d'Internet, est un phénomène d'actualité ; l'usager est submergé par cette masse en
continuelleaugmentation, la gestion endevient de plus enplusdifficile. Par conséquent, dans
unetactique de réduction du volume d'informations présentées, desmoyens de représentation du contenu et d'accès rapide à l'information sont devenus indispensables.
À
côté de la table dematièreset l'index, le résuméenestun.L'activité résumante des humains a été encore fort peu étudiée et le concept de
«résumé»ne fait pas encorel'objet d'une caractérisation très rigoureuse.
Dans [Fayol,1992], l'auteur définit le résumé comme étant «un cas particulier de
paraphrase sélective» (p. 163), il met en évidence la complexité de cette activité et présente
des recherchesqui exposentl'existence de difficultés bien précises rencontrées parles adultes
commepar les enfantslors de l'activité de résumé.
Le Roux ([LeRoux,1992]) oppose le résumer, à savoir la démarche, au résumé, qui
est l'un des produits possiblement issus de celle-ci, d'autres pouvant être également obtenus
en fonction de paramètres de différents types (nature du texte d'entrée, contraintes sur la longueur ou la forme du texte-source, objectifs de la démarche, etc.). Elle définit l'activité
résumante comme une démarche intellectuelle complexe qui relève de deux types de démarches de modification d'un texte1 : la hiérarchisation et la sélection des unités d'information du texte d'une part (axe de transformation), la recherche de la plus grande densité informationnelle possible, d'autre part (axe d'identité). Autrement dit, l'activité résumante consiste à sélectionner l'information enfaisant appel àuneprocédure de réduction des segments detexte retenuscommeessentiels, etensuite à paraphraser.
1
Lesdeux démarches de modificationdutexte sontprésentéescommeles deuxaxesd'unschémapermettantde
situer tout texte résultant d'un autre texte après des opérations de modification textuelle; l'axe vertical x est
celui de la relation d'identité stricte entre T (texte source)etT' (texte cible)etl'axe horizontalyestcelui de la
transformation représente la succession continue de textes qui pourraient résulter après une
Elle mentionne aussi un autre élément à prendre en compte dans la définition d'un résumé. Il s'agit d'un des rôles du résumé, qui est celui de constituerun lien important entre les producteurs de l'information et ses utilisateurs : le résumé contientune information dite «secondaire», ce qui l'oppose au texte source qui contient l'information «primaire». Le résumé est donc un document
secondaire1,
défini comme « document présentant desinformations résumées (analytiques) etparatextuelles (synthétiques) de documents primaires» dans [Cacaly,2004],p. 66.
[Grize,1992] définit l'activité résumante comme une activité de communication qui,
donc, par définition, résulte d'une intention précise et qui est destinée àun interlocuteurque l'on se représente plus ou moins exactement. Dans la production d'un résumé, trois paramètres doivent être pris enconsidération : le destinateur, le destinataireetla situation. Par conséquent, selon qui l'on est, selon à qui l'on s'adresse et à quoi le résumé est censé servir, on relève certains faits et on en passe d'autres sous silence. Celui qui résume doit donc se
faireuneidée de ceuxàqui il s'adresseetde cepourquoi il résume.
Résumer un texte est une démarche argumentative, c'est-à-dire qui vise à intervenir
sur un destinataire. Grize postule ainsi qu'un résumé est élaboré pour aider le lecteur à répondre à une question qu'il est censé se poser. En fonctions de ses besoins spécifiques, le lecteurpeut avoir des interrogations différentes :
Dequoi s'agit-il ? Lerésumé doit situer letextedans le champ du savoir.
Vais-je lire ceci ? Le résumé varie alors en fonction du type de texte. S'il s'agit
d'un roman, le résumé doit faire appel à la sensibilité du lecteur potentiel; si le texte est de
naturescientifique, il convient de la situerausein d'une problématiquereconnue, etc.
Comment vais-je me souvenir de ce qui est dit ? Le résumé est une sorte de mémento.
Comment mettre en relation une partie avec le tout? Le résumé doit permettre d'avoirunevue «globale »des diverses parties du document.
Comment cela est-ilpossibleou cela est-il vrai ? Le résumé doit alors être capable de rendre compted'une démarche conduisant àune conclusion, de présenter les arguments en faveur de la thèse.
Ce type de questions sont très importantes, car les résumés devraient pouvoir y
répondre : unbon résuméestcelui qui s'adapteauxbesoins informationnels de l'utilisateur.
1
Labibliographie, lecatalogue d'une bibliothèque, l'index, les banques de données bibliographiques constituent
Le besoin informationnel est défini dans [Le Coadic,1998] comme «l'état de connaissance dans lequel [le chercheur] se trouve lorsqu'il est confronté à l'exigence d'un information qui lui manque, d'une information qui lui est nécessaire pour poursuivre un travail de recherche. Il naît donc d'une impulsion d'ordre cognitif. » (p. 12). Résultat de l'existence d'une anomalie de connaissance chez une personne, le besoin d'information ne
peut pas être séparé du contexte, de la situation, de l'environnement qui l'a créé et de
l'individu qui l'aperçu ; il estdonc sociologiquement etpsychologiquement déterminé. Il est
judicieux de faire la différence entrel'étude des besoins d'information etcelle des usages, car les usagers nesontpas toujours conscients de leurs besoins d'informationou ils nesaventpas lesformuler1.
Elément facultatif de l'analyse documentaire (à côté de la référence bibliographique et
l'index, qui, eux, sont obligatoires), le résumé apporte au lecteur des informations supplémentaires concernant le contenu d'un document. La rédaction du résumé dépend surtout de facteurs comme : les besoins informationnels des utilisateurs, le type de produits
issus de l'analyse (l'usage qu'on fait du résumé) et l'auteur du résumé (surtout qu'il n'existe
pasde véritables normesde rédaction d'un résumépar un documentaliste).
2.Types derésumé
Dans la norme NF Z 44-004, l'AFNOR fait des recommandations concernant la
préparation etla présentation des résumés, définis de la manière suivante :
« Il existe deuxtypes de résumé,le résumédescriptifetle résumé critique.
Le résumé descriptif est un texte concis reflétant fidèlement, sans interprétation ni
critique, le contenu du document. Il a pour but d'aider le lecteur à cerner la pertinence du
document vis-à-vis de l'information recherchée. Parmi les résumésdescriptifs, ondistingue : le résumé informatif qui est une représentation abrégée du document,
renseignantsurles informations quantitatives ouqualitatives apportées parl'auteur;
le résumé indicatifqui se contente de signaler le ou les thèmes d'études. Il
concerne les documents qui, par leur nature ou leur ampleur, ne se prêtent pas à l'établissement d'un résumé informatif.
Le résumé critique est un compte rendu assorti d'une critique originale d'un
document. Il n'estjamais élaboréparl'auteur etn'estdoncpastraité ici. »
1
La différence entre besoin et demande d'information est expliquée dans [Le C0ADIC,1998], ainsi que les différentes étapes qui conduisent à la satisfaction d'un besoin d'information: identification, formulation,
En pratique, dans l'analyse documentaire on distingue principalement deux types de résumé documentaire ([Guinchat,1996], [Waller,1999]) :
- Résumé indicatifou
signalétique
Il s'agit de signaler ou d'indiquer d'une manière brève les thèmes d'étude. Ce résumé donne une indication sur le type d'information qu'on peut espérer trouver dans le document
maisil nedonne pas l'information elle-même.
L'objectif de ce type de résumé est de faire savoir à l'usager s'il doit lire le texte
intégralement, s'ilne doit enlire qu'une partieou si le document signaléne l'intéressepasdu
tout. Lerésumé indicatif n'a donc pas pourvocation de dispenser de la lecture des documents
pertinents. Il estunoutil de sélection, de tri.
- Résumé informatif
ou analytique
Ce type de résumé sert véritablement à informer l'utilisateur sur le contenu du document original analysé et peut remplacer la lecture in extenso de celui-ci. La
problématique du résumé informatif est double. Il s'agit de comprendre ce qui n'est pas information dans un texte et de connaître le besoin de l'utilisateur final. Le documentaliste lit letexte àsaplace. Il doit donc se situer en fonction du savoir de l'usager final (c'est souvent
unspécialiste)etdesonbesoin.
Cette distinction est souvent étendue à un troisième type de résumé, le résumé
critique/évaluatif. Il évalue laproblématique du document source, en exprimant l'opinion du résumeurconcernantlaqualité du travailde l'auteur.
La relation établie entre les trois types de résumés n'est pas exclusive. Le résumé informatifpeut êtrevu commeremplissant des fonctions indicatives etinformatives àla fois ;
par conséquent, il peutêtre considéré comme une sous-classe du résuméindicatif. De même,
le résumé critique peut être indicatif (« Voici un article excellent ! »), ou informatif. La
relationentreles troisconcepts peutêtreillustréeparle schéma ci-dessous.
Il existe d'autres formes de résumé (méthodes de représenter le contenu d'un document en l'abrégeant) : résumé scolaire, résumé d'auteur, résumé sélectif (sélectionne
l'informationenfonction d'unecatégorie d'utilisateurs), etc.
Le résumé scolaire, bien différent des pratiques professionnelles apparentées est
présenté en détail dans [Charolles,1992], Il apparaît comme une sorte de pratique
désincarnée mettant essentiellement enjeu des opérations de contraction et de reformulation (de surcroît très normées) en dehors de toute fonctionnalité réelle autre que celle, bien
entendu, d'évaluer les capacités de compréhension et de production écrite des élèves.
Charolles se sert decetype de résumé, quoique à caractère spéculatifet artificiel,pourvoir en quoi justement les textes sont porteurs dans leur « forme» d'indices susceptibles de guider le sujet dans sa tâche de résumé (il part du principe que les élèves ne peuvent pas, comme les
professionnels de l'information, être des experts des innombrables sujets abordés dans les
documents qu'on leur demande de résumer et que le texte source est, donc, leur matière essentielle dans laproduction du résumé).
La littérature
anglo-saxonne1
impose une distinction basée sur la relation entre le résumé et le texte source : les résumés se divisent en extracts et abstracts2. L'extract estunrésumé composé exclusivement de matériel copié du texte source (input). Ainsi, un extract
typique àun taux de condensation de 25% contiendra25% du matériel du document source, qu'il s'agisse de 25% des mots, ou de 25% des phrases ou de 25% des paragraphes du
document. Comme généralement il s'agit de phrases, celles-ci peuvent se suivre (s'il s'agit,
parexemple, des premières 25% du document) ounon. Cependant, iln'estpasobligatoire que Yextract contienne des phrases, il peut se présenter sous la forme d'une liste de termes
(termes techniques, noms propres, groupes nominaux, phrases tronquées, etc.). En revanche,
Yabstract estunrésumé dontaumoinsunepartieducontenun'appartientpas autextesource.
Un abstract typique contient un certain degré de paraphrase du contenu du texte source. En
général, les abstracts offrent la possibilité d'un plus grand degré de condensation : unabstract
court peutoffrir plus d'information qu'un extract plus long. Comme dans le cas des extracts,
les abstracts peuvent ne pas contenir que des phrases complètes, quoique, en général, ils le
font.
En fonction du type d'utilisateur pour lequel est construit un résumé, la distinction se fait entre «résumé standard/d'ensemble » (generic) et «résumé focalisé/ciblé»
(user-1
Parexemple [MANl,2001a],p. 6.
2
focused/topic-focused/query-focused). Le premier s'adresse àunpublic assez large etne tient
pas comptedes besoins des utilisateurs, alors que ledeuxième estconstruitpour unutilisateur
précis (ou groupe d'utilisateurs), donc il prend en compte les intérêts de celui-ci. Cette distinctionne nouspermetcependantpas deconclure à la supériorité du résumé focalisésur le résumé d'ensemble, car l'utilisateur peut parfaitement choisir de faire sienne la perspective adoptéepartel résumé d'ensemble.
Une autre dimension considérée dans la classification des résumés est donnée par le
degré de généralité du résumé : les résumés qui traitenttous les sujetsd'un documentavec le
même poids sont des résumés génériques, tandis qu'un résumé orientépar une requête se
concentreparticulièrement surune facette spécifique du document.
En fonction du nombre de documents sources traités simultanément, le résumé peut être mono-document (s'il traite un seul document source) ou multi-documents (s'il en traite
plusieurs).
Enfonction des languesdans lesquelles sontproduits le documentsourceetle résumé,
nous considérons que celui-ci est monolingue (si le résumé est dans lamême langue que le documentsource) ouinterlingue (s'il estdansunelangue différente).
Dans une perspective plus large et plus actuelle, une autre distinction se fait en
fonction du type de support du résuméet/ou du document source : il peut s'agir de textes, documents audio, vidéo, tableaux, images ou diagrammes, ou documents multimédia
(contenantdifférentstypesdemédia).
3.
Étapes
dans la rédactionPinto Molina propose, dans [Pinto Molina,1995], un modèle de production de résumé basé sur
quatre1
étapes-clé. Le modèle estrepris dans [Waller,1999], qui impose leséquivalents français :
-compréhension (reading-compréhension),
-sélection (sélection),
-construction2 (interprétation),
-rédaction3 (synthesis/analytical description).
1
Outrois,carsélectionetinterprétationcomposeraient analysis, niveau leplus difficileetcontroversédetoutle
processusdeproduction derésumé,parcequ'il n'yapasde méthodologie rigoureuseetconséquente.
2
[Waller,1999] trouve le terme interprétation gênant dans ce contexte, pouvant renvoyer au manque
d'objectivité de la part de l'analyste et propose de prendre to interpret plutôt au sens de traduire, que à'interpréter.
3
[Waller,1999]trouveletermesynthèse pertinent, caril s'agitd'utiliserles éléments sélectionnés dans letexte
pour construireun ensemble cohérent et lisible. Toutefois, il déconseille sonemploi afin d'éviter la confusion qui pourraitsefaireentrela synthèse documentaire, effectuéeàpartirde plusieurs documents surle mêmesujet, etlarédaction d'unrésumédocumentaire, quis'appliqueàuntexteunique.
i. La première phase consiste à observer et comprendre un texte avec un objectif
documentaire : à partir d'un élément concret (le texte), on va dans l'abstrait (sa signification dans un cadre donné), pour retrouver le concret (l'écriture d'un résumé). C'est ce que Pinto
Molinaappelle le cyclicaîprocess. Absolument essentielle, la compréhension dutexte est une activité basique et complexe, terrain commun de plusieurs disciplines scientifiques
(linguistique, logique, psychologie cognitive). Considérée comme une première analyse, ou
pré-analyse, la compréhension est un processus interactif entre le texte et le résumeur,
fortement conditionné par les connaissances de base du lecteur. A ce niveau, des connaissances scientifiques et documentaires de base sont nécessaires. A la lecture s'ensuit la
compréhension, ou l'interprétation du sens du texte. La première interprétation, générale et neutre, est le point de départ pour tout processus analytique. La lecture est toujours orientée vers sonutilisation ultérieure par un nombre x de personnes, connues ou non. Grâce à cette phase de recherche de la structure profonde dutexte et du vocabulaire pertinent, la sélection
peutdébuter.
ii. La sélection est un processus négatif: elle consiste à éliminer des unités de sens (phrases oumots) considérées non-pertinentes pour le résumé. En fonction de leur pertinence
pourle résumé, les unitésdesenspeuventêtre groupées en : répétitions, unitéspeupertinentes
etunitésnon-pertinentes. Effectuée à l'aide de stratégiescomme la contraction, la réduction et la condensation, la sélection a pour but de retenir uniquement l'information pertinente. A ce
niveau, la notion de pertinence devient extrêmement importante. Cette phase de
sélection-élimination réduit l'écrit àsesélémentsjugés pertinents enregard dutexte lui-mêmeetde son objectif documentaire. Ces éléments doivent alors êtrereconstruits.
iii. Une fois la sélection effectuée, le résumeur doit procéder à une deuxième
interprétation, orientée et sélective cette fois-ci, qui dépend fondamentalement des objectifs
documentaires. C'est l'étape la plus subjective de tout le processus, parce que, à part
l'objectivitéducontenutextuel, certain facteurs extratextuels interviennent : les connaissances de base du résumeur, le contexte, dans le sens le plus large du mot, et les objectifs
documentaires du résumé. En fait, la construction d'un résumé repose beaucoup sur la recherche du plan, sur la structuration interne du texte lui-même. Le repérage d'ensembles
cohérents permetdehiérarchiser, après les avoir sélectionnés, les items exposés. Cetravail de mise enplace des ensembles facilite la rédaction.
iv. C'est l'étape la plus délicate, caril est pratiquement impossible de mettreenplace des techniques de synthèse qui soient valides indépendamment du type de document et du résumeur. Elle pourraitêtre considérée commela vraie phase de production de résumé. Toute
synthèse doit être cohérente, équilibrée et elle doit garder la structure schématique (rhétorique) du document. A ce niveau, le résumeur doit prendre en considération le niveau
d'analyse pré-établi, enfonction dutypede résumédésiré.
4. Évolution dela notion de résumé
La notion de résumé standard, idéal est devenue inappropriée, car il n'existe pas de critèreprécis pour déterminer ce qui sera un bon résumé. Au contraire, sous la pression des
besoins des utilisateurs, onparle aujourd'hui de plus enplus de résumé àla demande, du sur
mesure : l'information n'est pas importante en soi, mais seulement dans la mesure dans
laquelle ellecorrespond auxbesoins d'un utilisateur. La pertinence, notion centrale enscience de l'information, est définie comme « adéquation entre le résultat d'une recherche d'information et l'énoncé de la question posée» ([Cacaly,2004], p. 181). La pertinence se définit dans la rencontre d'un texte et d'un lecteur ; elle n'est pas une propriété inhérente du
document, ycompris dans le contexte de tel profil ou de telle requête : elle est construite par
unutilisateur. Ce qui estjugé pertinentpour unutilisateurnel'estpasnécessairementpourun autre. Une pertinence absolue n'existe pas ou, du moins, elle est invérifiable car elle
impliquerait que l'usager sache parfaitement ce qu'il cherche au moment où il pose sa
questionet qu'il connaissepar avancela totalité des informations qui répondent àsaquestion. De la même manière, dans [Pincemin,2001], l'auteur démontre qu'il n'y a pas de résumé neutre: «le repérage des éléments significatifs dans untexte, comme l'évaluation de
leur importance, suppose un point de vue, même implicite. On peut néanmoins distinguer deux niveaux de subjectivité. » (p. 155). Elle fait la distinction entre le résumé « du côté du
texte» et le résumé «côté utilisateur», termes qu'elle propose comme équivalents de
«résumé d'ensemble» et «résumé focalisé », que nous avons déjà introduits et expliqués
dans notre travail. Pour le premier niveau de subjectivité (résumé «du côté du texte»), le résumé vise à rendre compte de l'ensemble du texte, à en donner une image représentative, même si c'est nécessairement avec unangle de vueet uneperspective particulière. Le second
(résumé « côté utilisateur ») introduit explicitement lecontexte de consultation dutexte :il se focalisesurles éléments dutexte enrapport avec uneautre entité circonstancielle (le profil de
l'utilisateur, larequêtetraduisantsonbesoin d'information, etc.).
Grâce aux avancées technologiques dans le domaine des systèmes de résumé
automatique, le résumé est devenu du
texte1,
et non plus un texte. Les fonctionnalités de1
Lerésumépeutprendre laforme d'une image (carte, schéma, etc.), maiscettediscussionsortducadre denotre recherche.
navigation offertes aujourd'hui par l'informatique font que le résumé est vu comme
dépendant du texte dont il est issu : il s'agit de l'évolution du résumé rédigé vers le résumé
par extraction (sélection/élimination). Si le premier est, lui, légitimement un texte, qui
entretientun rapport de réécriture vis-à-vis du texte source, le deuxième est « un artéfact, un
curieux sous-produit de forme linguistique ; pour garder une intelligibilité textuelle, il faut
préserverson ancrage autextesource »([Pincemin,2001],p. 154).
Nous retrouvons la même idée de présentation simultanée du résumé produit et du document source, dans lebut de résoudre leproblème éventuel de manque decontexte d'une manière immédiate, dans [Crispino,2004]. L'analyse des auteurs se base sur une approche
dynamique : selon eux, lerésumé automatiqueneconstituepas untexteunique fixe mais « un
objet multidimensionnel composé d'informations jugées saillantes, fonction d'un profil de filtrage, de liens qui permettent une synchronisation automatique avec le texte source et
d'opérations devisualisationetnavigation textuelles. » (p. 117).
Il convient aussi des'interrogersurles conséquences d'une autreévolution technique :
le faitqueletexte soitmaintenant numériséetqu'il soit présentéau lecteursur un écran. Dans
[Minel,2004b], l'auteur considère cette évolution comme une nouvelle mutation qui place le
lecteur devant de nouvelles possibilités qui restent à exploiter. Les lecteurs n'ont plus la même démarche envers letexte, ni lamême définitiondecetobjet. C'estjustement cetype de lecture à l'écran qui va compenser certains défauts des systèmes de résumé automatique
(SRA) par extraction (présentés dans la section 2.2), notamment le manque de cohésion et
cohérence textuelles, par des fonctionnalités comme le surlignage au fil du texte ou l'utilisation de liens hypertextes. Ainsi, plutôt que de construire des fragments textuels figés, les recherches dans le domaine du résumé automatique s'orientent de plus en plus vers l'élaboration delogiciels qui guidentousuggèrent desparcours de lecture.
5. Besoin des SRA
La rédaction d'un résumé est une activité complexe qui est communément du ressort des documentalistes, mais qui, pour des raisons économiques (rédiger un résumé prend du
temps et, donc, coûte cher), est de moins en moins pratiquée.
À
titre d'exemple, pour une page source d'une dizaine de pages un résumeur professionnel, lorsqu'il est spécialiste du domaine, produit un résumé en une dizaine de minutes, mais il lui faut presque une heurelorsque le domaine traité nerelèvepas desa compétence. Cette productivitéresteinsuffisante,
d'autant plus qu'elle est très coûteuse. C'est pourquoi, la nécessité de réaliser
Ledomaine du résumé automatiqueestune application interdisciplinaire, setrouvantà l'intersection du traitement automatique du langage, documentation, statistiques, psychologie
cognitive, intelligence artificielleetsciencesde l'information.
L'objectif du résumé automatique est de prendre une source d'information, d'en extraire du contenu et de présenter le contenu le plus important pour l'utilisateur dans une formecondenséeetd'une manière sensible auxbesoins de l'utilisateurou del'application.
Chapitre 2
Compréhension des différentes approches des SRA
Cette partie du mémoire se veut une présentation des méthodes qui ont permis
d'automatiser l'activité résumanteetnonpas une analyse exhaustive des systèmes développés dans le cadre de ces approches. Le but recherché est de présenter les principales directions prises dans le domaine de la conception de tels systèmes et non pas de détailler tous les aspects techniques de ce systèmes ; par conséquent, nous ne nous intéresserons pas aux formules représentant les différents algorithmes de calcul (repérage, sélection et extraction) des unités textuelles contenant les informations jugées pertinentes (en fonction de certains critères qui dépendent desdifférentesapproches).
Les SRA s'appuient sur deux méthodes d'élaboration de résumé : la méthode fondée sur la compréhension dutexte à résumer et la méthode par extraction. Il existe un troisième
type de méthode, par apprentissage, qui, bien que sous-classe de la méthode par extraction,
est considérée comme une catégorie à part. A ces trois catégories s'ajoute une quatrième, la méthode par filtrage sémantique, qui dépasse la problématique du résumé automatique, mais qui seprésentecomme une solutionparrapportauxméthodes précédentes.
1. Méthodes fondées surla compréhension
La figure 2 représente les étapes du processus d'élaboration d'un résumé du point de vuedecetteméthode.
Cette approche considère l'activité résumante comme une activité de compréhension, celle-ci étant assimilée à une construction de représentations. La représentation du texte à résumer est le résultat d'une analyse et la forme de cette représentation varie selon les
approches. Ilpeuts'agir d'une représentation causale des événements dutexteoud'un graphe cohérent constitué par uneséquence ordonnée depropositions dutypeprédicat-argument(s).
Une fois la représentation du texte construite, un deuxième module procède à sa réduction au moyen d'une série d'opérations. Selon les modèles, ces opérations de condensation se fondent surdeshypothèses différentes concernantl'importance des parties de
la représentation retenues pour le résumé final. Parmi ces opérations, on compte les
macrorègles1,
quisont :-élimination : une proposition ou une information qui n'est pas nécessaire à l'interprétation des autres propositionsestéliminée ;
-généralisation : uneproposition estremplacéepar uneproposition plus générale;
-condensation : une séquence de propositions est remplacée par une proposition plus
englobante.
L'étape suivante consiste à engendrer un texte àpartir de la représentation résultante.
Cetexte estconsidérécommele résumé du texteinitial.
J-L. Minel ([Minel,2003]) met en évidence les trois problèmes majeurs qui sont à
l'origine des limites decette approche :
-l'approche par compréhension reste très liée à un domaine particulier nécessitant donc desreprésentations et des connaissances spécifiques àcedomaine ;
-le deuxième problème est plus général et concerne le traitement automatique du
langage naturel ; construire une représentation sémantique d'un texte est un travail qui nécessite de développer des modèles conceptuels, des ressources linguistiques et des outils
informatiques qui, même si certains d'entre eux sont partiellement disponibles dans des
laboratoires derecherche, n'ontpas atteint la maturiténécessaire àune industrialisation ;
-enfin, la représentation sémantique qu'il convient de construire doit refléter les
relations importantes et celles qui le sontmoins, entre les différentes parties d'un texte. Dans
cette approche, la notion d'importance estconsidérée du point devuede l'auteur, alors qu'elle
devrait être considérée dupoint devuedu lecteur du résumé.
1
2. Méthodes parextraction
Commeréponse auxlimites des systèmes fondés surles méthodespar compréhension, des systèmes fondés sur des méthodes par extraction (« systèmes à base de connaissances
linguistiques ») ont été développés, en évitant tout processus de construction de
représentationsetdegénération detexte. Cesméthodes connaissent ungrand intérêtparmi les chercheurs en résumé automatique pourla simple et raisonnable constatation qu'un résumeur humain ne peut produire unrésumé consistant qu'en faisant un effort cognitif (fait propre à l'homme) qu'un ordinateur ne saurait accomplir d'une manière parfaite. En effet, un ordinateur ne peut simuler une profonde analyse du texte à résumer en s'appuyant sur une
compréhension qui englobe de vastes connaissances générales doublées de connaissances
spécifiques àdes domainesmultiples.
À
partir de cette constatation, les chercheurs exploitant l'approche par extraction pensent fournir une réponse intermédiaire. Ils proposent dessystèmes qui, après l'analyse detextepardes moyens statistiques oulinguistiques oules deux
à la fois, déterminent toutes les phrases importantes dutexte à résumer pourpouvoir ensuite
présenter à l'utilisateur un résumé en concaténant ces passages. Du point de vue de cette approche, pour résumer, il suffit d'extraire : il n'y a pas de génération de texte, le texte produit est un sous-ensemble du texte source. L'approche procède par extraction de phrases
complètes dutextesource,le résumé produitestdoncunextract, un fragmenttextuel.
Dans [Pincemin,200 1 ], l'auteurmet enévidence deux des aspects qui différencient le résumé par extraction des résumés rédigés traditionnels. Le premier aspect concerne le fait que le résumé par extraction reprend directement des passages du texte, il ne peut dons pas
comporter de reformulations synthétiques ; il garde le niveau de détail du texte sans
généraliser, sansprivilégier les désignations standard etmétatextuelles (alors qu'elles sont les
bienvenues dans le résumé documentaire), sans expliciter tel présupposé sous-jacent à
l'ensemble du texte. La deuxième différence se situe au niveau de la cohérence et de la
cohésion textuelles : le résumé construit par extraction contient des phrases cueillies çà et là
dans le texte source, phrases qui ne s'enchaînent pas naturellement. La lecture est chaotique,
ousinoninduit des effets desens étrangersautexte source. Il faudrait donc éviter de présenter le résultat d'une extraction comme un texte, puisque c'estpénalisant et trompeur du point de
vuede l'interprétation.
Le systèmepar extraction effectueune chaîne de traitement (voir fig. 3) : onpart d'un
texte, le système repère des unités textuelles pertinentes, sélectionne des unités et produit un résumé.
Constructionde lareprésentation dutexte Génération du résumé Résum
Figure3 Extrairepourrésumer([Minel,2003],p.37)
Ces méthodes sont fondées sur l'hypothèse qu'il existe, dans tout texte, des unités textuelles saillantes, les unités textuelles considérées étant, en général, la phrase, ou un ensemble dephrases liées entreellespar des liaisons discursives, ou encore le paragraphe. Le
principe repose sur des algorithmes de repérage de ces unités textuelles. Dans les parties suivantesnousallonsprésenter les plus représentatifs desalgorithmes utilisésparles systèmes d'activité résumante existants.
2.1. Sélection d'unités textuelles parcalcul descore
Ce type de méthode consiste à calculer un score S pour chaque unité textuelle, en
général la phrase, puis àconserverlesunités dont lescoreest supérieur àun certain seuil, ouà
fixer un nombre absolu d'unités devant être gardées en fonction d'un pourcentage de
réduction. Lescoreleplus courammentutiliséestunefonction de la fréquence dumotdans le
texte. Ilestissu destechniquesutilisées dans les sciences de l'information.
Ce score, appelé tf*idf, se calcule, pour chaque mot M du texte à résumer, de la manière suivante :
Score(M) =Fiocai * Log (100 *N/Figiobai)
FiocaiestlafréquencedumotMdans letexteT ;
Figiobaiestla fréquence dumotMdans le corpus
de référence
;Nestle nombre detextesducorpusde référence ;
Un score estensuite attribué àchaque unité textuelle paradditiondes scoresde chacun desmots contenus dans celle-ci :
Ce calcul nécessite, d'une part, la constitution d'un corpus de référence et, d'autre
part, la constitution d'une liste de «mots
vides»1.
Il s'agit ainsi d'éviter qu'un mot,nécessairementfréquent dansuntexte, augmentele scorede l'unité textuelle qui le contient. Ce type de méthode repose sur l'hypothèse suivante : l'importance d'une unité textuelle estune fonction des élémentslexicaux qui la composent, moyennantun correctif lié
au domaine traité et aux usages syntaxiques. En d'autres termes, les phrases qui contiennent les mots les plus fréquents sont considérées commereprésentatives de la thématique dutexte. Ceci amèneplusieursremarques (misesen évidencedans [Minel.,2003]) :
-pratiques stylistiques en cours : il est remarquable, aussi bien dans les textes
techniques que dans les articles de presse, de constater que l'auteur n'utilisepresquejamais le même terme lexical pour désigner un même réfèrent, en déployant toutes les possibilités
offertes parlarhétorique (utilisation desynonymes, dela métaphore, etc.) ;
-mode de calcul du score : son principal avantage réside dans le fait qu'un outil de
découpage enmots, même frustre, suffitpour effectuer le calcul : les temps de traitementsont
donc excellents. Malheureusement, les inconvénients sont nombreux. Si aucun traitement
morpho-syntaxique n'est effectué, les cas d'ambiguïtés ne sontpas résolus. La solution serait
l'utilisation d'outils d'étiquetage
morpho-syntaxique3,
mais cela rendrait le systèmedépendant des langues.
-traitement des groupes nominaux: ils ne seront pas traités en tant que syntagmes,
mais décomposés en éléments constitutifs, mots qui risquent de se trouver dans la liste des
mots vides, car, par ailleurs, ils peuvent faire partie de locutions prépositionnelles ou conjonctionnelles (par exemple, le groupenominal «effet de serre », où «effet »risque d'être considérécommemot vide, du fait fairepartie de lalocution« en effet »).
1
J-L. Minel, dans [Minel.,2003],p. 39, considère quele terme «motvide»estparticulièrementmal choisi, la notionanglo-saxonne de«stoplist» étantplus neutre. Il souligne aussi quecettenotion, issue des sciences de
l'information, n'a aucunejustificationlinguistique : les pronoms, parexemple, sont souvent considérés comme des motsvides dansces systèmes alors que ce sontsouventdesmarques anaphoriques qu'il conviendrait de lier avecleur réfèrent.
2
Saprésence vient soit durespectdes règles syntaxiques (par exemple l'article défini « un » oula préposition
« de»), soitparcequ'il relèvedu domainetraitéparletexte.
3
L'étiquetage morpho-syntaxique consiste à identifierla classe morpho-syntaxique qui est associée aux mots
dans leur contexte d'énonciation. Par exemple,une phrase comme leprogramme affiche les résultats pourrait être marquée de la façon suivante:Le[article défini masculin singulier] programme[nom commun masculin
singulier] ajfiche[verbe conjugué3epersonnesingulier indicatifprésent] desjarticle indéfini masculin pluriel] résultatsjnom commun masculinpluriel]. L'automatisation de ce type de marquage pose des difficultés non
négligeables liées à l'ambiguïté intrinsèque d'une fraction importante des mots de la langue. Ainsi, dans l'exemple précédent,programme pourrait, dans uncontexte différent, correspondre àune forme conjuguée du verbe programmer, affiche à un nom commun féminin singulier. En fait, quatre des cinq mots de la phrase d'exemplesontambiguspour cequiestdeleurdescriptionmorpho-syntaxique.
Enfin, le principal défaut de cette méthode, inhérent à l'hypothèse qui la sous-tend,
s'avère plus général : les résumé est, dans le meilleur des cas, constitué des phrases
représentatives de la thématique du texte sans aucune possibilité de prendre en compte
d'autres «actes discursifs». Or, l'utilisateur d'un système d'activité résumante peut être
intéressé pardes informations qui ne relèventpas directement de la thématique principale du
texte.
2.2. Sélectiond'unitéstextuelles baséesur uncalcul desimilarité
Cette approche repose aussi sur la fréquence d'apparition des termes dans les
documents, mais l'unité textuelle choisie pour l'extraction n'est plus la phrase, mais le paragraphe. Vu quele paragraphe offre plus de contexte quela phrase, c'est une solution qui
vise àaméliorer, aumoins partiellement, les problèmes de lisibilitéetde cohérence rencontrés dans les résumésproduitsparextraction de phrases.
L'approche a été développée par Salton et d'autres chercheurs collaborateurs ([Salton,1999])enutilisant des idées empruntées à la méthode de génération automatique de liens hypertexte, utilisée pour relier différentes unités informationnelles afin de faciliter la
navigation d'un utilisateur dans la quantité colossale d'information disponiblesurInternet. Au
lieu degénérer les liens traditionnels entreplusieurs documents (inter-documents), ils utilisent les techniques de génération automatique de liens pour générer des liens intra-document, c'est-à-dire des liens entre différentes paragraphes (ou phrases) d'un article. Une carte des relations textuelles {text relationship map), contenant les paragraphes et les liens
intra-document, permet de visualiser la structure du document et d'isoler les passages fonctionnellementhomogènes, appelés segmentsde texte{text segments).
La méthode consiste à appliquer un coefficient de similarité aux paragraphes d'un document pour construire des résumés en calculant la similarité entre ces paragraphes (en
fonction de la couverture lexicale {vocabulary overlap), qui doit être supérieur au seuil
correspondantauhasard).
Plusieursstratégies de sélection des paragraphes sontpossibles:
-lapremière stratégie (bushy path) consiste à rechercher le paragraphe qui possède le
plus de liens de similarité avec les autres paragraphes, ce qui, d'après les concepteurs de la méthode, estun signe que ce paragraphe traite des principaux thèmes du texte. Ce processus
est répété sur les paragraphes restantsjusqu'à ce que l'on obtienne un résumé dont la taille
n'excède pas unseuil déterminé.
-la deuxième stratégie (depth-first path) vise à corriger un défaut de la stratégie
texte, mais pas nécessairement liés entre eux, d'où le risque d'obtenir des résumés très peu cohérents. Pour améliorer la cohérence, le principe est donc de partir d'un paragraphe Pa, le
premier ou encore celui qui possède le plus de connexions avec les autres paragraphes du
texte, ensuite de choisir leparagraphe PB qui possède le plus fort coefficient de similarité avec
Pa- Le processus de sélection est répété jusqu'à ce que l'on obtienne un résumé de longueur
voulue. Les résumés ainsi obtenus sont plus cohérents mais, en revanche, ils présentent un problème d'équilibrage : certains thèmes sont sur-représentés et certains autres aspects sont
pasdutoutou passuffisammentcouvertsparrapportautexte source.
-d'autres stratégies peuvent être construites en combinant les deux précédentes. Par
exemple (segmented bushy path), en segmentant le texte, c'est-à-dire en regroupant des paragraphes et en obligeant le système à extraire au moins un paragraphe dans chaque
segment.
J-L. Minel met en évidence deux problèmes soulevés par cette approche
([Minel,2003],p.44) :
-le choix du paragraphe comme unités textuelles saillante devait, selon cetteméthode,
permettre de résoudre, par contournement, les difficultés liées à la cohérence des résumés produits, en faisant l'hypothèse qu'un paragraphe possède, par construction, une cohérence
thématique. Cependant, différents travaux sur la notion de paragraphe ont montré que le
découpage d'un texte en paragraphes obéissait à différents critères qui mélangent des règles
discursives, des contraintestypographiquesetdeschoix esthétiques.
-la notion de similarité lexicale, comme critère de saillance, fondée sur un calcul de fréquence de formes, aumieux lemmatisées et sansprise encompte ni de la synonymie ni de
lacoréférence,apparaîtcomme unehypothèse beaucouptrop forte.
2.3.Sélection d'unités textuelles baséesurle repérage d'expressionsprototypiques L'approcheparexpressionsprototypiques
(eue-phrases)!
permetde prendre encomptela manière dont l'auteur emploie certains éléments lexicaux et fait émerger des critères autres
que ceux fondés uniquement surla fréquence des termes. Ainsi, certains mots ouexpressions du texte peuvent indiquer l'importance des phrases, indépendamment de considérations
purement fréquentielles. Parexemple, des expressions du type «notretravail », « cepapier»,
«la présente recherche», etc., sont autant de marques discursives placées par l'auteur pour
présenter le thème de son article. De même, certaines expressions, en se référant à des
passages précédents, font office de liens structurels entre les différentes parties d'untexte et
peuvent donc être exploitées pour construire des résumés plus cohérents (par exemple, des
1
expressions du type«présenté précédemment», «énoncé au-dessus », etc.). Elles considèrent
également que la position des phrases dans un texte peut être également utilisée comme critère de sélection. Par exemple, les phrases d'introduction de la conclusion ou de certaines sectionsdutexte ontunecertaineimportanceparrapportà d'autres phrases dutexte.
L'originalité de ce type d'approche tient au fait qu'elle prend en compte des aspects purementlinguistiques totalement absents dans les approches uniquement quantitatives.
Enrevanche, son inconvénientmajeur réside dans le faitque l'importance donnée aux
phrases seréduit au calcul d'un score numérique. Aucunejustification n'est fourniequant au calcul des coefficients d'importance donnés aux mots et aux expressions prototypiques et la
quantification de l'importance par des nombres limite considérablement les possibilités de faire varier le contenu informatif de l'extrait final. Une autre difficulté est le fait que le systèmenepeutpas s'adapterauxbesoins spécifiques d'un utilisateur puisque celui-cinepeut
pas spécifier de critères de sélection surles expressions prototypiques (cette démarche postule l'existence d'un résuméprototypique).
2.4. Sélectionparconstructiond'unestructurepragmatique
Dansle cadrede cette approche, la sélection des unités textuelles composantlerésumé
se fait sur la base d'une représentation pragmatique (appelée aussi «rhétorique » ou
« argumentative ») préalablement construite du texte. Cette représentation est construite à
l'aide de certains marqueurs du discours et elle dénote lesrelations rhétoriques existant entre
les phrases (ou propositions) d'un même texte : justification, cause, consécution, opposition,
conséquence, confirmation, illustration, etc.
A titre d'exemple, nous citons le système proposé par Marcu dans ses travaux
([Marcu,1997a], [Marcu,1997b], [Marcu, 1999]), essentiellement fondés sur la Rhetorical Structure
Theory1
(RST).Marcu introduit la notion d'analyse rhétorique {rhetorical parsing), qu'il définit
comme le procès de transformation (mapping) des textes de langage naturel en arbres
discursifs {discourse trees, obtenus après l'identification des unités textuelles composant le
texte etdes relations rhétoriques élémentaires reliant ces unités). Le résumé est construit par sélection de phrases dans l'arbre rhétorique construit: des noeuds sont extraits à partir de la racinevers les feuilles, enfonction de lalongueur désirée. Plus le résumé doit être court, plus
les nœudsextraits sontproches de la racine.
1
Lathéorie est fondée autourde la notionde relationrhétorique (rhetorical relation) quiest larelation qui lie
deux unités textuelles disjointes, appelées«nucleus» et «satellite». (Il ya quelques exceptions, parexemple,
les relations detype «contraste» sontmultinucléaires.) Ladistinctionentrenucleusetsatellite vient du constat
empirique que le nucleus exprime plus le but de l'auteur que le satellite et que le nucleus d'une relation