Évaluation de systèmes de résumé automatique dans le paradigme usager

(1)

HAL Id: dumas-01588307

https://dumas.ccsd.cnrs.fr/dumas-01588307

Submitted on 13 Dec 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Évaluation de systèmes de résumé automatique dans le

paradigme usager

Verona Boian

To cite this version:

Verona Boian. Évaluation de systèmes de résumé automatique dans le paradigme usager. Sciences de l’information et de la communication. 2006. �dumas-01588307�

(2)

Université Charles-de-Gaulle

-

Lille 3

Master 2 Information Communication Documentation

Spécialité Recherche

en

Sciences de l'Information

et

de la

Communication

Evaluation

de

_systèmes

_de

_{résumé automatique}

dans le

_paradigme

_usager

Verona BOIAN

(3)

Université Charles-de-Gaulle

-

Lille 3

Master 2 Information Communication Documentation

Spécialité

Recherche

en

Sciences

de

l'Information

et

de la

Communication

r

Evaluation de

_systèmes

_de

_{résumé automatique}

dans

le

_paradigme

_usager

Verona BOIAN

(4)

Remerciements

Je tiens à remercier mon directeur de _{recherche, Monsieur} _{Stéphane Chaudiron,} d'avoir suivi mon travail. Ses conseils ont su _dissiper _mes _doutes _et _ses commentaires _et

suggestions m'ont permis d'avancer dans la réalisation demonmémoire.

Je remercie _{également Monsieur} _{Jean-Michel Rauzier, rédacteur} _en _{chef de la} _revue

Documentaliste -Sciences de l'information _pouravoirgénéreusement mis à _madisposition le

corpusnécessaire àmarecherche.

Sur le _{plan personnel,} _une _{pensée particulière} _{pour mes} _parents, _{qui m'ont toujours}

soutenue, moralement etfinancièrement, dans mesprojets etqui ontcrûenmoi ! J'espèreque le retour sur l'investissement ne tardera pas. _Je _pense _{aussi à} _mon _frère _et _le _reste _de _ma famille,qui ontdûpayerparl'éloignement le prix demesambitions professionnelles.

Enfin,jeremercie àtousmesamis quim'ont encouragéetoutaulong demontravail et

qui ont été toujours disponibles dans mes momentsdifficiles : Ana-Maria, Christelle, Corina,

Daliana, Guillaume, Laurent, Meda, Simona, TinaetYoussef. Merci de m'avoir aidée, de loin oude_près, _sciemment_ou _non, _à_mener_{à bon} _terme_ce_{travail !}

(5)

laoïc ues maucics

Introduction 1

Chapitre 1

:

Le

résumé

-

activité complexe

et

produit variable

2

1.L'activité résumante- éléments dedéfinition 2

2. _Types_de_résumé ₄

3.

_Étapes

_{dans la} _rédaction ₇

4.Évolutiondela notion derésumé 9

5.Besoin des SRA 10

Chapitre

2

:

Compréhension des différentes approches des SRA

12

1. Méthodes fondées surlacompréhension 12

2._{Méthodes par}_extraction ₁₄ 2.1. Sélectiond'imités textuelles_par_calcul_descore 15

2.2. Sélection d'unités textuellesbaséesur uncalcul de similarité 17

2.3. Sélection d'unités textuellesbaséesurle_repérage_{d'expressions}_{prototypiques} ₁₈

2.4.Sélection_par_construction_d'une_structure_pragmatique ₁₉ 3. Méthodes par filtrage sémantique 21

3.1.Méthode _{d'exploration}_contextuelle ₂₁

3.2. _Séraphin ₂₄

3.3. Le_projet_FilText_et_{la plate-forme}_ContextO ₂₄ 4. _{Méthodes par}_{apprentissage} ₂₅

Chapitre 3

:

Évaluation

-

état de

l'art

27

1. L'évaluation : _concept_et_enjeux ₂₇

2._Types _{d'évaluation} ₂₉

2.1. Distinctions_{terminologiques}

₂₉

2.2. Évaluation_par_calcul_vs_évaluation_par_jury

₃₂

2.3._{Paradigme système}_vs_paradigme _usager

₃₅

3. _Campagnes_{déjà réalisées}

₃₈

3.1. TREC 38

3.2. DUC 42

3.3. SUMMAC_(Tipster) ₄₄ 3.4.Les_{protocoles du système Séraphin (MLUCE+FAN)}

₄₆

3.5. _Technolangue

₄₉

3.6. Autre _{campagnes :} _CLEF_et_Amaryllis

₅₁

Chapitre 4

:

Éléments

de mise

en

place

d'une expérimentation

52

1.Définition destâches 52

2. Constitution du corpus

53

3. _{Proposition critères}_dans _un _paradigme_usager

₅₆

4.Méthodes derecueil dedonnées 57

Conclusion 59

Bibliographie

(6)

Introduction

L'information, disponible de plus enplus facilement et en grande quantité, demande à être triée et _{appréhendée de plus} _en _{plus rapidement.} _En _parallèle _avec _{les méthodes} classiques, tellesquel'index, la table des matières, etc., de nouvelles modalités d'accès rapide

à l'information se sont _{développées. Parmi} _ces _{modalités, le résumé automatique.} _Les

nombreuses recherches dans ce domaine ont abouti à des _{produits commerciaux} _ou _de laboratoire. Face à cette offre _{technologique importante, l'évaluation de tels systèmes} _est devenue _nécessaire, _ayant _{des rôles multiples} : établir un état de l'art, encourager etmesurer le_{progrès dans}_ce _{domaine, justifier}_et_{imposer certaines approches plutôt}_que_{d'autres. Si des}

campagnes d'évaluation importantes ont déjà eu lieu, elles ont très peu pris en compte le paramètre utilisateur. Dans ce contexte, l'objectif denotre recherche aété d'arriver àmontrer

les difficultés _théoriques _et _{méthodologiques rencontrées lors de la mise} _en _{place d'un}

protocole d'évaluation dans le paradigmeusager.

Ence_qui _concerne _{la méthodologie adoptée, dans}_un_premier_temps_{nous avons} _étudié

l'activité résumante dans une _{acception classique, documentaire,} _pour _{arriver à observer des}

évolutions_qui_se _{traduisent dans la prise}_en_compte_{de l'usager, de}_{nouveaux usages} _{(lecture à}

l'écran) et des possibilités d'interaction et de navigation offertes par les technologies en continuel _{développement.}

Nous avons _poursuivi _notre _démarche _avec _{l'analyse des méthodes utilisées dans la}

production automatique de résumé. Cette partie ne se veutpas exhaustive; son intérêt est de nous avoir_{permis de comprendre la complexité de} _ces _approches _et _{de la mise} _en_{place d'un} protocole d'évaluation.

Nous nous sommes intéressé à l'état de l'art dans l'évaluation des _systèmes _{de résumé}

automatique, quitrouve sesbases dans l'évaluation des systèmes de recherche d'informations. Les campagnes d'évaluation déjà réalisées ontproposé des protocoles enpartie réutilisables et réapplicables à d'autres technologies.

Al'issue decette_analyse, _{nous avons} _conclu_que_{l'évaluation}_{des systèmes de résumé} automatique, à part ces aspects généralement applicables, présente des spécificités qui n'ont

pas été suffisamment développées et exploitées, surtout dans un paradigme usager. Par

conséquent, il nous a paru impératif de proposer un cadre expérimental, en menant une réflexionsurles difficultés_théoriques_et_{méthodologiques d'une telle entreprise.}

(7)

Chapitre 1

Le résumé - activité

complexe

et

produit

variable

1. L'activité résumante-éléments de définition

L'explosion du volume d'information sous forme de documents textuels, surtout avec l'essor _d'Internet, _est un phénomène d'actualité ; l'usager est submergé par cette masse en

continuelle_{augmentation,} _{la gestion} _en_{devient de plus} _en_plus_difficile. _Par _{conséquent, dans}

une_{tactique de réduction du volume d'informations présentées, des}_moyens _{de représentation} du contenu et d'accès _{rapide à l'information} _sont _devenus _{indispensables.}

_À

_côté _{de la table} dematièreset _{l'index, le résumé}_en_est_un.

L'activité résumante des humains a été encore _{fort peu} _étudiée _et _le _concept _de

«résumé»ne fait pas encore_{l'objet d'une caractérisation très rigoureuse.}

Dans _{[Fayol,1992], l'auteur} _{définit le résumé} comme étant «un cas particulier de

paraphrase sélective» (p. 163), il met en évidence la complexité de cette activité et présente

des recherches_qui _exposent_{l'existence de difficultés bien précises rencontrées} _par_{les adultes}

comme_par _{les enfants}_{lors de l'activité de résumé.}

Le Roux _([Le_Roux,_1992]) _oppose _{le résumer, à savoir la démarche,} _au _{résumé, qui}

est l'un des _{produits possiblement issus de celle-ci, d'autres} _pouvant _être _{également obtenus}

en fonction de _{paramètres de différents} _types _(nature _du _texte _{d'entrée, contraintes} _sur _la longueur ou la forme du texte-source, objectifs de la démarche, etc.). Elle définit l'activité

résumante comme une démarche intellectuelle _complexe _{qui relève de deux} _types _de démarches de modification d'un texte1 : la hiérarchisation et la sélection des unités d'information du texte d'une _part _{(axe de transformation), la recherche de la plus grande} densité informationnelle _{possible, d'autre} _part _(axe _{d'identité).} _Autrement _{dit, l'activité} résumante consiste à sélectionner l'information enfaisant _{appel à}_une_{procédure de réduction} des _segments _de_{texte retenus}commeessentiels, etensuite à paraphraser.

1

Lesdeux démarches de modificationdutexte sont_présentées_comme_{les deux}_axes_d'un_schéma_permettant_de

situer tout texte résultant d'un autre texte _{après des opérations} _{de modification textuelle}_; _{l'axe vertical} _x _est

celui de la relation d'identité stricte entre T _{(texte source)}_et_T' _{(texte cible)}_et_{l'axe horizontal}yestcelui de la

transformation _représente _la _succession _continue _de _textes _qui _pourraient _résulter _après une

(8)

Elle mentionne aussi un autre élément à _prendre _en _compte _{dans la définition d'un} résumé. Il _{s'agit d'un des rôles du résumé, qui} _est _{celui de constituer}_un _{lien important} _entre les _producteurs _{de l'information} _et ses utilisateurs : le résumé contientune information dite «secondaire», ce _qui _l'oppose au texte source qui contient l'information «primaire». Le résumé est donc un document

secondaire1,

défini _comme _« _document _{présentant des}

informations résumées _{(analytiques)} _et_{paratextuelles (synthétiques) de documents primaires}_» dans _{[Cacaly,2004],}_p. _66.

[Grize,1992] définit l'activité résumante comme une activité de communication qui,

donc, par définition, résulte d'une intention précise et qui est destinée àun interlocuteurque l'on se _{représente plus} _ou _moins _exactement. _Dans _{la production d'un résumé, trois} paramètres doivent être pris enconsidération : le destinateur, le destinataireetla situation. Par conséquent, selon qui l'on est, selon à qui l'on s'adresse et à quoi le résumé est censé servir, on relève certains faits et on en _passe _d'autres _sous _{silence. Celui qui résume doit donc} _se

faireuneidée de ceuxà_{qui il} _s'adresse_et_de _ce_{pourquoi il résume.}

Résumer un texte est une démarche _{argumentative, c'est-à-dire qui vise à intervenir}

sur un destinataire. Grize _{postule ainsi qu'un résumé} _est _élaboré _pour _{aider le lecteur à} répondre à une question qu'il est censé se poser. En fonctions de ses besoins spécifiques, le lecteur_peut _{avoir des interrogations différentes} _:

De_{quoi s'agit-il ?} _Le_{résumé doit situer le}_texte_{dans le champ} _{du savoir.}

Vais-je lire ceci ? Le résumé varie alors en fonction du type de texte. S'il s'agit

d'un _roman, _{le résumé doit faire} _{appel à la sensibilité du lecteur potentiel; si le} _texte _est _de

nature_{scientifique, il convient de la situer}_au_{sein d'une problématique}_reconnue, _etc.

Comment _vais-je _me _souvenir _de _ce _qui _est _{dit ? Le résumé} _est _une _sorte _de mémento.

Comment mettre en relation une _partie _avec _le _tout_{? Le résumé doit} _permettre d'avoirunevue «_globale _»_{des diverses parties du document.}

Comment cela est-il_possible_ou _{cela est-il vrai ? Le résumé doit alors être capable} de rendre _compte_{d'une démarche conduisant à}_une _conclusion, _{de présenter les} _arguments _en faveur de la thèse.

Ce _type _{de questions} _sont _{très importantes,} _car _{les résumés devraient pouvoir} _y

répondre : unbon résuméestcelui qui s'adapteauxbesoins informationnels de l'utilisateur.

1

La_{bibliographie, le}_{catalogue d'une bibliothèque, l'index, les banques de données bibliographiques constituent}

(9)

Le besoin informationnel est défini dans _{[Le Coadic,1998]} _comme _{«l'état de} connaissance dans _{lequel [le chercheur]} _se _trouve _lorsqu'il _est _{confronté à l'exigence d'un} information _{qui lui} _manque, _{d'une information} _{qui lui} _est _nécessaire _pour _poursuivre _un travail de recherche. Il naît donc d'une _impulsion _{d'ordre cognitif.} _» _(p. _12). _Résultat _de l'existence d'une anomalie de connaissance chez une _personne, _{le besoin d'information} _ne

peut pas être séparé du contexte, de la situation, de l'environnement qui l'a créé et de

l'individu _{qui l'a}_perçu _; _il _est_{donc sociologiquement} _et_{psychologiquement déterminé. Il} _est

judicieux de faire la différence entrel'étude des besoins d'information etcelle des usages, car les usagers nesontpas toujours conscients de leurs besoins d'informationou ils nesaventpas lesformuler1.

Elément facultatif de _{l'analyse documentaire (à côté de la référence bibliographique} _et

l'index, qui, eux, sont obligatoires), le résumé apporte au lecteur des informations supplémentaires concernant le contenu d'un document. La rédaction du résumé dépend surtout de facteurs comme : les besoins informationnels des _{utilisateurs, le} _type _{de produits}

issus de _{l'analyse (l'usage} _qu'on _{fait du résumé)} _et _{l'auteur du résumé} _(surtout _{qu'il n'existe}

pasde véritables normesde rédaction d'un résumépar un documentaliste).

2._Types _de_résumé

Dans la norme NF Z _44-004, _{l'AFNOR fait des recommandations} _concernant _la

préparation etla présentation des résumés, définis de la manière suivante :

« Il existe deux_types _{de résumé,}_{le résumé}_descriptif_et_{le résumé critique.}

Le résumé _descriptif _est _un _texte _concis _{reflétant fidèlement,} _sans _{interprétation ni}

critique, le contenu du document. Il a pour but d'aider le lecteur à cerner la pertinence du

document vis-à-vis de l'information recherchée. Parmi les résumés_descriptifs, ondistingue : le résumé _{informatif qui} _est _une _{représentation abrégée du document,}

renseignantsurles informations quantitatives ouqualitatives apportées parl'auteur;

le résumé _indicatif_qui _se _contente _{de signaler le} _ou _{les thèmes d'études.} _Il

concerne les documents _qui, _par _leur _nature _ou _{leur ampleur,} _ne _se _prêtent _pas _à l'établissement d'un résumé informatif.

Le résumé _critique _est un compte rendu assorti d'une critique originale d'un

document. Il n'est_{jamais élaboré}_par_l'auteur _et_n'est_donc_pas_{traité ici.} _»

1

La différence entre besoin et demande _{d'information} _est _expliquée _{dans [Le C0ADIC,1998], ainsi} _que _les différentes _étapes _{qui conduisent} _{à la} _{satisfaction d'un} _{besoin d'information}_: _{identification,} _formulation,

(10)

En _{pratique, dans l'analyse documentaire} _on _{distingue principalement deux} _types _de résumé documentaire _{([Guinchat,1996], [Waller,1999])} _:

- Résumé indicatifou

signalétique

Il _{s'agit de signaler} _ou _{d'indiquer d'une manière brève les thèmes d'étude.} _{Ce résumé} donne une indication sur le _type d'information qu'on _peut _espérer _trouver _{dans le document}

maisil nedonne pas _{l'information elle-même.}

L'objectif de ce type de résumé est de faire savoir à l'usager s'il doit lire le texte

intégralement, s'ilne doit enlire qu'une partieou si le document signaléne l'intéressepasdu

tout. Le_{résumé indicatif n'a donc pas pour}_{vocation de dispenser de la lecture des documents}

pertinents. Il estunoutil de sélection, de tri.

- Résumé informatif

ou _analytique

Ce _type _{de résumé} _sert _{véritablement à informer l'utilisateur} _sur _le _contenu _du document _{original analysé} _{et peut} _{remplacer la lecture in} _extenso _{de celui-ci.} _La

problématique du résumé informatif est double. Il s'agit de comprendre ce qui n'est pas information dans un texte et de connaître le besoin de l'utilisateur final. Le documentaliste lit letexte àsa_{place. Il doit donc} _se _situer _en _{fonction du savoir de l'usager final (c'est} _souvent

un_{spécialiste)}_et_de_son_besoin.

Cette distinction est souvent étendue à un troisième _type _{de résumé, le résumé}

critique/évaluatif. Il évalue la_{problématique du document} _{source, en} _{exprimant l'opinion du} résumeurconcernantla_{qualité du travail}_de _l'auteur.

La relation établie entre les trois _types _{de résumés} _n'est _pas _exclusive. _{Le résumé} informatif_peut _être_{vu comme}_{remplissant des fonctions indicatives} _et_informatives _à_{la fois} _;

par conséquent, il peutêtre considéré comme une sous-classe du résuméindicatif. De même,

le résumé _critique _peut _être _{indicatif (« Voici} _un _{article excellent} _! _»), _ou _informatif. _La

relationentreles trois_concepts _peut_être_illustrée_par_{le schéma ci-dessous.}

(11)

Il existe d'autres formes de résumé _{(méthodes de représenter le} _contenu _d'un document en l'abrégeant) _: _{résumé scolaire, résumé d'auteur, résumé sélectif (sélectionne}

l'informationenfonction d'une_{catégorie d'utilisateurs),} _etc.

Le résumé _{scolaire, bien différent des} _{pratiques professionnelles apparentées} _est

présenté en détail dans [Charolles,1992], Il apparaît comme une sorte de pratique

désincarnée mettant essentiellement en_jeu _{des opérations de contraction} _et _{de reformulation} (de surcroît très normées) en dehors de toute fonctionnalité réelle autre que celle, bien

entendu, d'évaluer les capacités de compréhension et de production écrite des élèves.

Charolles se sert dece_type _{de résumé,} _{quoique à caractère spéculatif}_et _artificiel,_pour_voir _en quoi justement les textes sont porteurs dans leur « forme» d'indices susceptibles de guider le sujet dans sa tâche de résumé (il part du principe que les élèves ne peuvent pas, comme les

professionnels de l'information, être des experts des innombrables sujets abordés dans les

documents _qu'on _{leur demande de} _résumer _et _que _le _texte _source _est, _donc, _{leur matière} essentielle dans la_{production du résumé).}

La littérature

_{anglo-saxonne1}

_impose _une _{distinction basée} _sur _{la relation} _entre _le résumé et le texte source : les résumés se divisent en extracts et abstracts2. L'extract estun

résumé _{composé exclusivement de matériel copié du} _texte _source _{(input). Ainsi,} _un _extract

typique àun taux de condensation de 25% contiendra25% du matériel du document source, qu'il s'agisse de 25% des mots, ou de 25% des phrases ou de 25% des paragraphes du

document. Comme _{généralement il s'agit de phrases, celles-ci} _peuvent _se _{suivre (s'il s'agit,}

parexemple, des premières 25% du document) ounon. Cependant, iln'estpasobligatoire que Yextract contienne des _{phrases, il} _peut _se _présenter _sous _la _{forme d'une liste de} _termes

(termes techniques, noms propres, groupes nominaux, phrases tronquées, etc.). En revanche,

Yabstract estunrésumé dontaumoinsune_partie_du_contenu_n'appartient_{pas au}_texte_source.

Un abstract _{typique contient} _un _{certain degré de paraphrase du} _contenu _du _texte _source. _En

général, les abstracts offrent la possibilité d'un plus grand degré de condensation : unabstract

court _peut_{offrir plus d'information} _qu'un _extract _plus _{long. Comme dans le} _cas _des _extracts,

les abstracts _peuvent _{ne pas} _contenir _que _{des phrases complètes, quoique,} _en _{général, ils le}

font.

En fonction du _type _{d'utilisateur} _pour _lequel _est _construit _un _{résumé, la distinction} _se fait entre «résumé standard/d'ensemble » _(generic) _et _«_{résumé focalisé/ciblé}_»

(user-1

Par_{exemple [MANl,2001a],}_p. _6.

2

(12)

focused/topic-focused/query-focused). Le premier s'adresse àunpublic assez large etne tient

pas comptedes besoins des utilisateurs, alors que ledeuxième estconstruitpour unutilisateur

précis (ou groupe d'utilisateurs), donc il prend en compte les intérêts de celui-ci. Cette distinctionne nous_permet_cependant_pas _de_{conclure à la supériorité du résumé focalisé}_sur _le résumé _d'ensemble, car l'utilisateur peut parfaitement choisir de faire sienne la perspective adoptéepartel résumé d'ensemble.

Une autre dimension considérée dans la classification des résumés est donnée _par _le

degré de généralité du résumé : les résumés qui traitenttous les sujetsd'un documentavec le

même _poids _sont _{des résumés génériques, tandis qu'un résumé orienté}_par _une _requête _se

concentre_{particulièrement} _sur_une _{facette spécifique du document.}

En fonction du nombre de documents sources traités _{simultanément, le résumé} _peut être mono-document _{(s'il traite} un seul document source) ou multi-documents (s'il en traite

plusieurs).

Enfonction des _langues_dans _lesquelles _sont_{produits le document}_source_et_{le résumé,}

nous considérons que _celui-ci _est _{monolingue (si le résumé} _est _{dans la}_même _langue _que _le document_source) _ou_{interlingue (s'il} _est_dans_une_{langue différente).}

Dans une _{perspective plus large} _et _{plus actuelle,} _une _autre _distinction _se _fait _en

fonction du _type _de _support _du _résumé_{et/ou du document} _{source :} _{il peut} _s'agir _de _textes, documents _{audio, vidéo, tableaux,} _images _ou _diagrammes, _ou _documents _multimédia

(contenantdifférentstypesdemédia).

3.

_Étapes

_{dans la rédaction}

Pinto Molina propose, dans [Pinto Molina,1995], un modèle de production de résumé basé sur

quatre1

_{étapes-clé. Le modèle} _est_{repris dans [Waller,1999], qui} _{impose les}

équivalents français :

-compréhension (reading-compréhension),

-sélection _{(sélection),}

-construction2 (interprétation),

-rédaction3 (synthesis/analytical description).

1

Outrois,carsélectionetinterprétationcomposeraient analysis, niveau leplus difficileetcontroversédetoutle

processusdeproduction derésumé,parcequ'il n'yapasde méthodologie rigoureuseetconséquente.

2

[Waller,1999] trouve le terme interprétation gênant dans ce contexte, pouvant renvoyer au manque

d'objectivité de la part de l'analyste et propose de prendre to interpret plutôt au sens de traduire, que à'_{interpréter.}

3

[Waller,1999]trouveletermesynthèse pertinent, caril s'agitd'utiliserles éléments sélectionnés dans letexte

pour construireun ensemble cohérent et lisible. Toutefois, il déconseille sonemploi afin d'éviter la confusion qui pourraitsefaireentrela synthèse documentaire, effectuéeàpartirde plusieurs documents surle mêmesujet, etlarédaction d'unrésumé_{documentaire, qui}_s'applique_à_un_texte_unique.

(13)

i. La _{première phase consiste à observer} _et _comprendre _un _texte _{avec un} _objectif

documentaire : à _{partir d'un élément} _concret _{(le texte),} _{on va} _{dans l'abstrait (sa signification} dans un cadre _donné), _pour _retrouver _le _concret _{(l'écriture d'un résumé). C'est} _ce _que _Pinto

Molina_{appelle le} _cyclicaî_process. _{Absolument essentielle, la compréhension du}_{texte est} _une activité _basique _et _{complexe, terrain} _commun _{de plusieurs disciplines scientifiques}

(linguistique, logique, psychologie cognitive). Considérée comme une première analyse, ou

pré-analyse, la compréhension est un processus interactif entre le texte et le résumeur,

fortement conditionné _par _{les connaissances de base du lecteur. A} _ce _{niveau, des} connaissances _{scientifiques} _et _{documentaires de base} _sont _{nécessaires. A la lecture s'ensuit la}

compréhension, ou l'interprétation du sens du texte. La première interprétation, générale et neutre, est le point de départ pour tout processus analytique. La lecture est toujours orientée vers sonutilisation ultérieure par un _nombre _x _de _{personnes, connues ou non.} _Grâce _à _cette phase de recherche de la structure profonde dutexte et du vocabulaire pertinent, la sélection

peutdébuter.

ii. La sélection est un _processus _négatif_: _elle _{consiste à éliminer des unités de} _sens (phrases oumots) considérées non-pertinentes pour le résumé. En fonction de leur pertinence

pourle résumé, les unitésdesenspeuventêtre groupées en : répétitions, unitéspeupertinentes

etunités_{non-pertinentes.} _{Effectuée à l'aide de stratégies}_comme _{la contraction, la réduction} _et la _{condensation, la sélection} _a _pour _but _{de retenir uniquement l'information pertinente. A} _ce

niveau, la notion de pertinence devient extrêmement importante. Cette phase de

sélection-élimination réduit l'écrit àseséléments_{jugés pertinents} _en_{regard du}_texte _lui-même_et_de _son objectif documentaire. Ces éléments doivent alors êtrereconstruits.

iii. Une fois la sélection _{effectuée, le résumeur doit} _{procéder à} _une _deuxième

interprétation, orientée et sélective cette fois-ci, qui dépend fondamentalement des objectifs

documentaires. C'est _l'étape _{la plus subjective de} _tout _le _{processus, parce que,} _à _part

l'objectivitéducontenutextuel, certain facteurs extratextuels interviennent : les connaissances de base du _{résumeur, le} _contexte, _{dans le} _sens _le _{plus large du} _{mot, et} _{les objectifs}

documentaires du résumé. En _{fait, la construction d'un résumé} _repose _beaucoup _sur _la recherche du _plan, _sur _{la structuration interne du} _texte _lui-même. _Le _{repérage d'ensembles}

cohérents _permet_de_{hiérarchiser, après les avoir sélectionnés, les items exposés.} _Ce_{travail de} mise en_{place des ensembles facilite la rédaction.}

iv. C'est _{l'étape la plus délicate,} _car_il _est _pratiquement _{impossible de} _mettre_en_place des _{techniques de synthèse qui soient valides indépendamment du} _type _{de document} _et _du résumeur. Elle _pourrait_être _considérée _comme_{la vraie phase de production de résumé. Toute}

(14)

synthèse doit être cohérente, équilibrée et elle doit garder la structure schématique (rhétorique) du document. A ce niveau, le résumeur doit prendre en considération le niveau

d'analyse pré-établi, enfonction dutypede résumédésiré.

4. Évolution dela notion de résumé

La notion de résumé _{standard, idéal} _est _devenue _{inappropriée,} _car _{il n'existe} _pas _de critère_précis _pour _déterminer _ce _qui _{sera un} _{bon résumé.} _Au _contraire, _sous _{la pression des}

besoins des _{utilisateurs,} onparle aujourd'hui de plus enplus de résumé àla demande, du sur

mesure : l'information n'est pas _importante _en _{soi, mais seulement dans la} _mesure _dans

laquelle ellecorrespond auxbesoins d'un utilisateur. La pertinence, notion centrale enscience de _{l'information,} _est _définie _comme _« _adéquation _entre _{le résultat d'une recherche} d'information et l'énoncé de la _{question posée» ([Cacaly,2004],} _p. _181). _La _pertinence _se définit dans la rencontre d'un texte et d'un lecteur _; _elle _n'est _{pas une} _{propriété inhérente du}

document, ycompris dans le contexte de tel profil ou de telle requête : elle est construite par

unutilisateur. Ce _qui _est_{jugé pertinent}_{pour un}_utilisateur_ne_l'est_pas_{nécessairement}_pour_un autre. Une _{pertinence absolue n'existe} _{pas ou,} _{du moins, elle} _est _{invérifiable} _car _elle

impliquerait que l'usager sache parfaitement ce qu'il cherche au moment où il pose sa

questionet qu'il connaissepar avancela totalité des informations qui répondent àsaquestion. De la même _{manière, dans} _{[Pincemin,2001],} _{l'auteur démontre qu'il} _n'y _{a pas} _de résumé neutre: «le _{repérage des éléments significatifs dans} _un_texte, _comme _{l'évaluation de}

leur _importance, _{suppose un} _{point de} _vue, _{même implicite. On} _peut _néanmoins _distinguer deux niveaux de _{subjectivité.} _» _{(p. 155). Elle fait la distinction} _entre _le _résumé _« _{du côté du}

texte» et le résumé «côté utilisateur_», _termes _qu'elle _{propose comme} _{équivalents de}

«résumé d'ensemble» et «résumé focalisé _», _{que nous avons} _{déjà introduits} _et _expliqués

dans notre travail. Pour le _{premier niveau de subjectivité (résumé} _«_{du côté du} _texte_{»), le} résumé vise à rendre _compte _de _{l'ensemble du} _texte, _à _en _donner _une _image _{représentative,} même si c'est nécessairement avec un_{angle de} _vue_et _une_{perspective particulière. Le second}

(résumé « côté utilisateur ») introduit explicitement lecontexte de consultation dutexte :il se focalisesurles éléments dutexte en_rapport _{avec une}_autre _{entité circonstancielle (le profil de}

l'utilisateur, larequêtetraduisantsonbesoin d'information, etc.).

Grâce aux avancées _{technologiques dans} _{le domaine des systèmes de résumé}

automatique, le résumé est devenu du

texte1,

et non plus un texte. Les fonctionnalités de

1

Lerésumé_peutprendre laforme d'une image (carte, schéma, etc.), maiscettediscussionsortducadre denotre recherche.

(15)

navigation offertes aujourd'hui par l'informatique font que le résumé est vu comme

dépendant du texte dont il est issu : il s'agit de l'évolution du résumé rédigé vers le résumé

par extraction (sélection/élimination). Si le premier est, lui, légitimement un texte, qui

entretientun _rapport _{de réécriture vis-à-vis du} _texte _source, _le _deuxième _est _{« un} _artéfact, _un

curieux _{sous-produit de} _{forme linguistique} _{; pour} _garder _une _{intelligibilité textuelle, il faut}

préserverson ancrage autextesource »([Pincemin,2001],p. 154).

Nous retrouvons la même idée de _{présentation simultanée} _{du résumé} _produit _et _du document _source, _{dans le}_{but de résoudre le}_{problème éventuel de} _manque _de_contexte _d'une manière _{immédiate, dans} _{[Crispino,2004]. L'analyse des} _auteurs _se _base _sur _une _approche

dynamique : selon eux, lerésumé automatiqueneconstituepas untexteunique fixe mais « un

objet multidimensionnel composé d'informations jugées saillantes, fonction d'un profil de filtrage, de liens qui permettent une _{synchronisation automatique} avec le texte source et

d'opérations devisualisationetnavigation textuelles. » (p. 117).

Il convient aussi de_s'interroger_sur_{les conséquences d'une} _autre_{évolution technique} _:

le fait_que_le_texte _soit_{maintenant numérisé}_et_{qu'il soit présenté}_au _lecteur_{sur un} _{écran. Dans}

[Minel,2004b], l'auteur considère cette évolution comme une nouvelle mutation qui place le

lecteur devant de nouvelles _{possibilités} _qui _restent _{à exploiter.} _Les _lecteurs _n'ont _{plus la} même démarche envers le_texte, _{ni la}_même _définition_de_cet_objet. _C'est_justement _ce_type _de lecture à l'écran _qui _va _compenser _{certains défauts des systèmes} _{de résumé} _automatique

(SRA) par extraction (présentés dans la section 2.2), notamment le manque de cohésion et

cohérence _textuelles, _par _{des fonctionnalités} _comme _{le surlignage} _au _{fil du} _texte _ou l'utilisation de liens _{hypertextes. Ainsi,} _plutôt _que _{de construire des fragments textuels figés,} les recherches dans le domaine du résumé _{automatique s'orientent de plus} _en _plus _vers l'élaboration de_{logiciels qui guident}_ou_{suggèrent des}_parcours _{de lecture.}

5. Besoin des SRA

La rédaction d'un résumé est une activité _{complexe qui} _est _{communément du} _ressort des _{documentalistes, mais} _qui, _pour _des _{raisons économiques (rédiger} _un _{résumé prend du}

temps et, donc, coûte cher), est de moins en moins pratiquée.

À

titre d'exemple, pour une page source d'une dizaine de pages un résumeur professionnel, lorsqu'il est spécialiste du domaine, produit un résumé en une dizaine de minutes, mais il lui faut presque une heure

lorsque le domaine traité nerelèvepas desa compétence. Cette productivitéresteinsuffisante,

d'autant _plus _qu'elle _est _très _coûteuse. _C'est _pourquoi, _{la nécessité} _de _réaliser

(16)

Ledomaine du résumé _automatique_est_une _{application interdisciplinaire,} _se_trouvant_à l'intersection du traitement _{automatique du langage, documentation, statistiques, psychologie}

cognitive, intelligence artificielleetsciencesde l'information.

L'objectif du résumé automatique est de prendre une source d'information, d'en extraire du contenu et de _{présenter le} _contenu _{le plus important} _pour _{l'utilisateur dans} _une formecondenséeetd'une manière sensible auxbesoins de l'utilisateurou de_{l'application.}

(17)

Chapitre 2

Compréhension des différentes approches des SRA

Cette _{partie du mémoire} _se _veut une présentation des méthodes qui ont permis

d'automatiser l'activité résumanteetnon_{pas une} _{analyse exhaustive des systèmes développés} dans le cadre de ces _{approches. Le but recherché} _est _{de présenter les principales directions} prises dans le domaine de la conception de tels systèmes et non pas de détailler tous les aspects techniques de ce systèmes ; par conséquent, nous ne nous intéresserons pas aux formules _{représentant les différents} _{algorithmes de calcul (repérage, sélection} _et _extraction) des unités textuelles contenant les informations _{jugées pertinentes (en} _{fonction de certains} critères _{qui dépendent des}_différentes_approches).

Les SRA _s'appuient _sur _{deux méthodes d'élaboration de résumé} _: _{la méthode fondée} sur la _{compréhension du}_texte _{à résumer} _et _{la méthode} _par _{extraction. Il existe} _un _troisième

type de méthode, par apprentissage, qui, bien que sous-classe de la méthode par extraction,

est considérée comme une _{catégorie à} _part. _A _ces _trois _{catégories s'ajoute} _une _{quatrième, la} méthode par filtrage sémantique, qui dépasse la problématique du résumé automatique, mais qui seprésentecomme une solutionparrapportauxméthodes précédentes.

1. Méthodes fondées surla _{compréhension}

La _{figure 2 représente les étapes du} _processus _{d'élaboration d'un résumé du point de} vuedecetteméthode.

(18)

Cette _{approche considère l'activité résumante} _{comme une} _activité _{de compréhension,} celle-ci étant assimilée à une construction de _{représentations. La représentation du} _texte _à résumer est le résultat d'une _analyse _et _{la forme de} _cette _{représentation varie selon les}

approches. Ilpeuts'agir d'une représentation causale des événements dutexteoud'un graphe cohérent constitué par uneséquence ordonnée depropositions dutypeprédicat-argument(s).

Une fois la _{représentation du} _texte _construite, _un _{deuxième module procède à} _sa réduction au _moyen _{d'une série} _{d'opérations. Selon les modèles,} _ces _{opérations de} condensation se fondent surdes_{hypothèses différentes} _concernant_{l'importance des parties de}

la _{représentation} _retenues _pour _{le résumé} _{final. Parmi} _ces _opérations, _on _compte _les

macrorègles1,

quisont :

-élimination : une _proposition _ou _une _information qui n'est _pas nécessaire à l'interprétation des autres propositionsestéliminée ;

-généralisation : uneproposition estremplacéepar uneproposition plus générale;

-condensation : une _séquence de propositions _est remplacée _par _une proposition plus

englobante.

L'étape suivante consiste à engendrer un texte àpartir de la représentation résultante.

Cetexte estconsidérécommele résumé du texteinitial.

J-L. Minel _{([Minel,2003])} _met _en _{évidence les trois problèmes majeurs qui} _sont _à

l'origine des limites decette approche :

-l'approche par compréhension reste très liée à un domaine particulier nécessitant donc des_{représentations} _et _{des connaissances spécifiques à}_ce_domaine _;

-le deuxième _problème _est _{plus général} _et _concerne _{le traitement automatique du}

langage naturel ; construire une représentation sémantique d'un texte est un travail qui nécessite de _{développer des modèles} _{conceptuels, des} _ressources _{linguistiques} _et _{des outils}

informatiques qui, même si certains d'entre eux sont partiellement disponibles dans des

laboratoires de_{recherche, n'ont}_pas _{atteint la maturité}_{nécessaire à}_une _{industrialisation} _;

-enfin, la représentation sémantique qu'il convient de construire doit refléter les

relations _importantes _et _{celles qui le} _sont_moins, _entre _{les différentes parties} _d'un _texte. _Dans

cette _{approche, la notion d'importance} _est_{considérée du point de}_vue_{de l'auteur, alors qu'elle}

devrait être considérée du_{point de}_vue_{du lecteur du résumé.}

1

(19)

2. Méthodes parextraction

Comme_réponse auxlimites des systèmes fondés surles méthodespar compréhension, des _systèmes _fondés _sur _{des méthodes} _par _{extraction (« systèmes à base de connaissances}

linguistiques ») ont été développés, en évitant tout processus de construction de

représentationsetdegénération detexte. Cesméthodes connaissent ungrand intérêtparmi les chercheurs en résumé automatique _pour_la simple _et raisonnable constatation qu'un résumeur humain ne _peut _produire _un_{résumé consistant qu'en} faisant _un effort cognitif (fait _propre à l'homme) qu'un ordinateur ne saurait accomplir d'une manière parfaite. En effet, un ordinateur ne _peut _simuler _une _profonde _{analyse du} _texte _{à résumer} _en _s'appuyant _{sur une}

compréhension qui englobe de vastes connaissances générales doublées de connaissances

spécifiques àdes domainesmultiples.

À

partir de cette constatation, les chercheurs exploitant l'approche par extraction pensent fournir une réponse intermédiaire. Ils proposent des

systèmes qui, après l'analyse detextepardes moyens statistiques oulinguistiques oules deux

à la _fois, _déterminent _toutes _{les phrases importantes du}_texte _{à résumer} _pour_{pouvoir ensuite}

présenter à l'utilisateur un résumé en concaténant ces passages. Du point de vue de cette approche, pour résumer, il suffit d'extraire : il n'y a pas de génération de texte, le texte produit est un sous-ensemble du texte source. L'approche procède par extraction de phrases

complètes dutextesource,le résumé produitestdoncunextract, un fragmenttextuel.

Dans _{[Pincemin,200 1 ],} _l'auteur_met _en_évidence _{deux des} _aspects _qui _{différencient le} résumé par extraction des résumés rédigés traditionnels. Le premier aspect concerne le fait que le résumé par extraction reprend directement des passages du texte, il ne peut dons pas

comporter de reformulations synthétiques ; il garde le niveau de détail du texte sans

généraliser, sansprivilégier les désignations standard etmétatextuelles (alors qu'elles sont les

bienvenues dans le résumé _{documentaire),} _sans _{expliciter tel présupposé sous-jacent} _à

l'ensemble du texte. La deuxième différence se situe au niveau de la cohérence et de la

cohésion textuelles : le résumé construit par _{extraction contient des phrases cueillies} çà _et là

dans le texte source, phrases qui ne s'enchaînent pas naturellement. La lecture est chaotique,

ousinoninduit des effets desens _étrangers_au_texte _source. _{Il faudrait donc éviter de présenter} le résultat d'une extraction comme un _texte, _{puisque c'est}_pénalisant _{et trompeur} _{du point de}

vuede _{l'interprétation.}

Le _système_par _{extraction effectue}_une _chaîne _{de traitement (voir fig. 3)} _{: on}_part _d'un

texte, le système repère des unités textuelles pertinentes, sélectionne des unités et produit un résumé.

(20)

Constructionde la_{représentation} dutexte Génération du résumé Résum

Figure3 Extrairepourrésumer([Minel,2003],p.37)

Ces méthodes sont fondées sur l'hypothèse qu'il existe, dans _{tout texte,} des unités textuelles _{saillantes, les unités textuelles} _{considérées étant,} en général, la phrase, ou un ensemble de_{phrases liées} _entre_elles_par _{des liaisons discursives,} _{ou encore} _{le paragraphe. Le}

principe repose sur des algorithmes de repérage de ces unités textuelles. Dans les parties suivantesnousallons_présenter _{les plus représentatifs des}algorithmes utilisés_parles systèmes d'activité résumante existants.

2.1. _{Sélection d'unités textuelles par}_{calcul de}_score

Ce _type _{de méthode} _{consiste à calculer} _{un score} _S _pour _{chaque unité textuelle,} _en

général la phrase, puis àconserverlesunités dont lescoreest supérieur àun certain seuil, ouà

fixer un nombre absolu d'unités devant être gardées _en fonction d'un _pourcentage de

réduction. Lescorele_plus _courammentutilisé_est_unefonction de la fréquence du_motdans le

texte. Ilestissu des_techniques_{utilisées dans les sciences de l'information.}

Ce _score, _{appelé tf*idf,} _se _calcule, _pour _chaque _mot _M _du _texte _{à résumer,} _{de la} manière suivante :

Score_(M) ₌_Fiocai * Log (100 *N/Figiobai)

FiocaiestlafréquencedumotMdans letexteT ;

Figiobaiestla fréquence dumotMdans le corpus

de référence

;

Nestle nombre detextesdu_corpus_{de référence} _;

Un score estensuite attribué à_{chaque unité textuelle} _par_addition_des _scores_{de chacun} desmots contenus dans celle-ci :

(21)

Ce calcul _{nécessite, d'une part,} _la _{constitution d'un} _corpus _{de référence} _et, _d'autre

part, la constitution d'une liste de «mots

vides»1.

Il s'agit ainsi d'éviter qu'un mot,

nécessairement_{fréquent dans}_un_{texte, augmente}_le _score_{de l'unité textuelle qui le contient.} Ce _type _{de méthode} _{repose sur} _{l'hypothèse suivante} _: _l'importance _{d'une unité} textuelle estune fonction des élémentslexicaux qui la _{composent, moyennant}_un correctif lié

au domaine traité et aux _usages _{syntaxiques. En d'autres} _termes, _{les phrases qui contiennent} les mots les _plus _fréquents _sont _{considérées} _comme_{représentatives de la thématique} _du_texte. Ceci amène_plusieurs_remarques _(mises_en _évidence_{dans [Minel.,2003])} _:

-pratiques stylistiques en cours : il est remarquable, aussi bien dans les textes

techniques que dans les articles de presse, de constater que l'auteur n'utilisepresquejamais le même terme _{lexical pour} _désigner _un _même _réfèrent, _en _déployant _toutes _{les possibilités}

offertes parlarhétorique (utilisation desynonymes, dela métaphore, etc.) ;

-mode de calcul du score : son _principal _avantage _{réside dans le fait qu'un outil de}

découpage enmots, même frustre, suffitpour effectuer le calcul : les temps de traitementsont

donc excellents. _{Malheureusement,} _{les inconvénients} _sont _{nombreux. Si} _aucun _traitement

morpho-syntaxique n'est effectué, les cas d'ambiguïtés ne sontpas résolus. La solution serait

l'utilisation d'outils _{d'étiquetage}

_{morpho-syntaxique3,}

_mais _{cela rendrait le système}

dépendant des langues.

-traitement des groupes nominaux: ils ne seront pas traités en tant que syntagmes,

mais _décomposés _en _{éléments constitutifs,} _mots _{qui risquent de} _se _trouver _dans _{la liste des}

mots _vides, _car, _par _{ailleurs, ils} _peuvent _{faire partie de locutions prépositionnelles} _ou conjonctionnelles (par exemple, le groupenominal «effet de serre », où «effet »risque d'être considérécommemot _{vide, du fait faire}_{partie de la}_locution_{« en} _{effet »).}

1

J-L. _{Minel, dans} _{[Minel.,2003],}_p. _39, _considère _que_le _terme _«_mot_vide_»_est_{particulièrement}_{mal choisi, la} notion_{anglo-saxonne de}«stoplist» étantplus neutre. Il souligne aussi quecettenotion, issue des sciences de

l'information, n'a aucunejustificationlinguistique : les pronoms, parexemple, sont souvent considérés comme des motsvides dansces _{systèmes alors} _{que ce} _sont_souvent_des_marques _{anaphoriques qu'il conviendrait de lier} avecleur réfèrent.

2

Sa_{présence vient soit} _du_respect_des _règles _{syntaxiques (par exemple} _{l'article défini} _{« un » ou}_la _préposition

« de_{»), soit}_parce_{qu'il relève}_{du domaine}_traité_par_le_texte.

3

L'étiquetage morpho-syntaxique consiste à identifierla classe morpho-syntaxique qui est associée aux mots

dans leur contexte d'énonciation. Par _exemple,_une _phrase _comme _le_programme _{affiche les} _{résultats pourrait} être marquée de la façon suivante:Le[article défini masculin singulier] programme[nom commun masculin

singulier] ajfiche[verbe conjugué3epersonnesingulier indicatifprésent] desjarticle indéfini masculin pluriel] résultatsjnom commun masculinpluriel]. L'automatisation de ce type de marquage pose des difficultés non

négligeables liées à l'ambiguïté intrinsèque d'une fraction importante des mots de la langue. Ainsi, dans l'exemple précédent,programme pourrait, dans uncontexte différent, correspondre àune forme conjuguée du verbe programmer, affiche à un nom commun féminin singulier. En fait, quatre des cinq mots de la phrase d'exemplesontambiguspour cequiestdeleurdescriptionmorpho-syntaxique.

(22)

Enfin, le principal défaut de cette méthode, inhérent à l'hypothèse qui la sous-tend,

s'avère _{plus général} _: _{les résumé} _est, _{dans le meilleur des} _cas, _{constitué des phrases}

représentatives de la thématique du texte sans aucune possibilité de prendre en compte

d'autres «actes discursifs». Or, l'utilisateur d'un _{système d'activité résumante} _peut _être

intéressé pardes informations qui ne relèventpas directement de la thématique principale du

texte.

2.2. Sélectiond'unitéstextuelles baséesur uncalcul desimilarité

Cette _approche _repose _aussi _sur _la _{fréquence d'apparition des} _termes _{dans les}

documents, mais l'unité textuelle choisie pour l'extraction n'est plus la phrase, mais le paragraphe. Vu quele paragraphe offre plus de contexte quela phrase, c'est une solution qui

vise à_améliorer, _au_moins _{partiellement, les problèmes de lisibilité}_et_{de cohérence rencontrés} dans les résumés_produits_par_{extraction de phrases.}

L'approche a été développée par Salton et d'autres chercheurs collaborateurs ([Salton,1999])enutilisant des idées empruntées à la méthode de génération automatique de liens _{hypertexte, utilisée} _pour _{relier différentes unités informationnelles afin de faciliter la}

navigation d'un utilisateur dans la quantité colossale d'information disponiblesurInternet. Au

lieu de_{générer les liens traditionnels} _entre_{plusieurs documents (inter-documents), ils utilisent} les _{techniques de génération automatique de liens} _pour _{générer des liens intra-document,} c'est-à-dire des liens entre différentes _{paragraphes (ou phrases) d'un article.} _Une _carte _des relations textuelles _{text _{relationship map),} _contenant _les _paragraphes _et _les _liens

intra-document, permet de visualiser la structure du document et d'isoler les passages fonctionnellement_{homogènes, appelés} _segments_de _texte_{{text segments).}

La méthode consiste à _appliquer _un _{coefficient de similarité} _aux _{paragraphes d'un} document pour construire des résumés en calculant la similarité entre ces paragraphes (en

fonction de la couverture lexicale _{{vocabulary overlap), qui doit être supérieur} _au _seuil

correspondantauhasard).

Plusieurs_{stratégies de sélection des paragraphes} _sont_possibles:

-la_{première stratégie} _{(bushy path) consiste à rechercher le paragraphe qui possède le}

plus de liens de similarité avec les autres paragraphes, ce qui, d'après les concepteurs de la méthode, estun signe que ce paragraphe traite des principaux thèmes du texte. Ce processus

est _répété _sur _{les paragraphes} _restants_jusqu'à _{ce que} _{l'on obtienne} _un _résumé _{dont la taille}

n'excède pas unseuil déterminé.

-la deuxième _stratégie _{(depth-first path) vise à corriger} _un _{défaut de la stratégie}

(23)

texte, mais pas nécessairement liés entre eux, d'où le risque d'obtenir des résumés très peu cohérents. Pour améliorer la _cohérence, _le _principe _est _{donc de partir d'un paragraphe Pa, le}

premier ou encore celui qui possède le plus de connexions avec les autres paragraphes du

texte, ensuite de choisir leparagraphe PB qui possède le plus fort coefficient de similarité avec

Pa- Le processus de sélection est répété jusqu'à ce que l'on obtienne un résumé de longueur

voulue. Les résumés ainsi obtenus sont _{plus cohérents mais,} _en _{revanche, ils présentent} _un problème d'équilibrage : certains thèmes sont sur-représentés et certains autres aspects sont

pasdutoutou passuffisammentcouvertsparrapportautexte source.

-d'autres _stratégies _peuvent _{être construites} _en _{combinant les deux précédentes.} _Par

exemple (segmented bushy path), en segmentant le texte, c'est-à-dire en regroupant des paragraphes et en obligeant le système à extraire au moins un paragraphe dans chaque

segment.

J-L. Minel met en évidence deux _problèmes _soulevés _par _cette _approche

([Minel,2003],p.44) :

-le choix du _paragraphe _comme _{unités textuelles saillante devait, selon} _cette_méthode,

permettre de résoudre, par contournement, les difficultés liées à la cohérence des résumés produits, en faisant l'hypothèse qu'un paragraphe possède, par construction, une cohérence

thématique. Cependant, différents travaux sur la notion de paragraphe ont montré que le

découpage d'un texte en paragraphes obéissait à différents critères qui mélangent des règles

discursives, des contraintestypographiquesetdeschoix esthétiques.

-la notion de similarité _lexicale, comme critère de saillance, fondée sur un calcul de fréquence de formes, aumieux lemmatisées et sansprise encompte ni de la synonymie ni de

la_{coréférence,}_apparaît_{comme une}_{hypothèse beaucoup}_trop _forte.

2.3.Sélection d'unités textuelles baséesurle _{repérage d'expressions}_{prototypiques} L'approcheparexpressionsprototypiques

(eue-phrases)!

permetde prendre encompte

la manière dont l'auteur _{emploie certains éléments lexicaux} _et _{fait émerger des} _critères _autres

que ceux fondés uniquement surla fréquence des termes. Ainsi, certains mots ouexpressions du texte _peuvent _{indiquer l'importance des phrases, indépendamment de considérations}

purement fréquentielles. Parexemple, des expressions du type «notretravail », « cepapier»,

«la _{présente recherche}», etc., sont autant de marques discursives placées par l'auteur pour

présenter le thème de son article. De même, certaines expressions, en se référant à des

passages précédents, font office de liens structurels entre les différentes parties d'untexte et

peuvent donc être exploitées pour construire des résumés plus cohérents (par exemple, des

1

(24)

expressions du type«présenté précédemment», «énoncé au-dessus », etc.). Elles considèrent

également que la position des phrases dans un texte peut être également utilisée comme critère de sélection. Par _{exemple, les phrases d'introduction de la conclusion} _ou _de _certaines sectionsdutexte ontunecertaine_importance_par_rapport_{à d'autres phrases du}_texte.

L'originalité de ce type d'approche tient au fait qu'elle prend en compte des aspects purementlinguistiques totalement absents dans les approches uniquement quantitatives.

En_revanche, _son _{inconvénient}_{majeur réside dans le fait}_que _{l'importance donnée} _aux

phrases seréduit au calcul d'un score numérique. Aucunejustification n'est fourniequant au calcul des coefficients _d'importance _donnés _aux _{mots et} _aux _{expressions prototypiques} _et _la

quantification de l'importance par des nombres limite considérablement les possibilités de faire varier le contenu informatif de l'extrait final. Une autre difficulté est _{le fait que} _le systèmenepeutpas s'adapterauxbesoins spécifiques d'un utilisateur puisque celui-cinepeut

pas spécifier de critères de sélection surles expressions prototypiques (cette démarche postule l'existence d'un résumé_{prototypique).}

2.4. Sélection_par_construction_d'une_structure_pragmatique

Dansle cadrede cette _{approche, la sélection des unités textuelles} _composant_le_résumé

se fait sur la base d'une _{représentation pragmatique (appelée aussi} _«_rhétorique _» _ou

« _{argumentative} _{») préalablement construite du} _texte. _Cette _{représentation} _est _{construite à}

l'aide de certains marqueurs du discours et elle dénote lesrelations rhétoriques existant entre

les _{phrases (ou propositions) d'un même} _texte _: _{justification,} _cause, _{consécution, opposition,}

conséquence, confirmation, illustration, etc.

A titre _d'exemple, _nous _citons _{le système proposé} _par _Marcu _dans _ses _travaux

([Marcu,1997a], [Marcu,1997b], [Marcu, 1999]), essentiellement fondés sur la Rhetorical Structure

_Theory1

_(RST).

Marcu introduit la notion _{d'analyse rhétorique {rhetorical parsing), qu'il définit}

comme le _procès _{de transformation (mapping) des} _textes _{de langage naturel} _en _arbres

discursifs _{discourse _trees, _{obtenus après l'identification des unités textuelles} _composant _le

texte etdes relations _{rhétoriques élémentaires reliant} _ces _unités). _Le _résumé _est _construit _par sélection de _phrases _{dans l'arbre rhétorique construit}_: _{des noeuds} _sont _{extraits à partir de la} racinevers les _feuilles, _en_{fonction de la}_{longueur désirée. Plus le résumé doit être} _court, _plus

les nœudsextraits sont_{proches de la racine.}

1

Lathéorie est fondée autourde la notionde relation_{rhétorique (rhetorical relation)} _qui_est _la_{relation qui} _lie

deux unités textuelles _{disjointes, appelées}«nucleus» et «satellite». (Il ya quelques exceptions, parexemple,

les relations de_type _«_contraste_» _sont_{multinucléaires.)} _La_distinction_entre_nucleus_et_{satellite vient du} _constat

empirique que le nucleus exprime plus le but de l'auteur que le satellite et que le nucleus d'une relation

Évaluation de systèmes de résumé automatique dans le paradigme usager

HAL Id: dumas-01588307

https://dumas.ccsd.cnrs.fr/dumas-01588307

Évaluation de systèmes de résumé automatique dans le

paradigme usager

Verona Boian

To cite this version:

Université Charles-de-Gaulle

Lille 3

Spécialité Recherche

Sciences de l'Information

de la

Communication

Evaluation

de

systèmes

de

résumé automatique

dans le

paradigme

usager

Université Charles-de-Gaulle

Lille 3

Spécialité

Recherche

Sciences

de

l'Information

de la

Communication

Evaluation de

systèmes

de

résumé automatique

dans

le

paradigme

usager

Chapitre 1

Le

résumé

activité complexe

et

produit variable

2

Étapes

Chapitre

2

Compréhension des différentes approches des SRA

12

Chapitre 3

Évaluation

état de

l'art

27

29

32

35

38

46

49

51

Chapitre 4

Éléments

de mise

place

d'une expérimentation

52

53

56

Bibliographie

Chapitre 1

complexe

et

produit

variable

À

secondaire1,

anglo-saxonne1

Étapes

_systèmes

_de

_{résumé automatique}

_paradigme

_usager

_systèmes

_de

_{résumé automatique}

_paradigme

_usager

_Étapes

₂₉

₃₂

₃₅

₃₈

₄₆

₄₉

₅₁

₅₆

_À

_{anglo-saxonne1}

_Étapes

_{morpho-syntaxique3,}

_Theory1