Bilan et perspectives - Du textuel au numérique : analyse et classification automatiques

J’ai toujours eu le sentiment qu’un titre pertinent, correspond au résumé maximal d’un texte. Il doit être court, porteur d’information et concis. Trouver un bon titre pour un texte est déjà quelque chose de complexe. La tâche de résumé automatique de textes a fait un chemin. Il est loin d’être fini. Les systèmes se heurtent au difficile problème de la compréhension du texte. Tant qu’on sera incapable de le résoudre, le résumé au-tomatique sera une simple approximation du résumé humain. Mais le résumé humain, lui, n’est pas facile à caractériser non plus. Une étude menée en collaboration avec le Laboratoire des Sciences de l’ ´Éducation à Grenoble (LSE)29 sur un nombre important de sujets (≈215) divisé en groupes de niveau éducatif différent (4éme, 3éme, 2éme, 1er, CAP et Master 2) a montré la non concordance entre les personnes³⁰. D’où la difficulté de l’évaluation. Cependant, les méthodes numériques (Cortex et Enertex) ont montré une bonne corrélation avec les sujets les plus aisés dans la production de résumés (c’est à dire les étudiants universitaires du Master). Une publication conjointe entre le LIA et le LSE est en cours de soumission à JADT’08. En plus, de nombreuses expériences montrent que les résumeurs professionnels n’ont même pas besoin de comprendre le texte. D’apres cette hypothèse, une machine peut toujours tenter de s’approcher de cette tâche. C’est justement cela que j’ai essayé de faire avec Cortex : pousser au maximum la démarche vers le tout numérique. Cortex est un résumeur de textes très performant.

29_{http://web.upmf-grenoble.fr/sciedu}

5.7. Bilan et perspectives

Cet algorithme permet de traiter de vastes corpus, relativement indépendamment de la langue, sans préparation, avec une certaine quantité de bruit, de manière dynamique et en un temps court. Plusieurs tests faits en comparaison avec des sujets humains ou d’autres méthodes de résumé automatique, ont montré que Cortex retrouve les seg-ments de texte les plus pertinents (indépendamment de la taille du texte et des théma-tiques abordées). On obtient ainsi un résumé balancé car la plupart des thèmes sont abordés dans le condensé final. Copernic Summarizer communique avec l’utilisateur en lui demandant des concepts à retenir dans le résume. Ceci est une approche intéres-sante qui sera explorée au chapitre suivant. L’algorithme de décision basé sur le vote de métriques est robuste, convergent, amplificateur et indépendant de l’ordre de pré-sentation des phrases. Nous pensons que l’ajout d’autres métriques (comme l’entropie résiduelle, la détection des changements d’entropie, maximum d’entropie) pourraient améliorer la qualité des condensés. En particulier, une nouvelle métrique de similarité, dérivée de l’énergie textuelle qui sera présentée au chapitre 8, s’avère déjà très inté-ressante. Un identificateur automatique de langues, à base d’uni-grammes de lettres a été incorporé au système. Il permet la detéction de l’anglais, l’espagnol, le français, l’allemand (et même le somali).

Maintenant parlons du rôle des poids des termes, ce qui a servi au modèle hybride linguistique-numérique. Les termes peuvent être pondérés par des mécanismes clas-siques de Tf.Idf, ou d’autres plus complexes, comme ceux d’un extracteur de termes. Un test exploratoire a été réalisé dans le cadre de résumés en espagnol dans le domaine spécialisé (médecine), en utilisant un extracteur de termes comme Yate. Il semblerait que cela aide à mieux repérer les phrases pertinentes, mais des tests supplémentaires devraient le confirmer (ou infirmer). La fusion de méthodes numériques avec une ap-proche linguistique a montré que cette voie est très intéressante car elle produit des résumés plus proches de ceux attendus par un utilisateur.

La réponse alors a la questionEt si la linguistique pouvait ... ? est oui. La linguistique ajoute une valeur de finesse aux méthodes numériques, et, on obtient comme sous-produit évident, des performances améliorées. Je montrerai l’utilisation d’autres mo-dules linguistiques en post-traitement au chapitre suivant et une combinaison symbo-lique-numérique pour le raffinement de requêtes au chapitre 7. La production de ré-sumés génériques est une tâche très importante en TAL, mais qui peut être plus in-téressante si les résumés sont personnalisés par les besoins de l’utilisateur. Je me suis intéressé à ce type de résumés, qui sont guidés par une thématique qui peut être précise ou floue. L’adaptation de Cortex à ces tâches fera l’objet des deux chapitres suivants.

Chapitre 6

Résumé guidé par une thématique

Rien ne résume un homme, pas même ses idées. Mourad Bourboune. Le Mont des genêts

Ce chapitre présente une approche pour le résumé automatique multi-documents guidé par une thématique (ou résumé personnalisé). On a étudié l’efficacité de combi-ner un système de résumé générique avec l’information venant d’un corpus en entier et celle des documents prise individuellement. Je présenterai Neo-Cortex, un système de résumé multi-documents basé sur le système Cortex introduit précédemment. Des ex-périences sur les données deDocument Understanding Conferences (DUC) 2005, 2006 et 2007 ont prouvé que Neo-Cortex est un système efficace, obtenant des bonnes perfor-mances sur la tâche principale de résumé multi-documents, guidé par une thématique. La combinaison de plusieurs systèmes de résumé automatique du LIA (développés par Benoît Favre, Laurent Guillard, Patrice Bellot, Frédéric Béchet, Marc El-Bèze, Flo-rian Boudin et moi-même) par un système de fusion, a montré des performances supé-rieures aux systèmes individuels. Je présenterai également une stratégie concernant la détection de l’information nouvelle (tâche pilote de DUC’07) avec une approche simple de maximisation/minimisation de cosinus, qui s’est révélée être très performante.

L’ensemble des travaux sur le résumé personnalisé a été réalisé, d’abord dans le cadre du Master recherche de Florian Boudin et puis dans sa thèse de doctorat, qui a été partiellement financée grâce aux FUNDP¹ (Belgique). Les résultats ont étés pu-bliés dans les conférences DUC’06 (Favre et al., 2006) et ’07 (Boudin et al., 2007) aux USA, CICling’07 à Mexico (Boudin et Torres-Moreno,2007a) et RANLP’07 en Bulgarie (Boudin et Torres-Moreno,2007b).

6.1 Etat de l’art

J’ai présenté les systèmes de résumé automatique par extraction de phrases au cha-pitre précédent. Les systèmes de résumé peuvent aussi être divisés dans deux catégo-ries : systèmes de résumé mono-document et multi-documents. Ces derniers peuvent être vus comme une fusion de sorties des systèmes mono-document. Les systèmes multi-documents agissant sur plusieurs textes ont une probabilité plus grande de pré-senter une information redondante et/ou contradictoire. Des travaux comparant les techniques d’anti-redondance (Newman et al., 2004) montrent qu’une mesure de si-milarité de type cosine entre phrases (Van Rijsbergen,1979) a des performances sem-blables à d’autres méthodes plus complexes telles que LSI (Deerwester et al., 1990). Pour l’élimination de la redondance, les recherches se sont focalisées sur la tempo-ralité des documents. Une méthode générale pour aborder les résumés basés sur la nouveauté, consiste à extraire les étiquettes temporelles (Mani et Wilson,2000) (dates, périodes écoulées, expressions temporelles,...) ou de construire automatiquement une chronologie à partir des documents (Swan et Allan,2000). Une dernière technique qui utilise la mesure bien connue de χ²(Manning et Schütze,1999) est employée pour ex-traire des mots et des phrases peu communes à partir des documents.

LesDocument Understanding Conferences (DUC)

Les premiers systèmes de résumé automatique multi-documents ont été développés dans les années 90 (McKeown et Radev, 1995). La plupart des travaux sur le résumé automatique appliquent des techniques statistiques aux unités linguistiques, telles que les termes, les phrases, etc. pour choisir, évaluer, classer et assembler ces unités selon leur pertinence (Mani et Mayburi,1999).

Les conférences DUC portant sur la tâche de résumé automatique sont organisées depuis 2001 par leNational Institute of Standards and Technology2 (NIST). La tâche principale de DUC consiste à traiter des questions complexes et réelles. Le type de réponse attendue ne peut pas être une entité simple (un nom, une date ou une quantité telle que classiquement défini dans les conférences TREC Question-Answering3). Le problème peut se poser comme ceci : étant donnée une thématique et un ensemble L avec D documents pertinents, la tâche consiste à générer un court résumé de 250 mots, cohérent et bien organisé et qui répondra à/aux questions de la thématique. Les thématiques sont composées de deux parties : le titre et une partie narrative (contenant les questions). Pour les conférences DUC les D=25 documents proviennent du corpus AQUAINT : articles d’Associated Press, New York Times (1998-2000) et Xinhua News Agency (1996-2000)4.

Comme on avait expliqué au chapitre 5, l’évaluation de la qualité des résumés

2_{http://www-nlpir.nist.gov/projects/duc} 3_{http://trec.nist.gov/data/qamain.html}

4Récemment la conférence DUC’07 a introduit une tâche plus complexe : l’évaluation de systèmes de résumé multi-documents, avec la détection de la nouveauté. Cette tâche sera abordée dans la section6.3.

Dans le document Du textuel au numérique : analyse et classification automatiques (Page 101-106)