Conclusion et travaux futur - Du textuel au numérique : analyse et classification automatiques

La participation à DUC’06 était une excellente occasion d’évaluer la flexibilité du système Cortex sur une tâche nouvelle et différente. J’ai présenté Neo-Cortex, un sys-tème de résumé automatique multi-documents basé sur le syssys-tème Cortex. Nos ex-périences sur DUC’06 ont montré que Neo-Cortex est un système efficace qui réalise de bonnes performances sur la tâche de résumé multi-documents guidé par une thé-matique. Le système est cependant, sensible à la segmentation de phrases : les scores ROUGE ont augmenté suivant la qualité de la segmentation. La capacité du système d’être indépendant de la langue est un atout. Dans DUC’06, LIA-Thales, fusion de cinq systèmes de résume, parmi lesquels Neo-Cortex, a obtenu des très bons résultats dans les évaluations automatiques (5ème dans SU4, 6ème dans ROUGE-2, 6ème dans BE et 6ème dans Pyramid) et une bonne performance dans les évaluations humaines (8ème dans le Resp-Overall) (Favre et al.,2006). Il faut approfondir l’étude des combinaisons des métriques afin d’améliorer la qualité des résumés. Nous pensons également uti-liser des techniques d’apprentissage afin de trouver automatiquement les paramètres optimaux α_i de la phrase à scorer. Pour DUC’07, nous avons adapté notre approche de 2006 avec de nouveaux systèmes dans le processus de fusion. Les résultats ont confirmé que la fusion apporte plus de stabilité et réduit le risque de sur-apprentissage. Un

pe-6.4. Conclusion et travaux futur

tit module de post-traitement basé sur des règles linguistiques simples a amélioré les résultats. Les travaux futurs incluent le paradigme de fusion et l’implémentation de la compression de phrases à la tâche de détection de la nouveauté. D’une manière plus générale, la détection de la nouveauté a besoin d’une évaluation spécifique de la re-dondance à partir de l’information déjà vue. À long terme, cela ouvre la voie sur l’éva-luation du résumé oral (thèse de Benoît Favre), qui est d’un grand intérêt pour le LIA.

Nous avons également participé à la tâche pilote de DUC’07, avec une approche simple qui évite la redondance. Elle sélectionne les phrases proches de la thématique, en négligeant l’information déjà connue. Puis, la nouvelle information est augmentée en ajoutant à la thématique les mots apparaissant seulement dans les nouveaux do-cuments. Ce système est très performant par rapport aux 24 participants. Les résul-tats de nos expériences précisent plusieurs questions et directions de recherche pour les travaux futurs. La détection de la nouveauté d’information dans les groupes de documents introduit trop de bruit dans les résumés. Si l’on considère seulement les phrases les plus pertinentes pour l’extraction de termes, on devrait augmenter les per-formances. Des applications dans un domaine spécialisé, la chimie organique (thèse de Florian Boudin), sont actuellement à l’étude. Ce système permettra aux utilisateurs de gagner du temps en ne proposant à lire que les nouveaux faits, en évitant les informa-tions déjà connues.

Chapitre 7

Applications au raffinement de

requêtes

Comprendre le sens d’un mot, c’est savoir quelles phrases il est possible de construire à partir de lui. Jean Cohen.

En 2006 Éric SanJuan et moi discutions des autres applications possibles, mis à part le résumé, de l’algorithme Cortex et sur sa possible combinaison avec un système sym-bolique ou linguistique. Cortex, censé être un extracteur de phrases, pouvait-il jouer un rôle dans cette tâche si éloignée de son domaine ? Soit un corpus de résumés (abstracts d’un journal, par exemple). Chaque abstract peut être vu comme la phrase d’un pseudo-document qui est le corpus en entier. Cortex pourrait être donc appliqué à extraire des phrases (donc des résumés) du corpus afin d’en trouver les plus pertinentes... les plus pertinentes par rapport à quoi ? à larequête d’un utilisateur évidemment. Dans ce cha-pitre, nous visons le classement de documents dans un domaine fortement technique dans le but de rapprocher ce classement à celui obtenu par une ontologie existante (structure de connaissances). Nous avons testé et combiné des modèles symboliques et vectoriels. L’approche symbolique s’appuie sur une analyse peu profonde et des relations linguistiques internes entre termes à plusieurs mots. L’approche vectorielle consiste à classer les documents avec différentes fonctions de classement s’étendant du tf.idf classique jusqu’aux fonctions de similarité plus élaborées du résumé automatique Cortex (c.f. chapitre5). Les résultats montrent que le classement obtenu par l’approche symbolique est plus performant que le modèle vectoriel sur la plupart des requêtes. Ce-pendant, le classement obtenu en combinant les deux approches surpasse largement les résultats obtenus séparément par les deux approches. L’ensemble des résultats de cette étude, réalisée conjointement avec Fidelia Ibekewe, Éric SanJuan et Patricia Velázquez a été publié dans le congrèsApplications of Natural Language to Data Bases, NLDB’07 (SanJuan et al.,2007).

7.1 Introduction

En dépit de l’énorme quantité d’études portant sur l’expansion de requêtes et la classification documentaire, ce sujet continue à attirer beaucoup d’attention. En effet, des études précédentes ont établi que les utilisateurs utilisent rarement les options de recherche avancée disponibles sur la plupart des moteurs de recherche ou dans les bases de données spécialisées. La longueur moyenne d’une requête est ≈ 1,8 mots (Ray et al., 1997). Ceci signifie que les termes de la requête sont souvent trop impré-cis. Dans les domaines techniques, on peut s’attendre à ce qu’une catégorie sémantique unique puisse être associée à chaque terme du domaine (une phrase nominale qui se réfère à un concept unique d’un domaine spécialisé). Quand une ontologie existe, le raffinement par des termes voisins sémantiquement proches consiste en une expansion des termes de la requête en utilisant les termes de sa même catégorie. Quand la requête est trop imprécise, ce processus de raffinement par les termes contigus sémantiquement proches permet de classer les documents. Ce classement est fait selon la fréquence de ces termes dans les titres ou les résumés disponibles des bases de données bibliogra-phiques. Nous visons le classement de documents dans un domaine technique afin de le rapprocher au classement obtenu par une ontologie. Le classement de référence est obtenu en raffinant les termes de la requête avec les termes dans la même catégorie sémantique dans l’ontologie. Dans ce contexte, un pré-requis est que les termes du do-maine dans le corpus de test soient précédemment annotés et assignés à une catégorie sémantique unique dans l’ontologie. Nous avons examiné deux approches de classe-ment, les méthodes symboliques et les modèles vectoriels, que nous essayerons avec l’objectif d’obtenir les classements les plus proches possibles du classement de réfé-rence mais sans employer les termes manuellement annotés ni la catégorie sémantique d’un terme dans l’ontologie.

Nous explorons les deux approches principales pour le raffinement de requêtes : l’approche du modèle vectoriel qui mesure la similaritétermes-document et une ap-proche symbolique basée sur les relations linguistiques extérieures entre les termes de la requête et les documents. Nous avons implanté le modèle vectoriel en utilisant le système Cortex, initialement conçu pour le résumé automatique (Torres-Moreno et al.,

2001,2002). L’approche symbolique du système TermWatch (SanJuan et Ibekwe-SanJuan,

2006) extrait les termes multi-mots, les lie par des relations morphologiques locales, lexicales, syntaxiques et sémantiques et regroupe les variantes de ces termes en consi-dérant ces relations. Étant donné un terme de la requête, ces regroupements sont utilisés pour classer les documents selon la proportion des termes partagés entre les regroupe-ments et les docuregroupe-ments qui contiennent également le terme de la requête. L’idée est de raffiner un terme de la requête avec les termes voisins sémantiquement les plus proches (semantic nearest neighbour (S-NN)). Finalement, dans une approche hybride, les re-lations de classement utilisées dans l’approche symbolique sont combinées aux diffé-rentes fonctions du modèle vectoriel afin de voir si ceci améliore les résultats obtenus par chaque modèle séparément. Ces méthodes ont été évaluées contre un classement de référence obtenu par classification de documents en utilisant des catégories séman-tiques à partir d’une taxonomie construite à la main associée au corpus de test. Comme

Dans le document Du textuel au numérique : analyse et classification automatiques (Page 119-124)