Article pp.7-9 du Vol.46 n°3 (2005)

(1)

Préface

Trouver la réponse à des questions posées en langue naturelle est devenu un nouveau challenge pour améliorer l’accès à l’information. En effet, les systèmes de questions-réponses retournent une véritable réponse plutôt qu’une liste de documents et, de ce fait, ils requièrent de nouvelles capacités pour résoudre les problèmes cruciaux qui se posent alors.

La plupart des recherches en question-réponse proviennent des campagnes d’évaluation initiées par TREC (Text Retrieval Conferences) en 1999. La tâche question-réponse consistait, pour les systèmes, à proposer de courts passages de texte contenant la réponse à des questions factuelles portant sur tout domaine (e. g.

des questions dont la réponse tient en quelques mots). Au cours du temps la complexité de la tâche s’est accrue, avec la nécessité d’extraire la réponse exacte, de traiter des questions dont la réponse est constituée d’une liste et traiter diverses questions portant sur un événement cible, tout en maintenant sa forme initiale.

A la suite du succès remporté par TREC, deux autres campagnes, NTCIR (Evaluation of Information Access Technologies) et CLEF (Cross Language Evaluation Forum) ont proposé une tâche Question-Réponse (QR) pour d’autres langues que l’anglais, que ce soit en monolingue ou en translingue où les questions sont posées dans une langue et la réponse est recherchée dans des documents dans une autre langue. Alors que NTCIR traite des langues asiatiques, CLEF est principalement dédiée aux langues européennes. Au cours des années, la campagne QR à CLEF a vu s’accroître le nombre de participants et le nombre de langues traitées : QA@CLEF a commencé avec huit groupes et quatre langues en 2003 et gère aujourd’hui neuf langues et environ quarante groupes participants, ce qui montre un intérêt croissant en Europe envers cette thématique. De plus, différentes tâches pilotes sont proposées chaque année afin de permettre l’investigation de nouveaux aspects (e. g. l’évaluation des passages justificatifs des réponses fournies).

Par ailleurs, en dehors de l’atelier annuel de CLEF, le QR multilingue a fait l’objet du workshop MLQA à EACL 2006. Parmi les récentes évaluations de systèmes de QR, citons la campagne EQueR, qui a constitué la première évaluation sur le français.

Tandis que les campagnes d’évaluation offrent l’opportunité de mettre en place des forums permettant de développer les technologies en QR et de les comparer, plusieurs aspects de QR restant hors de leur portée ont été abordés par la communauté scientifique. Cela a été le cas pour le QR interactif (workshop à HLT- NAACL 2006), raisonnement et QR (le workshop KRAQ à IJCAI 2005), QR en

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(2)

8 TAL. Volume 46 – n° 3/2005

domaine restreint (workshops à ACL 2004 et AAAI 2005) et les relations entre résumé automatique et QR (workshops à ACL 2003 et COLING/ACL 2006).

Certains de ces aspects se retrouvent dans ce numéro spécial de TAL qui présente un éventail des travaux récents traitant de la recherche de réponses à des questions en domaine ouvert. La diversité des travaux est justifiée par le fait que trouver la réponse à une question fait appel à des stratégies de résolution différentes, mettant en œuvre de nombreux processus. Les systèmes développent classiquement une analyse des questions destinée à typer la réponse attendue, mais aussi à spécifier les informations qui vont ensuite permettre de trouver des passages pertinents et d’en extraire la réponse. Les passages sont généralement de la taille d’une phrase ou de quelques phrases. A cette fin, les approches proposées ont à tenir compte de la variation linguistique entre la formulation d’un besoin (la question) et la formulation de l’information qui y répond (le passage qui contient la réponse). Les variations sont de nature lexicale, syntaxique et sémantique. Les solutions mises en œuvre pour traiter ces phénomènes linguistiques relèvent soit d’une approche symbolique, fondée sur l’écriture de règles, par exemple pour l’analyse de phrase, le repérage d’entités nommées dans les documents ou l’extraction des réponses par des patrons, ou sur des processus numériques permettant d’évaluer la similarité entre une question et un passage ou de localiser la réponse dans le passage, correspondant alors plus classiquement aux approches développées en recherche d’information.

Les articles présents dans ce numéro spécial permettent de couvrir un grand nombre des problèmes posés en questions-réponses, ainsi que de montrer la diversité des approches existantes, tant pour la résolution de sous-tâches que pour la résolution du problème global.

Bouma et al., Gillard et al., Laurent et al. et Rosset et al. présentent des systèmes dans leur intégralité, mais en mettant l’accent sur des spécificités différentes, alors que les autres articles sont plutôt dédiés à l’étude d’un problème spécifique. Nous allons de ce fait les présenter sous l’angle de leurs spécificités.

– Utilisation de sources de connaissances diverses : Bouma et al. et Gillard et al.

s’appuient à la fois sur des bases de connaissances (i.e., des bases de réponses) préexistantes et sur une résolution en ligne de la question.

–- Systèmes temps réel : Laurent et al. et Rosset et al. intègrent cette contrainte puisqu’ils se positionnent tous deux dans un cadre applicatif de cette nature, et procèdent de ce fait à une indexation la plus complète et la plus fine possible des collections interrogées.

– Question-réponse interactif : Rosset et al. présente un système de question- réponse oral mené via un dialogue et van Schooten et al. étudie plus spécifiquement la nature des énoncés pouvant suivre une paire « question-réponse ».

– Mise en œuvre de nombreuses connaissances linguistiques : cela constitue l’une des caractéristiques forte des systèmes de Bouma et al. et Laurent et al.

(3)

Préface 9

– Apport de la syntaxe : Bouma et al. et Ligozat montrent l’apport de la syntaxe pour répondre à des questions. Dans Bouma et al., celle-ci intervient lors de différents processus (sélection de passages, extraction de réponse, construction de bases de réponses, etc.) et dans Ligozat lors de l’appariement question vs passage candidat par une mesure de distance syntaxique.

– Approche numérique : Gillard et al. montre la pertinence d’une mesure de densité pour sélectionner des passages et d’une mesure de compacité pour extraire la réponse.

– Formulation des réponses : Moriceau étudie plus spécifiquement une formulation coopérative des réponses, avec des réponses cohérentes et justifiées, et l’applique aux réponses de type numérique.

– Évaluation de l’intérêt d’un système de question-réponse : Laurent et al.

propose une comparaison des performances de son système par rapport à un moteur classique de recherche de documents qui tient compte du travail laissé à l’utilisateur.

Brigitte Grau groupe LIR, LIMSI-CNRS, Orsay & ENSIIE, Evry

Bernardo Magnini ITC-IRST, Trento

(4)

10 TAL. Volume 46 – n° 3/2005

RELECTEURS SPECIFIQUES DE CE NUMERO Patrice Bellot (LIA, Avignon)

Mohand Boughanem (IRIT, Toulouse) Claude de Loupy (Sinequa, Paris)

Olivier Ferret (CEA-LIST, Fontenay aux roses) Claire Gardent (Loria, Nancy)

Gabriel Illouz (LIMSI, Orsay) Guy Lapalme (RALI, Montreal)

Dominique Laurent (Synapse, Toulouse)

Jimmy Lin (University of Maryland, College Park) Diego Mollá Aliod (Macquarie University, Sydney) Laura Monceaux (LINA, Nantes)

Thierry Poibeau (LIPN, Villetaneuse) Isabelle Robba (LIMSI, Orsay) Sophie Rosset (LIMSI, Orsay)

Horacio Saggion (University of Sheffield)

Richard Sutcliffe (University of Essex, Colchester) Isabelle Tellier (GRAPPA, Lille)

Anne Vilnat (LIMSI, Orsay)