• Aucun résultat trouvé

coucher /kuSe/ 1 I vtr

6. Interrogation de la base documentaire

6.3. Mise en correspondance des réponses avec la question

6.3.2. Diminution de l'information de la requête

Au cours de notre examen d’un corpus de questions (cf. annexeB page 243) po-sées à TREC (en anglais), nous avons noté que souvent l’unité lexicale qui déter-mine l’objet de la question à l’intérieur de la requête est soit un hyponyme, soit un hypéronyme du terme qui sera réellement utilisé dans le texte. Nous avons si-gnalé que le dictionnaire EuroWordNet contient une taxinomie hyponymique pour un certain nombre d’unités lexicales, mais que nous n’avons pu mettre en œuvre son intégration dans la structure informationnelle (cf. section4.3.2 page 134).

Cedéfautdetaxinomiehyponymiquequipermettraitdeconstruireunlienentre ce terme catégorisant l’objet de la question et le terme qui constitue son pendant dans le texte empêche une mise en correspondance des structures information-nelles de la question et de fragments de textes qui devraient être identifiés comme des réponses candidates. C’est également dans la perspective de combler cette la-cune que nous avons imaginé la dépendance FOCUS qui a pour vocation d’identifier l’objet de la question.

En effet, nous exploitons ici l’identification de ce focus pour effectuer une di-minution de la contrainte lexicale dans la construction de la structure informa-tionnelle liée à la question. Ainsi, au même titre que l’interrogatif est éliminé des dépendances extraites de la question pour être remplacé, le cas échéant, par les traits sémantiques qui le caractérisent, l’unité lexicale correspondant au focus sera éliminée des dépendances dans lesquelles elle apparaît pour être remplacée par les traits sémantiques qui lui sont propres et qui constituent de ce fait une contrainte plus souple que l’apparition d’un lexème dans la structure informationnelle de la question.

Une fois cette opération effectuée, la méthode reste la même que pour la mise en correspondance des questions et des réponses avec des structures plates compa-tibles dans leur totalité. La procédure sélectionne d’abord des réponses candidates àpartirdesstructuresplates.Ensuite,ellevérifieleurcorrespondanceaveclastruc-ture hiérarchique au niveau des dépendances simples, puis éventuellement au ni-veau des dépendances disjonctives. Si la réponse n’est pas confirmée à ce stade du traitement, on peut de nouveau relâcher les contraintes sur la correspondance et donner un score de coïncidence à la réponse candidate en fonction du nombre de ses dépendances qui correspondent parfaitement avec celles de la question.

Il faut noter que les relâchements de contraintes sont paramétrables par l’utili-sateur, qui peut à sa guise demander l’un ou l’autre de ces assouplissements d’exi-gences et, dans le cas de l’attribution d’un score, fixer la mise en correspondance des structures à un certain niveau de confiance. Il est également possible d’appro-182

6.3. Correspondance entre question et réponses

fondir le relâchement sur la question en supprimant d’autres unités lexicales des dépendances où elles apparaissent pour les remplacer par des contraintes sur leurs traits sémantiques. Nous n’avons pas progressé plus avant dans cette direction qui intuitivementsuggèreunegénérationimportantedebruit,maisilestprobableque le nombre de réponses correctes identifiées par le système s’en ressentirait favo-rablement. Toutefois, le fait qu’aucune désambiguïsation sémantique ne soit ap-pliquée au niveau de la question autorise rapidement une très large augmentation des réponses candidates et sans doute des réponses jugées pertinentes, parfois à tort.

Une deuxième remarque concernant les capacités inexploitées de ce système porte sur la possibilité de placer des pondérations plus ou moins importantes sur les dépendances. En effet, toutes les dépendances syntaxiques ne possèdent pas le mêmepouvoir expressif,c’est-à-dire qu’elles n’expriment pasun sens avec lamême intensité. Nous avons d’ailleurs éliminé les dépendances fonctionnelles au motif qu’elles n’avaient de rôle que syntaxique, et non syntaxico-sémantique ou séman-tique. Il est donc possible, et même probable que certaines dépendances aient plus d’importance que d’autres dans la détermination de la validité d’une réponse can-didate. Ces pondérations pourraient être utilisées notamment dans l’exploitation du relâchement sur la correspondance. Nous n’avons pas testé cette fonctionnalité qui s’éloigne des méthodes linguistiques classiques mais présente un intérêt réel dans le cadre d’une application fonctionnelle.

Il aurait enfin été intéressant d’effectuer un traitement de la question entière-ment analogue à celui des docuentière-ments de la base textuelle, et de profiter à ce ni-veau également de l’enrichissement. Nous avons parlé déjà des inconvénients et des dangers de ce choix. Nous renouvelons nos réticences tout en déplorant de n’avoir pu réaliser d’essai réel en ce sens.

Avec les traitements appliqués aux requêtes, tantôt parallèles à ceux des docu-ment et tantôt très différents, puis avec la procédure de mise en correspondance de ces requêtes avec des fragments de textes susceptibles d’y apporter une réponse, nous avons non seulement établi une méthode permettant de valoriser l’informa-tion contenue dans la structure syntaxico-sémantique construite à partir de la base textuelle, mais nous avons également fourni un outil d’interrogation largement pa-ramétrable qui permet de répondre à des besoins très divers des utilisateurs. L’ap-plication de question-réponse en est une illustration, mais l’extraction d’informa-tion est également possible, et son interrogad’informa-tion au niveau du document permet de l’associer au filtrage de textes. Il nous reste à présent à évaluer les différents pro-cessus qui d’une part construisent la structure informationnelle et d’autre part se chargent de son interrogation plus ou moins stricte.

6. Interrogation des documents

6.4. Conclusion

Cette interrogation en langage naturel rend possible le questionnement du sys-tème comme on le ferait pour un être humain. Une analyse lexico-syntaxique sem-blable à celle qui a extrait l’information de la base documentaire permet de cons-truire la structure de base de la question et d’en identifier l’information. En par-ticulier, une grammaire spécifique autorise dans une certaine mesure la détermi-nation de l’objet de cette question (focus).

La réponse à la question posée consiste en un fragment de texte de la base do-cumentaire (principalement la phrase, mais des besoins différents peuvent y pré-férer le paragraphe ou le document) qui contient, originellement ou suite aux en-richissements, l’ensemble des éléments informatifs identifiés dans la question, y compris un type correspondant à l’objet de la question. Une réponse idéale permet d’apparier totalement la structure de la réponse à celle de la question. Cependant, la formulation de la question et celle de la réponse peuvent diverger à un point tel que l’enrichissement ne suffit pas pour établir une correspondance totale. Dès lors, un appariement dégradé de la réponse avec la question est possible.

Il reste maintenant à effectuer des tests en interrogeant une base documentaire sur une échelle suffisante pour pouvoir évaluer les points forts et les faiblesses de notre méthodologie.

7. Évaluation de la méthode