• Aucun résultat trouvé

coucher /kuSe/ 1 I vtr

6. Interrogation de la base documentaire

6.2. Analyse de la question

L’apport d’une réponse à une question ne peut se faire qu’en mettant en corres-pondance une information partielle présente dans l’énoncé de la question avec une information complète concordante dans la base documentaire que l’on interroge. Il s’agit dès lors d’extraire cette information partielle de la question sous une forme qui correspond à celle sous laquelle nous avons conservé les données de base et les enrichissements de la base documentaire à interroger. C’est donc sur la base d’une analyse semblable que nous devons traiter les questions posées au système.

Cette analyse ne sera cependant pas la même que celle qui est à l’origine de la construction de la structure de la base documentaire. En effet, les enrichissements ayant déjà été effectués lors de l’analyse des documents, il n’est en principe pas né-cessaire de repasser par une telle procédure. De plus, le contexte de la question étant souvent bien plus restreint que celui d’un document réel, il est probable que les différentes méthodologies mises en œuvre au cours de notre approche ne pour-raient prétendre à un même niveau d’exactitude.

Or chacun des enrichissements que notre système d’analyse a permis d’effec-tuer sur la base documentaire est potentiellement générateur de bruit dès lors que le résultat d’une analyse, tronqué par la limite de l’information contextuelle, pré-sente des erreurs dans son interprétation. On se souviendra que c’est cette réserve quant à la richesse de l’information contextuelle de la requête qui nous a amené à considérer l’importance de l’enrichissement du document¹. Toutefois, l’analyse de l’énoncé de la requête requiert certaines des adaptations que nous avons ap-portées au lexique fourni à NTM ainsi qu’à la grammaire de XIP pour l’analyse du document, ainsi que d’autres particularités qui tiennent à la nature interrogative des requêtes présentées au système.

6.2.1. Traitements communs aux documents et à la question

Les traitements qui sont communs au traitement des documents de la base et à l’énoncé des questions proposées au système sont bien entendu l’analyse morpho-syntaxique de NTM-XIP, qui permet d’obtenir une réelle cohérence entre les traits morphologiques et syntaxiques extraits de la question et des fragments de textes, ainsi qu’entre les dépendances générées. Comme pour l’analyse des documents, certains de ces traits et de ces dépendances ne sont pas pris en compte : la catégo-1. Malgré cela, il ne nous paraît pas dénué d’intérêt de tenter l’interrogation de la base documen-taire enrichie au moyen de requêtes enrichies elles aussi. Nous comptions faire cette expérience au cours de l’évaluation du système au chapitre suivant et étudier l’impact que cela peut avoir sur les résultats, mais le temps nous a manqué pour mettre au point cette expérience.

6.2. Analyse de la question

rie grammaticale mise à part, les indications morphologiques ne sont pas prises en considération ; les relations que nous avons appelées « fonctionnelles » (cf. sec-tion5.3.1 page 143) sont également éliminées².

Certains des traitements appliqués aux questions posées au système sont donc les mêmes que ceux qui ont été utilisés pour les documents. Dès lors, nous ne nous attarderons pas à en décrire le fonctionnement, mais nous justifierons une nou-velle utilisation de ces méthodes.

Tout d’abord, nous soumettons les questions à l’analyse morpho-syntaxique de

NTM-XIP afin de disposer d’informations morphologiques et syntaxiques

cohé-rentes avec celles qui ont été indexées dans la structure syntaxico-sémantique de la base documentaire. De même qu’au cours de l’analyse des documents, nous ne conservons de l’information morphologique que des données relatives à la catégo-rie grammaticale des lexèmes.

Pareillement, les unités lexicales ne seront conservées que dans la mesure où elles apparaissent comme arguments de dépendances syntaxiques calculées par

XIP. Et bien entendu, il est naturel de ne pas conserver les dépendances

syntaxi-ques fonctionnelles qui ne peuvent correspondre à aucune des réalités emmagasi-nées dans la structure, puisqu’elles ont été rejetées lors de l’analyse des documents. De plus, les lexiques utilisés pour effectuer cette analyse sont identiques à ceux qui ont été exploités lors de la construction de la structure documentaire. De ce fait, les traits sémantiques reprenant les domaines d’utilisation, les classes séman-tiques et les catégories sémanséman-tiques, dont nous avons enrichi le lexique morpholo-gique (cf. section4.2.2 page 118), seront assignées aux éléments extraits de l’énoncé de la requête lors de son analyse. Cette assignation de traits permettra, dans une certaine mesure, d’effectuer un typage de l’objet de la question.

C’est à ce stade de l’analyse de la requête que le traitement commence à diverger de celui qui a été appliqué aux textes de la base documentaire. En effet, les autres traitements concernent purement l’enrichissement de l’énoncé, que nous avons renoncé à appliquer à un texte aussi court qu’une question. Il est toutefois impor-tant d’indiquer que dès ce niveau d’analyse, on dispose du squelette de la phrase sur lequel est construit toute la méthodologie d’enrichissement et de construction de la structure syntaxico-sémantique de la base textuelle.

2. Même s’il est possible de conserver ces relations fonctionnelles tant dans la structure infor-mationnelle que dans l’analyse de la question, en débrayant la fonction d’élimination.

6. Interrogation des documents

6.2.2. Divergences dans la méthode d'analyse

La première des libertés que prend le traitement de la requête par rapport à celui des documents réside dans un apport que nous avons fait à la grammaire et qui permet d’identifier l’objet de la question dans une certaine mesure – ou en tout cas de le catégoriser. En effet, pour pouvoir apporter une réponse à la question posée au système, il importe d’identifier le plus précisément possible les caractéristiques attachées à l’élément capable d’y répondre.

Apport lexical

Or comme les unités lexicales – pronoms, adjectifs ou adverbes – permettant d’introduire une interrogation n’existent qu’en nombre limité, et que leur nature permet de catégoriser souvent la réponse qu’ils attendent, nous avons ajouté à la grammaire du français de XIP plusieurs règles lexicales qui permettent d’attacher des traits sémantiques aux interrogatifs et ainsi de fixer certaines contraintes sur les réponses candidates fournies par le système.

Nous aurons par exemple un trait humain qui s’attachera au pronom interroga-tif qui, des traits de temps ou de lieu qui marqueront respectivement les adverbes interrogatifs quand et où³. Par contre, certaines unités lexicales interrogatives ne peuvent être catégorisées de cette manière. Ainsi, que ou quoi ne peuvent recevoir systématiquement de trait sémantique⁴, et les traits portant sur les adjectifs inter-rogatifs sont susceptibles de varier en fonction du lexème qu’ils qualifient.

Nous avons donc réalisé autant que possible des règles lexicales XIP attribuant certains traits sémantiques aux interrogatifs suffisamment typés pour recevoir une telle affectation. Il a toutefois fallu trouver un autre procédé pour permettre la catégorisation de l’objet des questions dont l’interrogatif ne permet pas une telle détermination.

Une identification syntaxique : le FOCUS

Le focus d’une question est une notion introduite parLehnert(1979). Il corres-pond dans cet ouvrage à un concept présent dans la question qui englobe l’infor-3. On se souviendra que cette application ne permet pas de demander au système de porter des jugements. Dès lors, les interrogations introduites par pourquoi et comment ne sont pas permises. En effet, de nombreuses questions introduites par ces interrogatifs appellent un jugement. La créa-tion d’un module permettant de déterminer si la quescréa-tion appelle un jugement ou non requerrait un temps dont nous ne disposions pas, et de plus ajoutait une procédure à tester au cours de l’évaluation qui n’appartenait pas à notre recherche.

4. Tout au plus peut-on inhiber pour ces interrogatifs le trait humain.

6.2. Analyse de la question

mation attendue en réponse à cette question. Largement reprise et redéfinie par la suite, elle est pourFerret et al.(2002b) un mot ou un groupe nominal de la question qui représente le concept sur lequel une information est demandée par la ques-tion, et qui se trouve habituellement dans la réponse. De notre point de vue, le

fo-cus correspond à l’objet de la question. Il s’agit d’une unité lexicale qui détermine

à l’intérieur de la question les caractéristiques sémantiques de ce que doit être la réponse. De plus, sa fonction syntaxique dans la question n’est pas quelconque : le focus entretient avec l’interrogatif une relation privilégiée quand il n’est pas lui-même l’interrogatif⁵.

Nous avons donc créé un nouveau type de dépendance qui ne correspond à au-cune relation syntaxique traditionnelle, mais prend en argument l’objet de la ques-tion. Ainsi, si c’est un adjectif qui introduit la requête et est porteur de sa fonction interrogative, l’unité lexicale dont il est épithète sera l’argument de cette dépen-dance, que nous avons appelée FOCUS. Par contre, lorsque c’est un pronom qui in-troduit la question, deux possibilités se présentent : si ce pronom est le sujet d’un verbe copule, le FOCUS portera sur son attribut ; dans le cas contraire, c’est le pro-nom interrogatif lui-même qui sera l’argument du FOCUS (cf. figure6.1).

FOCUS sur le nom dont l'interrogatif est épithète :

Quelle ville devint capitale de l’Empire Romain en 402 ? FOCUS(ville)

FOCUS sur l'attribut de l'interrogatif : Qui était le beau-père de Galère ? FOCUS(beau-père)

FOCUS sur l'interrogatif :

Contre qui Constant Ier lutta-t-il ? FOCUS(qui)

Figure 6.1. Exemples des différents types de dépendance FOCUS.

Bien qu’elle n’apparaisse pas dans la structure de la base documentaire, cette dépendance est pourtant très importante pour le bon fonctionnement de la pro-cédure d’interrogation. En effet, quoiqu’un certain typage de la réponse attendue soit possible d’un point de vue lexical grâce aux lexèmes interrogatifs qui n’existent qu’en nombre limité (cf. supra), la plupart des interrogations ne sont réellement catégorisées qu’à la faveur du contenu de la question, et notamment le contexte 5. Nous distinguons dans la typographie le FOCUS, qui est la dépendance extraite pas la gram-maire de XIP, et focus, qui est l’objet de la question.

6. Interrogation des documents

syntaxique immédiat de l’interrogatif qui introduit cette question. La dépendance FOCUSa pour mission d’identifier l’unité lexicale qui constitue dans la question la plus grande détermination relative à la réponse.

6.2.3. Exploitation des particularités de l'analyse des questions

Malgré les travaux effectués sur le typage de l’objet de la question, que ce soit au niveau lexical par détermination du type demandé par l’interrogatif introducteur de la requête ou du point de vue syntaxique avec l’unité lexicale constituant un contexte déterminant de l’interrogatif, encore faut-il être à même d’exploiter les informations que l’ensemble de cette analyse fournit. Or pour faire correspondre l’information que nous avons ainsi extraite de la question avec celle qui est conte-nue dans la structure syntaxico-sémantique de la base documentaire, la forme de cette information doit être compatible.

Le premier motif d’incompatibilité apparaît dans la présence d’un interrogatif dans les arguments des dépendances qui constituent le squelette de l’information extraite de la requête. Il est en effet bien rare que, dans une base textuelle élaborée pour contenir de l’information comme l’est l’ensemble des textes constitutifs d’une encyclopédie, on trouve des énoncés interrogatifs. Les unités interrogatives sont donc peu fréquentes et cette carence rend la plupart des dépendances des ques-tions où intervient un interrogatif caduques pour leur mise en correspondance avec la base textuelle.

Pour éliminer ce désaccord entre les deux structures informationnelles, nous avons systématiquement supprimé l’unité lexicale interrogative, tout en mainte-nant le cas échéant les contraintes sémantiques qui lui étaient liées depuis l’appli-cation des règles lexicales XIP. Ainsi, une dépendance semblable mais présentant pour ce même argument n’importe quel lemme sera mise en correspondance avec la dépendance extraite de la question, à condition que ce lemme possède les mêmes traits sémantiques que l’interrogatif.

On peut voir dans l’exemple6.2 page suivanteque la structure informationnelle de la question ne peut pas s’apparier directement à celle de la réponse. La sup-pression de l’interrogatif est nécessaire car il n’est pas présent dans la réponse. Si l’identification du focus permet de catégoriser l’objet de la question et de rem-placer l’unité lexicale qui est l’argument de cette dépendance (Qui) par sa catégorie sémantique (humain), il faut ensuite éliminer la dépendance FOCUS. Nous avons indiqué en caractères gras dans l’exemple les éléments de la structure informa-tionnelle de la question qui sont maintenus après le traitement particulier de la question et permettent d’apparier la réponse avec la question.

6.2. Analyse de la question

Qui persécutait les chrétiens ? (1)

(…) le monarque Châhpuhr II qui persécutait les chrétiens (…) (2)

Structure de (1)

SUBJ(pers �ecutait, Qui[humain :+]) VARG[DIR](pers �ecutait, chr �etiens)

Structure de (2)

SUBJ[REL](pers �ecutait, monarque[humain :+]) VARG[DIR](pers �ecutait, chr �etiens)

Figure 6.2. Mise en correspondance d’une question avec une réponse candidate.

Malgré cette suppression des interrogatifs, l’information extraite des requêtes n’est pas pleinement exploitable en l’état. En effet, le FOCUS est une dépendance quin’apparaît qu’au cours de l’analyse des requêtes. Or, dece fait, cette dépendance ne peut contribuer à une mise en correspondance de l’information de la question et celle des textes de la base documentaire. Et pourtant la catégorisation de l’objet de la réponse que cette dépendance effectue est capitale pour pouvoir apporter une réponse.

De la même manière que les règles lexicales liées aux interrogatifs apportent une catégorisation de la réponse attendue par les requêtes, la dépendance FOCUS est en mesure de fournir une information sémantique liée à l’objet de la réponse. Lorsque l’argument du focus est l’interrogatif lui-même, la dépendance fait double emploi, puisque ce sont les traits fournis par les règles lexicales qui sont appliquées pour assigner des traits sémantiques à l’interrogatif. Cette dépendance FOCUS est donc rejetée sans autre traitement.

Par contre, lorsqu’il s’agit d’une autre unité lexicale, ce sont les traits de ce mot quisontmaintenuscommeconditionàl’applicationdelarègle.Toutefois,lelemme correspondant à ce lexème et son numéro de sens sont eux-mêmes des informa-tions qui catégorisent la réponse attendue par la question. Ils sont donc maintenus eux aussi, mais nous y adjoignons un trait objetQuestion⁶, qui apparaîtra dans toutes les dépendances impliquant cette unité lexicale comme argument. Ce trait a pour fonction de signaler que l’unité lexicale qui la porte a été considéré comme le

focus de la question. Nous verrons dans la section consacrée à la mise en

correspon-dance de la question et des réponses candidates de quelle manière nous pourrons 6. Ce trait ne possède pas de valeur intrinsèque, il est uniquement utilisé de manière fonction-nelle, pratique, pour signaler que l’unité lexicale qui le porte correspond au focus.

6. Interrogation des documents

l’utiliser. Quant à la dépendance FOCUS, elle sera simplement éliminée une fois ces traitements effectués sur les autres dépendances.

Nous avons à présent extrait une importante information de la question posée au système, et nous l’avons manipulée de manière à ce qu’elle puisse être mise en correspondanceaveccellequiestcontenuedanslastructuresyntaxico-sémantique que nous voulons interroger. Il nous reste à décrire de quelle manière nous allons opérer pour apparier les réponses candidates et les questions.