• Aucun résultat trouvé

coucher /kuSe/ 1 I vtr

5. Enrichissement des documents

5.4. Adjonction des synonymes

5.4.1. Enrichissement par synonymes simples

Dans un premier temps, nous avons développé une procédure élémentaire pour intégrer un synonyme simple à l’énoncé. Cette procédure consistait à dupliquer chaque dépendance impliquant le mot à enrichir pour ensuite remplacer ce mot par son synonyme dans chacune des dépendances ainsi générées. Chacune de ces nouvelles dépendances est alors indexée dans la structure syntaxico-sémantique et chaque enrichissement peut ainsi permettre de retrouver l’information originelle dans les documents.

L’exemple5.8 page suivanteillustre l’enrichissement synonymique du mot

fa-voriser dans une phrase où son quatrième sens (apporter de l’aide à une « notion abs-traite ») a été assigné par la désambiguïsation sémantique. Les synonymes

corres-pondant à ce quatrième sens sont privilégier, avantager et soutenir. Deux dépendan-9. Nous faisons la distinction entre « expression synonymique », c’est-à-dire un synonyme com-posé de plusieurs unités lexicales dont une au moins n’appartient pas à la même catégorie gramma-ticale que les autres, et « synonyme simple », qui correspond à une seule unité lexicale, même s’il peut s’agir d’un mot composé.

5.4. Adjonction des synonymes

Énoncé à enrichir :

« Son règne a favorisé la décadence de la vieille aristocra-tie. »

Synonymes de favoriser sous son sens numéro 4 : privilégier

avantager soutenir

Dépendances impliquant favoriser : SUBJ(favorisé,règne)

VARG[DIR](favorisé,décadence)

Dépendances générées par l'enrichissement : SUBJ(privilégier,règne) SUBJ(avantager,règne) SUBJ(soutenir,règne) VARG[DIR](privilégier,décadence) VARG[DIR](avantager,décadence) VARG[DIR](favoriser,décadence)

Figure 5.8. Enrichissement synonymique simple

ces seulement impliquent le lemme favoriser dans l’analyse syntaxique de l’énoncé. Étant donné qu’il y a trois synonymes de favoriser, ce sont donc six nouvelles dé-pendances qui sont créées, trois de chaque type dont l’argument correspondant à

favoriser est remplacé successivement par chaque synonyme.

Cette méthode se révèle efficace dans divers tests que nous avons effectués, mais elle présente deux inconvénients majeurs : elle ne fonctionne réellement que si un seul des arguments des dépendances est enrichi, et elle génère un nombre de dé-pendances qui croît non seulement à mesure que la liste des synonymes est plus longue pour chaque unité lexicale, mais aussi en proportion du nombre de dépen-dances qui impliquent chaque unité lexicale enrichie.

Nous présentons dans l’exemple5.9 page suivanteune illustration des critiques adresséesà la méthodeélémentaire d’enrichissement. Tout d’abord, pourune seule dépendance reliant favoriser et décadence, on obtient six dépendances différentes supplémentaires¹⁰, soit une par synonyme d’un argument. Ensuite, aucune des

5. Enrichissement des documents

Synonymes de décadence sous son sens numéro 1 : déclin

corruption déchéance

Dépendance impliquant favoriser et décadence : VARG[DIR](favorisé,décadence)

Dépendances correspondantes générées par l'enrichis-sement de décadence :

VARG[DIR](favorisé,déclin) VARG[DIR](favorisé,corruption) VARG[DIR](favorisé,déchéance)

Dépendances manquantes après enrichissement : VARG[DIR](privilégier,déclin) VARG[DIR](avantager,déclin) VARG[DIR](soutenir,déclin) VARG[DIR](privilégier,corruption) VARG[DIR](avantager,corruption) VARG[DIR](soutenir,corruption) VARG[DIR](privilégier,déchéance) VARG[DIR](avantager,déchéance) VARG[DIR](soutenir,déchéance)

Figure 5.9. Lacune de la méthode élémentaire d’enrichissement synonymique simple.

pendances ainsi générées ne permet de relier deux unités lexicales apportées par l’enrichissement synonymique, ce qui laisse dans le cas présent neuf dépendances possibles inexploitées. Le volume informationnel est donc important, mais l’infor-mation est toutefois insuffisante par rapport à ce qu’elle pourrait être.

Il s’agit dès lors d’ajouter une information synonymique à l’intérieur de chaque dépendance impliquant le mot à enrichir sans la dupliquer à chaque fois, pour dis-poser non seulement de l’ensemble des synonymes d’un mot dans une même dé-pendance, mais aussi pour permettre toutes les compositions d’arguments au sein de la dépendance. Une disjonction entre le mot à enrichir et chacun de ses syno-nymes à l’intérieur de la dépendance permettrait de réaliser ces compositions à travers une seule dépendance. Toutefois, le formalisme de XIP se pose ici comme 158

5.4. Adjonction des synonymes

obstacle principal à cette réalisation. En effet, il n’autorise pas d’alternative dans l’expression des arguments d’une dépendance.

Cependant, il est possible d’emmagasiner une dépendance contenant des argu-ments disjonctifs comme s’il s’agissait d’une expression correspondant au forma-lisme XIP. Le système de stockage et d’indexation des réalités extraites de la base textuelle ou apportées par l’enrichissement permet en effet de présenter une struc-ture à plat dans laquelle les différentes informations ne sont pas cataloguées les unes par rapport aux autres. Cette structure plate contient donc la dépendance, les mots qui en constituent les arguments et leurs enrichissements, mais rien ne détermine les rapports que ces différentes informations entretiennent les unes vis-à-vis des autres. En passant à un niveau inférieur – le niveau de la dépendance – il est possible de reconstituer l’ensemble des dépendances possibles seulement en cas de besoin lors de la phase de mise en correspondance de la question et des can-didats réponse¹¹.

VARG[DIR] privilégier corruption favoriser avantager déclin soutenir déchéance décadence

Figure 5.10. Structure plate contenant les données correspondant à la dépendance

enrichie.

Dans l’exemple5.10, on peut voir que la structure plate permet de détecter la pré-sence d’unités lexicales et de dépendances¹²dans un fragment de texte. Le fait de repérer les éléments recherchés dans la structure plate correspondant à une phrase déclenche une recherche au niveau de la dépendance. À ce niveau, c’est la dépen-dance disjonctive qui a été stockée (cf. figure5.11 page suivante). Son aspect formel permet de reconstituer aisément dans un format conforme à l’analyse de XIP tou-tes les dépendances correspondant aux compositions d’arguments proposés par l’énoncé original et ses enrichissements.

Avec cette présentation de l’enrichissement par synonymie, nous gardons un accès total à l’information que nous ajoutons à l’analyse textuelle simple sans aug-menter démesurément l’espace nécessaire à son stockage. Toutefois, une telle pro-11. Ce mécanisme sera explicité plus en détail au chapitre6 page 171qui est consacré à l’interro-gation des documents.

12. Par souci de clarté, nous n’avons indiqué que le nom de la dépendance et les unités lexicales. Dans la structure réelle, on trouve tous les traits qui y ont été associés et les autres informations recueillies lors de l’analyse de l’énoncé, ainsi que les indications permettant de reconstituer les dé-pendances.

5. Enrichissement des documents VARG[DIR] favoriser décadence OU OU privilégier corruption OU , OU avantager déclin OU OU soutenir déchéance

Figure 5.11. Présentation disjonctive d’une dépendance enrichie.

cédure ne peut fonctionner pour les enrichissements effectués au travers d’une ex-pression synonymique constituée de plusieurs unités lexicales.