• Aucun résultat trouvé

Intégration d'une taxinomie sémantique hiérarchique

coucher /kuSe/ 1 I vtr

4. Ajustement des dictionnaires

4.3. Élargissement informationnel des ressources lexicales

4.3.2. Intégration d'une taxinomie sémantique hiérarchique

La mise en correspondance de requêtes avec les éléments textuels susceptibles d’y apporter une réponse n’est pas une opération triviale. Nous avons signalé déjà plusieurs techniques qui concourent à ce but, et il en existe d’autres. Une de ces techniques consiste à généraliser les unités lexicales qui constituent la requête en une forme sémantique plus ou moins abstraite et de faire de même avec les lexèmes qui forment les segments de texte candidats à y apporter une réponse (Voorhees,

1993;Vossen,1997). Dès lors, si les formes sémantiques abstraites des éléments constitutifs de la requête et du texte coïncident, il est probable qu’ils désignent une même réalité, ou du moins une réalité semblable. Ainsi, les mots fille et enfant ne correspondent pas sur le plan lexical, mais la généralisation de ces lexèmes au travers du domaine d’application du dictionnaire Dubois fournit l’information PAR pour parenté.

Une généralisation peut donc être réalisée au travers de l’information séman-tique du Dubois, le domaine d’application pour l’ensemble du lexique, la classe sé-mantique pour la catégorie verbale uniquement. Toutefois, ces domaines corres-pondent à une structure plate et ne sont pas hiérarchisés entre eux. Par exemple, 134

4.3. Élargissement des dictionnaires

pour les domaines ROM (antiquité romaine) et GRE (antiquité grecque), aucun domaine ANT(antiquité) n’existe qui regroupe les deux autres. Il faut dès lors se contenter d’un seul niveau de généralisation dont la granularité est définie par la ressource utilisée.

Or certaines ressources lexicales que nous avons précédemment mentionnées disposentd’informationssémantiquescomposéesenclasseshiérarchisées,quiper-mettent de faire varier le niveau de généralisation en l’augmentant ou en le dimi-nuant par une navigation verticale entre les différents niveaux hiérarchiques. Ces ressources sont EuroWordNet français et AlethDic. Les importantes lacunes, notam-ment verbales, et les particularités lexicales du dictionnaire AlethDic ont justifié précédemment son élimination, mais EuroWordNet, quoique son étendue lexicale soit restreinte, peut sur une grande partie du lexique fournir ses indications hié-rachiques importantes, tant dans la taxinomie hypéronymique que dans la taxino-mie méronymique.

L’intégration de la structure sémantique à notre système pose toutefois certains problèmes. Tout d’abord, les entrées lexicales de EuroWordNet ne sont pas décou-pées en acceptions, mais la détermination de leurs différents sens n’a de réalité que dans la mesure où un même lexème peut appartenir à différents ensembles synonymiques (synsets), chacun de ces ensembles représentant une signification particulière du lexème. La hiérarchisation sémantique de EuroWordNet s’appuie d’ailleurs sur ces ensembles synonymiques qu’elle classifie et structure, plutôt que sur les unités lexicales. D’autre part, la limitation du lexique couvert par

EuroWord-Net, que nous avons signalée dans la section qui lui est consacrée (cf. section3.4.3 page 104), ne peut à l’évidence autoriser une généralisation que dans le nombre de cas, forcément limité, où les unités lexicales traitées dans les énoncés appar-tiennent au vocabulaire de la ressource.

Le problème de la répartition des différentes acceptions pour chaque lexème représenté s’apparente aux difficultés que nous avons rencontrées lors de la dis-tribution des synonymes aux différentes acceptions d’un même mot. Dans le cas présent, les incompatibilités toujours affichées dans la subdivision sémantique de deux ressources lexicales s’y ajoutent, car lors de la distribution des synonymes proposésparEuroWordNet pourunlexèmedonné,nousn’avonstenuaucuncompte des ensembles synonymiques qui forment la structure sémantique interne du ré-seau sémantique. Nous avons en effet pris le parti de respecter les choix du diction-naire Dubois, car c’est essentiellement sa structure qui nous permet d’atteindre des informations adaptées au contexte dès lors que la désambiguïsation sémantique est effectuée.

Dans le cas présent, nous proposons de choisir comme arbre taxinomique celui dans lequel ce lexème apparaît comme un nœud et où son nœud-mère présente

4. Ajustement des dictionnaires

avec le lexème les mêmes similitudes que celles que nous avons notées pour la dis-tribution des synonymes. Les unités lexicales désignées par un nœud-mère doivent dès lors, si elles ne sont pas verbales, posséder le même domaine du Dubois que leur nœud-fille, et s’il s’agit d’unités verbales, elles doivent appartenir aux mêmes classe et sous-classe sémantiques que leur nœud-fille, ou posséder le même domaine et la même classe sémantique. Cette procédure est valable pour les deux types de taxi-nomies présents dans la ressource EuroWordNet.

Le temps nous a manqué pour réaliser ne serait-ce que le filtrage des arbres taxi-nomiques pour élargir à une structure hiérarchique l’information lexicale destinée à enrichir le texte. Dès lors, nous n’avons pas pu tester la validité de la méthode de choix des arbres taxinomiques, ni mettre en œuvre cette méthode. À plus forte rai-son nous n’avons pu réaliser la procédure de généralisation des termes que ce soit dans le corps des documents ou dans les requêtes proposées au système.

4.4. Conclusion

Face à l’information riche et variée, mais disparate voire contradictoire de plu-sieurs ressources lexicales, nous avons dû étudier les possibilités d’exploiter ces données tout en conservant un niveau de compatibilité acceptable entre elles. Nous avons dès lors mis en œuvre des méthodes automatiques qui permettent, à partir d’un dictionnaire, de verser dans un autre un type de données qui en est absent en s’appuyant sur des indications communes aux deux ressources.

Nous avons donc pu constituer des ensembles synonymiques plus importants sans perdre la spécificité de la synonymie propre à une acception plutôt qu’à une entrée. Nous avons également constitué des champs dérivationnels qui correspon-dent aux lemmes qui le permettent, pour lesquels nous avons également dû cons-truire manuellement des schémas de correspondance syntaxique. Nous avons en-core permis d’attribuer aux unités lexicales des traits et classes sémantiques et des domaines d’application lors de l’utilisation du lexique morphologique. Enfin, et sans avoir pu réaliser cette opération, nous avons étudié l’opportunité d’exploiter d’autres relations sémantiques à partir de dictionnaires adaptés.

Les modifications et corrections apportées aux ressources lexicales tant pour l’analyse textuelle que pour l’enrichissement des énoncés permettent maintenant d’aborder les traitements des documents avec des outils et des dictionnaires ca-pables de subvenir aux besoins de la tâche. Le chapitre suivant s’y consacre.