• Aucun résultat trouvé

Ajout de sémantique dans le lexique morphologique

coucher /kuSe/ 1 I vtr

4. Ajustement des dictionnaires

4.3. Élargissement informationnel des ressources lexicales

4.3.1. Ajout de sémantique dans le lexique morphologique

Lorsque nous avons décrit la méthode de désambiguïsation sémantique (cf. sec-tion2.3 page 58) que nous avons choisie pour identifier la signification des élé-ments qui composent les textes à interroger, nous avons notamment décrit le fonc-tionnement des règles permettant la discrimination des sens des unités polysé-miques. Or si certaines de ces règles étaient lexicales, et donc fonctionnaient grâce à l’identification des mots qui constituent le contexte de l’unité à désambiguïser, il en est d’autres que nous appelions sémantiques, axées sur l’appartenance des lexè-mes du contexte à des groupes sémantiques, les classes d’AlethDic pour le français ou celles de WordNet pour l’anglais.

Pourpermettre à ce type de règles defonctionnerdans notre système également, qui n’exploite pas la ressource AlethDic, il est important de fournir au désambi-guïsateur sémantique l’information dont il a besoin sur la nature sémantique des mots à désambiguïser. Or l’étape d’analyse morphologique est la seule à effectuer une recherche dans un lexique sur l’ensemble du dictionnaire avant l’étape de dés-ambiguïsation sémantique. Il est donc logique d’exploiter cette phase lexicale pour distribuer l’information sémantique nécessaire.

L’information sémantique que nous devons apporter au lexique morphologique provient du dictionnaire Dubois. Il s’agit des domaines d’application (pour l’en-semble du lexique) et des classes sémantiques (pour les verbes uniquement). Le lexique morphologique ne distingue pas les différents sens des lexèmes. Il n’en a pas besoin, aucune différenciation sémantique ne s’effectuant à ce niveau d’ana-lyse. Chacune de ses entrées reçoit donc l’ensemble des étiquettes sémantiques correspondant au lemme de cette entrée. La distinction des sens et donc l’élimi-nation des étiquettes erronées interviendra lors de la phase de désambiguïsation sémantique.

4. Ajustement des dictionnaires

Pour illustrer l’adjonction de sémantique dans le lexique morphologique, nous avons présenté (cf. figure4.7 page suivante) la forme commence de l’exemple d’ana-lyse de NTM 2.2 page 43. Le lexique morphologique présentait cinq possibilités d’interprétations morphologiques de cette forme de mot. Or le dictionnaire Dubois comporte sept entrées de commencer qui présentent une combinaison différente domaine-classe. Chacune des analyses de commence est donc multipliée par sept, une par combinaison domaine-classe. Le lexique morphologique comporte donc maintenant 35 entrées, dans lesquelles les domaines sont signalés par un préfixe DOM_et les classes par un préfixe CLA_. À travers l’analyse morphologique de la forme commence par NTM (figure4.7 page suivante), on peut voir que l’information du lexique morphologique a été élargie et que les étiquettes morphologiques sont affectées à chacune des propositions d’analyse. Ces étiquettes sémantiques sont assignées à la forme de mot durant l’analyse morphologique jusqu’à la décision du système de désambiguïsation sémantique.

Il faut cependant remarquer que lorsque le vocabulaire du lexique morpholo-gique et celui du dictionnaire Dubois ne coïncident pas, aucun élargissement ne peut avoir lieu si le dictionnaire est plus étendu, mais aucun retrait ne peut se produire si le dictionnaire est lacunaire. De fait, lorsqu’un lemme du lexique est inconnu du Dubois ou que ses caractéristiques morphologiques sont différentes, aucun étiquetage sémantique n’est ajouté dans le lexique. À l’inverse, si un mot du

Dubois est absent dans le lexique, cette entrée du Dubois n’est pas ajoutée au lexique

malgré l’information morphologique présente dans le dictionnaire. En effet, cette opération d’insertion de nouvelles unités morpho-lexicales demande un important travail de reconstruction du transducteur qui constitue le lexique morphologique. Dans le cadre de cette recherche, il est irréaliste de s’engager dans une entreprise de cette ampleur, malgré l’intérêt que cela présente.

L’information sémantique liée aux domaines d’application et aux classes séman-tiques est exploitée dans le cadre d’un type de règles de désambiguïsation déjà connu et appliqué dans le système développé à XRCE (Xerox Research Centre Europe). Toutefois, au cours de notre examen des ressources lexicales dont nous disposons, nous avons signalé une autre information d’ordre syntaxico-sémanti-que qui pourrait donner lieu au développement d’un nouveau genre de contrainte contextuelle et donc d’un nouveau type de règles de désambiguïsation sémantique. Il s’agit des schémas syntaxiques de sous-catégorisation.

Sans présumer de l’intérêt de cette information dans la cadre de la discrimina-tion de l’accepdiscrimina-tion correcte d’un mot polysémique en contexte (le travail de sélec-tion du sens des mots et son importance dans notre démarche seront abordés plus loin dans la section5.3 page 141), le simple fait qu’elle ait retenu notre attention lors de l’examen du dictionnaire la rend susceptible d’être exploitée ultérieurement

4.3. Élargissement des dictionnaires

fonctionnaire fonctionnaire +InvGen+SG+DOM_ADM+human+Noun

commence commencer +avoir+parSN+IndP+SG+P1+DOM_TPS+CLA_X4a+Verb commence commencer +avoir+parSN+IndP+SG+P1+DOM_TPS+CLA_M4b+Verb commence commencer +avoir+parSN+IndP+SG+P1+DOM_TPS+CLA_X1a+Verb commence commencer +avoir+parSN+IndP+SG+P1+DOM_ENS+CLA_M2c+Verb commence commencer +avoir+parSN+IndP+SG+P1+DOM_VEH+CLA_L3a+Verb commence commencer +avoir+parSN+IndP+SG+P1+DOM_TEC+CLA_R3a+Verb commence commencer +avoir+parSN+IndP+SG+P1+DOM_PAT+CLA_M4b+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_TPS+CLA_X4a+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_TPS+CLA_M4b+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_TPS+CLA_X1a+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_ENS+CLA_M2c+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_VEH+CLA_L3a+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_TEC+CLA_R3a+Verb commence commencer +avoir+parSN+IndP+SG+P3+DOM_PAT+CLA_M4b+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_TPS+CLA_X4a+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_TPS+CLA_M4b+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_TPS+CLA_X1a+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_ENS+CLA_M2c+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_VEH+CLA_L3a+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_TEC+CLA_R3a+Verb commence commencer +avoir+parSN+Imp+SG+P2+DOM_PAT+CLA_M4b+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TPS+CLA_X4a+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TPS+CLA_M4b+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TPS+CLA_X1a+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_ENS+CLA_M2c+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_VEH+CLA_L3a+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TEC+CLA_R3a+Verb commence commencer +avoir+parSN+SubjP+SG+P1+DOM_PAT+CLA_M4b+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TPS+CLA_X4a+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TPS+CLA_M4b+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TPS+CLA_X1a+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_ENS+CLA_M2c+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_VEH+CLA_L3a+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TEC+CLA_R3a+Verb commence commencer +avoir+parSN+SubjP+SG+P3+DOM_PAT+CLA_M4b+Verb

Tableau 4.7. Exemple d’analyse de commence par le lexique morphologique après son

élargissement sémantique.

pour le traitement que nous avons à effectuer sur les documents. Nous avons dès lors décidé d’anticiper sur les besoins éventuels du traitement de la sémantique des lexèmes et d’intégrer l’information sémantique correspondant aux schémas de sous-catégorisation au lexique d’analyse morphologique.

4. Ajustement des dictionnaires

Cette information se présente sous la forme de trois catégories sémantiques, li-mitées aux seuls substantifs : humain, animal, inanimé. Leur implantation dans le lexique d’analyse morphologique est semblable à celle du précédent étiquetage sé-mantique et est effectuée en même temps que cet élargissement de l’information dans le transducteur. En effet, lors de chaque addition d’une information liée à un nom présent dans le Dubois, il suffit d’ajouter non pas une étiquette correspon-dant au domaine d’application du lexème dans le sens visé, mais deux étiquettes, la première correspondant à ce domaine, la seconde au trait sémantique. Dans le cadre des noms monosémiques, ces information sont donc simplement ajoutées, tandis que les entrées polysémiques multiplient, comme précédemment, chaque proposition d’analyse par le nombre d’acceptions existant pour cette entrée.

L’exemple4.7 page précédentemontre deux cas d’analyse morphologique, l’une d’un mot monosémique (fonctionnaire) et l’autre d’un mot polysémique (commence). Chacune des propositions d’analyse comporte les deux types d’information séman-tique prévus, c’est-à-dire la catégorie (humain) et le domaine (DOM_ADM) pour un nom, le domaine (DOM_TPS, DOM_ENS etc.) et la classe (CLA_X4a, CLA_M4b etc.) pour un verbe. Pour le nom monosémique, l’information sémantique a simple-ment été ajoutée à la proposition d’analyse. Pour le verbe polysémique, chaque proposition d’analyse a été reproduite autant de fois que ce verbe a de sens tout en recevant l’information sémantique d’un des sens.