• Aucun résultat trouvé

coucher /kuSe/ 1 I vtr

4. Ajustement des dictionnaires

4.2. Correction de ressources

4.2.1. Distribution sémantique des synonymes

Au vu de notre méthodologie d’enrichissement de l’information, dont une des caractéristiques prépondérantes consiste à exploiter une synonymie sémantique-ment distribuée, le problème le plus saillant que nous ayons à considérer dans les ressources lexicales – excepté le Dubois – réside dans le mélange qui est fait des sy-nonymes au sein de chaque entrée sans tenir compte d’une éventuelle polysémie du mot-vedette. Cet enchevêtrement atteint son paroxysme dans le Bailly, où au-cune distinction de catégorie grammaticale n’est réalisée ni dans les synonymes, ni dans les entrées elles-mêmes. Des ressources comme le dictionnaire Memodata ou EuroWordNet français lient toutefois les groupes de synonymes à un sens plutôt qu’à un lemme, mais ne distinguent pas toutefois les différents sens d’un même lemme, si ce n’est par un numéro servant de pivot entre les langues.

Or, comme nous l’avons dit, nous nous employons à définir une approche con-textuelle de l’enrichissement des textes. Cette approche vise à mettre en corres-pondance chacune des unités lexicales du texte avec l’ensemble des expressions qui lui sont synonymiques dans le sens que cette unité lexicale présente dans ce contexte. Pour ce faire, à l’intérieur de chaque entrée, il s’agit de définir les en-sembles d’expressions synonymiques propres à chaque acception. La distribution des synonymes aura donc lieu non plus en fonction du mot-vedette uniquement, mais bien selon les acceptions de ce mot.

Afin de réaliser cette opération de redistribution synonymique, nous avons dé-cidé d’exploiter l’information de notre ressource de référence, le Dubois, car il est le seul dictionnaire dont nous disposons à répartir l’ensemble de son information conformément à la signification des lemmes. Dans le cas présent, l’information que nous pouvons utiliser est sémantique, puisque c’est une distribution conforme à chacune des acceptions qui doit être effectuée.

Pour ce faire, nous avons mis au point une méthode de filtrage basée sur des informations d’ordre sémantique fournies par notre dictionnaire de référence, le

Dubois. Ces informations sémantiques sont principalement les domaines

d’appli-cation (pour l’ensemble du lexique) auxquels s’ajoutent les classe syntaxico-séman-114

4.2. Correction de ressources

tiques (pour les verbes uniquement). Elles permettent de classifier de manière gé-nérale¹les différents sens des entrées polysémiques ou d’étiqueter le sens unique des entrées monosémiques et d’identifier leur sémantique propre.

Dictionnaire Entrée Synonymes Informationsémantique

ravir01 enlever, retirer SOCt – S1a

Dubois ravir02 dérober, voler SOCt – S4a

ravir03 charmer, enchanter PSY – P2a

Memodata ravir émerveiller 13520

ravir enchanter, jeter dans le ravis-sement, passionner, plonger dans le ravissement 14304

Bailly ravir charmer, enlever, s’approprier

EuroWordNet ravir exalter, enivrer @20989@

Tableau 4.1. Synonymes du lemme « ravir » dans nos différentes ressources.

Face à des ressources lexicales qui proposent des groupes de synonymes liés strictement aux lexèmes sans égard particulier pour les éventuelles variations de sens de ces lexèmes, nous nous trouvons donc à même de constituer des ensembles parmi ces groupes. Ces ensembles sont constitués autour des étiquettes séman-tiques dont sont porteuses les unités lexicales synonymiques dans le Dubois : le domaine d’application et, dans le cas des verbes, la classe syntaxico-sémantique. Cette particularité permet dès lors d’affecter chaque synonyme d’un mot aux seuls sens de ce mot qui partagent une étiquette sémantique avec le synonyme.

Notre méthode de classification des synonymes s’effectue comme suit. À chacun des candidats synonymes pour un mot donné dans une acception donnée, est as-socié son domaine dans le Dubois, et dans le cas d’un verbe, ses classe et sous-classe sémantiques. Hors du cas particulier des verbes, on conserve les candidats syno-nymes dont le domaine est le même que celui du mot de départ dans le sens consi-déré. Le domaine d’application est en effet le seul lien sémantique qu’il est possible d’établir entre un mot et son synonyme. Pour la catégorie verbale en revanche, si le domaine d’application apparaît également, la classe sémantique semble déno-ter la sémantique de l’entrée elle-même plutôt que son contexte, du moins dans les deux premiers niveaux hiérarchiques, le dernier étant purement syntaxique. 1. 269 domaines sans relations hiérarchiques, 14 classes syntaxico-sémantiques subdivisées en 54 sous-classes (les 245 sous-sous-classes exclusivement syntaxiques ne seront pas exploitées dans ce cadre).

4. Ajustement des dictionnaires

Nous avons donc tenté dans un premier temps de sélectionner comme synonymes les candidats présentant de mêmes classes et sous-classes sémantiques que celles du mot de départ dans le sens considéré. Le bilan de ce filtrage était probant en ce qui concernait la qualité de la distribution sémantique des synonymes, mais nous constations un problème de rappel, certains candidats intéressants étant rejetés par ce filtrage. L’examen effectué nous a donc amené à instaurer un autre cas de sélection des candidats synonymes. Nous avons décidé de maintenir également les candidats présentant le même domaine que le mot de départ à condition que, en outre, la classe sémantique (mais pas forcément la sous-classe) soit la même que celle du mot de départ dans le sens considéré. L’examen du dictionnaire ainsi filtré confirme le bien fondé de cette méthode².

Letraitement desexpressionssynonymiques composéesdeplusieurs lexèmesse démarque toutefois de la méthodologie de filtrage exposée ci-dessus pour contex-tualiser les synonymes. En effet, nous ne pouvons obtenir une étiquette sémanti-que cohérente, classe ou domaine selon les cas, pour les expressions à mots mul-tiples car notre dictionnaire de référence, le Dubois, traite exclusivement les unités lexicales au travers de ses entrées. Cependant, notre approche vise surtout à res-treindre un enrichissement excessif du texte en s’appuyant sur les indices fournis par le contexte. Si la délimitation idéale concerne un enrichissement lié au sens exact d’un lexème dans le texte, il ne s’agit pas de trancher dans les cas où une cer-taine ambiguïté sémantique se maintient, malgré la désambiguïsation. Cela signi-fie que plusieurs interprétations sémantiques peuvent être conservées lorsque les indices contextuels ne permettent pas de réduire les hypothèses à une seule accep-tion. Notre stratégie ne nous permet pas de décider du sens qui se rapproche le plus d’une expression synonymique. Aussi avons-nous décidé de conserver les expres-sions à mots multiples synonymiques d’un mot comme synonymes pour chaque sens de ce mot.

Dans le même ordre d’idée, si le lexème correspondant à un synonyme n’est pas recensé dans le Dubois et ne porte de ce fait ni domaine, ni classe sémantique, il sera pareillement versé dans chacun des ensembles synonymiques de l’entrée du dictionnaire de synonymes dans laquelle il apparaît et en portera l’étiquette sé-mantique. En effet, il n’est pas possible d’affirmer ou d’infirmer l’appartenance d’un synonyme ou d’une expression synonymique à un ensemble sans disposer du moindre indice concernant son sens.

Une dernière difficulté peut encore apparaître au cours de ce type de traitement de la synonymie. Il est possible qu’un synonyme proposé soit lui-même polysé-mique, et de ce fait possède plusieurs étiquetages sémantiques distincts. Or dans le cas de l’enrichissement de dictionnaires, la désambiguïsation entre ses différents

2. Nous n’avons cependant pas effectué d’évaluation quantifiée de cette approche.

4.2. Correction de ressources

Synonyme Domaine Classe Synonyme Domaine Classe

s’approprier SOC S3a exalter (suite) SOM P2c

ECN U4b COL M3c

charmer PSY P2a PSY P1a

OCC P2c jeter dans le ravissement

dérober MON D2c passionner PSY P1c

SOCf S1a SOC P2c

SOM D3f PSY P1a

EQU M1a plonger dans le ravissement

PAT M3a retirer JEU E3c

SOC S2b LOC E3c

BAT R4c HAB D2d

LOCp E1a OBJ D2c

PSYp M2b DRO S1a

émerveiller PSY P2a SOC S4a

PSY P1c SOC E2b

enchanter OCC H2h COM E3c

PSY P1c DRO D3f

PSY P2c MON E4b

enivrer PSY P1c IND E3c

BOI T1b ECN D2e

enlever SPO S3d SOC S4h

LOC E3c LIT F4b

TEX F3c TYP R3a

HAB D2d LOC E3a

CHI D2d SOC E2a

SOC S4a LOC E1a

ECN S1a MIL E1a

DRO S1a OCE E3a

SOC S1a voler MON D2c

PATt F1b MON N1b

MIL S3g LIT S4a

SOC S4a SOC D2c

MAN E3c MON N1b

PSYt P2a ZOO M1a

MUS R4a AER M3a

LIT D2c AER E3d

OBJ D2c OBJ M3a

exalter LIT C1i LOC E1d

OSY P1a SOC E2c

PSYt P2c VEH E3a

Tableau 4.2. Étiquetage par le Dubois des différents synonymes proposés.

sens n’est pas possible puisqu’il n’y a pas de contexte permettant d’effectuer un choix parmi eux. Une fois de plus, nous avons décidé de conserver le plus grand nombre de synonymes au détriment peut-être de l’exactitude des ensembles de sy-nonymes. En effet, nous partons du principe que si un des sens du synonyme est considéré comme proche de celui d’un sens donné de l’entrée, il est probable que ce sens ait provoqué le lien de synonymie. Nous versons donc un synonyme proposé dans un ensemble lorsque un de ses sens au moins présente la même étiquette

sé-4. Ajustement des dictionnaires

mantique que cet ensemble, en estimant que c’est cette signification qui constitue le synonyme de l’unité lexicale de départ.

L’exemple de ravir (table4.1 page 115) illustre bien la difficulté qu’il y a à mettre en concordance toutes les ressources lexicales en ce qui concerne l’information synymique. À travers cet échantillon, nous montrons facilement en quoi consiste no-tre méthode de répartition des synonymes proposés. La première démarche con-siste, à partir de chacune des propositions de synonyme, à établir un étiquetage sémantique correspondant aux informations du Dubois (les domaines et classes sémantiques dans la table4.2 page précédente). Pour la deuxième acception de

ra-vir dans le Dubois (table4.1 page 115, en gras), nous avons un domaine SOC pour

sociologie, et une classe S4 – nous avons dit que le troisième niveau dans la

hiérar-chie de classes, exclusivement syntaxique, n’était pas pris en compte – pour saisir,

serrer, posséder (S) avec un actant non animé dans un sens figuré (4). Les classe et

sous-classe sémantiques permettent de regrouper sous ce sens les propositions de synonymes enlever, retirer, voler (table4.2 page précédente, en gras). Ces synonymes ont été sélectionnés à bon escient, mais d’autres candidats tout aussi valables ne l’ont pas été avec cette première procédure.

L’adjonction d’un processus exploitant les domaines – le même processus que pour les autres catégories grammaticales – permet d’ajouter aux synonymes

s’ap-proprier, dérober, passionner. Dans ce cas précis, passionner est erroné, et nous

no-tons qu’aucune de ses acceptions ne le relie à la classe sémantique de ravir dans le premier sens du Dubois (pas de classe en S). Nous préférons donc exploiter à la fois le domaine et la principale classe sémantique, ce qui nous amène à conserver parmi les candidats, en plus des synonymes de classe, s’approprier, dérober (en ca-ractères obliques), du fait de leur étiquetage semblable que ce soit au niveau du domaine (SOC) et de l’appartenance à la même classe (S). Les expressions synony-miques à mots multiples sont également conservées. Dans le cas présent, elles sont inexactes, mais ne peuvent être rejetées a priori. Elles correspondent au troisième sens de ravir dans le Dubois.

La figure4.1 page suivantemontre les tableaux d’évolution du contenu des dic-tionnaires lors de la phase de filtrage et également en fonction du type de filtrage appliqué. Il indique aussi la proportion de recouvrement des dictionnaires syno-nymiques les uns par rapport aux autres.

4.2.2. Dérivation morphologique pour un enrichissement paraphrastique