• Aucun résultat trouvé

Chapitre 4 : Modèle d’un SRI à base de Réseaux Petits Mondes Hiérarchiques et de

4. Travaux similaires à notre approche

L’idée de base de la méthode de [Gaume et al., 2004] est de considérer qu’un dictionnaire est un graphe non orienté dont les mots sont les sommets et tel qu’il existe un arc entre deux sommets si l’un apparaît dans la définition de l’autre. Plus précisément, le graphe du dictionnaire encode deux types d’informations lexicographiques : les définitions qui décrivent les différentes acceptions de chaque vedette au moyen de séquences langagières ; la structure des articles qui organise ces sous sens.

Selon [Gaume et al., 2004], la nature hiérarchique des dictionnaires (distribution des degrés d’incidence des sommets en loi de puissance) est une conséquence du rôle de l’hyperonymie associée à la polysémie de certains sommets, alors que le fort C (existence de zones denses en arêtes) reflète le rôle de la cohyponymie [Duvignau, 2002], [Duvignau, 2003], [Gaume et al., 2002]. Par exemple, le mot corps se trouve dans de nombreux définissants (tête, chimie, peau,

division). De ce fait, le sommet corps a une forte incidence. D’autre part, les auteurs

constatent qu’il existe de nombreux triangles par exemple : {écorce, enveloppe}, {écorce,

peau}, {peau, enveloppe}, ce qui favorise les zones denses en arêtes et plus précisément un

fort taux de clustering C.

Par ailleurs, les auteurs ont présenté une méthode pour désambiguïser une entrée de dictionnaire en utilisant la notion de distance sémantique introduite par [Veronis et Ide, 1990] [Ide et Véronis, 1998] [Resnik et Yarowsky, 2000]. Ils ont défini la tâche comme suit : soit un lemme α qui apparaît dans la définition de l’un des sens d’un mot, β considéré comme un nœud du graphe. Le but étant donc d’associer α avec le sens le plus probable qu’il a dans ce contexte. Chaque entrée du dictionnaire est codée par un arbre de sous-sens dans le graphe du dictionnaire, avec une liste de nombres correspondants à chaque niveau de sous-sens caractéristique.

Soit un graphe non orienté G = (V, E) définit par la donnée d’un ensemble non vide fini V de sommets, et d’un ensemble E de paires de sommets formant des arêtes. Si l’arête {r, s}∈E on dit que les sommets r et s sont voisins, le nombre de voisins d’un sommet r est d(r) son degré d’incidence.

Soit [ Gˆ ] la matrice n × n de transition de la chaîne de Markov homogène dont les états sont

les sommets du graphe en question telle que la probabilité de passer d’un sommet r∈V à l’instant i vers un sommet s∈V à l’instant i+1 est égale à :

[]r,s= 0 si {r, s} ∉E (s n’est pas un voisin de r) ; []r,s = 1/d(r) si {r, s} ∈E (s est un des

d(r) voisins de r qui sont tous équiprobables).

Gaume et al. ont appliqué l’algorithme suivant :

1. On supprime les voisins de β dans G de sorte que ∀xV,[G]β,x = [G]x,β = 0 ;

2. On calcule [Gˆ ]i ; pour un i bien défini (par exemple i = 6) ;

3. Soit L, le vecteur ligne de β alors ∀k, L[k] = []iβ,k ;

4. Soit F = {x1, x2, …, xn} les nœuds correspondant à tous les sous-sens de la définition

de α.On prend alors xk = argmaxx∈F (L[x])

xk est alors le sous-sens le plus « proche » du nœud β, par rapport à la mesure Prox. Deux

étapes demandent un peu plus d’explication :

1. Les voisins sont supprimés pour ne pas laisser un biais favorable aux sous-sens de β,

qui formeraient alors une sorte de cluster artificiel par rapport à la tâche donnée. Ainsi la « marche aléatoire » dans le graphe peut vraiment avoir lieu dans le graphe plus général des autres sens.

2. Choisir une bonne valeur pour la longueur de la marche aléatoire n’est pas simple, et est le facteur essentiel de la réussite de la procédure. Si elle est trop petite, seules les relations locales vont apparaître (synonymes proches, etc.) et ils peuvent ne pas apparaître dans les contextes à désambiguïser (c’est notamment le problème de la méthode de [Lesk, 1986]) ; si la valeur de i est trop grande par contre, les « distances » entre tous les mots tendent à converger vers une constante, faisant disparaître les différences. Cette valeur doit donc être reliée d’une façon ou d’une autre à la distance moyenne entre deux sens quelconques du graphe. Une hypothèse raisonnable est donc de rester proche de cette valeur, et les auteurs ont pris le nombre 6, la moyenne calculée étant de 5,21 (sur le graphe contenant tous les sous-sens, pas sur celui ne contenant que les entrées, pour lequel L = 3,3).

Ainsi, l’approche présente une méthode de désambiguïsation dans laquelle le sens est déterminé en utilisant un dictionnaire. La méthode est basée sur un algorithme qui calcule une distance « sémantique » entre les mots du dictionnaire en prenant en compte la topologie complète du dictionnaire, vu comme un graphe sur ses entrées. La méthode, ne nécessitant pas de corpus annoté, est testée sur la désambiguïsation des définitions du dictionnaire elles- mêmes.

A notre connaissance, les travaux qui concernent la prise en compte des proximités sémamtiques entre les mots nœuds d’un graphe de dictionnaire pour la reformulation sémantique de requêtes sont limités. Cet aspect est important à considérer puisqu’il peut apporter un gain dans la finalisation de la requête reformulée dans un SRI.

Le modèle de SRI à base de deux RPMH que nous proposons est bien adapté pour représenter les requêtes et les documents, pour construire l’ensemble des connaissances et pour définir une stratégie de recherche plus fine et plus pertinente. La stratégie proposée se base sur une mise en correspondance par le biais de Réseaux Possibilistes. En effet, nous choisissons de mixer principalement deux approches possibilistes l’une quantitative proposée par [Brini et al., 2004abc] et l’autre qualitative.

L’approche qualitative que nous proposons est basée sur la fragmentation logique des documents. En fait, le système ne se limite pas uniquement à l’existence ou non des termes de la requête dans les documents, mais il s’intéresse aussi à ses emplacements dans les fragments logiques des documents. Cette approche introduit l’utilisateur dans le processus du choix de la qualité de ses documents recherchés. Dans ce cas le résultat de la recherche change de préférences utilisateurs à des autres.

L’approche quantitative est plus adaptée pour la représentation des documents dont les poids des leurs fragments logiques sont identiques et particulièrement quand il s’agit des utilisateurs ne possédant pas des préférences dans la qualité des leurs documents recherchés. Autrement dit, le système se limite dans ce cas à la vérification de l’existence ou non des termes de la requête dans les documents recherchés. En conséquence, le résultat de la recherche ne change pas lors du passage de préférences à des autres.

L’idée que nous voulons développer dans le système proposé est de faire combiner le modèle de requête et le modèle de document par le biais d’un réseau possibiliste mixant les deux approches possibilistes quantitative et qualitative pour tirer profit des avantages et des points forts de chacun par rapport au contexte utilisé :

• Reformulation sémantique de requêtes,

• Recherche dans les fragments logiques des documents,

• Recherche intelligente possibiliste, • Recherche précise,

• Recherche exploratoire.

Nous développons davantage ces idées dans le chapitre suivant (Chapitre 5).

5. Conclusion

Nous avons présenté dans ce chapitre les choix, en les argumentants, que nous avons effectués pour satisfaire les objectifs fixés. Ces derniers se résument dans la proposition d’un SRI intelligent, adaptative, flexibilite et dynamique. En effet, l’originalité du modèle proposé se décline selon les trois volets suivants qui synthétisent nos contributions :

Le premier volet s’intéresse au processus itératif de la reformulation sémantique de requêtes. Cette technique est à base de relations de dépendance entre les termes de la requête. Nous évaluons notamment les proximités des mots du dictionnaire français « Le Grand Robert » par rapport aux termes de la requête. Ces proximités sont calculées par le biais de notre approche de recherche des composantes de sens dans un RPMH de dictionnaire de mots par application d’une méthode basée sur le dénombrement des circuits dans le réseau. En fait, l’utilisateur du système proposé choisit le nombre de mots sémantiquement proches qu’il désire ajouter à chaque terme de sa requête originelle pour construire sa requête reformulée sémantiquement. Cette dernière représente la première partie de son profil qu’il propose au système. La seconde partie de son profil est constituée des choix des coefficients de pertinence possibilistes affectés aux entités logiques des documents de la collection. Ainsi, notre système tient compte des profils dynamiques des utilisateurs au fur et à mesure que ces derniers utilisent le système. Ce dernier est caractérisé par son intelligence, son adaptativité, sa flexibilité et sa dynamicité.

Le second volet consiste à proposer des relations de dépendance entre les documents recherchés dans un cadre ordinal. Ces relations de dépendance entre ces documents traduisent les liens sémantiques ou statistiques évaluant les distributions des termes communs à des paires ou ensembles de documents. Afin de quantifier ces relations, nous nous sommes basés

sur les calculs des proximités entres ces documents par application d’une méthode de dénombrement de circuits dans le RPMH de pages Web. En effet, les documents peuvent ainsi être regroupés dans des classes communes (groupes de documents thématiquement proches).

Le troisième volet concerne la définition des relations de dépendance, entre les termes de la requête et les documents recherchés, dans un cadre qualitatif. Les valeurs affectées à ces relations traduisent des ordres partiels de préférence. En fait, la théorie des possibilités offre deux cadres de travail : le cadre qualitatif ou ordinal et le cadre quantitatif. Nous avons proposé notre modèle dans un cadre ordinal. Ainsi, des préférences entre les termes de la requête se sont ajoutées à notre modèle de base. Ces préférences permettent de restituer des documents classés par préférence de pertinence. Nous avons mesuré aussi l’apport de ces facteurs de préférence dans l’augmentation des scores de pertinence des documents contenant ces termes dans le but de pénaliser les scores de pertinence des documents ne les contenant pas.

Nous présentons dans le chapitre suivant la spécification et la conception du système proposé. Nous expliquerons davantage le rôle de chaque composante du système et son apport par rapport à la recherche.