• Aucun résultat trouvé

5.7 Construction et évolution du profil utilisateur à long terme

5.7.3 Vers une mesure de distance sémantique entre graphes de

Nous présentons dans cette section une mesure de distance sémantique adaptée aux graphes issus de l’ontologie de l’ODP. Le but fondamental de cette mesure de similarité consiste à identifier un profil à long terme adéquat à une requête récurrente de l’utilisateur. Dans le but d’atteindre cet objectif, le pro- blème revient à résoudre un problème de similitude entre graphes représentant la requête d’une part et chacun des profils à long terme d’autre part.

Nous proposons l’extension de la distance basée sur la combinaison du MCS et du mcs entre graphes de profils représentant respectivement la requête et le profil à long terme. Nous présentons dans cette section nos motivations concer- nant le choix de cette mesure ainsi que le principe d’adaptation de cette mesure pour le calcul de la distance sémantiques entre graphes de profils.

5.7.3.1 Motivations

Nous supposons que le choix de la distance basée sur le plus petit super- graphe (MCS) et le plus grand sous-graphe commun (mcs) est la plus appropriée dans le calcul de la similarité entre les graphes de la requête est du profil. En effet, le choix de cette mesure est basée sur les principes suivants :

– Il ne s’agit pas de tolérer les erreurs de transformations des graphes ou en d’autres termes de choisir la séquence optimale des opérations d’édition qui permet de transformer un graphe en un autre mais plutôt calculer une degré de couverture de concepts entre deux graphes de profils. – Le plus petit super-graphe des deux graphes permet de mesurer la simila-

rité entre les deux graphes à un niveau de généralité basé sur les niveaux hauts du référentiel commun, notamment l’ontologie de l’ODP,

– Le plus petit sous-graphe commun permet de mesurer la similarité entre les deux graphes à un niveau de spécificité basé sur les niveaux les plus bas de l’ontologie de l’ODP.

– Grâce au référentiel de l’ODP, la relation entre le sous-graphe commun et le plus petit super-graphe des deux graphes est toujours valide. En effet, plus le sous-graphe entre les deux graphes est grand, plus le super-graphe qui les unit est petit.

Toutefois, l’utilisation classique de la mesure de combinaison du MCS et du mcs n’est pas suffisante dans notre cas. En effet, cette mesure donne la même distance sémantique pour deux profils qui n’ont pas des concepts communs avec la requête et dont l’un dispose des liens de référence avec certains concepts de la requête et l’autre dispose seulement des liens hiérarchiques issus du super- graphe qui le relie à la requête. Cette limite est issue du calcul du sous-graphe selon un recouvrement exact basé sur le nombre de concepts communs entre deux graphes.

Nos intuitions concernant la distance sémantique entre graphes de profils est de considérer deux types de recouvrements :

1. recouvrement exact : désigne une similarité exacte entre un sous-ensemble des concepts de la requête et ceux du profil. Ce recouvrement est traduit par le nombre de concepts communs entre les deux graphes.

2. recouvrement approximatif : désigne une similarité approximative entre un sous-ensemble des concepts de la requête et les concepts du profil. Ce recouvrement est traduit par la présence des liens de référence entre deux

graphes.

Selon ces deux notions de recouvrement, la mesure de distance doit produire des valeurs croissantes selon trois configurations possibles à distinguer :

1. CR : les deux graphes ont des concepts en commun et/ou présentent des liens de référence entre eux. Ce cas traduit un recouvrement exact des concepts de la requête par les concepts du profil et/ou un recouvrement approximatif via les liens de référence. Nous supposons qu’ il existe un et un seul graphe qui intersecte avec le graphe d’une requête récurrente et/ou présente en plus des liens de référence avec lui.

2. NCR : les deux graphes n’ont pas des concepts en commun tout en dis- posant des liens de référence entre eux. Ce cas traite un recouvrement approximatif entre la requête et le profil.

3. NCNR : les deux graphes n’ont pas des concepts communs ni des liens de référence qui les relient.

Dans le but de répondre à ces objectifs nous définissons une extension sé- mantique du chacun des graphes contribuant ainsi à l’extension sémantique du plus grand sous-graphe commun. Cette extension sémantique est à la base de l’activation des concepts reliés des deux graphes via les liens de référence. Le calcul de la distance sémantique entre graphes est basé sur les étapes suivantes : 1. étendre chacun des graphes de la requête et du profil par des concepts

activés via les liens de référence,

2. calculer le sous-graphe en considérant les concepts communs et les concepts activés ainsi que les concepts intermédiaires activés qui les relient via les liens hiérarchiques,

3. calculer classiquement le super-graphe des deux graphes en exploitant les liens hiérarchiques,

4. calculer la distance sémantique sur la base de la combinaison du mcs et MCS en introduisant un facteur d’atténuation de l’importance des concepts activés par rapport aux concepts communs originaux.

Nous présentons dans la suite la définition de l’extension sémantique des graphes, ainsi que le calcul de la mesure de distance sémantique entre graphes de profils exploitant le sous-graphe commun étendu.

5.7.3.2 Extension sémantique du plus grand sous-graphe commun mcs

Soient g1 et g2 deux graphes issus de l’ontologie de l’ODP représentant

respectivement le graphe de la requête et le graphe d’un profil à long terme. L’ensemble des concepts du graphe g2 connectés au graphe g1 par des liens de

activés de g2. Formellement nous définissons le graphe étendu g1∗ associé à g1

par rapport à g2 comme suit :

g1∗ = g1∪ {ci ∈ g2/∃cj ∈ g1∧ eij ∈ S ∪ R} (5.16)

eij est l’arc reliant le concept ci au concept cj et S ∪ R est l’ensemble des liens

de référence ou symboliques de l’ontologie de l’ODP. Nous obtenons ainsi deux graphes étendus g∗

1 et g2∗ sur lesquels nous appliquons la mesure de la distance

sémantique par combinaison du MCS et mcs.

c1 c2 c3 c6 c5 c4 c7 c9 c14 c8 c9 c 10 c13 c12 c11 c14 c15 c0 g1 g2 g1* Concepts activés

Fig.5.6 – Extension sémantique du graphe par activation des liens de référence

5.7.3.3 La mesure de distance sémantique combinant MCS et mcs Nous appliquons la mesure de distance sémantique entre les deux graphes augmentés g∗

1 et g2∗ en utilisant la mesure basée sur la combinaison du plus

grand sous-graphe commun MCS et le plus petit super-graphe commun mcs. Formellement, la distance sémantique entre les deux graphes étendus g∗

1 et

g∗

2 est calculée en fonction de la cardinalité du super-graphe MCS, du nombre

de concepts communs mcscc et du nombre de concepts activés mcsca. Cette

distance est donnée dans la formule suivante :

dMMCS(g1∗, g2∗) = |MCS(g1∗, g2∗)| − (|mcscc(g1∗, g∗2)| − fca ∗ |mcsca(g1∗, g2∗)|)

(5.17) où |mcsca(g∗1, g∗2)| contient les concepts activés via les liens de référence et les

concepts intermédiaires qui les relient entre eux et aux concepts communs s’ils existent, fca est un facteur d’atténuation de l’importance des concepts activés

dans le sous-graphe étendu introduit dans le but d’obtenir une similarité plus élevée entre deux graphes ayant des concepts communs que celle des deux graphes connectés seulement par des liens de référence. Ce facteur est défini comme suit :

fca =

LR

1 + LR

LR désigne le nombre de liens de référence qui relient les concepts des deux

graphes. La figure 5.7 illustre un exemple du plus grand sous-graphe commun entre deux graphes. Le sous-graphe reste vide dans le cas où les graphes sont

c1 c2 c3 c6 c5 c4 c7 c9 c14 c8 c9 c10 c13 c12 c11 c14 c15 c0 g1 g2 MCS(g1, g2) c1 c2 c3 c6 c5 c4 c7 c9 c14 c8 c9 c10 c13 c12 c11 c14 c15 c8 c9 c10 c13 c12 c11 c14 c15 c0 g1 g2 MCS(g1, g2) c1 c2 c3 c6 c5 c4 c7 c9 c14 c8 c9 c10 c13 c12 c11 c14 c15 c0 g1 g2 MCS(g1, g2) mcs(g1*,g2*) Concepts activés

Concepts intermédiaires activés

Fig. 5.7 – (a) les deux graphes n’ont pas des liens de références entre eux, (b) les deux graphes ont des liens de référence entre eux

déconnectés (fig.5.7 (a)). Il contiendra seulement des concepts activés et inter- médiaires dans le cas où les deux graphes sont connectés seulement par des liens de référence (fig.5.7 (b)). Si les deux graphes intersectent, il contiendra des concepts communs et des concepts activés et/ou intermédiaires s’il existe des liens de référence connectant les deux graphes.