fonction Classification(u, α, β1, β2))
. o`u α, β1 et β2 sont respectivement les seuils de notes positives, d’int´erˆet pour les recommandations collaboratives et d’int´erˆet pour les recommandations bas´ees sur le contenu ´
etablies par l’expert.
interestCF ← |{i | note(u, i) > α ∧ i ∈ RecCF(u)}|
interestCB ←
|{i | ∃r ∈ R, ∃a ∈ I, ∃i0 ∈ I, note(u, i) ∧ note(u, i0) ∧ r(i, a) ∧ r(i0, a)}| |{i | note(u, i)}|
si interestCF ≥ β1 alors si interestCB ≥ β2 alors retourner ”hybride” sinon retourner ”collaboratif” fin si sinon si interestCB ≥ β2 alors
retourner ”bas´e-contenu”
sinon
retourner ”impr´evisible” fin si
fin si fin fonction
3.3 Mise `a jour de la cat´egorie de l’utilisateur
Une fois la cat´egorie de l’utilisateur d´etermin´ee, il est n´ecessaire de valider la bonne classifi-cation de celui-ci. Ceci est d´etermin´e grˆace au retour dudit utilisateur sur les recommandations qui lui ont ´et´e propos´ees. En effet, une recommandation ´etant issue d’un certain processus com-pos´e d’un ou plusieurs modules combin´es, sachant qu’un processus est issu de la classification de l’utilisateur, il est simple d’ajuster cette classification selon le retour positif ou n´egatif de l’utilisateur concernant les recommandations qu’il aura obtenu.
Si l’utilisateur valide un item recommand´e (en le consommant ou en le notant positivement), la classification de cet utilisateur n’est pas remise en question. Dans le cas contraire, la recom-mandation lui sera expliqu´ee (voir chapitre 6). Ce qui lui permet de voir le raisonnement qui a men´e `a cette recommandation. Si l’utilisateur est d’accord avec cette explication, on consid`ere qu’il s’agit d’un cas isol´e et ce retour n´egatif est ´ecart´e. Autrement, le raisonnement utilis´e sera consid´er´e comme non pertinent. Si le pourcentage de raisonnements non pertinents est sup´erieur `
a un certain seuil fix´e, l’utilisateur est reclass´e dans la cat´egorie qui se rapproche le plus de son profil (apr`es la cat´egorie initiale), en ´ecartant les notes et centres d’int´erˆet ayant induit `a ces
recommandations. Les nouveaux items recommand´es sont ensuite utilis´es afin de valider cette
Chapitre 4
Les mesures s´emantiques
Nous d´efinissons, dans ce chapitre, deux mesures s´emantiques qui servent `a raisonner sur une ontologie : une mesure de similarit´e s´emantique ind´ependante de l’utilisateur qui calcule le degr´e de similarit´e entre les instances de l’ontologie et une mesure de filtrage s´emantique qui estime l’int´erˆet de l’utilisateur pour des instances cibles de l’ontologie.
4.1 La mesure de similarit´e s´emantique
4.1.1 Principes
La similarit´e s´emantique tend `a d´ecouvrir des instances similaires. Ces instances peuvent soit ˆetre des items (par exemple des films dans le domaine du cin´ema) ou des caract´eristiques d’items (par exemple un acteur dans le domaine du cin´ema). Les similarit´es sont utilis´ees soit
pour g´en´erer directement des recommandations (Sect. 4.2.3) soit pour compenser le manque
d’information (sections 5.1 et 4.2.2).
Dans la communaut´e du web s´emantique, les mesures de similarit´e s´emantique sont le plus souvent utilis´ees dans l’alignement d’ontologies. Elles se basent sur le structure matching [WP94, Res95, GGMW03], le string matching [Win99] et le lexical matching qui utilise des mesures telles que le coefficient de Jaccard [Jac01], Dice [Dic45] ou overlap. Ces mesures de similarit´e ont ´et´e d´efinies pour l’alignement d’ontologies, leur but ´etant de retrouver les concepts similaires dans deux ontologies. De ce fait, elles ne conviennent pas au domaine de la recommandation car celui-ci a pour but de retrouver les instances similaires d’une ontologie.
Notre but est donc de d´efinir une mesure de similarit´e qui va ˆetre appliqu´ee aux instances d’une ontologie afin de calculer les instances similaires. Avec une mesure de similarit´e classique et non s´emantique, deux instances sont consid´er´ees comme ´etant similaires si elles sont reli´ees `
a un certain nombre commun d’instances. Par exemple, deux films sont similaires s’ils ont des acteurs en commun. La figure 2.4.1 repr´esente deux instances a et b qui ne sont en relation avec
pas similaires.
Figure 2.4.1 – Deux instances a et b non similaires avec une mesure de similarit´e classique
Nous ´etendons la d´efinition des mesures classiques de fa¸con que deux instances soient si-milaires si elles sont reli´ees `a des instances communes, mais ´egalement si elles sont reli´ees `a des instances qui sont elles-mˆeme similaires. Ceci renforce la similarit´e calcul´ee et d´ecouvre de nouvelles instances similaires non consid´er´ees par une mesure classique. Ainsi, deux films sont similaires, si leurs acteurs sont similaires : s’ils ont jou´e dans les mˆemes films par exemple. Les instances concern´ees par le calcul sont s´electionn´ees par l’expert. La figure 2.4.2 repr´esente les deux instances a et b de la figure 2.4.1 qui vont ˆetre consid´er´ees comme similaires grˆace `a notre mesure de similarit´e s´emantique car elles sont en relation avec des des instances elles-mˆemes similaires.
Figure 2.4.2 – Deux instances a et b similaires avec notre mesure de similarit´e s´emantique Pour cela, nous nous inspirons de l’algorithme de matching de graphes introduit par les auteurs de [MGMR02] pour d´efinir leur mesure de similarit´e s´emantique : ´etant donn´ee une mesure de similarit´e quelconque entre deux nœuds, la similarit´e est propag´ee entre les nœuds jusqu’`a atteindre un point fixe. De ce fait, la mesure de similarit´e prend en compte le voisinage des nœuds et ajuste la similarit´e en cons´equence.
D´efinition 4. ´Etant donn´e Co ⊆ C, un ensemble des concepts de l’ontologie, Rel ⊆ R un
ensemble de propri´et´es, i et j, deux instances, la similarit´e s´emantique entre i et j est une fonction sim : Co × Co → [0, 1] telle que les instances i et j sont similaires si elles sont reli´ees, par une ou plusieurs propri´et´es r ∈ Rel, `a des instances communes ou si elles sont reli´ees `a des instances elles-mˆemes similaires.
4.1 La mesure de similarit´e s´emantique 65
4.1.2 Algorithme
Calcul de la similarit´e s´emantique dans le syst`eme
Dans un premier temps, l’expert s´electionne les concepts Co ⊆ C et les propri´et´es Rel ⊆
R de l’ontologie pertinentes pour le calcul des similarit´es. Par exemple, dans le domaine du
cin´ema, l’expert peut s´electionner les concepts Movie et Person et les propri´et´es hasActor et hasDirector et ´ecarter la propri´et´e hasMakeupArtist car l’´equipe des maquilleurs n’est pas pertinente pour ´evaluer la similarit´e entre deux films.
Des paires d’instances des concepts choisis sont ensuite form´ees et deviennent candidates au calcul. Chaque paire est compos´ee d’instances d’un mˆeme concept car il est inutile de calculer la similarit´e entre des instances de concepts diff´erents. Par exemple, dans le domaine du cin´ema, la similarit´e entre un film et une maison de production n’aurait aucun sens.
L’initialisation consiste `a affecter la similarit´e maximum (1) aux paires compos´ees d’ins-tances identiques et 0 aux autres.
sim0(i, j) =
1 si i = j
0 sinon (4.1)
La similarit´e s´emantiques est ensuite calcul´ee entre deux instances i et j de fa¸con it´erative. Encore une fois, si les deux instances sont identiques, leur similarit´e est ´egale `a 1. Autrement, la similarit´e de i et j est d´efinie par la moyenne des similarit´es des paires (i0, j0) reli´ees `a (i, j).
simk+1(i, j) = ( 1 si i = j P Ei,j simk(i0,j0) |Ei,j| sinon (4.2)
o`u Ei,j = {(i0, j0)|∃r ∈ Rel r(i, i0) ∧ r(j, j0)}
La similarit´e s´emantique est calcul´ee jusqu’`a atteindre un point fixe ou en fixant le nombre
d’it´erations au pr´ealable (le rang K maximum). Contrairement aux mesures classiques, la
pro-pagation de la similarit´e `a un certain rang k permet de prendre en compte la similarit´e au rang
k − 1 des paires d’instances du voisinage de la paire cible. Par cons´equent, chaque nouvelle
it´eration k prend en compte la similarit´e des paires d’instances se trouvant `a une distance1 k de la paire cible. La valeur de la similarit´e devient donc plus pertinente.
Cette mesure pr´esente l’avantage de pouvoir ˆetre calcul´ee hors ligne, ce qui lui permet de ne pas ajouter de temps de calcul au processus de recommandation.
L’algorithme 4.1 d´ecrit le d´eroulement du calcul de la similarit´e s´emantique dans le syst`eme ´
etant donn´es Inst ⊆ I, l’ensemble des instances des concepts s´electionn´es par l’expert, Rel ⊆ R, l’ensemble des propri´et´es s´electionn´ees par l’expert et , un nombre tr`es petit.