Mise ` a jour de la similarit´ e s´ emantique lors de l’ajout de nouvelles donn´ ees

1: proc´edure Update sim(i, j, K)

2: pour tout k ∈]0, K] faire

3: E_i,j ← {(i0, j⁰) | ∃r ∈ Rel r(i, i⁰) ∧ r(j, j⁰)}

4: sim_k+1(i, j) =P Ei,j sim_k(i⁰, j⁰) |E_i,j| 5: si k < K alors 6: propagate(Ei,j, k + 1, {}) 7: fin si 8: fin pour

9: fin proc´edure

10: proc´edure propagate(Ei,j, k, E_ok)

11: pour tout (i⁰, j⁰) ∈ E_i,j faire

12: si (i⁰, j⁰) /∈ E_ok alors

13: E_ok← E_ok∪ {(i0, j⁰)}

14: E_i0,j0 ← {(i00, j⁰⁰) | ∃r ∈ Rel r(i⁰, i⁰⁰) ∧ r(j⁰, j⁰⁰)}

15: simk+1(i⁰, j⁰) =P E_i0,j0 simk(i⁰⁰, j⁰⁰) |E_i0,j0| 16: propagate(Ei0,j0, k + 1, Eok) 17: fin si 18: fin pour

19: fin proc´edure

4.1.3 Complexité du calcul de la similarité sémantique

Soient n la cardinalité de Inst ⊆ I, l’ensemble des instances des concepts sélectionnés par l’expert, m le nombre maximum de propriétés par instance et K le plus grand rang atteint lors du calcul de la similarité sémantique.

Complexité dans le pire cas du calcul de la similarité sémantique dans tout le

syst`eme

Nous allons analyser l’algorithme 4.1.

Les boucles des lignes 3 et 13 sont effectuées sur toutes les paires d’instances du système. Le nombre de paires d’instances dans le système est égal à n² étant donné qu’il s’agit du produit (carré) cartésien de Inst.

Le calcul effectué dans la boucle de la ligne 3 est de complexité constante, la complexité de cette boucle est donc le nombre d’itérations, soit n².

Le calcul effectué à l’intérieur de la boucle commen¸cant à la ligne 13 met en œuvre les paires d’instances reliées à la paire (i, j). Chaque instance i ∈ Inst étant en relation avec m autres

instances, implique qu’une paire (i, j) ∈ Inst2 est en relation avec m2 paires. La complexit´e de ce calcul est donc de l’ordre de m².

La boucle de calcul de la similarité sémantique pour un rang donné (ligne 13) a donc une complexité de n²× m2.

La boucle de calcul de la similarit´e s´emantique pour les K rangs (ligne 11) a donc une

complexit´e de n²× m2× K.

La complexité au pire de l’algorithme de calcul de la similarité sémantique pour toutes les paires du système est donc de l’ordre de n²+ n²× m2× K, soit n2× m2× K.

Complexité dans le pire cas du calcul de la similarité sémantique lors de l’ajout de

nouvelles donn´ees

Le calcul de la similarité sémantique lors de l’ajout d’une relation entre deux instances est décrit dans l’algorithme 4.2.

Le calcul de la similarit´e entre deux instances (lignes 3 et 14) met en œuvre les paires

d’instances reliées à la paire courante et qui sont au nombre de m² (voir section précédente).

La procédure Propagate est récursive. Elle est appelée pour chaque paire reliée à une

paire qui a été mise à jour. Au pire, toutes les paires du système seront concernées, soit n2. ´

Etant donné que pour chaque paire d’instances, le calcul de la similarité a une complexité de m², la complexité de la propagation est de n²× m2.

De ce fait, la complexit´e de l’algorithme pour l’ajout d’une seule instance dans le syst`eme pour tous les rangs est de K × (m²+ n²× m2), soit de l’ordre de K × n²× m2.

On remarque que la mise à jour du système est aussi coûteuse que le calcul initial. Cepen-dant, le pire des cas ne s’applique que s’il existe des séquences de propriétés permettant de relier n’importe quelle instance du système à n’importe quelle autre.

4.2 La mesure de filtrage s´emantique

4.2.1 Principes

Cette mesure sert à calculer le degré d’intérêt de l’utilisateur cible pour un item cible. Ceci sert à filtrer et affiner les recommandations issues d’un autre module pour l’utilisateur cible. Par exemple, ce module peut être appliqué à la suite du module collaboratif décrit dans le chapitre 5.

La mesure d’intérêt de l’utilisateur cible pour un item est relative à des propriétés. Par exemple, si l’on veut calculer l’intérêt d’un utilisateur pour un certain film, on va calculer

4.2 La mesure de filtrage s´emantique 71

son intérêt pour les acteurs, réalisateurs, etc. du film par le biais des propriétés hasActor, hasDirector, etc.

Il incombe à l’expert de sélectionner l’ensemble de propriétés Rel ⊆ R de domaine Item qui seront utilisées dans le calcul. La prédication de l’intérêt de l’utilisateur pour un item i relativement à une propriété r ∈ Rel utilise :

— les notes de l’utilisateur pour les items reliés par r à des instances également reliées à i par r ;

— les notes de l’utilisateur pour les items reliés par r à des instances sémantiquement similaires, en utilisant la mesure de similarité sémantique définie, à celles reliées à i par r.

Etant donné que le calcul de l’intérêt de l’utilisateur pour un item se fait relativement à un ensemble de propriétés, et que ces propriétés relient des items à d’autres instances, nous allons d’abord calculer l’intérêt de ces instances.

4.2.2 Calcul de l’int´erˆet de l’utilisateur pour les instances

L’intérêt de l’utilisateur pour les instances mesure le degré d’intérêt de l’utilisateur pour une instance en fonction de son historique. Par exemple, pour évaluer l’intérêt de l’utilisateur cible pour l’acteur “Tom Hanks”, les notes des films où “Tom Hanks” a joué et se trouvant dans l’historique de l’utilisateur cible sont utilisées.

Le calcul de l’intérêt de l’utilisateur u se fait pour chaque instance reliée à l’item cible i par une propriété r ∈ Rel. Les propriétés utilisées dans le calcul sont sélectionnées par l’expert.

Une instance a est reliée par une propriété r à 0 ou n items dans l’historique de l’utilisateur u.

Si a est reliée par une propriété r à au moins un item dans l’historique de u, l’intérêt de u pour a est défini par la médiane des notes des items en question. La médiane est utilisée afin d’éviter les valeurs extrêmes et donc les variations non désirées. L’intérêt interetînst de l’utilisteur u pour l’instance a pour une certaine propriété r est défini par :

E_notes = {note(u, i⁰) | ∃ i⁰∈ historique(u) r(i⁰, a)} (4.7)

interet^inst(u, a, r) = mediane(E_notes) (4.8)

Si l’instance a est n’est reliée par la propriété r à aucun item de l’historique de u, l’intérêt de u pour a est calculé grâce à la mesure de similarité sémantique définie dans la section 4.1. Les instances similaires à a, grâce à la mesure de similarité sémantique définie précédemment, sont calculées et la moyenne des notes des items auxquels elles sont reliées par r établit l’intérêt de u pour a. On utilise la moyenne plutôt que la médiane afin d’estimer au mieux l’intérêt de l’utilisateur étant donné que l’on se base sur la similarité sémantique qui est elle-même une estimation.

Enotes = {note(u, i⁰) | ∃ i⁰∈ historique(u) r(i⁰, b) ∧ simK(a, b) > α} (4.9)

interet^inst(u, a, r) = moyenne(E_notes) (4.10)

où α est le seuil de similarité établi par l’expert.

4.2.3 Calcul de l’intérêt de l’utilisateur pour les items relativement à des propriétés

L’intérêt de l’utilisateur u pour un item i relativement à une propriété r se base sur l’intérêt de u pour les instances reliées à i par r. Il est calculé en effectuant la somme pondérée de l’intérêt de u pour les instances reliées à i par r.

interet(u, i, r) = P

a∈Einstinteret^inst(u, a, r) × ratioocc(u, a, r) P

a∈Einstratio_occ(u, a, r) ^(4.11)

où E_inst est l’ensemble des instances reliées à l’item i par r : E_inst= {a | r(i, a)}

et ratioocc(u, a, r) est la proportion d’occurrences de l’instance a parmi les instances reli´ees aux items de l’historique de l’utilisateur u par r :

ratio_occ(u, a, r) = ^|{i

0| i0 ∈ historique(u) ∧ r(i0, a)}| |{b | ∃ i0∈ historique(u) r(i0, b)}|

Le calcul de l’intérêt de l’utilisateur u pour un item i relativement à un ensemble de pro-priétés Rel sélectionnées par l’expert est décrit dans l’algorithme 4.3. Dans l’algorithme, α est le seuil de similarité établi par l’expert

Exemple 2. Soit u, un utilisateur ayant noté, sur une échelle de 1 à 5, les films de la table 2.4.1.

Film Note

Psychose 5

Fenˆetre sur Cour 4

La Vie de Brian 5 Carrie 3 Les Langoliers 1 Pulp Fiction 4 Dr. Folamour 2 Orange M´ecanique 1

Table 2.4.1 – Extrait du profil de l’utilisateur u

4.2 La mesure de filtrage s´emantique 73

Dans le document Système hybride d'adaptation dans les systèmes de recommandation (Page 80-84)