• Aucun résultat trouvé

Calcul de la similarit´ e s´ emantique

La table 3.2.1 recense les concepts s´electionn´es par l’expert ainsi que le nombre de paires d’instances issues de chaque concept. Ces paires sont utilis´ees comme entr´ee de l’algorithme de

Figure 3.2.1 – Extrait de l’ontologie de publications scientifiques 1 <o w l : C l a s s r d f : I D=”Paper ”> <o w l : d i s j o i n t W i t h r d f : r e s o u r c e=”#P e r s o n ”/> 3 </ o w l : C l a s s> 5 <o w l : O b j e c t P r o p e r t y r d f : I D=” h a s S u b j e c t ”> <r d f s : d o m a i n r d f : r e s o u r c e=”#Paper ”/> 7 < r d f s : r a n g e r d f : r e s o u r c e=”#S u b j e c t ”/> <o w l : i n v e r s e O f r d f : r e s o u r c e=”#S u b j e c t I n ”/> 9 </ o w l : O b j e c t P r o p e r t y> 11<p a p e r o n t o : P a p e r r d f : a b o u t=” h t t p : // d a t a . s e m a n t i c w e b . o r g / c o n f e r e n c e /www/ 2 0 0 9 / p a p e r /62 ”> < r d f s : l a b e l>L a r g e S c a l e I n t e g r a t i o n o f S e n s e s f o r t h e S e m a n t i c Web</ r d f s : l a b e l> 13 <p a p e r o n t o : i n C o n f e r e n c e r d f : r e s o u r c e=”#WWW2009”/> <p a p e r o n t o : h a s S u b j e c t r d f : r e s o u r c e=”#s e m a n t i c −d a t a ”/> 15 <p a p e r o n t o : h a s S u b j e c t r d f : r e s o u r c e=”#s e m a n t i c −web ”/> <p a p e r o n t o : h a s A u t h o r r d f : r e s o u r c e=” h t t p : // d a t a . s e m a n t i c w e b . o r g / p e r s o n / eduardo−mena ”/> 17 <p a p e r o n t o : h a s A u t h o r r d f : r e s o u r c e=” h t t p : // d a t a . s e m a n t i c w e b . o r g / p e r s o n / mathieu−d a q u i n ”/ > <p a p e r o n t o : h a s A u t h o r r d f : r e s o u r c e=” h t t p : // d a t a . s e m a n t i c w e b . o r g / p e r s o n / j o r g e −g r a c i a ”/> 19</ p a p e r o n t o : P a p e r> 21<p a p e r o n t o : S u b j e c t r d f : I D=” s e m a n t i c −web ”> < r d f s : l a b e l>s e m a n t i c web</ r d f s : l a b e l> 23</ p a p e r o n t o : S u b j e c t>

2.2 Calcul de la similarit´e s´emantique 97

Concepts Nombre de paires d’instances

Paper 21 945

Author 206 403

Subject 66 066

Affiliation 23 436

Total 317 850

Table 3.2.1 – Nombre de paires d’instances par concept dans le domaine des publications scientifiques

calcul des similarit´es s´emantiques.

Figure 3.2.2 – Distribution des similarit´es par rang pour les instances du concept Paper dans

le domaine des publications scientifiques

La figure 3.2.2 repr´esente la sortie de l’algorithme de calcul de similarit´es, soit le nombre de paires d’instances par plage de valeurs de similarit´e et ce, pour chaque rang. Les chiffres montrent que les valeurs de la similarit´e s´emantique entre les instances des concepts s´electionn´es ´evoluent entre les rangs 1 et 10. En d’autres termes, la similarit´e se propage entre les paires d’instances, jusqu’`a atteindre un point fixe.

La figure 3.2.3 indique des valeurs ´elev´ees au niveau des valeurs maximales de la similarit´e,

tandis que les valeurs de la moyenne et de l’´ecart type sont plus basses. Ceci signifie, d’une

part, que les valeurs des similarit´es sont propag´ees dans le syst`eme, et que, d’autre part, les paires d’instances qui ne sont pas tr`es similaires ont une valeur de similarit´e basse, tandis que les paires similaires voient la valeur de leur similarit´e augmenter de fa¸con significative.

Nous avons, dans ce chapitre, exp´eriment´e la mesure de similarit´e s´emantique dans le do-maine des publications scientifiques. Cette exp´erimentation a permis de valider l’ind´ependance du domaine de la mesure de similarit´e s´emantique. En effet, celle-ci op`ere de fa¸con g´en´erique si les donn´ees d’entr´ee sont d´ecrites dans une ontologie.

La validation de la recommandation n’a pas ´et´e effectu´ee dans le domaine des publications scientifiques mais est ´evalu´e en profondeur dans le domaine des films dans le chapitre suivant.

Chapitre 3

Exp´erimentation dans le domaines

des films

L’exp´erimentation dans le domaine des films a ´et´e plus compl`ete que celle du domaine

des publications scientifiques. En effet, nous disposons des donn´ees n´ecessaires `a la conduite de l’exp´erimentation grˆace au jeu de donn´ees mis `a disposition par MovieLens (d´ecrit dans

le chapitre 3.1), le syst`eme de recommandation de GroupLens. Les donn´ees contenues dans le

jeu de donn´ees permettent d’effectuer un filtrage collaboratif mais ´egalement de conduire une ´

evaluation hors-ligne (voir chapitre 4.1.3 de l’´etat de l’art).

3.1 Donn´ees utilis´ees

Nous avons utilis´e le jeu de donn´ees (dataset) mis `a disposition par MovieLens. Ce jeu de

donn´ees est compos´e de 1662 films not´es par 943 utilisateurs. Le nombre total de notes est

100000. Ces donn´ees sont mises `a disposition sous forme de fichiers :

u.data contient l’ensemble des 100000 notes attribu´ees par 943 utilisateurs `a 1662 films tel que chaque utilisateur a not´e entre 20 et 736 films avec une moyenne de 105 films not´es par utilisateur. Chaque ligne du fichier a la forme :

id_utilisateur | id_item | note | timestamp

o`u le timestamp est le nombre de secondes ´ecoul´ees depuis le 1erjanvier 1970.

u.item contient des informations `a propos des films. Chaque ligne du fichier a la forme :

id_item | titre_film

o`u id_item correspond aux id_item du fichier u.data.

Sont ´egalement fournis des fichiers ´echantillonnant les donn´ees du fichier u.data, tels que : ui.base, ui.test o`u i ∈ [1, 5]. Les fichiers ui.base et ui.test repr´esentent des ´echantillons de

d’apprentissage, et les ui.test sont des donn´ees de test. Les donn´ees contenues dans les fichiers ui.test sont disjointes. Ces fichiers servent `a effectuer une validation crois´ee (voir chapitre 4.1.3 de l’´etat de l’art).

uk.base, uk.test o`u k ∈ a, b. `A l’instar des donn´ees pr´ec´edentes, ces donn´ees sont ´egalement `a utiliser dans le cadre d’une validation crois´ee et les fichiers uk.test sont ´egalement dis-joints. Cependant, les fichiers uk.test contiennent exactement 10 notes par utilisateur.

Figure 3.3.1 – R´epartition des notes dans les divers ensembles d’apprentissage de MovieLens

La figure 3.3.1 repr´esente la r´epartition des notes dans les divers fichiers d´ecrits. Cette r´ epar-tition reste ´equilibr´ee d’un fichier `a un autre. On peut ´egalement remarquer que les utilisateurs notent davantage les films qu’ils ont appr´eci´es : les notes inf´erieures ou ´egales `a 2 repr´esentent moins de 18% des notes.

De plus, nous avons ajout´e aux films fournis par MovieLens, 282 films plus r´ecents (sortis entre 2009 et 2012). Ce qui donne un total de 1944 films.

Les donn´ees relatives aux acteurs, r´ealisateurs, auteurs, genres, pays et langues des films s´electionn´es ont ´et´e r´ecup´er´ees via l’Internet Movie Database (IMDB)1grˆace `a l’API IMDbPY2. Ce qui a permis de construire l’ontologie en OWL-DL dont on peut observer la structure dans la figure 3.3.2 et un extrait dans le listing 3.1.

Le syst`eme de recommandation que nous avons d´efini permet d’effectuer certains calculs

hors-ligne. Ceci permet de r´eduire le temps de calcul de la recommandation. Dans un premier

temps, la similarit´e s´emantique entre les instances du syst`eme est calcul´ee. Ensuite, les r`egles d’associations sont g´en´er´ees, puis ´etendues grˆaces aux similarit´es pr´ec´edemment calcul´ees.