• Aucun résultat trouvé

3.5 Évaluation expérimentale

3.5.1 Mise en place des expériences

Nous avons validé les gains en termes de qualité de diversité des profils par utilisation de jeux de données du Web ces derniers étant plus volumineux, nous permettant ainsi de réaliser des sondages plus importants et des tests plus réa- listes. Cependant, les résultats obtenus à petite échelle sur les données de phé- notypage (i.e. 300 documents scientifiques partagés par 30 vrais chercheurs ainsi que 180 requêtes) et de botanique (10 000 observations soumises par 1 500 vraies personnes) confirment les résultats.

Nos expériences ont été menées sur trois jeux de données différents. Il s’agit tout d’abord de 30 000 signets téléchargés de Delicious, associés à environ 55 000 étiquettes uniques soumises par 2 000 utilisateurs. Les signets précédents ont été

enrichis de leur contenu html afin de réaliser un second jeu de données : cela permet d’observer le comportement de nos algorithmes lorsque chaque objet est associé à peu de mots clés ou à l’inverse à un grand nombre. Enfin, le troisième jeu de données est composé de 3.25 millions d’images récupérées du site Flickr associées à 3.5 millions groupes d’étiquettes soumises par environ 272 000 utilisa- teurs ; chaque groupe est en réalité une liste de une à quinze étiquettes. L’ensemble des mots clés disponibles (i.e. titre, étiquettes, description ou contenu html) est utilisé pour l’indexation.

Une expérience consiste à analyser les résultats des algorithmes lorsque des requêtes sont soumises. Ces requêtes sont soit créées automatiquement, soit di- rectement soumises par les utilisateurs lors de sondages. Dans le premier cas, elles sont construites comme l’association des étiquettes soumises par un unique utili- sateur sur une unique image en un seul jour ; étant donné que la personnalisation est prise en compte, le profil de ce même utilisateur sera utilisé lorsque la requête sera soumise.

Évaluation de la qualité des expériences

Afin d’évaluer la qualité des recommandations et de la diversification, nous avons procédé en deux étapes : tout d’abord, des mesures automatiques et numé-

riques des résultats, puis, un sondage utilisateur.

L’évaluation automatique consiste à soumettre toutes les requêtes créées sur différents algorithmes de top-k et à utiliser certaines mesures afin d’analyser la qualité des résultats. Notons tout de même que les résultats sont filtrés afin de ne pas tenir compte des objets partagés par l’initiateur de chaque requête. Finalement, les algorithmes de top-k comparés sont les suivants :

1. Diversification probabiliste de contenu : le modèle probabiliste de diversification décrit en Section 3.3.1.

2. Max-Min : la similarité maximale entre chaque couple d’objets de la liste de résultats doit être minimisée.

3. Max-Sum : la somme des similarités entre chaque couple d’objets doit être minimisée.

4. Diversification probabiliste des profils : notre fonction de score où l’indice de confiance est fixé à 1.

5. Diversification probabiliste et personnalisée des profils : notre fonction de score.

Nous avons ensuite utilisé les métriques suivantes :

1. Pertinence : la similarité moyenne entre chaque objet de la liste de résultats et la requête :

rel = *

it∈Rq

rel(it)

2. Diversification de contenu : la distance moyenne entre chaque couple de la liste de résultats : divc = * itiRq * itjRq 1 − sim(iti, itj) |Rq|2

3. Diversification de profils : la distance moyenne des profils utilisateurs partageant un objet par rapport à ceux qui en partagent un autre, pour chaque couple d’objets :

divp = * itiRq * itjRq 1 − sim(f (uiti), f (uitj)) |Rq|2

4. Confiance : La similarité moyenne entre l’utilisateur ayant soumis la re- quête et ceux partageant les objets :

trust = *

it∈Rq

rel(u, f (uiti), q)

|Rq|

Lors de la seconde étape, la qualité de la diversification des profils a tout d’abord été évaluée. Puis, elle a été combinée à l’indice de confiance. Le sondage a été réalisé pour les jeux de données Delicious et Flickr. Puisque la première partie se focalise principalement sur l’effet de la diversification des profils sur la qualité, nous avons comparé les scores suivants :

1. Simple-topk : seule la similarité entre la requête q et un objet est prise en compte.

2. Diversification des contenus : les objets sélectionnés sont les plus per- tinents par rapport à la requête mais aussi les plus divers entre eux en fonction de leurs étiquettes.

3. Diversification des profils : la fonction de score où le niveau de confiance est fixé à 1.

Pendant la seconde partie du sondage, nous avons comparé les algorithmes sui- vants :

1. Diversification des contenus personnalisée : le modèle probabiliste de diversification associé à un score de confiance.

2. Diversification des profils : la fonction de score où le niveau de confiance est fixé à 1.

3. Diversification des profils personnalisée : notre fonction de score. Enfin, lors de la troisième partie du sondage, le système a essayé, en fonction des retours utilisateurs, d’adapter le niveau de diversité (i.e. ω et β) en utilisant la méthode par utilisateur ou celle par requête, comme cela est présenté en Sec- tion 3.4.3. Afin d’analyser l’effet induit par ces deux méthodes, nous comparons les scores suivants :

1. Simple-topk : seule la similarité entre la requête q et un objet est prise en compte.

2. Diversification des contenus : les objets sélectionnés sont les plus per- tinents par rapport à la requête mais aussi les plus divers entre eux en fonction de leurs étiquettes.

3. Diversification des profils : la fonction de score où le niveau de confiance est fixé à 1 et où les paramètres de diversité sont calculés en fonction des retours utilisateurs.

Les questions suivantes ont été posées aux sondés (les réponses aux questions 1-2 étaient une valeur entre 1 et 5) :

1. Est-ce que la liste de résultats est pertinente par rapport à la requête ? 2. Quel est le niveau de diversification des résultats ?

3. Pouvez-vous classer les listes de résultats (i.e. algorithmes) de la meilleure à la moins bonne en termes de pertinence et de diversité (deux listes peuvent avoir une qualité identique) ?

Afin d’évaluer correctement un score de confiance, une étape de training a été réalisée durant laquelle chaque utilisateur devait soumettre un ensemble de re- quêtes pour choisir des résultats qu’il aimait ; leur profil a ensuite été construit à partir de ces images.

Nous avons interrogé une vingtaine de personnes pour plus de 190 requêtes.

Global corpus of items

Items relevant with respect to a query q Items retrieved with respect to a query q

Figure 3.3: Illustration de la définition et du rappel en recherche d’information

et recommandation.

Discussion sur le rappel et la précision : le rappel est une mesure permet-

partie orangée qui n’est pas en intersection dans la Figure 3.3. Il se calcule de la manière suivante :

recall = |Itemsrelevant∩ Itemsretrieved|

|Itemsrelevant|

(3.10) Où Itemsrelevant représente l’ensemble des objets pertinents et Itemsretrieved uni- quement ceux que le système a retrouvé. À l’inverse, la précision mesure le nombre d’objets qui ne sont pas pertinents et qui ont été malgré tout retournés par le système. Dans la Figure 3.3, cela est représenté par le bleu qui n’est pas en in- tersection. La précision se calcule de la manière suivante :

precision = |Itemsrelevant∩ Itemsretrieved|

|Itemsretrieved|

(3.11) Ces deux mesures sont généralement opposées : quelle valeur du rappel pour telle valeur de la précision. Elles ne sont cependant plus adéquates pour évaluer les modèles introduisant de la diversification pour accroître la qualité des résultats de recherche ou de recommandations [112, 176].

Une intuition simple est la suivante. Généralement une très forte précision est accompagnée d’un rappel faible puisque peu d’objets sont retournés. Afin d’ac- croître le rappel, il suffit d’augmenter le nombre d’objets à retourner ce qui aura pour effet de réduire la précision. Confronter ces deux méthodes permet de voir le compromis de chaque système entre précision et rappel. Introduire de la di- versité pénalise volontairement les résultats afin de fournir de la nouveauté aux utilisateurs. Le rappel et la précision diminuerait alors simultanément, et ces mo- dèles seraient jugés inférieurs aux modèles non-diversifiés. Les études utilisateurs ou l’analyse de leur comportement en ligne représentent la majeure partie des expériences sur la diversité [176].