3.3 Résultats de la modélisation temporelle de la diversité
3.3.3 Adaptation aux items de natures différentes
3.4 Discussion . . . . 71
Comme nous l’avons vu dans l’état de l’art présenté dans le Chapitre 1, et notamment à
travers les travaux de [Castagnos et al., 2010], le besoin en diversité des utilisateurs n’est pas
une dimension statique. Cette dimension évolue en fonction du contexte des utilisateurs, en
fonction de l’intention d’achat. Par exemple, proposer un niveau de diversité adapté dans les
recommandations améliore l’utilité de ces dernières. Malgré les conclusions apportées par ces
travaux concernant la prise en compte du besoin en diversité, nous n’avons pas trouvé d’approche
dans la littérature proposant de modéliser l’évolution en diversité au cours du temps à l’échelle
des consultations des utilisateurs.
Dans ce chapitre, nous présentons le modèle que nous avons développé afin de répondre à cette
problématique. Nous illustrons tout d’abord le principe de notre modèle avant de présenter
son formalisme. Les résultats de modélisation obtenus sur les différents corpus que nous avons
introduits dans le Chapitre2 sont ensuite explicités. Enfin, nous clôturons cette partie par une
discussion à propos des atouts et des limites de notre modèle, mais surtout des perspectives
offertes que nous mettrons en application dans les chapitres suivants.
3.1 Principe
Calcul de la diversité
La diversité telle que nous l’utilisons dans la suite de ce manuscrit correspond à la définition
de [Smyth and McClave, 2001] que nous avons présenté dans la Section1.3.1 p.37. Cette
diver-sité est définie comme étant l’inverse de la similarité. Ainsi, connaissant une valeur de similarité,
nous pouvons calculer la diversité correspondante. Nous entendons calculer cette similarité sur la
base de l’ensemble des attributs des items indépendamment, mais également calculer la moyenne
des valeurs de similarité. Ne pas nous contenter de conserver uniquement la moyenne de la
simila-rité nous offre l’avantage d’obtenir une mesure de similasimila-rité possédant autant de dimensions que
les items comportent d’attributs. Ainsi, si les items possèdent x attributs, la diversité entre deux
items pourra être représentée sur au moins x dimensions. Alors que la moyenne de l’ensemble des
valeurs de diversité pourra servir d’indicateur général de la variation de diversité, les diversités
de chaque attribut permettront une analyse détaillée de l’évolution de la diversité.
Évolution temporelle
Le modèle que nous avons conçu s’inspire de certains algorithmes de traitement du langage
naturel [Bonnin et al., 2012] dans lesquels il est question de représenter un problème sous la
forme d’un N-gramme ou encore selon une représentation Markovienne d’ordre n. Cependant,
dans notre cas, nous n’entendons pas calculer des probabilités d’apparition du prochain item
mais utiliser le principe d’une fenêtre glissante afin de calculer la diversité apportée par un item
par rapport à un historique de petite taille constitué par les items consultés précédemment. La
Figure3.1 illustre le principe de notre modèle.
Figure 3.1 – Illustration du fonctionnement de notre modèle
Sur la Figure 3.1nous appelons l’item courant cible et les n consultations précédentes
im-pliquées dans le calcul de la diversité historique. Ainsi, à chaque nouvelle consultation d’un
utilisateur, la cible et l’historique changent et une nouvelle valeur de diversité est alors calculée.
Dans cet exemple, la diversité est calculée sur la base de 5 attributs qui sont le genre, la
du-rée, l’énergie, l’ambiance et la popularité des musiques. Nous avons également représenté deux
situations qui correspondent à des historiques de tailles différentes, un historique de taille 3 et
un historique de taille 4.
3.2. Formalisme
3.2 Formalisme
Afin de calculer l’évolution de la diversité au cours du temps, nous avons défini un formalisme
générique qui peut être utilisé sur n’importe quel corpus de données. La seule contrainte à
respecter étant que les items doivent posséder des attributs à partir desquels une mesure de
similarité (et donc de diversité) peut être calculée et qu’ils soient consultés en séquence.
Les notations que nous avons utilisées sont les suivantes :
I ={i
1, i
2,...,im} est l’ensemble des items qui sont consultés par les utilisateurs.
U ={u
1, u
2,..., u
n} est la liste des utilisateurs et u représente l’utilisateur courant.
T ={t
−n,...,t
−1, t
0} est à la liste des pas de temps. t
0représente le temps courant,t
−1le pas de
temps précédent,etc.
C={c
1, c
2,...,c
z} est l’ensemble des consultations. Une consultation correspond à un item i∈I
ayant été consulté à un pas de temps donné t∈T par un utilisateur u∈U.
C
k,tureprésente l’historique récent de taille kau pas de temps t ∈T de l’utilisateuru ∈U. Cet
historique peut également être représenté sous la forme d’une séquence de consultations< c
ut−k,
...,c
ut−2
,c
u t−1,c
ut
>.
Ai ={a
1, a
2,..., a
h} représente la liste des attributs d’un itemi.
i
1.a
2représente donc l’attribut 2de l’item 1.
Étant donné que l’on souhaite connaître la diversité apportée par un item (la cible)
relati-vement à un ensemble d’items (l’historique), nous avons adapté la formule de diversité relative
de [Smyth and McClave, 2001] présentée dans le Chapitre1 dont nous rappelons l’Équation3.1.
À l’origine, la diversité relative était calculée par rapport à la taille de la classe d’items,
corres-pondant dans notre cas à l’historique. Cependant, étant donné qu’il est possible que certaines
valeurs de diversité ne puissent pas être calculées à cause de données manquantes, nous avons
adapté la formule. Nous avons ajouté dans l’Équation 3.2 un paramètre s qui correspond au
nombre de fois où il est possible de déterminer une valeur de diversité entre la cible et les items
de l’historique. Par exemple, dans le cas où l’on calcule la DR(c
u4, C
2u,3)), il est possible qu’aucune
information ne soit connue sur l’item de la consultation c
3. Dans ce cas, seules les valeurs de
diversité entrec
4&c
1etc
4&c
2interviendront dans le calcul de la DR etsaura une valeur de 2.
Nous appliquons ce même principe à l’échelle de chacun des attributs si une ou plusieurs valeurs
d’attributs ne sont pas connues. Cette formule de calcul de la similarité basée sur les attributs
prenant en compte les attributs manquants est représentée par l’Équation3.3.
DR(item, C) =
0 siC =∅,
P
j=1..z(1−similarit´e(i, c
j))
z sinon
(3.1)
DR(c
ut, C
k,tu) =
NaN siC
k,tu=∅ ou sis = 0,
P
j=1..k(1−similarite´(c
u t, c
u t−j))
s sinon
(3.2)
Similarite´(c
ut, c
ut−j) =
NaN si(Ac
u t∩Ac
u t−j)ou Ac
u tou Ac
u t−j= ∅,
P
a∈Acu t∩Acu t−j(β
a∗ sim
a(c
ut, c
ut−j))
P
a∈Acu t∩Acu t−jβa sinon
(3.3)
Dans l’Équation3.2, nous avons utilisé le terme de NaN (acronyme deNot a Number) lorsque :
— les items ne contiennent pas d’attribut en commun ;
— la valeur de l’attribut n’est pas connue.
L’utilisation de NaN est justifiée par le fait que nous ne souhaitons pas attribuer une valeur
numérique à la similarité lorsque cette dernière ne peut pas être calculée. Si nous avions choisi
de mettre 0 comme valeur de similarité lorsqu’il n’est pas possible de calculer la similarité, cela
se traduirait alors par une diversité de 1. Or, une diversité de 1 signifie que les items sont
com-plètement divers. Attribuer la valeur NaN permet de ne pas faire intervenir cette valeur dans le
calcul de la DR.
Lorsque nous avons présenté les différents jeux de données que nous utilisons dans nos travaux
(cf. Chapitre 2), nous avons vu que les attributs des items peuvent être de natures différentes.
Nous allons à présent introduire les formules que nous avons utilisées pour chacun des types
d’attributs que nous possédons. Nous rappelons que les attributs des corpus que nous utilisons
dans ce manuscrit
58peuvent être : des valeurs numériques, des valeurs qualitatives et des listes
de mots.
Listes
Les attributs que nous possédons sous forme de liste sont : les genres et les artistes similaires
associés à des artistes. La formule associée aux attributs sous forme de listes est la suivante :
sima(i
1, i
2) = card(i
1.a∩i
2.a)
min(card(i
1.a), card(i
2.a)) (3.4)
Cette formule permet de calculer la similarité qui existe entre deux listes (représentées par
l’attributa). Cette formule est une adaptation de l’indice de Jaccard qui se calcule comme suit :
sima(i
1, i
2) = card(i
1.a∩i
2.a)
card(i
1.a∪i
2.a) (3.5)
Nous avons choisi d’adapter la formule de l’indice de Jaccard afin d’être plus permissifs sur
les similarités qui sont calculées à partir de listes de mots. Les attributs sous forme de listes
de nos corpus sont le genre d’un artiste et les artistes similaires. L’API que nous avons utilisé
nous a retourné un total de 1 172 genres différents. De ce fait, il existe de nombreuses variantes
d’un même genre. Par exemple le terme rock contient plus de 123 déclinaisons (alternative rock,
modern rock, rock, blues-rock, classic rock, garage rock, indie rock, canadian rock, pop rock. . . ).
En ce qui concerne les artistes similaires, un artiste possède en moyenne une liste de 20 artistes
qui lui sont similaires. En utilisant alors le minimum du cardinal des deux listes de genres des
items qui interviennent dans la formule 3.4 plutôt que l’union, la similarité retournée sera plus
grande pour une même intersection qu’en utilisant l’indice de Jaccard. Nous avons proposé cette
adaptation en raison des caractéristiques des corpus que nous avons utilisés. Il est évidemment
possible d’utiliser l’indice de Jaccard ou d’autres formules (utilisant par exemple les relations
lexicales et sémantiques pour les genres ou en regroupant les genres proches sous un même
terme [Porter, 1997]) suivant le domaine applicatif ou encore les jeux de données utilisés. Le
choix de certaines formules peut être motivé par l’idée d’optimiser la répartition des valeurs de
diversité entre les différents attributs. Et ce, afin d’éviter par exemple que les formules de certains
attributs soient très “strictes” alors que les formules d’autres attributs sont plus “souples’.
Valeurs qualitatives
58. Il existe d’autres types d’attributs tels que les coordonnées géographiques et les intervalles que nous avons
utilisés pour d’autres corpus (cf.Section3.2, p.60).
3.2. Formalisme
Les attributs de type qualitatif sont que nous possédons : la clé, le mode et la signature rythmique.
La formule associée aux attributs qualitatifs est la suivante :
sima(i
1, i
2) =
(
1si i
2.a = i
1.a,
0sinon. (3.6)
La similarité entre deux attributs qualitatifs est dans notre cas identique à la similarité de
deux attributs binaires, c’est-à-dire que deux attributs sont soit exactement similaires soit pas
du tout similaires. Dans notre cas, les attributs concernés sont le mode, la tonalité et la
signa-ture rythmique et il semble effectivement très complexe, voire impossible, de définir des niveaux
intermédiaires de similarité.
Valeurs numériques Les attributs de type numérique que nous possédons sont : l’acousticness,
la durée, la danceability, l’énergie, l’instrumentalness la liveness, la loudness, la speechiness, le
tempo, la valence et la popularité de l’artiste.
sima(i
1, i
2) =e
−α∗i1.a−i2.a maxa−mina
2