4.5 Performance des algorithmes de bandits-manchots pour la recommandation
4.5.3 Analyses basées sur la précision individuelle
La précision globale est le critère d’évaluation le plus largement employé afin d’évaluer la
performance des algorithmes de recommandation. D’autres critères tout aussi importants ont
également été mis en place comme la diversité, la nouveauté ou la sérendipité. Néanmoins à
notre connaissance, la précision individuelle n’a jamais fait l’objet d’une étude précise.
L’objectif sous-jacent à l’analyse de la précision individuelle, est d’observer et comprendre
comment la précision globale obtenue par chaque algorithme est distribuée au sein des
indivi-dus.
Dans les systèmes de recommandation où nous faisons face à de véritables utilisateurs, il
est d’autant plus pertinent de prendre en compte la précision individuelle.
Dans un système, plusieurs problématiques peuvent survenir lorsqu’on ne prend pas en
compte les utilisateurs les plus insatisfaits p. ex., impact image sur les réseaux sociaux,
mau-vaise évaluation de l’application mobile surGoogle Play. Ce sont en effet les utilisateurs les plus
mécontents qui se manifestent souvent le plus. Partant de ce constat, imaginons un traitement
médical pour lequel un algorithme de recommandation obtiendrait 90% de précision globale.
Si ce «bon» résultat est obtenu au dépend d’une population pour laquelle le traitement n’agit
absolument pas, il y a une forte probabilité pour que l’image de ce traitement en soit fortement
dégradé tant les individus «insatisfaits» le communiqueront publiquement. C’est déjà le cas de
nos jours concernant les campagnes «Antivax » qui s’appuient sur des résultats d’inefficacité
exceptionnelle d’un vaccin, pour en faire une généralité p. ex., campagne de désinformation
sur le vaccin de la rougeole qui dépasse pourtant97%d’efficacité après deux doses.
Cet exemple nous amène à prendre en considération la précision individuelle, et à
détermi-ner une méthode visant à diminuer le nombre de personnes fortement «insatisfaites» c.-à-d.,
pour lesquelles l’algorithme obtient des précisions proches de0,00.
Ci-dessus, nous avons évoqué les termes de « satisfaction » et d’« insatisfaction ». Ainsi,
afin de faciliter la lecture des analyses sur la précision individuelle, nous décrivons ces deux
opposés comme suit :
— les individus obtenant une précision individuelle de plus de 0,75 seront qualifiés de
« satisfaits » c.-à-d., trois recommandations effectuées sur quatre ont obtenu une
ré-compense de la part de l’utilisateur ;
— a contrario, les individus pour lesquels les recommandations effectuées ne correspondent
que très rarement, c.-à-d., une précision individuelle inférieur à 0,25, seront qualifiés
d’« insatisfaits » c.-à-d., trois recommandations effectuées sur quatre n’ont obtenu
au-cune récompense de la part de l’utilisateur.
Bien entendu, pour chaque utilisateur donné, plus la précision individuelle tend vers0plus les
recommandations qui lui sont faites seront jugées insatisfaisantes. De même, plus la précision
individuelle tend vers 1 plus les recommandations qui lui sont faites seront jugées
satisfai-santes.
Avant d’analyser la précision individuelle et de déterminer une méthode permettant de
l’améliorer, il est d’abord important de pouvoir et savoir la mesurer. C’est pourquoi, nous avons
mis en place une mesure de la précision individuelle que nous avons décrit en Section 2.4.
Dans cette section, nous évaluons la précision individuelle pour chaque jeu de données et
chaque algorithme à l’aide d’histogrammes et de fonctions de répartition cumulative (FDC).
Notons de plus, que ces observations de FDC sont en correspondance avec les valeurs des
déciles et quartiles calculées dans les Tableaux C.2 et C.1.
Nous détaillons et analysons plus précisément les résultats obtenus par chaque algorithme
pour chaque jeu de données dans l’Annexe B. Afin de faciliter la compréhension des figures
re-présentant la FDC et des tableaux, nous décrivons un mémento d’aide à la lecture des valeurs
et des figures en annexe dans la Section B.9.
4.5.3.1 MABsversusCMABssur jeux de données avec vecteur complet
Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.1 et au
Tableau C.2. Les analyses détaillées de ces expérimentations ainsi que les figures qui les
illustrent sont consultables dans les annexes à la Section B.10. Nous résumons la conclusion
de ces analyses ci-après.
Résumé des expérimentions se focalisant sur la précision individuelle concernant le
cas avec vecteur de contexte complet.Nous remarquons qu’il apparaît avantageux d’utiliser
un algorithme deCMABquand le contexte fourni est pertinent ou optimal plutôt qu’une stratégie
non contextuelle telle qu’un algorithme deMAB qui obtient aux dépens d’une petite proportion
d’utilisateurs satisfaits, une très grande proportion d’insatisfaits. Ainsi, nous pouvons résumer
nos analyses en trois points :
— si le contexte fourni en entrée est suffisamment pertinent, alors les algorithmes de
CMAB basés sur un modèle linéaire, sélectionneront les bras optimaux en bonne
adé-quation avec la situation rencontrée en s’appuyant sur les caractéristiques pertinentes
du vecteur de contexte. Ceux-ci auront donc un net avantage face aux méthodes non
contextuelles. En effet, les algorithmes deMAB ne peuvent se contenter que d’exploiter
un bras optimal pour l’ensemble de la population et non pour chaque classe identifiée
de la population.EXP4.P quant à lui diffère selon le jeu de données : soit il obtient une
FDC mieux répartie sur l’ensemble des intervalles de précision ; soit il est totalement
contre-performant ;
— si le contexte fourni en entrée n’est pas suffisamment pertinent, alors il n’y aura pas
d’avantage à utiliser l’une ou l’autre des méthodes de MAB ou de CMAB. De plus, si
aucune donnée contextuelle fournie en entrée n’est pertinente, alors les algorithmes de
MAB obtiennent de meilleurs résultats de précision individuelle que les algorithmes de
4.5. Performance des algorithmes de bandits-manchots pour la recommandation
— parmi les algorithmes de MAB, il ne semble pas qu’un seul algorithme domine tous
les autres en termes de résultats de précision individuelle. Ainsi, ε-Greedy est le plus
performant sur les jeux de donnéesRS-ASM (vc)ou encoreFood. On préféreraTSou
UCB2sur les jeux de donnéesCovertype,Jester ou encorePoker Hand et enfinEXP3
sera particulièrement plus performant sur le jeu de donnéesYeast.
4.5.3.2 MABsversusCMABssur jeux de données avec vecteur de contexte tronqué
Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.3 et au
Tableau C.2. Les analyses détaillées de ces expérimentations ainsi que les figures qui les
illustrent sont consultables dans les annexes à la Section B.11. Nous résumons la conclusion
de ces analyses ci-après.
Résumé des expérimentions se focalisant sur la précision individuelle concernant le
cas avec vecteur de contexte tronqué. Nous remarquons de nouveau l’avantage significatif
d’utiliser un algorithme deCMABbasé sur un modèle linéaire (voire pour certains cas, basé sur
la sélection de politique) plutôt qu’une méthode de MAB. Sur le critère de précision individuelle,
ceux-ci résistent mieux aux contraintes de restriction de contexte et à l’effetYule-Simpson. En
revanche, au même titre que pour la précision globale et la diversité, ces résultats restent à
nuancer du fait d’un niveau de restriction (troncature) relativement peu important. Plus le
vec-teur sera tronqué, plus il y aura un impact négatif sur la précision individuelle des algorithmes
deCMAB.
4.5.3.3 MABsversusCMABsdans le cas non-stationnaire
Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.4. Les
ana-lyses détaillées de ces expérimentations ainsi que les figures qui les illustrent sont consultables
dans les annexes à la Section B.12. Nous résumons la conclusion de ces analyses ci-après.
Résumé des expérimentions se focalisant sur la précision individuelle, menées sur
le jeux de données non-stationnaireRS-ASM (ns).Il sera plus avantageux d’utiliserLinUCB
qui conserve une bonne répartition de la précision individuelle par rapport aux autres
algo-rithmes. Néanmoins, la précision individuelle obtenue par LinUCB en environnement non
sta-tionnaire est inférieure à celle qu’il obtient en environnement stasta-tionnaire.
4.5.3.4 MABsversusCMABssur jeux de données dépourvu de contexte
Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.5. Les
ana-lyses détaillées de ces expérimentations ainsi que les figures qui les illustrent sont consultables
dans les annexes à la Section B.13. Nous résumons la conclusion de ces analyses ci-après.
Résumé des expérimentions se focalisant sur la précision individuelle, menées sur
le jeu de données dépourvu de contexte Jester. Nous remarquons que les algorithmes
deCMAB ne réussissent pas à personnaliser leur recommandation du fait qu’ils n’ont aucune
caractéristique de contexte sur laquelle s’appuyer pour y parvenir. En revanche, les algorithmes
de MAB obtiennent une meilleure précision individuelle (bien que toujours mal répartie) et
sont donc plus appropriés que les algorithmes deCMAB. Notons également queTSetUCB2
obtiennent une précision individuelle meilleure queε-Greedy etEXP3.
4.5.3.5 Conclusion sur les analyses concernant la précision individuelle
Lorsque que nous disposons d’informations de contexte suffisamment pertinentes, nous
observons que les algorithmes de CMAB obtiennent une meilleure précision individuelle que
les algorithmes deMAB. En revanche, dans le cas où ces informations de contexte sont trop
restreintes, il peut alors devenir plus pertinent d’employer des algorithmes de MAB. De plus,
EXP4.P bien que de même niveau queLinUCB etCTSsur des jeux de données de artificiels,
ne semble pas passer à l’échelle sur des jeux de données du monde réel.
Parmi les algorithmes deCMAB, on observe que LinUCB etCTS obtiennent de meilleurs
résultats dans la majorité des cas. En revanche il n’y a pas de différences significatives entre
les algorithmes de MAB. Néanmoins, dans certains cas il sera sensiblement plus avantageux
d’utiliserε-Greedy au dépend d’une précision globale plus faible. Les résultats obtenus par cet
algorithme dépendent fortement du «jeu de données» sur lequel on l’évalue.
De plus, dans un cadre applicatif, faire un choix entre LinUCB et CTS est de nouveau
cornélien. En effet,LinUCB surpasseCTSdans un seul cas : RS-ASM (vc). De mêmeCTSne
surpasse significativementLinUCBque sur un seul cas : RS-ASM (vt).CTSrésiste donc mieux
à des cas de restriction sur le contexte. Dans les autres expérimentations les deux algorithmes
obtiennent des résultats similaires.
Sur cet aspect de la précision individuelle, ces considérations posent de nouveau la
ques-tion de choisir le bon algorithme pour le bon jeu de données c.-à-d., choisir un algorithme qui
obtient une distribution de la précision individuelle la plus « équilibrée » pour l’ensemble de
la population. Ici, la notion d’équilibre de la distribution de précision individuelle peut être de
différents ordres selon l’interprétation que nous souhaitons en faire et les résultats que nous
souhaitons obtenir :
1. Définition utilitariste. Dans le cas où nous n’obtenons pas Accu(T) ≈ 1,00,∀u ∈ U,
on concède le fait d’avoir une proportion non négligeable d’individus très insatisfaits en
contrepartie de conserver une proportion de très satisfaits importante ;
2. Définition statistiques. On souhaite obtenir un compromis le plus « parfait » possible
c.-à-d. une satisfaction moyenne pour l’ensemble de la population inférieure au
maxi-mum possible. Ceci correspondrait à une distribution de type Gaussienne, centrée sur
la moyenne de précision globale8.
Concernant notre cadre applicatif, nous envisageons un compromis entre les deux définitions
ci-dessus dans le cas où nous n’obtenons pas Accu(T) = 1,00,∀u ∈ U. Nous
considére-rons donc qu’une distribution est équilibrée lorsqu’on diminue la proportion de très insatisfaits
4.6. Synthèse et conclusion du chapitre
(<0,10de précision individuelle), en contrepartie d’une diminution et si possible d’une
conser-vation, de la proportion de très satisfaits (>0,9de précision individuelle).
Afin de mieux comprendre notre raisonnement, nous étayons nos propos à l’aide d’un
exemple sous l’angle de l’éthique. Prenons le cas de la recommandation d’un traitement
mé-dical à divers patients. Le système doit-il : 1) Opter pour une stratégie utilitariste c’est à dire
sauver la majorité des patients au dépend de certains qu’on ne pourrait guérir ? 2) Administrer
un traitement qui ne déplore aucun décès mais qui ne guérit en contrepartie que partiellement
l’ensemble de la population en la maintenant en vie ?
Répondriez-vous la même chose si vous connaissiez personnellement l’un de ces patients
qui ne pourrait être guéri ?
Il est d’autant plus important de considérer cette question dans notre cas de système de
recommandation à des utilisateurs mobiles où nous ferons face à de véritables utilisateurs pour
lesquels l’équité pourrait être importante (voir les systèmes de recommandation de groupe
[RRS15]).
Ainsi, dans le chapitre 5, la solution que nous mettons en lumière est de rajouter ou favoriser
la diversification dans les recommandations afin de diminuer la population de très insatisfaits
par sérendipité.
4.6 Synthèse et conclusion du chapitre
Dans ce chapitre, nous avons étudié la performance de différents algorithmes de
bandits-manchots contextuels (CMAB) et non contextuels (MAB) à travers le spectre de trois critères
différents :
— la précision globale ;
— la diversité ;
— la précision individuelle.
Dans cette section nous concluons donc par une analyse globale que nous détaillons au
Tableau 4.3.
Dans le document
Recommandation contextuelle de services : application à la recommandation d'évènements culturels dans la ville intelligente
(Page 142-146)