• Aucun résultat trouvé

4.5 Performance des algorithmes de bandits-manchots pour la recommandation

4.5.3 Analyses basées sur la précision individuelle

La précision globale est le critère d’évaluation le plus largement employé afin d’évaluer la

performance des algorithmes de recommandation. D’autres critères tout aussi importants ont

également été mis en place comme la diversité, la nouveauté ou la sérendipité. Néanmoins à

notre connaissance, la précision individuelle n’a jamais fait l’objet d’une étude précise.

L’objectif sous-jacent à l’analyse de la précision individuelle, est d’observer et comprendre

comment la précision globale obtenue par chaque algorithme est distribuée au sein des

indivi-dus.

Dans les systèmes de recommandation où nous faisons face à de véritables utilisateurs, il

est d’autant plus pertinent de prendre en compte la précision individuelle.

Dans un système, plusieurs problématiques peuvent survenir lorsqu’on ne prend pas en

compte les utilisateurs les plus insatisfaits p. ex., impact image sur les réseaux sociaux,

mau-vaise évaluation de l’application mobile surGoogle Play. Ce sont en effet les utilisateurs les plus

mécontents qui se manifestent souvent le plus. Partant de ce constat, imaginons un traitement

médical pour lequel un algorithme de recommandation obtiendrait 90% de précision globale.

Si ce «bon» résultat est obtenu au dépend d’une population pour laquelle le traitement n’agit

absolument pas, il y a une forte probabilité pour que l’image de ce traitement en soit fortement

dégradé tant les individus «insatisfaits» le communiqueront publiquement. C’est déjà le cas de

nos jours concernant les campagnes «Antivax » qui s’appuient sur des résultats d’inefficacité

exceptionnelle d’un vaccin, pour en faire une généralité p. ex., campagne de désinformation

sur le vaccin de la rougeole qui dépasse pourtant97%d’efficacité après deux doses.

Cet exemple nous amène à prendre en considération la précision individuelle, et à

détermi-ner une méthode visant à diminuer le nombre de personnes fortement «insatisfaites» c.-à-d.,

pour lesquelles l’algorithme obtient des précisions proches de0,00.

Ci-dessus, nous avons évoqué les termes de « satisfaction » et d’« insatisfaction ». Ainsi,

afin de faciliter la lecture des analyses sur la précision individuelle, nous décrivons ces deux

opposés comme suit :

— les individus obtenant une précision individuelle de plus de 0,75 seront qualifiés de

« satisfaits » c.-à-d., trois recommandations effectuées sur quatre ont obtenu une

ré-compense de la part de l’utilisateur ;

— a contrario, les individus pour lesquels les recommandations effectuées ne correspondent

que très rarement, c.-à-d., une précision individuelle inférieur à 0,25, seront qualifiés

d’« insatisfaits » c.-à-d., trois recommandations effectuées sur quatre n’ont obtenu

au-cune récompense de la part de l’utilisateur.

Bien entendu, pour chaque utilisateur donné, plus la précision individuelle tend vers0plus les

recommandations qui lui sont faites seront jugées insatisfaisantes. De même, plus la précision

individuelle tend vers 1 plus les recommandations qui lui sont faites seront jugées

satisfai-santes.

Avant d’analyser la précision individuelle et de déterminer une méthode permettant de

l’améliorer, il est d’abord important de pouvoir et savoir la mesurer. C’est pourquoi, nous avons

mis en place une mesure de la précision individuelle que nous avons décrit en Section 2.4.

Dans cette section, nous évaluons la précision individuelle pour chaque jeu de données et

chaque algorithme à l’aide d’histogrammes et de fonctions de répartition cumulative (FDC).

Notons de plus, que ces observations de FDC sont en correspondance avec les valeurs des

déciles et quartiles calculées dans les Tableaux C.2 et C.1.

Nous détaillons et analysons plus précisément les résultats obtenus par chaque algorithme

pour chaque jeu de données dans l’Annexe B. Afin de faciliter la compréhension des figures

re-présentant la FDC et des tableaux, nous décrivons un mémento d’aide à la lecture des valeurs

et des figures en annexe dans la Section B.9.

4.5.3.1 MABsversusCMABssur jeux de données avec vecteur complet

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.1 et au

Tableau C.2. Les analyses détaillées de ces expérimentations ainsi que les figures qui les

illustrent sont consultables dans les annexes à la Section B.10. Nous résumons la conclusion

de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision individuelle concernant le

cas avec vecteur de contexte complet.Nous remarquons qu’il apparaît avantageux d’utiliser

un algorithme deCMABquand le contexte fourni est pertinent ou optimal plutôt qu’une stratégie

non contextuelle telle qu’un algorithme deMAB qui obtient aux dépens d’une petite proportion

d’utilisateurs satisfaits, une très grande proportion d’insatisfaits. Ainsi, nous pouvons résumer

nos analyses en trois points :

— si le contexte fourni en entrée est suffisamment pertinent, alors les algorithmes de

CMAB basés sur un modèle linéaire, sélectionneront les bras optimaux en bonne

adé-quation avec la situation rencontrée en s’appuyant sur les caractéristiques pertinentes

du vecteur de contexte. Ceux-ci auront donc un net avantage face aux méthodes non

contextuelles. En effet, les algorithmes deMAB ne peuvent se contenter que d’exploiter

un bras optimal pour l’ensemble de la population et non pour chaque classe identifiée

de la population.EXP4.P quant à lui diffère selon le jeu de données : soit il obtient une

FDC mieux répartie sur l’ensemble des intervalles de précision ; soit il est totalement

contre-performant ;

— si le contexte fourni en entrée n’est pas suffisamment pertinent, alors il n’y aura pas

d’avantage à utiliser l’une ou l’autre des méthodes de MAB ou de CMAB. De plus, si

aucune donnée contextuelle fournie en entrée n’est pertinente, alors les algorithmes de

MAB obtiennent de meilleurs résultats de précision individuelle que les algorithmes de

4.5. Performance des algorithmes de bandits-manchots pour la recommandation

— parmi les algorithmes de MAB, il ne semble pas qu’un seul algorithme domine tous

les autres en termes de résultats de précision individuelle. Ainsi, ε-Greedy est le plus

performant sur les jeux de donnéesRS-ASM (vc)ou encoreFood. On préféreraTSou

UCB2sur les jeux de donnéesCovertype,Jester ou encorePoker Hand et enfinEXP3

sera particulièrement plus performant sur le jeu de donnéesYeast.

4.5.3.2 MABsversusCMABssur jeux de données avec vecteur de contexte tronqué

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.3 et au

Tableau C.2. Les analyses détaillées de ces expérimentations ainsi que les figures qui les

illustrent sont consultables dans les annexes à la Section B.11. Nous résumons la conclusion

de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision individuelle concernant le

cas avec vecteur de contexte tronqué. Nous remarquons de nouveau l’avantage significatif

d’utiliser un algorithme deCMABbasé sur un modèle linéaire (voire pour certains cas, basé sur

la sélection de politique) plutôt qu’une méthode de MAB. Sur le critère de précision individuelle,

ceux-ci résistent mieux aux contraintes de restriction de contexte et à l’effetYule-Simpson. En

revanche, au même titre que pour la précision globale et la diversité, ces résultats restent à

nuancer du fait d’un niveau de restriction (troncature) relativement peu important. Plus le

vec-teur sera tronqué, plus il y aura un impact négatif sur la précision individuelle des algorithmes

deCMAB.

4.5.3.3 MABsversusCMABsdans le cas non-stationnaire

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.4. Les

ana-lyses détaillées de ces expérimentations ainsi que les figures qui les illustrent sont consultables

dans les annexes à la Section B.12. Nous résumons la conclusion de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision individuelle, menées sur

le jeux de données non-stationnaireRS-ASM (ns).Il sera plus avantageux d’utiliserLinUCB

qui conserve une bonne répartition de la précision individuelle par rapport aux autres

algo-rithmes. Néanmoins, la précision individuelle obtenue par LinUCB en environnement non

sta-tionnaire est inférieure à celle qu’il obtient en environnement stasta-tionnaire.

4.5.3.4 MABsversusCMABssur jeux de données dépourvu de contexte

Les résultats de ces expérimentations sont disponibles en annexe au Tableau C.5. Les

ana-lyses détaillées de ces expérimentations ainsi que les figures qui les illustrent sont consultables

dans les annexes à la Section B.13. Nous résumons la conclusion de ces analyses ci-après.

Résumé des expérimentions se focalisant sur la précision individuelle, menées sur

le jeu de données dépourvu de contexte Jester. Nous remarquons que les algorithmes

deCMAB ne réussissent pas à personnaliser leur recommandation du fait qu’ils n’ont aucune

caractéristique de contexte sur laquelle s’appuyer pour y parvenir. En revanche, les algorithmes

de MAB obtiennent une meilleure précision individuelle (bien que toujours mal répartie) et

sont donc plus appropriés que les algorithmes deCMAB. Notons également queTSetUCB2

obtiennent une précision individuelle meilleure queε-Greedy etEXP3.

4.5.3.5 Conclusion sur les analyses concernant la précision individuelle

Lorsque que nous disposons d’informations de contexte suffisamment pertinentes, nous

observons que les algorithmes de CMAB obtiennent une meilleure précision individuelle que

les algorithmes deMAB. En revanche, dans le cas où ces informations de contexte sont trop

restreintes, il peut alors devenir plus pertinent d’employer des algorithmes de MAB. De plus,

EXP4.P bien que de même niveau queLinUCB etCTSsur des jeux de données de artificiels,

ne semble pas passer à l’échelle sur des jeux de données du monde réel.

Parmi les algorithmes deCMAB, on observe que LinUCB etCTS obtiennent de meilleurs

résultats dans la majorité des cas. En revanche il n’y a pas de différences significatives entre

les algorithmes de MAB. Néanmoins, dans certains cas il sera sensiblement plus avantageux

d’utiliserε-Greedy au dépend d’une précision globale plus faible. Les résultats obtenus par cet

algorithme dépendent fortement du «jeu de données» sur lequel on l’évalue.

De plus, dans un cadre applicatif, faire un choix entre LinUCB et CTS est de nouveau

cornélien. En effet,LinUCB surpasseCTSdans un seul cas : RS-ASM (vc). De mêmeCTSne

surpasse significativementLinUCBque sur un seul cas : RS-ASM (vt).CTSrésiste donc mieux

à des cas de restriction sur le contexte. Dans les autres expérimentations les deux algorithmes

obtiennent des résultats similaires.

Sur cet aspect de la précision individuelle, ces considérations posent de nouveau la

ques-tion de choisir le bon algorithme pour le bon jeu de données c.-à-d., choisir un algorithme qui

obtient une distribution de la précision individuelle la plus « équilibrée » pour l’ensemble de

la population. Ici, la notion d’équilibre de la distribution de précision individuelle peut être de

différents ordres selon l’interprétation que nous souhaitons en faire et les résultats que nous

souhaitons obtenir :

1. Définition utilitariste. Dans le cas où nous n’obtenons pas Accu(T) ≈ 1,00,uU,

on concède le fait d’avoir une proportion non négligeable d’individus très insatisfaits en

contrepartie de conserver une proportion de très satisfaits importante ;

2. Définition statistiques. On souhaite obtenir un compromis le plus « parfait » possible

c.-à-d. une satisfaction moyenne pour l’ensemble de la population inférieure au

maxi-mum possible. Ceci correspondrait à une distribution de type Gaussienne, centrée sur

la moyenne de précision globale8.

Concernant notre cadre applicatif, nous envisageons un compromis entre les deux définitions

ci-dessus dans le cas où nous n’obtenons pas Accu(T) = 1,00,u ∈ U. Nous

considére-rons donc qu’une distribution est équilibrée lorsqu’on diminue la proportion de très insatisfaits

4.6. Synthèse et conclusion du chapitre

(<0,10de précision individuelle), en contrepartie d’une diminution et si possible d’une

conser-vation, de la proportion de très satisfaits (>0,9de précision individuelle).

Afin de mieux comprendre notre raisonnement, nous étayons nos propos à l’aide d’un

exemple sous l’angle de l’éthique. Prenons le cas de la recommandation d’un traitement

mé-dical à divers patients. Le système doit-il : 1) Opter pour une stratégie utilitariste c’est à dire

sauver la majorité des patients au dépend de certains qu’on ne pourrait guérir ? 2) Administrer

un traitement qui ne déplore aucun décès mais qui ne guérit en contrepartie que partiellement

l’ensemble de la population en la maintenant en vie ?

Répondriez-vous la même chose si vous connaissiez personnellement l’un de ces patients

qui ne pourrait être guéri ?

Il est d’autant plus important de considérer cette question dans notre cas de système de

recommandation à des utilisateurs mobiles où nous ferons face à de véritables utilisateurs pour

lesquels l’équité pourrait être importante (voir les systèmes de recommandation de groupe

[RRS15]).

Ainsi, dans le chapitre 5, la solution que nous mettons en lumière est de rajouter ou favoriser

la diversification dans les recommandations afin de diminuer la population de très insatisfaits

par sérendipité.

4.6 Synthèse et conclusion du chapitre

Dans ce chapitre, nous avons étudié la performance de différents algorithmes de

bandits-manchots contextuels (CMAB) et non contextuels (MAB) à travers le spectre de trois critères

différents :

— la précision globale ;

— la diversité ;

— la précision individuelle.

Dans cette section nous concluons donc par une analyse globale que nous détaillons au

Tableau 4.3.