• Aucun résultat trouvé

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

N/A
N/A
Protected

Academic year: 2022

Partager "recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences"

Copied!
7
0
0

Texte intégral

(1)

Modélisation  des  utilisateurs  atypiques  dans  les  systèmes  de   recommandation    

Directeur de thèse : Anne BOYER

Si le directeur de thèse n'apparait pas dans le menu déroulant, vous pouvez indiquer cette information dans la rubrique correspondant

Coencadrement : Armelle BRUN

Correspondant/Contact :

Nom  :  BOYER                                  Prénom  :  Anne   Mail  :  [email protected]  

                     [email protected]  

Titre en français : Titre en anglais : Mots-clefs :

Mots-clefs en anglais :

Mise en ligne de l'offre sur le site web :

Modélisation des utilisateurs atypiques dans les systèmes de recommandation

Atypical user modeling in recommender systems Modélisation utilisateur, modélisation de préférences, systèmes de recommandation, fouille de données, apprentissage automatique, apprentissage sur données manquantes, données aberrantes, anomalies, utilisateurs atypiques.

User modeling, preference modeling, recommender systems, data mining, machine learning, learning on sparse data, outliers, anomalies in data, atypical users.

Avril 2014

Type de financement : Contrat Doctoral

Candidature en ligne du sujet : jusque juin 2014

Année universitaire : 2014-2015 Date de dépôt :

Date de début de la thèse : Profil candidat :

Octobre 2014

Informatique, Intelligence Artificielle, Sciences cognitives

Domaine  :

 Informatique,  Intelligence  Artificielle,  Modélisation  de  préférences  

(2)

Thématique  :   Modélisation utilisateur, systèmes de recommandation, fouille de données, apprentissage automatique, apprentissage sur données manquantes, modélisation de données aberrantes.

 

Contexte  :  

Les  systèmes  de  recommandation  visent  à  améliorer  l’interaction  entre  des  services  en  ligne  et  des   utilisateurs.  Ils  proposent  aux  utilisateurs  des  ressources  qui  correspondant  à  leur  goûts  et  attentes.  

Les  systèmes  de  recommandation  constituent  à  eux  seuls  un  domaine  de  recherche  en  plein  essor.  

Parmi   les   approches   possibles   [1],   les   approches   sociales   et   notamment   le   filtrage   collaboratif   [2]  

sont   les   plus   étudiées   à   l’heure   actuelle.   Elles   exploitent   les   préférences   et   actions   passées   des   utilisateurs,   en   infèrent   des   profils   utilisateurs   et   estiment   des   préférences   manquantes   des   utilisateurs   en   exploitant   notamment   des   similarités   de   préférence   entre   utilisateurs.   Une   fois   ces   préférences   estimées,   elles   fournissent   des   recommandations   aux   utilisateurs.   Ces   approches   ont   largement  prouvé  leur  qualité  et  efficacité  ces  dernières  années,  qui  sont  notamment  favorisées  par   l’exploitation   de   grosses   masses   de   données   et   de   serveurs   performants.   Les   systèmes   de   recommandations   constituent   désormais   un   outil   classiquement   utilisé   dans   le   monde   industriel,   notamment  dans  le  cadre  du  e-­‐commerce,  du  tourisme,  de  l’apprentissage  en  ligne,  etc.  

Certains  défis  scientifiques  restent  cependant  encore  à  relever,  nous  pouvons  citer  l’acceptation  du   système  de  recommandation  par  les  utilisateurs  (impression  d’intrusion  dans  la  vie  privée),  le  respect   de  la  vie  privée,  l’amélioration  de  la  qualité  des  recommandations,  l’intégration  de  la  diversité  dans   les  recommandations,  le  passage  à  l’échelle,  le  démarrage  à  froid,  etc.  

Objectif  :  

Bien  que  la  qualité  des  recommandations  faite  aux  utilisateurs  soit  jugée  élevée,  elle  est  cependant   inégale  selon  les  utilisateurs.  Un  sous-­‐ensemble  des  utilisateurs  (en  général  de  petite  taille)  se  voit   proposer   des   recommandations   de   qualité   médiocre,   voire   de   mauvaise   qualité.   C’est   ce   sous-­‐

ensemble   d’utilisateurs   qui   est   le   cœur   d’intérêt   de   cette   thèse.   Nous   faisons   l’hypothèse   que   ces   utilisateurs  n’ont  pas  de  préférences  similaires  ou  corrélées  à  celles  des  autres,  et  que  les  approches   sociales   de   la   recommandation   échouent   donc   sur   ces   profils.   Nous   qualifions   ces   utilisateurs   d’utilisateurs    «  atypiques  ».  

Il  est  cependant  important  d’offrir  un  service  de  qualité  à  l’ensemble  des  utilisateurs.  Cela  constitue   l’objectif  de  cette  thèse.    

Dans  cette  thèse  nous  allons  donc  nous  intéresser  à  la  caractérisation  de  ces  utilisateurs  atypiques,  à   leur   modélisation   de   façon   à   pouvoir   les   identifier   dans   une   population   d’utilisateurs   et   à   la   proposition   de   modèles   de   recommandation   originaux,   spécifiquement   dédiés   aux   utilisateurs   atypiques,  leur  garantissant  ainsi  des  recommandations  de  qualité.  

Un   objectif   important   est   de   proposer   une   approche   nouvelle,   fort   probablement   radicalement   différente   des   approches   classiques.   En   effet,   ces   utilisateurs   sont   peu   nombreux   (les   approches   statistiques  devront  être  exploitées  avec  précaution),  avec  des  préférences  non  corrélées  aux  autres  

(3)

utilisateurs,   voire   des   préférences   sur   des   ressources   complètement   différentes   des   autres   utilisateurs.  

Méthode    

Dans   un   premier   temps,   une   étude   sur   la   façon   dont   l’atypisme   est   considéré   et   modélisé,   dans   différents  domaines,  sera  effectuée,  notamment  en  psychologie,  philosophie,  sociologie,  etc.  Cette   étude   permettra   d’identifier   ce   qui   caractérise   les   personnes   dites   atypiques,   et   d’en   déduire   une   typologie   de   façon   à   déterminer   ultérieurement   dans   quelles   mesures   ces   caractéristiques   se   retrouvent  et  peuvent  être  exploitées  dans  le  cadre  de  la  modélisation  utilisateur  et  les  systèmes  de   recommandation.  Notons  que  le  terme  atypique  n’est  peut-­‐être  pas  celui  qui  est  utilisé  dans  d’autres   domaines.  Par  exemple,  en  psychologie  on  utilise  plutôt  le  terme  «  déviant  ».  

Nous   nous   intéresserons   ensuite   à   la   proposition   de   mesures   d’identification   automatique   des   utilisateurs   atypiques.   Ces   mesures   exploiteront   bien   évidemment   la   typologie   définie   précédemment.    Il  est  à  noter  que  ces  utilisateurs  sont  en  relativement  faible  nombre,  et  dans  ce  cas   une  approche  statistique  est  à  utiliser  avec  précaution.  Il  faudra  également  faire  attention  à  ne  pas   considérer   comme   atypiques,   des   utilisateurs   qui   sont   nouveaux   dans   le   système   (problème   du   démarrage  à  froid).  

Dans   un   second   temps,   il   faudra   s’intéresser   à   la   proposition   de   nouvelles   méthodes   de   recommandation,   toujours   dans   le   cadre   des   approches   sociales,   mais   adaptées   au   cas   des   utilisateurs   atypiques.   Les   méthodes   dans   ce   cas   devront   tenir   compte   du   faible   nombre   d’utilisateurs   atypiques   (faible   quantité   de   données),   de   leur   similarité   faible   avec   les   autres   utilisateurs  voire  entre  eux,  voire  incalculable  (ils  peuvent  ne  renseigner  leurs  préférences  que  sur   des  ressources  sur  lesquels  les  autres  utilisateurs  n’expriment  pas  leurs  préférences),  ou  encore  de   l’impossibilité   de   les   modéliser   (comportement/préférences   incohérents).   Il   est   probable   que   les   informations   devront   être   exploitées   différemment   des   approches   habituelles.   Notamment,   la   question  se  pose  de  savoir  s’il  ne  faudrait  pas  utiliser  ce  qui  diffère  entre  les  utilisateurs,  plutôt  que   d’utiliser  ce  qui  les  rassemble.  

Les   mesures   et   modèles   proposés   s’inspireront   de   travaux   menés   en   modélisation   utilisateur,   en   apprentissage   automatique,   en   fouille   de   données,   systèmes   de   recommandation,   il   faudra   également  s’inspirer  des  travaux  menés  sur  l’identification  de  données  aberrantes,  etc.  

Présentation  détaillée  en  français  

Ces   dernières   années   le   nombre   de   ressources   mises   à   disposition   des   utilisateurs   ne   cesse   de   croître,   avec   pour   conséquence   que   ceux-­‐cis   sont   submergés   par   la   quantité   de   ressources   auxquelles   ils   peuvent   accéder.   Par   conséquent,   ils   n’arrivent   pas   à   accéder   aux   ressources   qui   correspondent  à  leurs  attentes.  Les  systèmes  de  recommandation,  par  le  biais  de  recommandations   qu’ils  fournissent  aux  utilisateurs,  visent  à  résoudre  ce  problème.  Ils  modélisent  les  utilisateurs,  les   ressources   ou   encore   les   relations   entre   utilisateurs   et   ressources   (consultation,   notations,   commentaires,  etc.).  par  le  biais  des  similarités  ou  corrélations  entre  les  profils  utilisateurs  ou  entre   les  ressources.  

(4)

Les  approches  sociales  de  la  recommandation,  et  notamment  le  filtrage  collaboratif,  font  l’hypothèse   que  les  préférences  des  utilisateurs  sont  corrélées  et  qu’un  utilisateur  aimera  une  ressource  que  des   utilisateurs   avec   des   gouts   similaires   ont   aimé.     Ces   approches   exploitent   donc   les   similarités   de   préférences   (ou   de   comportement)   entre   utilisateurs   pour   inférer   des   préférences   manquantes.  

Cette  hypothèse  a  montré  sa  validité  au  travers  de  la  qualité  des  recommandations  proposées  aux   utilisateurs,  mais  également  par  la  popularité  acquise  par  les  approches  sociales.  

Bien   que   la   qualité   globale   des   recommandations   soit   élevée,   il   est   avéré   que   certains   utilisateurs   reçoivent   des   recommandations   de   qualité   moyenne   ou   de   mauvaise   qualité.   Nous   pensons   que   cette  mauvaise  qualité  est  due  au  fait  que  l’hypothèse  ci-­‐dessus  ne  s’applique  pas  à  ces  utilisateurs,   et   que   donc,   soit   ils   ont   peu   ou   pas   d’utilisateurs   similaires,   soit   il   est   impossible   d’évaluer   cette   similarité.    

L’état   de   l’art   s’est   relativement   peu   penché   sur   les   utilisateurs   dont   le   comportement   ou   les   préférences  sont  différents  de  celui  des  autres.  [3]  propose  une  mesure  de  déviance  qui  s’applique  à   chaque   utilisateur   et   qui   permet   d’identifier   les   utilisateurs   atypiques.   Cette   mesure   quantifie   la   différence   de   notes   d’un   utilisateur   par   rapport   aux   notes   moyennes,   pour   chaque   ressource.   Cet   article  a  l’originalité  de  séparer  les  utilisateurs  atypiques  des  non  atypiques  et  chaque  ensemble  est   traité  indépendamment  l’un  de  l’autre,  les  déviants  sont  uniquement  comparés  aux  déviants,  et  de  la   même  façon  pour  les  non-­‐déviants.  [4]  définit  quant  à  lui  une  mesure  de  singularité,  propre  à  une   note   donnée   par   un   utilisateur   sur   une   ressource,   et   qui   reflète   la   cohérence   de   cette   note   par   rapport  à  la  note  donnée  à  cette  ressource  par  la  population  entière.  Elle  est  utilisée  dans  le  calcul  de   la  similarité  entre  deux  utilisateurs  pour  pondérer  l’importance  d’une  ressource.  [5]  s’intéresse  à  la   prise  en  compte  du  bruit  dans  les  notes  données  par  les  utilisateurs.  Une  note  est  qualifiée  de  bruit  si   elle   ne   suit   pas   la   tendance   des   notes   sur   cet   item.   L’article   s’intéresse   à   la   correction   des   notes   bruitées  pour  améliorer  la  qualité  de  la  recommandation.    

L’objectif  général  de  cette  thèse  est  donc  d’identifier  et  de  modéliser  les  utilisateurs  que  l’on  qualifie   d’utilisateurs   atypiques,   mais   également   de   fournir   des   recommandations   de   qualité   à   l’ensemble   des  utilisateurs  et  donc  d’améliorer  celle  des  utilisateurs  atypiques  qui  reçoivent  habituellement  de   mauvaises  recommandations.  Nous  faisons  l’hypothèse  que  les  utilisateurs  sont  des  utilisateurs  mal   modélisés  et  qui  donc,  dans  les  approches  sociales  à  base  de  voisinage,  sont  des  utilisateurs  avec  peu   de   voisins   fortement   corrélés.   L’objectif   est   de   proposer   des   méthodes   de   modélisation   et   de   recommandation  originales,  avec  une  approche  probablement  à  l’opposé  des  approches  classiques.  Il   faudra  notamment  se  pencher  sur  la  modélisation  de  la  différence  et  non  plus  sur  la  modélisation  de   ce   qui   est   en   commun   entre   les   utilisateurs   (ce   qui   les   rassemble).   Par   ailleurs,   les   travaux   sur   les   données   aberrantes   ou   le   bruit   dans   les   données   [5]   constituent   une   base   aux   travaux   qui   seront   menés.  

L’atypicité   n’est,   à   l’heure   actuelle,   que   très   peu   étudiée   et   qui   semble   émerger.   En   effet,   les   approches  classiques,  qui  visent  à  fournir  des  recommandations  à  la  grande  majorité  semblent  avoir   atteint  leurs  limites  et  une  des  pistes  d’amélioration  concerne  ces  utilisateurs  atypiques.  Les  grandes   entreprises   se   contentent,   pour   le   moment,   de   satisfaire   la   grande   majorité   des   utilisateurs,   en   oubliant  totalement  le  sous-­‐ensemble  d’utilisateurs  insatisfaits.    

 

(5)

Avancée  scientifique  et  originalité.  L’originalité  de  cette  thèse  vient  du  fait  qu’on  se  focalise  sur  un   sous-­‐ensemble   précis   d’utilisateurs.   Une   autre   originalité   est   la   définition   d’une   typologie   des   utilisateurs   atypiques,   qui   n’a   jamais   été   faite   dans   le   domaine,   et   qui   s’inspire   de   domaines   connexes.   Un   troisième   point   fort   et   challenge   partir   de   la   spécification   des   utilisateurs   atypiques   pour   anticiper   la   mauvaise   qualité   des   recommandations,   à   l’inverse   de   certaines   approches   qui   identifient  dans  un  premier  temps  les  utilisateurs  avec  une  mauvaise  qualité  de  recommandation.  

En  synthèse,  les  étapes  qui  constitueront  ce  travail  sont  :  

-­‐ Proposition   d’une   typologie   de   l’atypicité,   selon   plusieurs   points   de   vue/domaines,   et   notamment  de  celui  de  la  modélisation  utilisateurs  ;  

-­‐ Définition  de  méthodes  d’identification  d’utilisateurs  atypiques,  en  fonction  de  la  typologie   proposée  ci-­‐dessus  ;  

-­‐ Proposition   de   modèles   de   recommandation   adaptés   au   cas   des   utilisateurs   atypiques  :   données  en  faible  quantité,  modélisation  de  la  différence,  etc.  ;  

-­‐ Validation  des  modèles  sur  des  corpus  de  données  utilisés  par  la  communauté  internationale   du   domaine   et   sur   des   données   réelles.     Les   données   réelles   incluront   les   données   d’utilisateurs   en   situation   de   handicap,   qui   ont   des   comportements   différents   de   la   population  en  générale.  Nous  appuierons  cette  étude  sur  des  collaborations  naissantes  avec   l’INSHEA.  

Présentation  détaillée  en  anglais

 

These   last   years,   the   number   of   resources   that   users   scan   access   has   highly   increased,   with   the   consequence   that   they   are   overwhelmed   by   these   resources   and   have   difficulties   to   access   those     that   correspond   to   their   preferences   or   expectations.   Recommender   systems,   through   recommendations  they  present  to  users,  aim  at  solving  this  problem.  They  model  users,  resources  or   relations   between   users   and   resources   (consultations,   ratings,   comments,   etc.)   by   exploiting   the   similarities  or  correlations  between  users  of  resources.  

Social   approaches,   especially   collaborative   filtering,   assume   that   users   preferences   are   correlated   and   that   a   user   will   like   a   resource   that   other   users,   with   similar   preferences,   have   liked.   These   approaches   use   users   similarity   of   preferences   (or   behavior)   to   infer   missing   preferences.   This   assumption  has  been  validated,  by  studying  the  quality  of  the  recommendations  presented  to  users   and  with  the  popularity  acquired  by  the  social  approaches.  

Although   the   average   quality   of   recommendations   is   high,   some   users   have   low   quality   recommendations.  We  think  that  this  low  quality  is  due  to  the  fact  that  the  previous  assumption  is   not   true   for   these   users:   they   have   few   or   no   similar   users,   or   it   is   impossible   to   compute   the   similarity.  

Few  works  in  the  state  of  the  art  have  focused  on  the  study  of  users  with  a  behavior  or  preferences   different   from   others.   [3]   proposes   a   deviance   measure,   that   is   computed   on   each   user,   and   that   allows   to   identify   atypical   users.   This   measure   quantifies   the   difference   of   the   ratings   of   a   user,   compared  to  the  average  rating  for  each  resource.  This  work  splits  atypical  users  and  other  users,   and  considers  both  sets  separately.  [4]  defines  a  singularity  measure,  for  each  rating  (a  user  and  a   resource),   which   represents   the   coherence   of   this   rating   compared   to   the   rating   the   entire  

(6)

population   assigns   to   this   resource.   This   measure   is   used   to   weight   the   importance   of   a   resource   when  computing  the  similarity  between  two  users.  [5]  is  interested  in  the  noise  in  the  ratings  of  the   users.    A  rating  is  considered  as  a  noise  if  it  is  not  in  adequacy  with  the  rating  of  the  entire  population   on  the  corresponding  resource.  This  work  focuses  on  the  automatic  correction  of  the  noisy  ratings  to   increase  the  quality  of  the  recommendations.  

The   general   objective   of   thesis   is   to   identify   and   model   the   users,   named   atypical   users,   and   to   provide  them  with  high  quality  recommendations.  We  make  the  hypothesis  that  these  users  are  not   correctly  modeled  and  in  neighbor  based  approaches,  these  users  have  few  or  no  highly  correlated   neighbors.   The   objective   is   to   design   original   modeling   methods,   as   well   as   recommendation   approaches,  which  will  probably  be  at  the  complete  opposite  of  traditional  approaches.  The  student   will   particularly   focus   on   modeling   the   difference   between   users   (traditional   approaches   focus   on   common  elements.  In  addition,  works  on  outliers  and  noise  in  data  [5]  will  have  to  be  studied  as  a   basis  of  this  work.  

The  steps  that  will  constitute  this  work  are  the  following  :  

-­‐ Design  a  topology  of  atypicity,  according  to  various  domains,  especially  in  user  modeling,   -­‐ Design  methods  to  automatically  identify  atypical  users,  according  to  the  previously  defined  

typology  

-­‐ Proposition  of  a  recommendation  model,  dedicated  to  atypical  users  :sparse  data,  modeling   difference,  etc.  

-­‐ Validation  of  the  models  on  corpus  of  the  international  community  and  on  real  data.  

 

Résultat  attendu  :

 

Le   résultat   de   cette   thèse   se   présente   sous   la   forme   d’un   modèle   de   recommandation   générique,   permettant  de  fournir  des  recommandations  de  qualité,  quel  que  soit  le  profil  de  l’utilisateur,  avec   une   approche   différente   en   fonction   de   si   l’utilisateur   est   considéré   comme   atypique   ou   non.   Ce   modèle   pourra   être   un   modèle   hybride.   Il   sera   validée   sur   des   données   benchmark   de   la   communauté  et  des  données  réelles.  

 

Profil  du  candidat  :

 Il  est  demandé  au  candidat  un  fort  attrait  pour  l'Intelligence  Artificielle,  la   modélisation  statistique,  et  d’avoir  un  certain  degré  d'autonomie.  Le  candidat  devra  avoir  des  un   cursus  en  Sciences  Cognitives  ou  en  Informatique.  En  outre,  il  devra  témoigner  d'une  première   expérience  réussie  dans  le  domaine  des  systèmes  de  recommandation  (idéalement  pendant  un  stage   recherche  de  fin  de  master).  

Compétences  théoriques  requises  :  Modélisation  statistique,  Systèmes  de  recommandation,  analyse   de  données  et  fouille  de  données  

Compétences  techniques  requises  :  Java,  Mathlab.  

Références  bibliographiques  :

 

(7)

[1] G.  Adomavicius  and  A.  Tuzhilin,  “Toward  the  next  generation  of  recommender  systems:  A  survey   of  the  state-­‐of-­‐the-­‐art,”  IEEE  transactions  on  knowledge  and  data  engineering,  vol.  17,  no.  6,  pp.  

734–749,  2005.    

[2]  Breese,  J.,  Heckerman,  D.,  Kadie,  C.:  Empirical  analysis  of  predictive  algorithms  for  collaborative   filtering.  In:  Proc.  of  UAI-­‐98  (1998)    

[3]   Del   Prete,   L.,   Capra,   L.  :   DiffeRS  :   a   Mobile   Recommender   Service,   In  :   Proc   of   Eleventh   International  Conference  on  Mobile  Data  Management  (MDM),  2010.  

[4]   A   collaborative   filtering   similarity   measure   based   on   singularities.  Bobadilla,   J.,   Ortega,   F.,   Hernando,  A.  Journal  of  Information  Processing  and  Management.  Volume  48  Issue  2,  March,  2012   Pages  204-­‐217  

[5]   Toledo,   R.   Y.,   Lopez,   L.M.,   Mota,   Y.C.  :   Managing   Natural   Noise   in   Collaborative   Recommender   Systems,  In  :  joint  IFSA  World  Congress  and  NAFIPS  Annual  Meeting  (IFSA/NAFIPS),  2013  

   

Références

Documents relatifs

Inductive Logic Programming (ILP) [35] is considered as the major logic-based (thus, model-based) approach to learning and mining rules from structured data.. Originally focused on

Alors sans intervention de type supervisé (cad sans apprentissage avec exemples), le système parvient à détecter (structurer, extraire) la présence de 10 formes

• Cet algorithme hiérarchique est bien adapté pour fournir une segmentation multi-échelle puisqu’il donne en ensemble de partitions possibles en C classes pour 1 variant de 1 à N,

Récupérez sur le site ftp à l’aide d’une ligne de commande le fichier suivant splice .tar.gz que l’on peut trouver à l’URL suivante : ftp.cs.toronto.edu dans le répertoire

Pour certains patients, pour lesquels le suivi d’hygiène et de soins se révèle très difficile, et en particulier dans un contexte de bruxisme, des scellements invasifs,

et il était difficile d’en parler à ses proches. S’adapter au personnel de soins et à la structure au lieu d’exprimer ses besoins personnels lors du suivi. Les

Keywords and phrases Knowledge representation and reasoning, declarative modeling, logic programming, knowledge base systems, FO( · ), IDP framework, stemmatology, phylogenetic

Calling the states of the final automaton colors, the problem becomes that of finding a coloring of the states of the APTA that is consistent with the input sample.. This is also