• Aucun résultat trouvé

Le 12 Decembre

3.1 Construction du contexte mobile

3.1.2 Techniques d’acquisition du mod`ele contextuel

Les techniques utilis´ees pour l’acquisition du mod`ele contextuel sont prin- cipalement des techniques d’apprentissage statistiques. Mais peuvent inclurent d’autres disciplines telles que : th´eorie de probabilit´es, data mining, les syst`emes `a base de r`egle, etc. Dans la suite, nous pr´esentons les techniques les plus com- munes aux travaux de la litt´erature.

1. Les techniques d’apprentissage automatique : l’apprentissage au- tomatique (machine-learning en anglais), un des champs d’´etude de l’in- telligence artificielle, est la discipline scientifique concern´ee par l’analyse, le d´eveloppement, et l’impl´ementation de m´ethodes automatisables qui permettent `a une machine (au sens large) d’´evoluer grˆace `a un proces- sus d’apprentissage. Plusieurs techniques et algorithmes d’apprentissage supervis´e ou non supervis´e sont utilis´es pour la mod´elisation, l’apprentis- sage ou l’´evolution d’un mod`ele de contexte, parmi lesquels on trouve :

– Ranking SVM : algorithme introduit dans [114] dont l’id´ee de base est

de formaliser le probl`eme de l’apprentissage de l’ordonnancement (en

anglais machine-learned ranking) [58] comme un probl`eme de classi-

fication binaire sur des paires d’instances, et ensuite de r´esoudre ce probl`eme en utilisant un SVM. Le point cl´e de la construction d’un RSVM est de construire l’ensemble d’apprentissage sur la base des pr´ef´erences des utilisateurs et d’obtenir les relations de contraintes

entre les instances candidates (des documents). Dans [148], des on-

tologies de contenus et de localisation, ainsi que les donn´ees des clics de l’utilisateur, sont utilis´ees dans l’apprentissage d’un RSVM pour obtenir un vecteur de pr´ef´erences de contenu pond´er´ees et un vecteur de pr´ef´erences de places pond´er´ees utilis´ees pour le r´e-ordonnancement des r´esultats de la recherche pour l’utilisateur.

– Corr´elation et r´egression lin´eaire : le calcul de corr´elation entre des va- riables statistiques permet d’´etudier les relations d’influence entre ces variables g´en´eralement afin de pr´edire une des variables en fonction des autres variables. Un mod`ele de r´egression lin´eaire multiple a ´et´e utilis´e pour la pr´ediction de l’utilit´e de l’information en fonction du contexte spatial, temporel et des centres d’int´erˆets de l’utilisateur tel que d´ecrit

dans [28]. Dans [271] le calcul de coefficient de corr´elation entre les

variables contextuelles permet de pr´edire les pr´ef´erences de l’utilisa-

teur. Dans [124] un mod`ele lin´eaire et utilis´e pour combiner plusieurs

mod`eles de probabilit´e de pr´ediction de mots.

constitu´e d’un groupe inter-connect´e de neurones artificiels, et il traite l’information en utilisant une approche connexionniste de calcul. Les ANN sont des syst`emes adaptatifs qui modifient leur structures sur la base d’informations externes ou internes qui traversent le r´eseau au

cours de la phase d’apprentissage. Dans le syst`eme SmartCon [15], un

ANN en trois couches utilisant un algorithme de r´etro-propagation, est exploit´e pour la s´election de services web `a recommander `a l’uti- lisateur mobile sur la base d’un ensemble de facteurs contextuels li´es aux caract´eristiques techniques de l’appareil mobile, aux pr´ef´erences

de l’utilisateur et aux caract´eristiques du service web. Dans [90] un

r´eseau de neurones dynamique est utilis´e pour apprendre les poids des contextes qui s’adaptent `a la situation courante de l’utilisateur. La r`egle d’apprentissage est bas´ee sur l’´equation suivante :

∆Wk(t) = |∆C(t) + µ∆F (t)|k· Wk,ref erence(t) (2.1)

o`u ∆C(t) est donn´ee par : ∆C(t) = |C(t)−C(t−1)|C(t−1) , C(t) est la valeur

actuelle du contexte C et C(t−1) est sa valeur pr´ec´edente. Si ∆C(t) est nulle, alors ∆C(t) = − |C(t) − Caverage|, Caverage est la moyenne des valeurs du contexte de {C(1), C(2), · · · , C(t − 1)}, µ est un coefficient sp´ecifique `a l’architecture du r´eseau, ∆F (t) est la diff´erence du nombre d’entit´es contextuelles entre deux ´epoques ∆F (t) = F (t) − F (t − 1), Wk,ref erenceest la moyenne des valeurs du poids de l’entit´e du contexte k

sur les ´epoques pass´ees {1, 2, · · · , t − 1}. Finalement le poids de l’entit´e k du contexte `a l’´epoque t est mis `a jour comme suit :

Wk(t) = Wk(t − 1) + ∆Wk(t) (2.2)

– Les r´eseaux bay´esiens : ce sont des graphes orient´es sans cycle issus du mariage entre la th´eorie des graphes et la th´eorie des probabilit´es. Un graphe est appr´ehend´e selon un aspect qualitatif et un aspect quantita- tif. L’aspect qualitatif est l’ensemble des nœuds du graphe repr´esentant les variables du domaine trait´e ainsi que les relations de d´ependance entre ces variables. L’aspect quantitatif permet d’´evaluer les arcs re- liant toute paire de nœuds au moyen d’un calcul de probabilit´es. Cette

technique est exploit´ee par le syst`eme MoBe [173], o`u les nœuds du

graphe repr´esentent des informations contextuels. Le r´eseau bay´esien commence `a partir de contextes concrets (e.g. “sonorit´e 60dB”) pour en inf´erer des contextes plus abstraits (e.g. “´ecouter de la musique”).

Dans [46] les r´eseaux bay´esiens sont exploit´es pour pr´edire le type des

places visit´ees par l’utilisateur mobile sur la base de la trace temporelle de ses visites. Un exemple de r´eseaux bay´esiens exploit´es est illustr´e

dans la figure 2.5, il est compos´e de 4 nœuds. Le nœud “weekend ”

repr´esente une variable bool´eenne qui d´esigne si une observation donn´ee a eu lieu en weekend ou non. Cette information repr´esente la variabi-

lit´e de l’activit´e des utilisateurs mobiles entre les jours de travail et les weekends. Le nœud “Hour ” est une variable discr`ete qui peut prendre 24-valeurs repr´esentant le temps de la journ´ee. Le nœud “kind of place” repr´esente une valeur discr`ete de type de place (e.g. home, work, res- taurant, pub, disco). Le nœud “happens” est une variable bool´eenne qui exprime si l’utilisateur visite cet endroit `a ce moment.

Fig. 2.5 – R´eseau bay´esien pour inf´erer le type de place visit´ee `a partir de la

trace temporelle (les nœuds blancs sont fournis en entr´ee du r´eseau).

– Les techniques de classification (clustering) : ces techniques permettent de partitionner les entit´es au sein d’une collection de donn´ees, en classes similaires, sur la base des informations qu’ils contiennent. Les clusters) ne sont pas d´efinies `a l’avance, mais sont bas´ees sur la proximit´e des entit´es les unes aux autres dans un hyperespace multidimensionnel. Les

algorithmes de clustering sont utilis´es dans [266] pour regrouper des si-

tuations similaires de recherche de l’utilisateur. Le syst`eme Hyponym

[21] exploite l’algorithme CEM (Classification EM) dans le cadre d’un

mod`ele de m´elange de probabilit´e, pour une classification automatique

des requˆetes et des pages web. Le syst`eme MobileIQ [184] utilise un al-

gorithme de clustering flou sur une matrice de pr´ef´erences de recherche des utilisateurs pour apprendre des clusters d’utilisateurs ayant des

profils similaires. Dans [87, 252, 174], diff´erents algorithmes de classi-

fication sont utilis´es pour une classification supervis´ee des documents

selon des cat´egories de l’ontologie ODP [87,252] et des cat´egories d’une

taxonomie hi´erarchique de News dans [174]. Des algorithmes de clus-

tering de donn´ees de Cell ID sont utilis´es dans [29] pour identifier les

r´egions fr´equemment visit´ees par les utilisateurs mobiles. Le syst`eme

Hapori [139] utilise les algorithmes de classification KNN et LMNN

pour l’apprentissage d’un mod`ele de pr´ef´erences pour chaque cat´egorie de POI. De plus les utilisateurs sont class´es en groupes en exploitant une mesure de similarit´e bas´ee sur deux mesures de distance : la dis- tance de Hellinger et la distance d’information de Fisher, avec l’algo- rithme de multidimensional scaling pour r´eduire la dimension de la

matrice de similarit´e.

2. Les syst`emes `a base de r`egles : les techniques `a base de r`egles sont

fond´ees sur l’apprentissage d’un ensemble de r`egles qui sont en mesure de classer les observations `a partir de leurs attributs associ´es. Un tel syst`eme fond´e sur les r`egles exprime alors une repr´esentation explicite de connais- sances - habituellement pr´esent´ees comme des arbres de d´ecision ou des

probabilit´es. Cette technique est adapt´ee par les syst`emes MoBe [173] et

Compass [251], pour l’inf´erence de contexte abstrait `a partir de contexte

de bas niveau et l’agr´egation de contextes. D’autres travaux qui exploitent

cette technique sont pr´esent´es dans [126,20] qui proposent d’utiliser des

r`egles s´emantiques pour la mise en correspondance des valeurs contex- tuelles de bas niveau (eg. les coordonn´ees GPS) avec des concepts abs- traits d’ontologie et au mˆeme temps permettre l’interpr´etation de ces valeurs de bas niveau en tenant compte des pr´ef´erences de l’utilisateur.

Le langage de r`egles du web s´emantique (SWRL6) est employ´e avec une

extension par des r`egles de la logique du premier ordre. Un exemple de r`egles d’inf´erence est le suivant :

Person(?p) ^ hasAge(?p,?a) ^ swrlb:lessThan(?a,18)→ Minor(?p)

Le cˆot´e gauche et droit d’une r`egle repr´esentent deux valeurs contextuelles et la r`egle sugg`ere un lien entre elles.

3. Les mod`eles probabilistes : ces mod`eles permettent de calculer la pro-

babilit´e d’un ´ev`enement sur la base des observations de donn´ees g´en´erale- ment issues de l’historique des activit´es de l’utilisateur ou de groupes

d’utilisateurs. Dans [94] des probabilit´es de co-occurrence de mots contex-

tuels sont calcul´ees pour reformuler les requˆetes initiales des utilisateurs.

Dans [124] des probabilit´es de pr´ediction de mots sur la base de pr´efixes

saisis par l’utilisateur ou de pr´efixe et de contexte local ou temporel sont calcul´ees pour la compl´etude des requˆetes des utilisateurs mobiles. Le

syst`eme Magitti [27] se base sur le mod`ele probabiliste pour pr´edire l’ac-

tivit´e de l’utilisateur en se basant sur la combinaison de mod`eles d’activit´e observ´es dans la population d´emographique de l’utilisateur et son mod`ele

de comportement individuel, comme illustr´e dans la figure2.6.

4. Les techniques de fouille de donn´ees-data mining : ces tech-

niques permettent l’extraction de mod`eles `a partir d’un grand nombre de donn´ees. Des techniques de fouille de l’usage du web (Weblog mi-

ning techniques) sont appliqu´ees dans [94] pour extraire des activit´es

typiques (en terme de noms d’objet et de noms d’action) li´ees `a un

nom de place g´eographique de l’utilisateur. Dans [270] un algorithme de

6

Fig. 2.6 – Processus de pr´ediction du type d’activit´e de l’utilisateur mobile.

fouille de donn´ees s´equentielles ”Prefix-Span” est appliqu´e sur l’ensemble des trajectoires s´emantiques de l’utilisateur pour extraire les trajectoires s´emantiques les plus fr´equentes et les plus repr´esentatives de son pro-

fil. Dans [148], les auteurs d´efinissent une formule de support, inspir´ee

du probl`eme bien connu de recherche d’items fr´equents en data mining, pour mesurer l’int´erˆet et la pertinence d’un mot/phrase par rapport `a une requˆete. Le formule de support est d´efinie comme suit :

support (ci) =

sf (ci)

n · |ci| (2.3)

o`u ci d´esigne un mot/phrase extrait `a partir des snippets7 associ´es `a la

requˆete q, sf (ci) est le nombre de snippets contenant le mot/phrase ci, n

est le nombre de snippets retourn´es pour la requˆete q et |ci| est le nombre

de termes dans le mot/phrase ci.

3.2

Repr´esentation du contexte

La repr´esentation du contexte utilisateur consiste `a repr´esenter de mani`ere interne une formalisation des donn´ees contextuelles qui le d´efinissent. Dans cette section, nous d´ecrivons les ressources de mod´elisation utilis´ees, puis nous pr´esentons les principaux mod`eles de repr´esentation adopt´es pour aboutir `a un mod`ele formalis´e du contexte, et nous terminons par une synth`ese des mod`eles de repr´esentation propos´es dans ce domaine.

7

“snippet” d´enote le titre, le r´esum´e et l’URL d’une page web retourn´ee par un moteur de recherche web.