• Aucun résultat trouvé

R´ esum´ e

Dans le document The DART-Europe E-theses Portal (Page 117-121)

Dans ce chapitre, nous pr´esentons notre contribution majeure. Un bref ´etat de l’art sur les techniques de classification qui pourraient ˆetre ad´equates `a notre base de donn´ees est pr´esent´e. Nous nous sommes limit´es `a trois techniques principalement : les arbres de d´ecision, la classification `a base de r`egles d’association et la classification na¨ıve bay´esienne. Une description des m´ethodes a ´et´e propos´ee. La classification na¨ıve bay´esienne est notre mod`ele de r´ef´erence du fait de ces performances populaires.

Nous avons propos´e d’estimer les probabilit´es calcul´ees dans le mod`ele na¨ıf bay´esien

`

a base d’itemsets ferm´es fr´equents par deux m´ethodes pr´esent´ees dans la version 1 et la version 2. Dans les versions 3 et 4, nous proposons d’am´eliorer le classifieur naif bay´esien `a base d’itemsets ferm´es fr´equents en utilisant des m´ethodes de filtrage comme la s´election des meilleurs descripteurs avec le test χ2.

La classification `a base d’itemsets ferm´es fr´equents discriminants est avantageuse car bas´ee sur l’essentiel de l’information. Apr`es l’extraction des itemsets ferm´es fr´equents, une s´election des itemsets ferm´es fr´equents discriminants est effectu´ee.

Des profils sont construits pour chaque utilisateur qui repr´esente une classe du processus de classification. Une classe est compos´ee d’un ensemble d’itemsets ferm´es fr´equents discriminants caract´erisant l’utilisateur associ´e `a la classe. Pendant l’´etape de classification, un profil anonyme est compar´e aux diff´erents profils construits `a partir de la base d’apprentissage grˆace aux mesures de distance telles que la similarit´e par cosinus, la similarit´e de Dice et de Kulczynski. Nous avons aussi utilis´e la distance euclidienne et l’avons pr´esent´ee dans ce manuscrit bien que les dimensions de l’espace de l’´etude ne soient pas ind´ependants. Nous pensons que les r´esultats sont int´eressants

`

a analyser.

Des questions peuvent se poser sur la fa¸con de construire le profil de l’utilisateur.

En effet, nous utilisons le support et le lift pour remplir le vecteur de profil. Cette technique est essentiellement inspir´ee de [2]. Il est possible de construire le vecteur de profil en utilisant d’autres types de mesure.

Il existe bien sˆur quelques m´ethodes qui ont la r´eputation d’avoir de bonnes performances sur des donn´ees comme les nˆotres. Les forˆets d’arbres d´ecisionnels introduits en 2001 dans [132] permettent de meilleurs performances. L’algorithme des forˆets d’arbres d´ecisionnels effectue un apprentissage sur de multiples arbres de d´ecision entraˆın´es sur des sous-ensembles de donn´ees l´eg`erement diff´erents.

Chapitre 4

Contexte applicatif : navigation sur Internet

Sommaire

2.1 Introduction . . . 70 2.2 D´efinitions des notions de base . . . 72 2.3 Itemsets ferm´es fr´equents . . . 75 2.3.1 Formalisation . . . 75 2.3.2 Extraction d’itemsets ferm´es fr´equents . . . 81 2.4 Outils de discrimination . . . 85 2.4.1 Outils statistiques . . . 87 2.4.2 Stabilit´e des itemsets ferm´es fr´equents . . . 88 2.5 R´esum´e et discussion . . . 89

L’homme et sa s´ecurit´e doivent constituer la premi`ere pr´eoccupation de toute aventure technologique.

Albert Einstein, (1879 - 1955).

4.1 Introduction

Cette th`ese est un contrat CIFRE (Conventions Industrielles de Formation par la Recherche) entre l’entreprise Almerys1 et le LIMOS (Laboratoire d’Informatique, de Mod´elisation et d’Optimisation des Syst`emes). Cette collaboration devrait fournir `a l’entreprise des outils d’analyse du comportement des utilisateurs de leurs services r´eunis au sein d’un espace num´erique de vie, eBeeHome. Nous n’avons malheureuse-ment pas eu les donn´ees issues de cet espace du fait des ´evolutions de la plateforme qui n’ont pas permis `a l’entreprise de colleccter des donn´ees n´ecessaires. Pour cette raison, nous avons travaill´e sur des donn´ees de navigation sur Internet d’´etudiants de l’universit´e Blaise Pascal de Clermont-Ferrand, en accord avec Almerys. Toutes les m´ethodologies pr´esent´ees dans les chapitres pr´ec´edents sont appliqu´ees aux donn´ees de navigation d’´etudiants. Ce chapitre montre le contexte de la navigation sur Internet, ainsi que les donn´ees associ´ees.

L’universit´e Blaise Pascal, compos´ee de 16036 ´etudiants, 1166 enseignants et 908 personnels administratifs en 2014-20152, fournit un acc`es internet par un moyen filaire ou sans fil. Les donn´ees recueillies sont l’ensemble des pages visit´ees sur Internet par les universitaires qui passent par le r´eseau de l’universit´e. En effet, pour acc´eder au r´eseau de l’universit´e, il est n´ecessaire d’avoir un compte accessible par une authentification faible (login et mot de passe). L’authentification implicite peut ˆetre adapt´ee `a ce contexte ´egalement. Il est possible de faire appel `a l’authentification implicite lorsque le syst`eme d´etecte un vol ou un piratage de compte.

Internet est devenu le plus grand r´eseau informatique accessible au public. Ce r´eseau de r´eseaux, sans centre n´evralgique, est compos´e de millions de r´eseaux aussi bien publics que priv´es, universitaires, commerciaux et gouvernementaux. L’information est transmise par Internet grˆace `a un ensemble standardis´e de protocoles de transfert de donn´ees, qui permet l’´elaboration d’applications et de services vari´es comme le

1. Almerys est un acteur majeur dans le domaine du traitement industriel des donn´ees num´eriques et est un op´erateur de tiers-payant sant´e. https ://www.almerys.com, acc`es le 19/10/2015.

2. http ://www.univ-bpclermont.fr/, acc`es 24/10/2015

courrier ´electronique, la messagerie instantan´ee, le pair-`a-pair et le World Wide Web3. Un internaute est un utilisateur d’Internet. En France, le nombre d’internautes a tripl´e de 2000 `a 2011. En 2011, pr`es de 77% de la population sont des internautes4.

F i g u r e 4.1 – ´Evolution du nombre d’internautes en France

Avec des millions de nouvelles pages web publi´ees chaque jour, l’utilisation du web explose ces derni`eres ann´ees. De tr`es grandes bases de donn´ees apparaissent.

L’application des technique de fouille de donn´ees au web, appel´ee fouille de donn´ees web ou en anglaisweb data mining, est devenu naturellement un domaine de recherche pris´e. Un sous domaine de la fouille de donn´ees web est la fouille de comportements utilisateurs ou en anglaisweb usage mining (WUM). On dira WUM pour web usage

3. L’internet ayant ´et´e popularis´e par l’apparition du World Wide Web (WWW), les deux sont parfois confondus par le public non averti. Le World Wide Web n’est pourtant que l’une des applications de l’Internet.

4. http ://www.journaldunet.com/, acc`es le 01/11/2015

mining dans la suite. L’extraction de connaissance `a partir de donn´ees logs HTTP permet la construction des patrons d’acc`es web afin d’am´eliorer ou de personnaliser un site web. Le processus WUM est compos´e du pr´e-traitement, de la fouille de donn´ees et de l’analyse des motifs extraits. Dans ce chapitre, nous nous concentrons sur la premi`ere ´etape `a savoir le nettoyage des donn´ees.

Afin de mettre en place un syst`eme d’authentification implicite, les m´ethodes d´evelopp´ees dans cette th`ese permettent de r´epondre `a la question suivante.

Peut-on trouver un comportement caract´eristique d’un internaute ? Les donn´ees sont pr´epar´ees afin de r´epondre `a cette question.

• Les donn´ees pr´esentent beaucoup de bruits dˆus aux pages publicitaires intrusives et non-sollicit´ees, en particulier. Il est n´ecessaire de les nettoyer.

• Il n’est pas possible de rep´erer le d´ebut d’une session dans les donn´ees. Pour extraire desitemsets ferm´es fr´equents, il est n´ecessaire de construire l’´equivalent d’une base de transactions, une base de donn´ees de sessions.

Dans ce chapitre, nous d´ecrivons nos donn´ees dans la section 4.2, ensuite pr´esentons un ´etat de l’art sur la fouille de donn´ees de navigation dans la section 4.3. Le nettoyage des donn´ees est trait´e dans 4.4. Enfin dans la derni`ere section, nous r´esumons le chapitre.

Dans le document The DART-Europe E-theses Portal (Page 117-121)