Stabilit´ e des itemsets ferm´ es fr´ equents

2.4 Outils de discrimination

2.4.2 Stabilit´ e des itemsets ferm´ es fr´ equents

Plusieurs mesures sont utilisées afin de trouver des motifs intéressants en fonction des problématiques. En général, ces mesures calculent des scores qui sont ensuite classés par ordre décroissants. Les motifs les mieux classés sont sélectionnés pour devenir des descripteurs dans un processus de classification. La mesure de stabilité introduite par [114] est une mesure de qualité pour des motifs (ou plus précisément des concepts formels) issus de l’Analyse Formelle des Concepts (cf. [115]). Cette mesure est adaptée aux itemsets fermés. La stabilité d’un itemset fermé X calcule le nombre relatif de sous-ensembles de l’ensemble d’objetsO, qui peut être supprimé de la base de données en préservant X. La stabilité est une mesure fiable lorsqu’il s’agit de base de données d’une mauvaise qualité (cf. [116]), mais pour les larges treillis, il est nécessaire d’utiliser des estimations (cf. [115]). Elle se calcule de la manière suivante :

Stab(X) = |{Y ⊆O| X est f erme dans (Y, M, I∩Y ×M)}|

2^|O| (2.1)

Exemple 26 Sur l’exemple 2.11, considérons le motif{M₄}. Le nombre de sous-ensembles de l’ensemble d’objets O, qui peut être supprimé de la base de données en préservant{M₄} est 2⁴ = 16. La stabilité de{M₄} est :

Stab({M₄}) = 16−(1 + 4 + 3)

16 = 0,5

M₁ M₂ M₃ M₄ M₅ objet. De plus {M4} n’est pas un motif dans l’ensemble vide et dans les ensembles suivants :{O₁, O₄}, {O₂, O₄}, et {O₃, O₄}.

2.5 R´ esum´ e et discussion

Dans ce chapitre, nous avons défini les outils nous permettant d’introduire la suite de notre étude. Les bases de l’Analyse Formelle de Concepts ont été établies afin d’introduire l’itemset fermé fréquent. Ensuite, nous avons présenté des algorithmes d’extractions d’itemsets fermés fréquents de la littérature. Nous en avons retenu trois, l’algorithme Close (cf. [99]), l’algorithme Closet (cf. [1]) et l’algorithme Charm (cf.

[80]). Les avantages et les inconvénients ont été précisés. Pour la suite, nous avons décidé de choisir l’algorithme Charm pour extraire ces objets de notre base de données.

Afin de ne travailler qu’avec les itemsets fermés fréquents les plus pertinents, nous utilisons des outils statistiques afin de réduire le nombre des résultats. Le test de χ² ainsi que le tf ×idf sont définis dans ce chapitre. La mesure de la stabilité des itemsets fermés fréquents est enfin exposée.

Des questions peuvent être soulevées sur le choix des outils pour répondre à la problématique. Concernant l’objetitemsets fermés fréquents, la littérature offre une palette d’outils qui pourraient être adéquats à notre problématique. Après avoir essayé plusieurs algorithmes d’extraction des itemsets fermés fréquents, Charm nous donne entière satisfaction. Ce choix est effectivement ouvert au débat d’autant plus qu’il existe des améliorations de Charm (cf. [105] et [106]). Enfin les outils statistiques, pour l’extraction desitemsets fermés fréquents discriminants à partir de l’ensemble des itemsets fermés fréquents, est assez intuitive. En effet le tf ×idf est un outil populaire basé sur la fréquence, et le test de χ² permet de définir l’indépendance entre deux événements. Enfin, utilisant les objets de l’Analyse Formelle des Concepts,

il semble coh´erent de se tourner vers des outils propres au domaine tel que la mesure de la stabilit´e.

Chapitre 3 Classification

Sommaire

1.1 Introduction . . . 20 1.2 Définitions . . . 24 1.2.1 Confiance à base de politiques . . . 25 1.2.2 Réputation et recommandation . . . 27 1.2.3 Confiance et sciences sociales . . . 32 1.2.4 Contraintes et qualités du modèle à concevoir . . . 36 1.3 Exemple de modèle de confiance . . . 37 1.3.1 Contexte de l’étude . . . 37 1.3.2 Cahier des charges : les usages du modèle . . . 43 1.3.3 Conception . . . 47 1.3.4 Limites et extensions . . . 55 1.4 Authentification implicite . . . 56 1.4.1 Identification et authentification . . . 57 1.4.2 Définitions et concepts . . . 60 1.4.3 Authentification implicite dans eBee . . . 63 1.5 Résumé et discussion . . . 64

The capacity of digital data storage worldwide has doubled every nine months for at least a decade, at twice the rate predicted by Moore’s Law for the growth of computing power during the same period.

Fayyad et al, 2002.

3.1 Introduction

La classification permet de mettre en place un système organisé et hiérarchisé de catégorisation d’objets (par exemple : la classification périodique des éléments du chimiste russe Dmitri Mendele¨ıev construite en 1869). Elle apporte un éclairage sur la nature de la connaissance.

En fouille de données, la classification est un domaine de recherche très vaste qui englobe différents cas d’utilisation et qui répond à des besoins divers. Des informations, qui permettent de prendre des décisions importantes sont cachées dans les bases de données riches. La classification permet d’analyser ce type de bases de données afin d’en extraire des modèles qui les décrivent ou qui prédisent leur comportement à venir. D’ailleurs la classification permet de mieux comprendre les grandes bases de données. Dans le processus d’extraction de connaissance présenté dans l’introduction de ce manuscrit, la classification intervient dans l’étape de fouille de données. En effet, dans cette étape, des modèles de prédiction ou des modèles descriptifs peuvent être utilisés. Les modèles prédictifs analysent les événements présents et passés pour prédire des événements futurs. Les modèles descriptifs identifient comment certaines variables dépendent des autres. Par exemple, la classification et la régression¹ sont des modèles prédictifs tandis que le partitionnement ou clustering² en anglais est un modèle descriptif, même s’il peut être utilisé pour faire de la prédiction³ (cf. figure 3.1). Plus précisément, la classification prédit l’appartenance d’un objet à des classes catégorielles. Rappelons le fonctionnement de la classification de manière générale.

La base de données sur laquelle l’étude est faite est partagée en deux sous-ensembles : une base d’apprentissage (en anglaistraining database) et une base de test (en anglais test database). Le processus de classification se décline en deux étapes. Durant la

1. Le modèle de prédiction a une sortie numérique lorsqu’il s’agit d’une régression tandis qu’il a une sortie catégorielle lorsqu’il s’agit d’une classification.

2. Les événements similaires sont regroupés dans une partition oucluster lors duclustering. 3. http ://www.saedsayad.com/, accès 19/10/2015.

F i g u r e 3.1 – Hiérarchisation des modèles de prédictions.

phase d’apprentissage, un modèle de classification (arbres de décision, règles...) est construit à partir d’une base de données dite base de données d’apprentissage. Dans cette base, l’association données-classes est connue. Chaque exemple ou tuple ou encore observation est supposé appartenir à une classe. Durant la phase de test, le modèle construit est utilisé pour classer les données de test. Une mesure de précision

estime le pourcentage de tuples correctement classifiés par le modèle construit. Les schémas des figures 3.2 et 3.3 illustrent le fonctionnement de la classification.

F i g u r e 3.2 – Le processus de classification : construction du mod`ele

F i g u r e 3.3 – Le processus de classification : phase de test Exemple 27 Sur la figure 3.2, le modèle, construit à partir de la base d’apprentissage est une règle : si l’individu est un professeur ou a plus

de six ans d’expériences alors il est titulaire. Durant la phase de test sur la figure 3.3, Jeff qui est professeur et a quatre ans d’expériences est classé comme titulaire. Deux classes existent dans cette exemple : oui ou

non.

Les méthodes de classification proposées par les chercheurs en statistique, en apprentissage automatique (en anglais machine learning) ou en reconnaissance de modèle (en anglais pattern recognition) sont diverses et variées (cf. [117] et [118]).

De nombreuses méthodes de classification sont con¸cues pour traiter plusieurs types d’objets et peuvent être appliquées dans différents contextes (classification d’images, de textes...). Ces approches requièrent souvent des connaissancesa priori sur les données comme par exemple le nombre des classes. Citons des méthodes de classification basiques : les arbres de décisions (cf. [119]), les classifieurs à base de règles d’association comme CBA (cf. [120]) ou CMAR (cf. [121]), ou encore les classifieurs na¨ıfs bayésiens basés sur le théorème de Bayes.

Dans notre travail, nous utilisons la classification na¨ıve bay´esienne et la classification

a base d’itemsets fermés fréquents discriminants. Dans cette section, nous présentons les travaux effectués lors de cette thèse. Ces travaux ont déjà été présentés lors d’une conférence (cf. [122]). Le contexte de l’étude est l’authentification implicite. La classification à base d’itemsets fermés fréquents discrminants proposée a pour objectif d’authentifier un utilisateur au sein de l’espace de vie numérique eBeeHome. En effet elle permet d’identifier l’utilisateur propriétaire d’un comportement. L’authentification implicite se base sur cette identification au préalable. Plus précisément, nous avons besoin de classer les sessions des utilisateurs d’eBeeHome.

Nous allons présenter les motivations sous-jacentes à ces travaux dans 3.2. Ensuite, nous présenterons des variantes de la classification na¨ıve bayésienne adaptées à notre problématique dans 3.3. La classification à base d’itemsets fermés fréquents discriminants est ensuite exposée dans la section 3.4. Un résumé du chapitre est donné dans 3.5.

Dans le document The DART-Europe E-theses Portal (Page 90-97)