• Aucun résultat trouvé

Formalisation

Dans le document The DART-Europe E-theses Portal (Page 77-83)

2.3 Itemsets ferm´ es fr´ equents

2.3.1 Formalisation

Introduisons les d´efinitions formelles `a partir de l’exemple pr´ec´edent.

Exemple 19 Le pain et le lait sont deuxitems et le motif{pain,lait}est un itemset de taille 2 et de fr´equence 75 %. Pour un support deθ = 40%, l’itemset {pain,lait} est fr´equent.

Le cadre classique du probl`eme d’extraction des itemsets ferm´es fr´equents est d´ecrit comme suit : soit I = {x1, x2, ..., xn} un ensemble d’items. Soit D un ensemble de transactions o`u chaque transaction est un ensemble d’items, identifi´ee de fa¸con unique par un identifiant tid.

D´efinition 2.3.1. Un item est tout attribut, objet, article appartenant `a un en-semble fini d’´el´ements distincts I ={x1, x2, ..., xn}.

D´efinition 2.3.2. Un itemset est d´efini comme tout sous-ensemble d’items de I. Unitemset constitu´e de k items est appel´e un k-itemset.

D´efinition 2.3.3. Un itemset fr´equent

Etant donn´´ e un seuil θ, appel´e support minimum, un itemset X est dit fr´equent (relativement `a θ), si son support d´epasse un seuil fix´e a priori appel´e support

minimum et not´e θ (cf. d´efinition 2.2.5).

D´efinition 2.3.4. Une transaction est un itemset identifi´e par un identifiant unique appel´e tid.

D´efinition 2.3.5. Une base de transaction ou une base transactionnelleD est un ensemble de couples form´es d’un identificateur de transaction tid et de la transaction proprement dite.

Item Produit

a pain

b œufs

c beurre

d sucre

e c´er´eale

f lait

F i g u r e 2.4 – Liste des articles achet´es

Tid Transaction 1 a, e, f 2 a, b, f, d 3 a, c, f

4 b, d

F i g u r e 2.5 – Base de transaction du panier de la m´enag`ere Exemple 20 Le tableau de la figure 2.4 pr´esente l’ensemble des articles achet´es qui sont desitems. A partir du tableau de la figure 2.2, construisons une base des transactions repr´esent´ee par la figure 2.5. Chaque client est identifi´e par un num´ero unique tid. L’ensemble des articles achet´es par un client est une transaction. L’ensemble{a, e, f} de la figure 2.5 est un itemset not´e aussi aef, appel´e 3-itemset.

Nous allons introduire des notions de la th´eorie des ordres afin de d´efinir l’op´erateur de fermeture. Ces notions sont extraits de [79].

D´efinition 2.3.6. Relation binaire

Une relation binaire R entre deux ensembles M etN est d´efinie par le produit cart´esienM ×N et consiste en une paire (m, n) avec m∈M et n ∈N . Lorsque (m, n)∈R, on notemRn. SiM =N alorsRest une relation binaire dans l’ensemble

M (ou dans l’ensemble N ).

D´efinition 2.3.7. Relation d’ordre

Une relation binaire R dans un ensembleM est une relation d’ordre si elle satisfait les conditions suivantes pour tout ´el´ement x, y, z ∈M :

• (r´eflexivit´e)xRx;

• (antisym´etrie) xRy et x6=y⇒ pas yRx;

• (transitivit´e) xRy etyRz ⇒xRz.

Le symbole ≤ est souvent utilis´e pour une relation d’ordre sur l’ensemble M. L’exemple trivial d’un ensemble ordonn´e est l’ensemble des nombres r´eels R avec la relation ≤. ´Etant donn´e l’ensemble {1,5,5.2,4,2}, il est possible d’´ecrire 1 ≤ 2 ≤ 4≤5≤5.2 Dans le cas d’un ordre total, chaque paire d’´el´ements peut ˆetre compar´e.

Ici ≤est un ordre total. Il existe des cas pour lesquels tous les ´el´ements ne sont pas comparables. On parle d’ordre partiel.

D´efinition 2.3.8. Ordre sur les items

L’ensemble desitems I ´etant fini, on choisit une applicationf :I 7−→ {1, ...,|I|}

qui associe `a chaqueitem x∈I un entier naturel. On a alors un ordre total not´e

< sur lesitems de I. On notera l’ensembleI muni de l’ordre<entreitems deI par (I, <).

D´efinition 2.3.9. Treillis

Un ensemble ordonn´e (T ,≤) est un treillis si toute paire d’´el´ements de T poss`ede une borne inf´erieure et une borne sup´erieure. On d´esignera par la suite la borne inf´erieure de la paire (x, y) par (x∧y) et la borne sup´erieure par (x∨y). On notera la borne inf´erieure de T par ⊥ et la borne sup´erieure par>.

D´efinition 2.3.10. Treillis (P(I),⊆)

L’ensemble P(I) des parties d’un ensembleI muni de l’inclusion ⊆est un treillis.

Les op´erations binaires ∧ et ∨ sont respectivement ∩ et ∪. Ce treillis admet une borne inf´erieure ⊥=∅ et une borne sup´erieure >=I.

Exemple 21 La figure 2.6 repr´esente le treillis des itemsets pour I ={a, b, c, d}. On retrouve au niveau 3 du treillis, tous les itemsets de taille 3, les 3-itemsets.

Exemple 22 Reprenons la figure 2.6 pour construire la figure 2.7. Sur celle-ci, le nombre entre parenth`ese `a cˆot´e de chaqueitemset repr´esente le support de cet itemset dans une base de transaction donn´ee. Supposons un seuil minimum de 3, alors les itemsets en gris sur la figure sont les itemsets fr´equents.

D´efinition 2.3.11. Op´erateur de fermeture

Soit S, un ensemble et φ une fonction tel que, φ : P(S) −→P(S). P(S) est l’ensemble de tous les sous-ensembles deS, incluant l’ensemble vide et S lui-mˆeme.

φ est dit op´erateur de fermeture sur S, si pour tout A, B ⊂S, il est :

• extensive :A⊂φ(A) ;

• monotone :A⊂B implique φ(A)⊂φ(B) ;

• idempotente : φ(φ(A)) = φ(A).

F i g u r e 2.6 – Treillis des itemsets

F i g u r e 2.7 – Treillis des itemsets fr´equents

D´efinition 2.3.12. Un superset est unitemsetd´efini par rapport `a un autreitemset.

I = {x1, x2, ..., xn} est un superset de J = {x1, x2, ..., xm}, si Cardinal(J) <

Cardinal(I) et que J ⊂I c.`a.d. on retrouve dans I tous les items de J. Exemple 23 Prenons un exemple simple : {abc} est un superset de {ab}.

La repr´esentation bas´ee sur lesitemsets ferm´es est une repr´esentation exacte. Elle se base sur la notion des ensembles ferm´es et tire son origine de la th´eorie des treillis et plus pr´ecis´ement des travaux autour de l’Analyse Formelle des Concepts (cf. [79]).

D´efinition 2.3.13. Un itemset ferm´e fr´equent

Un itemset fr´equent est dit ferm´e si aucun de sessupersets n’a de support identique.

Autrement dit, tous ses supersets ont un support strictement plus faible.

Exemple 24 Sur la figure 2.8, les itemsets en bleu sont des item-sets ferm´es fr´equents. Par exemple, {ac} est ferm´e fr´equent car aucun de ses supersets n’a de support ´egal `a 6 : SupportD({abc}) = 4 et SupportD({acd}) = 2.

Il est possible de d´efinir un itemset ferm´e en d´efinissant un syst`eme de fermeture.

A partir de l’exemple de la figure 2.9 et pour un support minimum θ = 1, le processus d’extraction des itemsets fr´equents g´en`ererait 2100−1 itemsets fr´equents (soit `a peu pr`es 1030). Dans [98], Pasquier et son ´equipe proposent une alternative `a l’extraction de tous lesitemsets fr´equents. L’id´ee consiste `a extraire un sous-ensemble d’itemsets fr´equents ferm´es qui constituent un ensemble g´en´erateur non redondant minimal pour tous les itemsets fr´equents et leurs supports. Ces itemsets ferm´es sont des repr´esentations condens´ees de tous les itemsets fr´equents. Ils r´esument l’information. A partir des ferm´es, il est possible de d´eduire le support de n’importe quel itemset fr´equent sans recourir au parcours de la base de transactions.

Plusieurs algorithmes ont ´et´e propos´es pour l’extraction d’itemsets ferm´es fr´equents.

Citons-en quelques uns : Close (cf. [99], [100] et [98]), Charm (cf. [80]), Pascal (cf.

[101] et [102]), Titanic (cf. [103] et [104]) et Closet (cf. [1]). Nous verrons dans ce qui suit le fonctionnement des algorithmes Close et Closet avant de d´ecrire un algorithme en particulier, l’algorithme Charm propos´e par Zaki etal. en 2002. Notons que des am´eliorations de Charm, tels que LCM (cf. [105]) et DCI-CLOSED (cf. [106]), ont

´et´e aussi propos´ees.

F i g u r e 2.8 – Treillis des itemsets ferm´es fr´equents Tid Transaction

1 x1, x2, ..., x100 2 x1, x2, ..., x50

F i g u r e 2.9 – Un exemple de base de transaction inspir´e de [1]

Dans le document The DART-Europe E-theses Portal (Page 77-83)