Objectifs de notre contribution - Extraction de séquences fréquentes : des données numériques a

Diérents algorithmes ont été proposés an de gérer les contraintes de temps pour l'extraction de motifs séquentiels. Toutefois, si ces méthodes sont robustes et ecaces, elles nécessitent de l'utilisateur qu'il connaisse précisément les valeurs des contraintes à spécier, sous peine d'obtenir des connaissances erronées ou inutiles. Pourtant, dans certains cas, ces valeurs ne sont pas connues avec certitude. Ainsi, les contraintes temporelles telles qu'elles sont spéciées permettent de mettre en évidence de nouveaux motifs séquentiels, mais elles sont encore trop rigides et il peut être nécessaire de faire plusieurs tentatives avec diérentes combinaisons de ces paramètres avant d'obtenir des résultats satisfaisants.

1.5. OBJECTIFS DE NOTRE CONTRIBUTION 61

Par ailleurs, pour certaines applications, ils pourraient également être intéressant d'assouplir les contraintes spéciées par les experts du domaine an d'aner leurs connaissances. La connaissance de l'expert est utilisée comme un point de départ et les résultats obtenus la complètent.

Enn, le nombre de motifs séquentiels extraits, selon les contraintes de temps utilisées, peut rapide- ment devenir trop important pour que leur analyse soit ecace. Une mesure permettant l'exploitation des motifs séquentiels généralisés serait donc d'une grande utilité.

C'est pourquoi nous proposons les contributions suivantes. Premièrement, nous dénissons des contraintes de temps étendues pour la découverte de motifs séquentiels généralisés. Deuxièmement, nous proposons une mesure de précision temporelle pour l'analyse des séquences fréquentes. Enn, nous présentons l'algo- rithme que nous avons développé an de gérer ces contraintes de temps étendues et calculer la précision temporelle.

Chapitre 2

Contraintes de temps étendues

Après avoir présenté les concepts fondamentaux associés aux motifs séquentiels généralisés dans le chapitre précédent, dans ce chapitre, nous présentons notre extension des contraintes de temps et la dénition de la précision temporelle d'une séquence. La section 2.1 présente ainsi le principe général de notre approche ainsi que les notations utilisées. La section 2.2 développe ensuite plus précisément l'extension de chacune des trois contraintes windowSize, mingap et maxgap. La section 2.3, enn,

termine ce chapitre par la dénition de la précision temporelle d'une séquence.

2.1 Principes et notations

Notre proposition d'extension des contraintes de temps pour les motifs séquentiels est fondée sur une analogie avec la théorie des sous-ensembles ous. Ainsi, on ne souhaite plus simplement qu'une séquence respecte ou non les contraintes spéciées mais permettre à l'utilisateur de relâcher ces contraintes. Chacune des contraintes de temps peut alors être vue comme un sous-ensemble ou dont la fonction d'appartenance nous donnera, pour chaque valeur attribuée au paramètre de contrainte, la précision avec laquelle la contrainte initialement spéciée par l'utilisateur est respectée. An de répondre au mieux aux besoins de l'utilisateur, nous lui donnons la possibilité de spécier la valeur ρx de respect minimum de la

contrainte X , de valeur initiale xinit.

2.1.1 Principe général

Le degré de respect des contraintes reposant sur la fonction d'appartenance de chacune des contraintes, les coecients spéciés sont compris dans l'intervalle [0,1]. Il est également possible de xer une contrainte avec certitude :

Si ρx = 1, l'utilisateur ne souhaite pas faire varier la valeur de la contrainte, qui restera donc xée

à sa valeur spéciée et toutes les séquences générées auront une précision de 1.

Si ρx = 0, l'utilisateur souhaite parcourir l'ensemble des valeurs possibles pour la contrainte, le

poids d'une séquence dépendra alors de la valeur de la contrainte qui permet de la générer. Sinon, ρx ∈]0, 1[, la valeur x de la contrainte X va varier entre sa valeur xée xinit et une valeur

limite xρ pour laquelle ρ(x) = ρx.

Il existe des valeurs limites utiles pour chacune des contraintes de temps. Celles-ci correspondent au parcours de la totalité de l'espace de recherche, c'est-à-dire lorsque ρx = 0.

64 CHAPITRE 2. CONTRAINTES DE TEMPS ÉTENDUES

2.1.2 Valeurs limites utiles

Les valeurs limites utiles des contraintes de temps sont calculées à partir des contraintes de temps strictes (ii), (iii) et (iv) (chapitre 1, section 1.3). Elles correspondent aux valeurs limites autorisées par ces dénitions et au-delà desquelles plus aucune séquence de données ne peut satisfaire les contraintes. Les contraintes maxgap et windowSize correspondent à l'écart maximal qui sépare deux itemsets, la

valeur maximale qu'elles pourront prendre pour un objet correspond donc à la durée qui sépare la premier enregistrement de cet objet du dernier. Pour toute la base, cette valeur correspondra donc à l'écart maximum pour tous les objets entre les dates minimales et maximales des enregistrements, c'est-à-dire que la valeur limite utile de maxgapetwindowSize seraM = max

o∈O(Domax− Domin).

La contraintemingap correspond à l'écart minimal qui sépare deux itemsets. Il s'agit donc de dénir la

valeur limite de cette contrainte, en tenant compte de l'inégalité stricte qu'elle impose. L'écart minimum qui sépare deux enregistrements d'un objet o est donné par minr∈Ro(Dr+1−Dr), et pour l'ensemble de la

base, cet écart correspond à la valeur minimale pour l'ensemble des objets, soit mino∈O(minr∈Ro(Dr+1−

Dr)). Dans le cas limite, la contrainte surmingap s'exprime par l'inégalité :

mino∈O(minr∈Ro(Dr+1− Dr)) > mingap

mino∈O(minr∈Ro(Dr+1− Dr)) ≥ mingap + 1

mino∈O(minr∈Ro(Dr+1− Dr)) − 1 ≥ mingap

La valeur limite de mingap est donc min_o∈O(minr∈Ro(Dr+1− Dr)) − 1. Or dans le cas où un objet

n'aurait qu'un enregistrement, cette valeur serait -1, ce qui reviendrait à dire que l'on pourrait avoir un écart nul entre deux itemsets consécutifs. Autrement dit, on pourrait transformer un itemset (a b c) en une séquence < (a) (b) (c) >. On impose donc dans ce cas que la valeur demingap est nulle. La valeur

limite utile demingap s'exprime alors par m = max(min

o∈O( minr∈Ro

(Dr+1− Dr)) − 1, 0).

2.1.3 Notations

Dans la suite de ce chapitre, nous utiliserons les notations suivantes, résumées par le tableau 2.1, an de distinguer les trois contraintes de temps :

Soit wsinit, mginit et MGinit les valeurs initiales spéciées pour les contraintes de tempswindow-

Size,mingapetmaxgapet ρ_ws, ρ_mg et ρ_{M G} les niveaux minimum de précision associés à chacune

d'elles. Ces coecients vont permettre de dénir les limites de variation des contraintes de temps correspondant aux besoins de l'utilisateur.

On notera ws, mg et MG les valeurs variables des contraintes et ρ(ws) (resp. ρ(mg) et ρ(MG)) les précisions des contraintes selon la valeur de ws (resp. mg et MG).

Dans le document Extraction de séquences fréquentes : des données numériques aux valeurs manquantes (Page 63-67)