Approches PPC pour la fouille de motifs séquentiels

L’utilisation de la PPC pour la fouille de motifs séquentiels offre un cadre déclaratif et générique de résolution qui permet à l’utilisateur de ne plus devoir se préoccuper de l’écriture d’algorithmes spécifiques pour la prise en compte de nouvelles contraintes. Toutefois, peu de travaux ont été effectués dans cette direction en raison de l’ordre d’apparition des items au sein du motif qui rend la tâche plus complexe que l’extraction d’itemsets (ou motifs ensemblistes).

Je présente ci-dessous une synthèse de nos contributions pour l’extraction de motifs séquen-tiels sous contraintes – à partir d’une base de séquences – dans un cadre déclaratif permettant de traiter simultanément des contraintes de nature quelconque.

5.4.1 Un premier modèle CSP pour l’extraction de motifs séquentiels

(Travail en collaboration avec Jean-Philippe Métivier et Thierry Charnois ; publications as-sociées : Atelier LML’13 [Métivier et al., 2013], EGC’14 [Metivier et al., 2014]).

Dans [Métivier et al., 2013], nous avons proposé un premier modèle CSP pour l’extraction de motifs séquentiels. Pour chaque séquences de SDB, une contrainte réifiée est définie indiquant si le motif à extrairep est sous-séquence (ou non) de s : (S_s= 1) ⇔ (p s).

Pour modéliser la relation de sous-séquence (p s), chaque séquence est encodée par un automate d’état fini qui capture toutes les sous-séquences de la séquence en question. Si le motif séquentiel peut être reconnu par l’automate associé à une séquence, alors le motif couvre la séquence. Nous avons proposé de modéliser cette contrainte de couverture à l’aide d’une contrainte Regular. Nous avons montré que de nombreuses contraintes usuelles de la fouille de motifs séquentiels peuvent être simplement modélisées (la contrainte gap à l’aide de Regular, la contrainte sur la longueur du motif séquentiel ...).

5.4.2 Extraction de motifs séquentiels avec wildcards

(Travail en collaboration avec Amina Kemmar, Willy Ugarte, Yahia Lebbah, Patrice Boizu-mault, Thierry Charnois et Bruno Crémilleux ; publication : ICTAI’14 [Kemmar et al., 2014]).

En nous appuyons sur la notion de motif séquentiel avec wildcards, nous avons proposé dans [Kemmar et al., 2014] un premier modèle CSP pour l’extraction de motifs séquentiels avec wildcards explicites dans une base de séquences. Un wildcard est un symbole spécial qui peut remplacer n’importe quel item (attribut) dans une séquence. Dans ce modèle, les motifs séquen-tiels avec items non contigus sont modélisés en utilisant les wildcards comme des jokers. Si l’on considère l’exemple de la Table 4.2, les deux motifs hA Ci et hA Ci sont considérés comme différents. Nous avons montré comment modéliser de nombreuses contraintes définies sur les mo-tifs à extraire. Ces contraintes portent sur deux catégories de momo-tifs : des contraintes définies sur des motifs locaux (e.g. fréquence, longueur, expression régulière, gap), ou des contraintes définies sur des ensembles de motifs comme les top-k motifs ou encore les sous-groupes pertinents.

Bilan. Toutes ces propositions utilisent des contraintes réifiées pour encoder la base de sé-quences. Pour chaque séquences de SDB, une contrainte réifiée est définie indiquant si le motif à extraire p est une sous-séquence (ou non) de s : (S_s = 1) ⇔ (p s). Cet encodage permet d’exprimer simplement la contrainte de fréquence : freq_SDB(p) =P

s∈SDBS_s. Mais, il présente un inconvénient majeur car il nécessite m = #SDB contraintes réifiées pour encoder toute la base de séquences. Ceci constitue une limitation forte sur la taille des bases qui peuvent être traitées.

La plupart de ces propositions encodent la relation de sous-séquence(p s) en utilisant un ensemble de variables P oss,j (s ∈ SDB et 1 ≤ j ≤ `) pour déterminer l’occurrence O de p danss (cf. définition 4.11). Lorsque seules quelques occurrences sont possibles, comme dans cas de séquences avec wildcards explicites, l’encodage peut être réalisé avec des contraintes disjonctives sur toutes les occurrences possibles (voir [Kemmar et al., 2014] pour plus de détails). Mais pour les séquences standards, le nombre de ces occurrences devient exponentiel, interdisant ainsi tout encodage direct et rendant l’algorithme d’énumération très coûteux en termes de temps de calcul. En outre, il nécessite un grand nombre de variables supplémentaires (m × `).

Afin de remédier à cet inconvénient, Negrevergne et al. [Négrevergne et Guns, 2015] ont proposé une contrainte globale exists-embedding pour encoder la relation de sous-séquence. Ils ont exploité le principe de la fréquence projetée pour garder seulement les items fréquents qui ap-paraissent après le préfixe courant, grâce à l’introduction de variables supplémentaires (une par séquence). Une procédure de recherche spécifique (basée sur les domaines des variables supplé-mentaires) est utilisée pour éviter d’énumérer les items non fréquents. Mais encore une fois, cet encodage repose sur des contraintes réifiées et requiertm contraintes globales exists-embedding.

5.4.3 Une contrainte globale pour l’extraction de motifs séquentiels

(Travail en collaboration avec Amina Kemmar, Yahia Lebbah, Patrice Boizumault et Thierry Charnois ; publication associée : CP’15 [Kemmar et al., 2015] ; article repris en annexe C).

Comme nous l’avons souligné précédemment, l’utilisation de la PPC pour exprimer des pro-blèmes de fouille de données offre un cadre déclaratif et générique de résolution. Toutefois, la contrepartie à cette grande généricité est la relative faiblesse des approches déclaratives exis-tantes qui ne passent pas à l’échelle comparées aux méthodes spécialisées. En effet, comme nous l’avons indiqué, l’encodage PPC, qui utilise une contrainte réifiée par séquence, constitue une limitation forte sur la taille des bases qui peuvent être traitées.

Pour pallier à tous ces inconvénients, nous avons proposé dans [Kemmar et al., 2015] une nou-velle contrainte globale Prefix-Projection qui exploite le principe de la projection préfixée (cf. section 4.2.3) afin d’encoder dans une seule contrainte la relation de sous-séquence et la contrainte de fréquence. Notre encodage permet de mettre en œuvre différents types de contraintes (appar-tenance d’items, taille et expressions régulières) et de les combiner simultanément. Par rapport aux approches PPC existantes, Prefix-Projection ne requiert ni contraintes réifiées ni va-riables supplémentaires pour encoder la relation de sous-séquence. Les expérimentations menées montrent que notre approche surpasse clairement les approches PPC existantes et concurrence les méthodes spécialisées sur de grandes bases de séquences. Une présentation détaillée de la contrainte globale Prefix-Projection est donnée en annexe C.

5.4.4 Une contrainte globale pour l’EMS avec GAP

(Travail en collaboration avec Amina Kemmar, Yahia Lebbah, Patrice Boizumault et Thierry Charnois ; publication associée : CPAIOR’16 [Kemmar et al., 2016] ; article repris en annexe D). Une autre contrainte couramment employée en fouille de motifs séquentiels est la contrainte de gap. Cette contrainte permet de contraindre l’intervalle de temps entre deux items consécutifs d’un motif dans les séquences d’origines. L’extraction de motifs séquentiels sous la contrainte de gap est une tâche difficile car la propriété d’anti-monotonie n’est plus respectée.

Bien que Prefix-Projection est bien adaptée pour les contraintes sur le motif, celle-ci ne permet de prendre en compte les contraintes sur la relation de sous-séquence, comme la durée ou le gap (cf section 4.2.2). Pour y remédier, nous avons récemment proposé dans [Kemmar et al., 2016] une nouvelle extension de la contrainte globale Prefix-Projection, dénommée GAP-SEQ, permettant d’extraire les motifs séquentiels avec ou sans la contrainte de gap. Sans détailler (cf. annexe D), GAP-SEQ utilise un encodage concis et son filtrage exploite la propriété de préfixe-anti-monotonie34. L’idée générale est de calculer toutes les extensions valides à droite du motif, i.e., celles respectant la contrainte de gap, puis de générer de nouveaux candidats en étendant ce motif d’un item supplémentaire à droite. Cet item est sélectionné parmi ceux fréquents dans les extensions valides à droite du motif.

Les expérimentations menées sur différents jeux de données réels de grande taille montrent que GAP-SEQ surpasse clairement les approches PPC et la méthode de l’état de l’art cSpade pour l’extraction de motifs séquentiels sous la contrainte de gap. L’annexe D détaille cette nouvelle contrainte globale ainsi que son algorithme de filtrage.

34. Une contrainte c est dite préfixe-anti-monotone si pour chaque motif p satisfaisant c, tous les préfixes de p satisfont c également.

Dans le document Contributions à la résolution des WCSP et approches déclaratives pour la fouille de données (Page 77-80)