item-sets (à gauche) que pour les sous-séquences (à droite). Aussi bien pour les itemitem-sets que pour
les sous-séquences, la précision s’améliore avec le nombre de motifs extraits. De manière
inté-ressante, la précision augmente très rapidement avec les premiers motifs extraits. Clairement,
cette progression est plus fulgurante avec les itemsets car les phénomènes à capturer sont
pro-bablement moins complexes.
5 Conclusion
Nos expériences de classification nous ont permis de tirer plusieurs leçons sur la
construc-tion de variables par échantillonnage. La norme est efficace pour éviter de concentrer le tirage
sur la longue traine et ainsi, extraire des variables représentatives. Il est cependant pertinent de
considérer des motifs dont la norme est supérieure à 1 notamment pour décrire les relations
fines au sein des langages structurés. De manière intéressante, si la qualité de la prédiction
Construction de variables pour la classification par échantillonnage de motifs
augmente avec le nombre de variables, un échantillon de taille réduite (quelques milliers) est
déjà très efficace. Enfin, un langage plus complexe nécessitera des échantillons plus gros.
Plu-sieurs pistes d’améliorations sont envisagées. Nous pourrions contrôler la norme des motifs en
les tirant suivant une autre mesure (par exemple, le support multiplié par un facteur à
décrois-sance exponentielle). Il serait aussi intéressant d’appliquer cette approche sur d’autres langages
comme les graphes ou d’utiliser des mesures de contrastes plutôt que le support pour choisir
des motifs spécifiques à une classe. A plus long terme, nous voudrions utiliser directement
l’échantillon de motifs pour faire de la classification associative à la CBA (Ma et al., 1998).
Références
Agrawal, R. et R. Srikant (1995). Mining sequential patterns. InProc. of ICDE 95, pp. 3–14.
Agrawal, R., R. Srikant, et al. (1994). Fast algorithms for mining association rules. InProc.
20th int. conf. very large data bases, VLDB, Volume 1215, pp. 487–499.
Boley, M., C. Lucchese, D. Paurat, et T. Gärtner (2011). Direct local pattern sampling by
efficient two-step random procedures. InProc. of the 17th ACM SIGKDD, pp. 582–590.
Diop, L., C. T. Diop, A. Giacometti, D. Li, et A. Soulet (2018). Sequential pattern sampling
with norm constraints. In2018 IEEE International Conference on Data Mining (ICDM),
pp. 89–98. IEEE.
Diop, L., C. T. Diop, A. Giacometti, D. Li, et A. Soulet (2019). Echantillonnage de motifs
ensemblistes selon une utilité fondée sur la taille. InConféreNce sur la Recherche en
Infor-matique et ses Applications, CNRIA’2019, pp. 104–115.
LeCun, Y., Y. Bengio, et G. Hinton (2015). Deep learning.nature 521(7553), 436.
Liu, H. et L. Yu (2005). Toward integrating feature selection algorithms for classification and
clustering.IEEE Transactions on Knowledge & Data Engineering(4), 491–502.
Ma, B. L. W. H. Y., B. Liu, et Y. Hsu (1998). Integrating classification and association rule
mining. InProceedings of the fourth international conference on knowledge discovery and
data mining, pp. 24–25.
Mannila, H. et H. Toivonen (1997). Levelwise search and borders of theories in knowledge
discovery.Data mining and knowledge discovery 1(3), 241–258.
Mitchell, T. M. (1982). Generalization as search.Artificial intelligence 18(2), 203–226.
Summary
To build a classifier, pattern mining is an interesting method for extracting features
repre-sentative of a dataset. It is possible to obtain a reasonable number of complementary patterns
that describe the dataset by using pattern sampling. This recent technique randomly draws
patterns proportionally to their support. This paper summarizes our results concerning feature
construction by sampling itemsets or subsequences. We show the importance of the norm to
fo-cus sampling on the most representative patterns and thus, improve the accuracy of classifiers.
Classification croisée de données tensorielles
Rafika Boutalbi
∗,∗∗Lazhar Labiod
∗, Mohamed Nadif
∗∗
Lipade, Université de Paris, 75006, France Paris
∗∗
Trinov
<prénom.nom>@parisdescartes.fr
Résumé. Pour atteindre l’objectif de la classification croisée de données se
pré-sentant sous forme d’un tenseur, nous proposons une extension du modèle de
Poisson Latent Block Model. Les paramètres de ce modèle sont estimés par un
algorithme de typeVariationnel EM. L’évaluation de notre approche est réalisée
sur des tenseurs de données réelles.
1 Introduction
La classification croisée (co-clustering) est une méthode permettant de regrouper
simulta-nément les lignes et les colonnes d’une matrice de données. Elle conduit de ce fait à une
réorga-nisation des données en blocs homogènes (après permutations appropriées). Leco-clustering
joue un rôle important dans une grande variété d’applications où les données sont généralement
organisées dans des tableaux à double entrée (Govaert et Nadif, 2013). Cependant si on
consi-dère l’exemple duclusteringd’articles, nous pouvons collecter plusieurs informations liées aux
articles tels que les termes en commun, les co-auteurs et les citations, qui conduisent
naturel-lement à une représentation tensorielle. L’exploitation d’un tel tenseur permettrait d’améliorer
les résultats de clustering d’un des ensembles. Ainsi, deux articles qui partagent un ensemble
important de mots en commun, qui ont des auteurs en commun et qui se citent sont très
sus-ceptibles de traiter du même sujet. Dans la suite nous nous intéresserons à de tels tenseurs.
Malgré le grand intérêt pour leco-clusteringet la représentation tensorielle, peu de
tra-vaux portent sur leco-clusteringde tenseurs. Nous pouvons néanmoins citer le travail basé sur
l’information Minimum Bregman (MBI) (Banerjee et al., 2005) ou encore la méthode de
co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering)(Wu et al.,
2016). Cependant, la majorité des auteurs ne considèrent pas le co-clustering à partir d’un
tenseur selon une approche probabiliste mais plutôt selon des méthodes de factorisation
ten-sorielles. Nous présentons dans ce papier un modèle probabilisteTensor Latent Block Model
(Tensor LBM) pour le co-clustering de tenseurs s’appuyant sur une simple extension de LBM.
2 Modèle des blocs latents (LBM)
Le modèle des blocs latents (Govaert et Nadif, 2003) eng×mblocs est défini de la manière
suivante. Étant donnée une matriceXde taillen×d, on suppose qu’il existe un couple de
partitions(z,w)oùzest la partition engclasses sur l’ensemble des lignesIetwla partition
Dans le document
Société Francophone de Classification (SFC) Actes des 26èmes Rencontres
(Page 94-97)