Impact de la taille de l’échantillon La figure 4 reporte l’évolution de la précision moyenne pour différentes normes maximalesMselon la taille de l’échantillon aussi bien pour les

item-sets (à gauche) que pour les sous-séquences (à droite). Aussi bien pour les itemitem-sets que pour

les sous-séquences, la précision s’améliore avec le nombre de motifs extraits. De manière

inté-ressante, la précision augmente très rapidement avec les premiers motifs extraits. Clairement,

cette progression est plus fulgurante avec les itemsets car les phénomènes à capturer sont

pro-bablement moins complexes.

5 Conclusion

Nos expériences de classification nous ont permis de tirer plusieurs leçons sur la

construc-tion de variables par échantillonnage. La norme est efficace pour éviter de concentrer le tirage

sur la longue traine et ainsi, extraire des variables représentatives. Il est cependant pertinent de

considérer des motifs dont la norme est supérieure à 1 notamment pour décrire les relations

fines au sein des langages structurés. De manière intéressante, si la qualité de la prédiction

Construction de variables pour la classification par échantillonnage de motifs

augmente avec le nombre de variables, un échantillon de taille réduite (quelques milliers) est

déjà très efficace. Enfin, un langage plus complexe nécessitera des échantillons plus gros.

Plu-sieurs pistes d’améliorations sont envisagées. Nous pourrions contrôler la norme des motifs en

les tirant suivant une autre mesure (par exemple, le support multiplié par un facteur à

décrois-sance exponentielle). Il serait aussi intéressant d’appliquer cette approche sur d’autres langages

comme les graphes ou d’utiliser des mesures de contrastes plutôt que le support pour choisir

des motifs spécifiques à une classe. A plus long terme, nous voudrions utiliser directement

l’échantillon de motifs pour faire de la classification associative à la CBA (Ma et al., 1998).

Références

Agrawal, R. et R. Srikant (1995). Mining sequential patterns. InProc. of ICDE 95, pp. 3–14.

Agrawal, R., R. Srikant, et al. (1994). Fast algorithms for mining association rules. InProc.

20th int. conf. very large data bases, VLDB, Volume 1215, pp. 487–499.

Boley, M., C. Lucchese, D. Paurat, et T. Gärtner (2011). Direct local pattern sampling by

efficient two-step random procedures. InProc. of the 17th ACM SIGKDD, pp. 582–590.

Diop, L., C. T. Diop, A. Giacometti, D. Li, et A. Soulet (2018). Sequential pattern sampling

with norm constraints. In2018 IEEE International Conference on Data Mining (ICDM),

pp. 89–98. IEEE.

Diop, L., C. T. Diop, A. Giacometti, D. Li, et A. Soulet (2019). Echantillonnage de motifs

ensemblistes selon une utilité fondée sur la taille. InConféreNce sur la Recherche en

Infor-matique et ses Applications, CNRIA’2019, pp. 104–115.

LeCun, Y., Y. Bengio, et G. Hinton (2015). Deep learning.nature 521(7553), 436.

Liu, H. et L. Yu (2005). Toward integrating feature selection algorithms for classification and

clustering.IEEE Transactions on Knowledge & Data Engineering(4), 491–502.

Ma, B. L. W. H. Y., B. Liu, et Y. Hsu (1998). Integrating classification and association rule

mining. InProceedings of the fourth international conference on knowledge discovery and

data mining, pp. 24–25.

Mannila, H. et H. Toivonen (1997). Levelwise search and borders of theories in knowledge

discovery.Data mining and knowledge discovery 1(3), 241–258.

Mitchell, T. M. (1982). Generalization as search.Artificial intelligence 18(2), 203–226.

Summary

To build a classifier, pattern mining is an interesting method for extracting features

repre-sentative of a dataset. It is possible to obtain a reasonable number of complementary patterns

that describe the dataset by using pattern sampling. This recent technique randomly draws

patterns proportionally to their support. This paper summarizes our results concerning feature

construction by sampling itemsets or subsequences. We show the importance of the norm to

fo-cus sampling on the most representative patterns and thus, improve the accuracy of classifiers.

Classification croisée de données tensorielles

Rafika Boutalbi

∗,∗∗

Lazhar Labiod

∗

, Mohamed Nadif

∗

Lipade, Université de Paris, 75006, France Paris

∗∗

Trinov

<prénom.nom>@parisdescartes.fr

Résumé. Pour atteindre l’objectif de la classification croisée de données se

pré-sentant sous forme d’un tenseur, nous proposons une extension du modèle de

Poisson Latent Block Model. Les paramètres de ce modèle sont estimés par un

algorithme de typeVariationnel EM. L’évaluation de notre approche est réalisée

sur des tenseurs de données réelles.

1 Introduction

La classification croisée (co-clustering) est une méthode permettant de regrouper

simulta-nément les lignes et les colonnes d’une matrice de données. Elle conduit de ce fait à une

réorga-nisation des données en blocs homogènes (après permutations appropriées). Leco-clustering

joue un rôle important dans une grande variété d’applications où les données sont généralement

organisées dans des tableaux à double entrée (Govaert et Nadif, 2013). Cependant si on

consi-dère l’exemple duclusteringd’articles, nous pouvons collecter plusieurs informations liées aux

articles tels que les termes en commun, les co-auteurs et les citations, qui conduisent

naturel-lement à une représentation tensorielle. L’exploitation d’un tel tenseur permettrait d’améliorer

les résultats de clustering d’un des ensembles. Ainsi, deux articles qui partagent un ensemble

important de mots en commun, qui ont des auteurs en commun et qui se citent sont très

sus-ceptibles de traiter du même sujet. Dans la suite nous nous intéresserons à de tels tenseurs.

Malgré le grand intérêt pour leco-clusteringet la représentation tensorielle, peu de

tra-vaux portent sur leco-clusteringde tenseurs. Nous pouvons néanmoins citer le travail basé sur

l’information Minimum Bregman (MBI) (Banerjee et al., 2005) ou encore la méthode de

co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering)(Wu et al.,

2016). Cependant, la majorité des auteurs ne considèrent pas le co-clustering à partir d’un

tenseur selon une approche probabiliste mais plutôt selon des méthodes de factorisation

ten-sorielles. Nous présentons dans ce papier un modèle probabilisteTensor Latent Block Model

(Tensor LBM) pour le co-clustering de tenseurs s’appuyant sur une simple extension de LBM.

2 Modèle des blocs latents (LBM)

Le modèle des blocs latents (Govaert et Nadif, 2003) eng×mblocs est défini de la manière

suivante. Étant donnée une matriceXde taillen×d, on suppose qu’il existe un couple de

partitions(z,w)oùzest la partition engclasses sur l’ensemble des lignesIetwla partition

Dans le document Société Francophone de Classification (SFC) Actes des 26èmes Rencontres (Page 94-97)