• Aucun résultat trouvé

U TILITE DE DATA MINING DANS LES SYSTEMES DE RECOMMANDATION

Yacine Lafif

III. U TILITE DE DATA MINING DANS LES SYSTEMES DE RECOMMANDATION

A. Data mining :

Le data mining (DM) est l’une des étapes principales du processus de découverte des connaissances dans les bases de données de grande taille. Ce processus est constitué de trois phases essentielles : préparation de données, extraction des modèles et évaluation des modèles. La première phase représente un ensemble des prétraitements des données tels que la collecte, l’intégration, la transformation, le nettoyage, la réduction et la description de données. Dans la deuxième phase, plusieurs techniques de data mining sont utilisées pour l’extraction et la découverte des modèles tels que le clustering, les règles d’association,...etc. La dernière phase consiste à faire l’évaluation et l’interprétation des modèles extraits pour aboutir à la fin à des modèles, patterns valides, nouveaux, potentiellement utiles, et compréhensibles [http2] [ Amatriain et al., 2011] [Liao et al., 2012].

Fig. 2. Processus de la découverte des connaissances [http2].

Comme on a mentionné ci dessus, l’extraction des modèles se fait par l’application des techniques mathématiques en exploitant le processus de data mining. Ces techniques sont utilisées dans différents axes tels que les systèmes de recommandation.

B. Techniques de data mining dans les systèmes de recommandation :

Les techniques de data mining sont nombreuses et sont utilisées dans différents domaines pour divers objectifs. Dans ce cas, le choix d’une technique ou d’une autre est une tâche très difficile puisqu’il faut prendre en considération la problématique à traiter, le contexte applicatif, la disponibilité des données à l’entrée du système, ainsi que les avantages et les inconvénients de la technique choisie [Esslimani, 2010].

La technique de K plus proches voisins (K Nearest Neighbors : KNN) est largement utilisée par les systèmes de recommandation basés sur le filtrage collaboratif. Son principe est la découverte et l’extraction des K plus proches utilisateurs appelés voisins. Ces derniers partagent des intérêts communs avec l’utilisateur cible [Park et al., 2012].

Cette technique a prouvé un double avantage pour la recommandation des objets d’apprentissages aux apprenants. Le premier avantage est représenté par [De Oliveira et al., 2013] qui exprime l’utilité de l’algorithme "Multi Label- Nearest Neighbor" (ML-NN) pendant le regroupement des apprenants qui ont des difficultés d’apprentissage en utilisant leurs profils communs. Le deuxième avantage de cette technique est abordé dans le travail de [Di Bitonto et al., 2011] pour confronter le démarrage à froid d’un utilisateur. Pour cette raison, les auteurs ont utilisé "Shared-Nearest Neighbor clustering" (SNN). Ce dernier est appliqué dans un contexte social pour enrichir le processus d’apprentissage.

On déduit que la technique de KNN a été adoptée avec efficacité dans le processus de la recommandation dans le e- Learning. En plus, elle a résolu pas mal de problèmes rencontrés pendant le cycle d’apprentissage.

Malheureusement, la classification obtenue en appliquant cette technique est liée au choix initial du K. Ainsi, elle n’est pas flexible lors de l’évolutivitédu nombre des utilisateurs et des objets recommandés.

Contrairement à la technique du KNN, les arbres de décision sont trop flexibles grâce à leur structure, qui est adaptable aux différents besoins du concepteur. Cette technique a été appliquée avec succès par [Anaya et al., 2013] pour améliorer le processus de la collaboration entre les apprenants pendant leur apprentissage. Leur approche vise à identifier les difficultés de la collaboration et la proposition des solutions alternatives aux apprenants sous forme de conseils. Le problème de démarrage à froid est encore discuté par [Lika et al., 2014]. Les auteurs ont appliqué un processus intelligent pour chercher les voisins qui partagent des caractéristiques communes avec le nouvel utilisateur. La classification de ce dernier se fait par l’application de l’algorithme C4.5.

L’inconvénient majeur rencontré par ces approches est la complexité dans la gestion d’un nombre important des utilisateurs et des objets, ce qui nécessite un temps considérable pendant la phase d’apprentissage ainsi que la phase de classification. Ce constat permet de diminuer la performance du système de recommandation en général.

Les règles d’association sont largement exploitées par les systèmes de recommandation grâce à leur structure symbolique pour expliquer le processus de la recommandation aux utilisateurs. Leur principe est la découverte des relations entre les groupes des apprenants qui partagent le même comportement et la liste des objets d’apprentissage sous forme d’un processus de personnalisation [Hsu, 2008a].

Les règles d’association sont utilisées pour la prédiction des actions des apprenants dans le futur. L’algorithme "Sequentiel Pattern Mining" (SPM) est exploité pour analyser la séquence d’accès aux matières effectuée par les apprenants dans le passé [Salehi et Kamalabadi, 2013].

TABLE II. DIFFERENTES TECHNIQUES DE DATA MINING UTILISEES DANS LES SYSTEMES DE RECOMMANDATION

Auteurs Objectifs de l’approche Domaines

d’application Techniques de DM Ressources recommandées Utilisateur cible De Oliveira et al., 2013

Améliorer la performance des apprenants

dans la programmation. E-Learning

-Multi-Label K-nearest neighbor (ML-kNN) Classes des activités Apprenants Di Bitonto et al., 2011

-Enrichir le processus d’apprentissage en exploitant les interactions sociales des apprenants.

-Réduire le problème de démarrage à froid.

E-Learning

- The shared Near Neighbor (SNN) clustering algorithm Groupes de discussion Apprenants Anaya et al., 2013

Détecter et résoudre les problèmes du

processus de la collaboration. E-Learning

-Influence diagram -Decision tree algorithm

Conseils en cas de problèmes de collaboration Enseignants et apprenants Lika et al., 2014

Éviter le problème de démarrage à froid en utilisant trois étapes: classification, similarité et prévision.

E-commerce

-Classification par les algorithmes C4.5 et Naïve Bayes

Films Publique Hsu,

2008a

Motiver les apprenants par la

personnalisation des cours. E-Learning

-Clustering algorithm -Association rules algorithm

Les cours Apprenants Kim et Yum, 2011

Amélioration de la qualité des recommandations en se basant sur le comportement des utilisateurs ainsi que leur historique de navigation.

E-commerce -Association rule mining Produits Publique Aher et Lobo, 2012 Perfectionner la précision de la recommandation. E-Learning -Simple k-means clustering.

-Apriori association rule algorithm

Les cours Apprenants Romero et al.,

2007

-Aider les étudiants à trouver un chemin optimal à travers les objets

d'apprentissage.

-Alléger le problème de démarrage à froid. E-Learning -Clustering algorithm -Sequential pattern mining algorithm Lien optimal Enseignants et apprenants Chen et al., 2014

Recommandation des ressources d'apprentissage utiles pour guider les utilisateurs pendant le processus d'apprentissage.

E-Learning -Sequential pattern mining

Ressources

d’apprentissage Apprenants Kim et al.,

2011

Améliorer la qualité des

recommandations en exploitant les tags des utilisateurs comme des indicateurs de leurs préférences.

E-commerce -Weighted Naïve Bayes Films Publique Hsu,

2008b

Améliorer les stratégies d’enseignement en identifiant les points faibles des apprenants.

E-Learning -Clustering algorithm d’enseignement Stratégies

Enseignants et apprenants Salehi et Kamalabadi, 2013 - Personnaliser la recommandation en utilisant les activités des apprenants. -Amélioration de la qualité des recommandations.

- Résoudre le problème de la densité faible de données. E-Learning -Association rules -Pattern-tree -K-means clustering algorithm

Les matières Publique

Wu et al., 2013

-Résoudre le problème de démarrage à froid dans les systèmes de

recommandation collaborative. -Amélioration de l’exactitude des recommandations en se basant sur les utilisateurs actifs. E-commerce, E-Learning -K-means clustering algorithm Films, Papiers académiques Publique Zhang et al., 2014

-Optimiser la matrice de factorisation par le regroupement des utilisateurs en utilisant leurs informations.

E-commerce -K-means clustering

Les règles d’association sont appliquées dans le e- commerce pour étudier le comportement des clients pendant leurs acquisitions des produits en ligne en analysant leur processus d’achat implicitement d’après leurs produits consultés, les produits achetés,…etc. et essayer de découvrir une relation d’association entre eux [Kim et Yum, 2011]. Un autre algorithme des règles d’association est "Apriori Association Rule" qui traite le cas des patterns qui se produisentsouvent. Cette technique est utilisée par [Aher et Lobo, 2012] pour la prédiction d’une combinaison meilleure des cours aux apprenants selon leurs préférences. Elle se base sur l’historique de la navigation des utilisateurs pendant leurs interactions avec le système. Les traces d’interaction sont adaptées par cette technique selon les besoins des apprenants lors de la recherche des matières d’apprentissage [Romero et al., 2007]. En outre, Romero et ses collègues ont résolu le problème de démarrage à froid d’un nouvel utilisateur en se basant sur sa navigation actuelle, par la suggestion des cours selon cette situation. "Le Sequentiel Pattern Mining algorithm" est utilisé encore par [Chen et al., 2014] pour consolider la recommandation basée sur le filtrage collaboratif. Cette technique est appliquée sur les matières pour découvrir la relation entre elles.

L’exploitation de l’historique de la navigation nécessite un multiple scan de la base de données pour déterminer les patterns fréquents (temps coûteux), ce qui est considéré comme un inconvénient majeur des approches exploitant ce principe.

Les principes de la probabilité sont appliqués dans les systèmes de recommandation dont le but est la prédiction des préférences des utilisateurs. "Locally Weited Naïve Bayes" est une approche qui exploite le théorème de bayes dans une recommandation collaborative [Kim et al., 2011]. Cette approche utilise les étiquettes générées par les utilisateurs comme des indicateurs de préférence. Ce principe aide à confronter le problème de démarrage à froid.

Le clustering est une classification non-supervisée. Son objectif principal est le regroupement des objets similaires dans la même classe en maximisant la distance interclasses et en diminuant la distance intra-classes [Romero et al., 2007] [Zakrzewska, 2012]. La plupart des systèmes de recommandation utilisent un algorithme non hiérarchique très connu qui est le K means vu ses avantages majeurs pour combler les lacunes de la classification dans une base de données volumineuse, ainsi que sa simplicité et efficacité. L’utilité d’utiliser cette technique dans le e- Learning est abordée par [Hsu, 2008b] pour l’identification des points faibles des apprenants par un regroupement efficace, ainsi que pour fournir l’aide appropriée aux enseignants en leurs suggérant des nouvelles stratégies d’enseignement suite à la détection des difficultés de leurs apprenants. Par fois, cette technique de clustering est combinée avec d’autres techniques telles que les règles d’association et les arbres de décision afin d’améliorer la prédiction des recommandations [Salehi et Kamalabadi, 2013]. Cette combinaison entre différentes techniques de

data mining peut être considérée comme une phase de prétraitement où on applique le clustering pour améliorer, réduire et nettoyer les données à exploiter [Aher et Lobo, 2012].

Dans la plupart des approches proposées, le clutering est appliqué soit sur les utilisateurs, soit sur les objets, et par fois sur les deux en même temps. Comme le cas dans [Wu et al., 2013] où les auteurs ont essayé d’améliorer la performance de la collaboration dans un réseau social et d’affronter le problème du démarrage à froid.

Enfin, le clustering est utilisé pour résoudre le problème de la dispersion de données (l’indisponibilité de données) en optimisant la matrice de factorisation standard par l’intégration des informations des utilisateurs [Zhang et al., 2014].