Classification automatique de documents basée sur le «Bag ofWords» et l’extraction de motifs séquentiels

(1)

RÉPUBLIQUE DU BÉNIN

MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE

UNIVERSITÉ D’ABOMEY-CALAVI

ECOLE POLYTECHNIQUE D’ABOMEY-CALAVI

DEPARTEMENT DE GENIE INFORMATIQUE ET TELECOMMUNICATIONS

Option: Réseaux Informatiques et Internet

MEMOIRE DE FIN DE FORMATION POUR L’OBTENTION DU

DIPLOME D’INGENIEUR DE CONCEPTION Thème :

Classification automatique de documents basée sur le «Bag of Words» et l’extraction de motifs

séquentiels

Jean-Baptiste SOSSOU sojeba008@gmail.com

Encadrement :

Dr Ing. Vinasétan Ratheil HOUNDJI Ing. John AOGA, PhD student

Gaël AGLIN, PhD student

Année Académique : 2017-2018 11^ePromotion

(2)

Dédicace iii

Remerciements iv

Liste des figures v

Liste des tableaux vii

Liste des algorithmes viii

Liste des sigles et abréviations viii

Résumé 1

Abstract 2

Introduction 3

1 État de l’art 6

1.1 Classification automatique de documents . . . 7

1.2 Extraction des caractéristiques . . . 11

1.3 Représentation numérique de documents : le «Bag of Words» . . . 13

1.4 Algorithmes de classification . . . 16

1.5 Contribution de cette étude au vu de la littérature . . . 24

2 Matériel et méthodes 27 2.1 Matériel . . . 28

2.2 Méthodologie . . . 39

3 Mise en oeuvre de notre solution 43 3.1 Architecture du système de classification . . . 44

(3)

SOMMAIRE SOMMAIRE

3.2 Algorithme de pré-traitement de textes . . . 45

3.3 Algorithme d’extraction de motifs séquentiels . . . 46

3.4 Algorithme de représentation Bag of Words de textes . . . 49

4 Résultats et discussions 51 4.1 Résultats . . . 51

4.2 Conclusions des expérimentations et Discussions . . . 63

Conclusion et perspectives 66

English version Text classification based on Bag of Words and sequential pattern mining 67

4.3 Text classification . . . 68

4.4 Sequential pattern mining . . . 71

4.5 Experimental results . . . 73

4.6 Conclusion . . . 79

Bibliographie 80

Webographie 83

Annexe 84

(4)

À

mes chers parents, pour tous leurs sacrifices, leur amour, leur tendresse, leur soutien et leurs prières tout au long de mes études.

Que ce travail soit l’accomplissement de vos vœux tant allégués, et le fruit de votre soutien infaillible.

(5)

Remerciements

En préambule de ce mémoire, je tiens à remercier le Seigneur Dieu tout puissant qui nous a accordé la santé, la force, et la persévérance nécessaires pour la réalisation de ce projet de fin d’études. Je remercie aussi tous ceux qui, de près ou de loin, ont participé à la réalisation de ce travail. Je remercie particulièrement :

• Dr Ing. Ratheil HOUNDJI, Ing John AOGA et Gaël AGLIN, PhD students, mes supervi- seurs pour tout ce qu’ils m’ont apporté dans la concrétisation de ce travail ;

• Dr. Léopold DJOGBE, chef du Département de Génie Informatique et Télécommunica- tions (GIT) ;

• tous les enseignants du Département de Génie Informatique et Télécommunications pour avoir accepté de partager une partie de leurs connaissances avec moi ;

• à toute ma famille pour son soutien indéfectible ;

• à mes amis Harold KIOSSOU, Erick ADJE, Faïzath ZOUMAROU WALIS, Jacques AKOUEÏ- KOU, Géraldine ATCHADE, Daryl GOGAN et tous ceux que je ne pourrais pas citer ici.

(6)

1.1 Fonction de classification de documents. . . 8

1.2 Catalogue hiérachique de site web de Yahoo [43] . . . 10

1.3 Représentation vectorielle de documents . . . 13

1.4 Exemples d’hyperplans séparateurs en deux dimensions . . . 20

1.5 Arbre de décision . . . 21

1.6 Modèle de réseau de neurones . . . 22

2.1 KDnuggets Analytics / Data Science 2018. Sondage sur les logiciels : les principaux outils en 2018, et leur part dans les sondages 2016-7 [42] . . . 31

2.2 Exemple de Courbe ROC [38] . . . 39

2.3 Schéma résumé de la méthodologie de l’étude . . . 41

4.1 Évolution des performances des modèles d’apprentissage sur SMSSpamCollec- tion en fonction du seuil . . . 54

4.2 Évolution des performances des modèles d’apprentissage sur Reuters 8 en fonction du seuil pour des motifs de taille 1 . . . 57

4.3 Évolution des performances des modèles d’apprentissage sur Reuters 8 en fonction du seuil pour des motifs de taille 2 . . . 57

4.4 Évolution des métriques de performance en fonction du support minimum en pourcentage des motifs ignorés . . . 59

4.5 Évolution des métriques de performance en fonction de la taille des motifs . . . . 64

4.6 Bag of Words representation . . . 69

4.7 Evolution of performance metrics based on pattern size . . . 76

(7)

Liste des tableaux

2.1 Description du dataset SMSSpamCollection . . . 33

2.2 Description du dataset Reuters 8 . . . 33

2.3 Description du dataset 20 Newsgroups . . . 34

2.4 Exemple de base de données de séquences . . . 34

2.5 Tableau de confusion . . . 36

4.1 Résultats des performances du TF et TF-IDF sur SMSSpamCollection . . . 53

4.2 Résultats des performances de l’approche de SPM sur SMSSpamCollection . . . . 53

4.3 Résultats des performances de l’approche de SPM sur SMSSpamCollection en fonction de la taille des motifs . . . 54

4.4 Comparaison des performances du TF, TF-IDF et du SPM sur SMSSpamCollection 55 4.5 Résultats des performances du TF et TF-IDF sur Reuters 8 . . . 55

4.6 Résultats des performances de l’approche de SPM sur Reuters 8 . . . 56

4.7 Réduction de l’espace des caractéristiques . . . 58

4.8 Résultats des performances de l’approche de SPM sur Reuters 8 après la réduc- tion de l’espace des caractéristiques . . . 58

4.9 Résultats des performances de l’approche de SPM sur Reuters 8 avant et après la réduction de l’espace des caractéristiques . . . 59

4.10 Comparaison des performances du TF, TF-IDF et du SPM avec la régression logistique sur Reuters 8 . . . 60

4.11 Comparaison des performances du TF, TF-IDF et du SPM avec la SVM sur Reu- ters 8 . . . 60

4.12 Comparaison des performances du TF, TF-IDF et du SPM avec le naïves bayes sur Reuters 8 . . . 60

4.13 Résultats des performances du TF et TF-IDF sur 20 Newsgroups . . . 61

4.14 Résultats des performances de l’approche de SPM sur 20 Newsgroups . . . 61

4.15 Réduction de l’espace des caractéristiques . . . 62

4.16 Résultats des performances de l’approche de SPM sur 20 Newsgroups après la réduction de l’espace des caractéristiques . . . 62

4.17 Résultats des performances de l’approche de SPM sur Reuters 8 avant et après la réduction de l’espace des caractéristiques . . . 62

(8)

4.18 Comparaison des performances du TF, TF-IDF et du SPM avec la régression lo-

gistique sur 20 Newsgroups . . . 63

4.19 Comparaison des performances du TF, TF-IDF et du SPM avec la SVM sur 20 Newsgroups . . . 63

4.20 Comparaison des performances du TF, TF-IDF et du SPM avec le naïves bayes sur 20 Newsgroups . . . 63

4.21 Sample database of sequences . . . 71

4.22 Description of SMSSpamCollection . . . 73

4.23 Description of Reuters 8 . . . 74

4.24 Description of 20 Newsgroups . . . 74

4.25 Comparison of TF, TF-IDF and SPM performance on SMSSpamCollection . . . . 75

4.26 Comparison of TF, TF-IDF and SPM performance with logistic regression on Reuters 8 . . . 76

4.27 Comparison of TF, TF-IDF and SPM performance with SVM on Reuters 8 . . . 76

4.28 Comparison of TF, TF-IDF and SPM performances with naïve bayes on Reuters 8 77 4.29 Comparison of TF, TF-IDF and SPM performances with logistic regression on 20 Newsgroups . . . 77

4.30 Comparison of TF, TF-IDF and SPM performances with SVM on 20 Newsgroups 77 4.31 Comparison of TF, TF-IDF and SPM performances with naive bayes on 20 News- groups . . . 78

(9)

Liste des Algorithmes

1 Système de classification . . . 44

2 Algorithme de tokenization de textes . . . 45

3 Algorithme de pré-traitement de textes . . . 46

4 Algorithme de projection de préfixe sur une BDS . . . 47

5 Algorithme de représentation Bag of Words de textes . . . 49

(10)

Acc : Accuracy (ou exactitude en français) AUC : Area Under The Curve

BOW : Bag of Words F1M : La F1-mesure

IA : Intelligence Artificielle ML : Machine Learning NB : Naive Bayes

NLP : Natural Language Processing NLTK : Natural Language Toolkit Pre. : La précision

Rap. : Le Rappel

SVM : Support Vector Machine TF : Term Frequency

TF-IDF : Term frequency-Inverse Document Frequency

(11)

Résumé. L’apprentissage automatique est un champ de l’intelligence artificielle qui tente d’expliquer un phénomène à partir des observations (données) fournies. De par son utilité, il s’invite dans tous les domaines de la vie avec des applications multiples en santé, en télécommunication, ...Une application populaire de l’apprentissage automatique est la classification automatique de documents. Elle consiste à associer de façon automatique une classe à un texte. Dans le processus de classification, l’une des représentations de textes utilisées est le Bag of Words où les caracté- ristiques utilisées sont des mots ou des n-grammes. Cette approche utilise des mé- triques comme le TF et le TF-IDF pour extraire et juger de la pertinence des caracté- ristiques et son principal inconvénient est que l’information relative à la sémantique du texte est ignorée. Dans ce travail nous avons proposé une approche basée sur leBag of Wordsen utilisant des motifs séquentiels de mots comme caractéristiques.

Nous avons testé notre approche sur plusieurs datasets et algorithmes d’apprentissage automatique en faisant varier des paramètres comme la taille du motifs et le support de motifs à extraire. Nous avons montré, à travers nos résultats, que notre approche est compétitive par rapport aux approches existantes sur plusieurs bases de données.

Mots clés : classification de textes, TF, TF-IDF, document, fouille de texte, classification de documents, représentation vectorielle de textes, extraction de motifs séquentiels, bag of Words, fouille de données.

(12)

process, one of the text representations used is the Bag of Words where the features used are words or n-grams. The disadvantage of this approach is that information related to the semantics of the text is lost. In this paper, we propose a text classification approach based on the bag of words and the sequential patterns. In our approach, we use a representation of bag of words taking as features sequential patterns of words. We have tested our approach on several datasets and multiple machine learning algorithms by varying parameters such as the length of the extracted sequential patterns as well as the threshold of the patterns to be extracted.

Experiments have shown that our approach is competitive with other text classification approaches based on the Bag Of Words using TF or TF-IDF to extract features.

Keywords:text classification, TF, TF-IDF, document, text vector representation, sequential pattern mining, bag of Words, data mining.

(13)

Introduction

Nous vivons aujourd’hui dans un monde où l’information au fil des années est de plus en plus disponible en grande quantité tout en étant de qualité diverse. Internet s’enrichit continuel- lement de nouveaux contenus. D’un autre coté, les entreprises emmagasinent de plus en plus de données, le courriel devient un moyen de communication extrêmement populaire, des documents autrefois manuscrits sont aujourd’hui disponibles sous format numérique. Mais toute cette information serait sans intérêt si notre capacité à y accéder efficacement n’augmentait pas elle aussi. Pour cela, nous avons besoin d’outils permettant de chercher, classer, conserver, mettre à jour et analyser les données accessibles. Il est ainsi nécessaire de proposer des sys- tèmes afin d’accéder rapidement à l’information désirée, réduisant ainsi l’implication humaine.

Un des domaines qui tente d’apporter des améliorations et de réduire la tâche de l’humain est la classification automatique de documents. Celle-ci consiste à associer une classe à un document qui peut être une phrase, un paragraphe, un texte, etc. Généralement, une classification de documents est effectuée manuellement et sa réalisation est donc coûteuse en terme de temps.

En effet, chaque texte (ou une partie) doit être visuellement lu pour qu’une classe adaptée lui soit attribuée. C’est la raison pour laquelle le domaine de la classification automatique de documents est en perpétuel développement. Le problème de classification de documents [1, 2] est un problème très connu du Machine Learning (ou apprentissage automatique) qui permet de déterminer les classes d’un document. Pour aborder tout problème de Machine Learning, il y a plusieurs étapes dans le processus et plusieurs manières de les aborder. C’est la raison pour laquelle nous nous y intéressons dans ce mémoire tout en abordant le problème sous un nouvel angle.

Problématique

Comme dans tout problème d’apprentissage automatique, la phase de « features extraction » (ou extraction de caractéristiques) est l’une des étapes les plus importantes du processus d’apprentissage car les caractéristiques peuvent fortement influer sur les performances du mo- dèle d’apprentissage. Dans le domaine de classification automatique de documents l’une des approches les plus intéressantes existantes pour accomplir la phase d’extraction de caractéris-

(14)

tiques est l’extraction des termes au moyen des métriques TF-IDF ou TF (voir section 1.3.1). En effet, ces métriques sont calculées pour chaque mot ou pour chaque n-gramme contenu dans les documents à classifier pour en évaluer la pertinence. La plupart de ces méthodes d’extraction de caractéristiques échouent face à cette tâche car la plupart d’entre elles procèdent à une coupure syntaxique du texte, accompagnée de moyens statistiques pour extraire les proprié- tés intéressantes. L’approche d’extraction de motifs séquentiels (ou Sequential Pattern Mining) que nous proposons peut être vue comme celle du n-grammes avecnqui varie. Elle doit déter- miner les mots ou groupes de mots qui sont intéressants afin de permettre à la machine ou à l’odinateur de reconnaître plus efficacement la classe des documents. Ce sera une approche qui couple à la fois les avantages du « bag of words » et du n-grammes. Vu les succès qu’a connu le « Constraint Programming » (CP) en Pattern Mining et plus particulierement en Sequential Pattern Mining[4] ces dernières années, nous proposons que l’approche soit abordée avec le CP dans le but d’améliorer nos résultats.

Objectifs

L’objectif de ce travail est de proposer une nouvelle approche d’extraction de caractéris- tiques de textes/documents basée sur l’extraction desséquences de mots ou motifs séquentielsqui capturent une certaine sémantique du texte. Cette extraction se fera en utilisant, unextracteur de séquences dans un environnement contraint, permettant ainsi d’imposer des préférences telles que la taille, le contenu,... sur les séquences de mots à extraire. Cette approche sera utilisée pour classer des documents en plusieurs groupes.

Méthodologie

Pour atteindre nos objectifs :

• nous avons implémenté notre système de classification grâce à notre approche basée sur l’extraction de motifs séquentiels et extrait des séquences( ou motifs séquentiels) sur un dataset.

• nous avons ensuite effectué la représentation des documents de notre dataset grâce à la représentation "Bag of Words" en nous servant des séquences extraites comme caractéris- tiques (ou features). La représentation ainsi obtenue est utilisée pour l’entrainement de notre classificateur.

• nous avons évalué notre classificateur et nous l’avons comparé aux classificateurs issus des principales approches existantes afin de valider notre approche.

(15)

Glossary Glossary

Résultat attendu

Au terme de ce travail, nous attendons que notre approche de classification automatique de documents produise des performances proches ou supérieures à celles des approches de classification automatique de documents existantes dans l’état de l’art.

Organisation du travail

Le reste du document est organisé comme suit : Le chapitre 1 fait l’état de l’art de la classification automatique de documents et des techniques de pattern mining. Le chapitre 2 présente le matériel ainsi que les méthodes que nous utilisons dans le cadre de l’implémentation de l’approche proposée tandis que le chapitre 3 détaille ladite approche. Enfin, nous présentons dans le chapitre 4 les résultats obtenus après les tests de notre solution ainsi que l’analyse des résultats.

(16)

Chapitre 1

État de l’art

Résumé.La classification automatique de documents est une tâche au cours de laquelle un ordinateur préalablement entrainé sur une base de connaissances (ou dataset) classe de manière automatisée des documents suivant des critères donnés. Ses domaines d’application deviennent de plus en plus larges notamment à cause de la croissance des documents disponibles et du besoin de les organiser en un temps réduit. Plusieurs étapes interviennent dans la conception de ce genre de système notamment l’étape d’extraction de features (ou caractéristiques), l’étape de représen- tation numérique de documents ou encore l’étape d’entrainement du modèle d’apprentissage par un algorithme d’apprentissage automatique. L’étape d’extraction de caractéristiques est importante dans la mesure où la représentation des documents et l’entrainement du modèle d’apprentissage en dépendent. Il existe plusieurs ma- nières d’aborder cette étape et deux des approches les plus populaires sont l’utilisation des métriques TF et TF-IDF pour définir si un mot ou un groupe de mots est pertinent. Ces approches ne sont pas parfaites et possèdent certaines limites. Pour contourner ces limites, nous proposons une approche basée sur un algorithme de sequential pattern mining (ou extraction de motifs séquentiels en français).

Introduction

Ce chapitre présente une généralité et les notions élémentaires à la classification automatique de documents et à l’extraction de motifs( ou pattern mining en anglais). Nous présentons en détails dans ce chapitre la classification automatique de documents, ses applications, l’architecture d’un système de classification automatique de documents et l’extraction de motifs séquentiels.

(17)

Chapitre 1. État de l’art 1.1. Classification automatique de documents

1.1 Classification automatique de documents

La classification de documents consiste à classer de manière automatique des documents suivant des critères donnés (type de document, style du texte, thème etc.). L’intérêt pour ce domaine s’est accru grâce à la forte croissance des documents numériques disponibles et à la né- cessité de les organiser rapidement. Pour Sebastiani [5], l’arrivée de la communauté d’apprentissage automatique dans ce domaine a propulsé la recherche en classification de documents.

L’avantage de la classification de documents pour ces méthodes d’apprentissage automatique est qu’il existe souvent un corpus d’apprentissage (ou une base de connaissances) comportant des documents déjà classés. C’est typiquement le cas d’une personne qui a déjà élaboré les catégories et classé quelques documents. Ainsi la classification de documents fait partie d’un processus d’automatisation de tâches, autrefois, effectuées manuellement. Le besoin d’automatisation vient avec la surabondance des textes (documents) entrants. Dans ce chapitre, nous présenterons le concept de classification de documents et décrirons brièvement le processus de classification automatique de documents.

1.1.1 Apprentissage automatique

L’apprentissage automatique (ou machine learning en anglais) est un domaine de l’intelligence artificielle qui utilise des techniques pour donner aux systèmes informatiques la possi- bilité "d’apprendre" (par exemple, d’améliorer progressivement les performances d’une tâche spécifique) à partir de données, sans être explicitement programmés.

En d’autre termes, c’est la science qui consiste à amener les ordinateurs à apprendre et à agir comme les humains, à améliorer leur apprentissage de manière autonome en leur fournissant des données et des informations sous forme d’observations et d’interactions dans le monde réel. L’apprentissage automatique est défini par une large gamme d’algorithmes d’apprentissage. Les algorithmes ne sont pas tous destinés aux mêmes usages. On les classe généralement selon deux composantes :

• le mode d’apprentissage : on distingue les algorithmes supervisés des algorithmes non supervisés ;

• le type de problème à traiter : on distingue les algorithmes de régression de ceux de classification.

Les algorithmes supervisés extraient de la connaissance à partir d’un ensemble de données contenant des couples entrée-sortie. Par contre les algorithmes non supervisés n’intègrent pas la notion d’entrée-sortie. Toutes les données sont équivalentes. Autrement dit, on pourait affir- mer que toutes les données sont des entrées. Dans ce cas, les algorithmes d’apprentissage non supervisés cherchent à organiser les données en groupes : On parle alors du "clustering".

(18)

Concernant le type de problème que les algorithmes d’apprentissage peuvent traiter, la dis- tinction classification/régression n’existe que dans le cas de l’apprentissage supervisé. La dif- férence fondamentale entre la classification et la régression réside dans le type de sortie qu’on cherche à traiter. On parlera alors de classification lorsque la sortie est discrète (Y ∈ N) et de régression lorsque la sortie peut prendre des valeurs continues(Y ∈R).

1.1.2 Définition formelle de la classification automatique de documents

Soit D l’ensemble représentant des documents, C l’ensemble prédéfini des classes de documents et F une fonction de classification de documents qui classifie parfaitement des documents. On a D={d₁, d₂, d₃, . . . .., d_n}et C={c₁, c₂, c₃.., c_m}et F :D→ {c₁, c₂, c₃.., c_m}. Le processus de classification de documents peut être défini comme étant la tâche d’approximer la fonction de classification F par le biais d’une fonction T :D→ {c₁, c₂, c₃.., c_m}. Ainsi la valeur de T(d_i) vautc_ksi le documentd_i appartient à la classec_k

FIGURE1.1 – Fonction de classification de documents.

La fonction T est appelée classificateur, et le processus de classification de documents consiste à construire un classificateur qui produit des résultats aussi proches que possible de la fonction d’affectation F qui est supposée parfaite. Nous pouvons distinguer trois types de classification de documents :

(19)

Chapitre 1. État de l’art 1.1. Classification automatique de documents

- classification binaire : ce type de classification contient deux classes. Elle correspond au filtrage et permet par exemple de répondre aux questions suivantes : « le document est pertinent ou non ? », « le courriel est un spam ou non » ? ;

- classification multi catégories : c’est le cas le plus général de la classification à n classes.

Le système doit affecter plusieurs classes à un même document ;

- classification multi catégories disjointes : c’est une classification àn classes mais le document doit être affecté à une et une seule classe.

1.1.3 Applications

Dans cette section, nous parlerons de trois applications courantes de la classification de documents : l’indexation de textes, le tri et le filtrage de textes, et la catégorisation de pages web.

Ils ne représentent qu’une petite partie des applications possibles, mais ils témoignent de la diversité du domaine et de la variété des tâches de la classification de documents.

• Indexation des textes en utilisant un vocabulaire contrôlé: Les premières applications de recherches dans le domaine de la classification de documents étaient l’indexation de textes pour les systèmes de recherche d’information booléens (IR). Chaque document dans une grande collection se voit attribuer un ou plusieurs termes clés décrivant son contenu. En- suite, le système IR est capable de récupérer les documents en fonction des requêtes des utilisateurs, qui sont fondées sur les termes clés. L’ensemble des mots-clés appartiennent tous à un ensemble fini appelé vocabulaire contrôlé.

La tâche d’assigner des mots-clés à partir d’un vocabulaire contrôlé aux documents est appelé indexation de textes. Si les mots-clés sont considérés comme des catégories donc l’indexation de textes est une instance du problème général de la classification de documents. En règle générale, chaque document doit recevoir au moins un et pas plus de k mots-clés. En outre, la tâche peut être résolue de manière entièrement automatique ou semi-automatique. Dans ce cas, l’utilisateur sélectionne un ensemble de mots-clés à partir d’une liste classée fournie par un système de classification de documents.

• Le tri et le filtrage des textes: Un autre problème commun connexe mais distinct de l’indexation des documents est le tri de la collection de documents en plusieurs "catégories".

Par exemple, les courriers électroniques arrivant dans une organisation peuvent nécessiter d’être classés dans des catégories telles que « les plaintes », « les offres », « les demandes d’emploi », « publicité », et d’autres. Le problème de tri des documents a plusieurs carac- téristiques qui le distinguent des tâches connexes. La principale différence est que chaque document appartient à exactement une seule catégorie. Les documents à trier sont géné- ralement présentés au classificateur, un par un et non dans un même lot.

Une autre application de la classification de documents est le filtrage de texte qui n’est

(20)

rien d’autre qu’un cas particulier du tri de la collection de documents. Le filtrage de texte est comme le tri de documents avec seulement deux catégories : les documents « pertinents » et « non pertinents ». Un cas typique est une situation dans laquelle le producteur est une agence de presse et le consommateur est un journal [6]. Dans ce cas, le système de filtrage doit empêcher la livraison de documents qui n’intéressent pas le consommateur.

De même, un magazine en ligne spécialisé dans le sport devrait filtrer toutes les histoires non-sportives qu’il reçoit. Aussi un système de filtrage de courriers électroniques doit-il détecter tous les spams. Un système personnalisé de gestion d’annonces devrait bloquer les annonces qui sont inintéressantes pour un utilisateur particulier.

• Catégorisation de pages web: Une utilisation courante de la classification de documents est la classification automatique des pages web dans le cadre des catalogues hiérarchiques élaborés par des portails internet populaires tels que Yahoo. Ces catalogues sont très utiles pour la navigation directe et pour limiter la recherche sur des pages concernant un sujet particulier [7].

FIGURE1.2 – Catalogue hiérachique de site web de Yahoo [43]

• Autres applications : D’autres utilisations de la classification de documents sont le support de sélection de pages web appropriées dans l’exploration ciblée[7], l’identification de la langue d’un document [8], la détection de l’ironie [9], la détection d’articles liés au terrorisme sur le web [10] etc.

1.1.4 Architecture d’un système de classification de documents

L’approche la plus utilisée dans la tâche de classification de documents est l’approche ba- sée sur l’apprentissage automatique dans laquelle un processus général construit un classi-

(21)

Chapitre 1. État de l’art 1.2. Extraction des caractéristiques

ficateur par apprentissage à partir d’un ensemble d’exemples déjà classifiés. La plupart des travaux récents sur la classification se concentrent sur l’approche d’apprentissage automatique qui exige seulement un ensemble d’instances d’entraînement manuellement classifiés et qui sont beaucoup moins coûteux à produire. Dans les sections qui vont suivre nous allons décrire les différentes composantes qui interviennent dans un système de classification de documents à base d’apprentissage supervisé. Le processus de classification de documents est généralement constitué de quatre parties :

- extraction des caractéristiques ;

- représentation numérique des documents ; - construction du modèle de classification ; - évaluation du classificateur élaboré.

1.2 Extraction des caractéristiques

L’extraction de caractéristiques (ou features en anglais) est une tâche qui consiste à analyser un ensemble de documents et à en extraire les aspects importants ou des caractéristiques. Le choix judicieux de ces caractéristiques est important dans le sens que la représentation des documents dépend des caractéristiques extraites et donc influe sur la performance du système de classification. Ainsi, l’extraction de caractéristiques est une étape fondamentale et préalable à tout problème de classification de documents. Lors de l’analyse de données complexes, l’un des principaux problèmes provient du nombre de variables impliquées. L’analyse avec un grand nombre de variables nécessite généralement une grande quantité de mémoire et de puissance de calcul.

1.2.1 Prétraitement de documents

Les méthodes de classification de documents analysent les documents pour trouver quelques règles générales qui donneront des réponses correctes pour de nouveaux documents à classer.

Ainsi, on doit tout d’abord traiter le texte sous une forme avec laquelle les procédures de classification de documents peuvent être utilisées plus facilement.

La première étape dans le traitement de texte est la « Tokenisation » (ou Tokenization). Elle permet de séparer le flux de caractères en jetons (ou mots) en se basant sur la ponctuation et les espaces. Cette étape est fondamentale pour les traitements ultérieurs.

Chaque jeton est une instance d’un type donné et ainsi on compte plus de jetons que de type.

Par exemple, les jetons « soutenant », « soutient », « soutenu » appartiennent au type « soutenir

».

(22)

Exemple : Soit la phrase suivante :Les importantes transformations et réalisations qui s’opèrent progressivement donneront bientôt à notre pays un autre visage, notre pays est en pleine transformation et rien, ni personne ne sera oublié.

La tokenization de ce texte donne les jetons suivants :{Les, importantes, transformations, et, réa- lisations, et, qui, s, opèrent, progressivement, donneront, bientôt, à, notre ,pays, un, autre, visage, notre, pays, est, en, pleine, transformation, et, rien, ni, personne, ne, sera, oublié}

La deuxième étape consiste à la suppression des mots « vides » ( ou mots stop, stopwords en anglais). Il s’agit à cette étape de retirer les mots du langage courant qui ne participent pas beaucoup à la sémantique. Par exemple « le », « la », « de », « tu », « ou » en français et « the »,

« or », « me », « my », « you » en anglais.

Exemple : L’application de l’étape de suppression des mots stop sur la phrase de l’exemple précédent donne :{importantes, transformations, réalisations, réalisation, opèrent, progressivement, donneront, bientôt ,pays, visage, pays, est, pleine, transformation, personne, sera, oublié}

La troisième étape consiste à convertir chaque jeton en une forme standard : Il s’agit de la lemmatisation. La lemmatisation se réfère à la conversion des mots en leur forme de base morphologique [11]. Au lieu de placer tous les mots possibles dans le dictionnaire, on peut éviter de stocker toutes les variantes d’un même mot. Ce choix se base sur la logique que toutes les variantes se réfèrent réellement au même concept et à la même famille [12]. En résumé, la lemmatisation permet de réduire l’espace de mots ou le nombre de jetons en augmentant le nombre d’occurrences dans chaque type.

Enfin, il existe une alternative plus radicale à la lemmatisation : il s’agit de la racinisation (ou désuffixation, ou stemming en anglais). Elle a pour but de supprimer les préfixes et les suffixes des mots.

Exemple : L’application de l’étape de lemmatisation sur le résultat de l’exemple précédent donne : {important, transformer, réaliser,opérer, progressive, donner, bientôt, pays, visage, pays, être, plein, transformer, personne, être, oublier}

A cette étape, nous avons préparé l’ensemble des mots des documents pour l’extraction des caractéristiques qui nous aideront à représenter nos documents.

1.2.2 Approches classiques d’extraction de caractéristiques

Il existe plusieurs manières d’aborder l’étape d’extraction de caractéristiques dans un pro- blème de classification automatique de documents. Les principales méthodes d’extraction de caractéristiques existantes sont probabilistes. Ces méthodes se basent sur des métriques pour définir si un mot ou un groupe de mots est pertinent ou non. Il s’agit des pondérateurs TF

(23)

Chapitre 1. État de l’art 1.3. Représentation numérique de documents : le «Bag of Words»

(ou Term Frequency) et TF-IDF (ou Term Frequency - Inverse Document Frequency) (présentés dans la section 1.3.1). Les groupes de mots quant à eux sont des n-grammes qui sont en réalité des chaînes denmots consécutifs.

1.3 Représentation numérique de documents : le «Bag of Words»

Les textes en langage naturel ne peuvent pas être directement interprétés par un classificateur ou par les algorithmes de classification. Ces derniers ne sont pas capables de traiter directement ces textes. Ainsi, une étape de représentation numérique est nécessaire. La représenta- tion mathématique généralement utilisée est une représentation en espace vectoriel [13, 14]. La spécificité de cette représentation est que chaque caractéristique est associée à une dimension propre au sein de l’espace vectoriel. Deux documents utilisant le même vocabulaire seront donc projetés sur des vecteurs identiques.

F^IGURE1.3 – Représentation vectorielle de documents

Notons que T représente non seulement les caractéristiques extraites, mais aussi le vocabulaire sur lequel on représente l’ensemble des documents. Enfin, il faut aussi noter qu’on peut aussi appeler C les termes d’index ou descripteurs des documents à représenter.

A titre d’exemple, soit deux documentsD₁,D₂ et T un vocabulaireT={important, transformer, réaliser,opérer, progressive, donner, bientôt, pays, visage, pays, être, plein, transformer, personne, être, oublier}.

Une représentation des deux documents est−→

D₁= (1,1,1,1,0,0,0,1,1,0,1) et−→

D₂= (1,0,0,0,1,1,1,1,1,1,1).

Quand un mot du vocabulaire apparait au moins une fois dans le document, on affecte le poids

(24)

1 à sa position dans le vecteur représentatif du document et 0 si le mot n’apparait pas : Il s’agit de la pondération booléenne.

Soit un troisième document suivant : D₃=Il est important de réaliser de grandes choses pour notre pays. La représentation deD₃ surT est−→

D₃=(1,0,1,0,0,0,0,1,0,0,0) On a ainsi la matrice appelée Bag of Words [19, 20] suivante :

important transf ormer raliser operer donner bientot visage pays personne etre oublier

D1 1 1 1 1 0 0 0 1 1 0 1

D2 1 0 0 0 1 1 1 1 1 1 1

D3 1 0 1 0 0 0 0 1 0 0 0

Dans la suite de notre développement, nous présenterons d’autres solutions permettant de pon- dérer les caractéristiques (ou descripteurs) d’un document.

1.3.1 Pondération des descripteurs

Les méthodes de pondération de descripteurs sont basées sur deux informations[15] : - Plus un descripteur est fréquent dans un document, plus il est en rapport avec le sujet du

document.

- Plus un descripteur est fréquent dans toute la collection, moins il est pertinent.

• Pondération booléenne :C’est l’approche de pondération la plus simple, le poidsw_ij est égal à 1 le descripteurc_j au moins une fois dans le documentd_i, dans le cas contraire il est égal à 0.

• Pondération fréquentielle :Cette pondération se fonde sur le nombre d’occurrences des descripteurs dans un document. Cette mesure repose sur l’idée que plus un terme appa- raît dans un texte, plus il est important. Cependant, en procédant de la sorte, on donne une trop grande importance aux descripteurs qui apparaissent très souvent dans un grand nombre de documents et qui sont peu représentatifs d’un document en particulier.

La fréquence (TF : Term Frequency) du descripteurt_j dans le documentd_i peut être cal- culée par la formule suivante :

TF(t_j, d_i) = |(t_j, d_i)| P|T|

k=1 |(tk, di)| (1.1)

|(t_k, d_i)|correspond au nombre d’occurrences du termet_k dansd_i. Et|T |le nombre de descripteurs retenu pour la représentation.

• Pondération TF-IDF[16, 15, 17] : Elle a été introduite dans le cadre du modèle vectoriel, elle donne beaucoup d’importance aux mots qui apparaissent souvent à l’intérieur

(25)

Chapitre 1. État de l’art 1.3. Représentation numérique de documents : le «Bag of Words»

du même texte, ce qui correspond bien à l’idée intuitive que ces mots sont plus repré- sentatifs. Mais sa particularité est qu’elle donne également moins de poids aux mots qui appartiennent à plusieurs textes ; pour refléter le fait que ces mots ont un faible pouvoir de discrimination entre les classes. Cette pondération se base sur la logique que les termes les plus informatifs d’un corpus ne sont pas ceux apparaissant le plus dans ce corpus. Ces mots sont la plupart du temps des mots stop. Par ailleurs, les mots les moins fréquents du corpus ne sont également par les plus porteurs d’informations [5, 18]. Le poids d’un termet_j dans un documentd_iest calculé comme suit :

TF.IDF(tj, di) =TF(tj, di)∗IDF(tj) (1.2) oùIdf(t_j) =log_DF^|D|_(t

j);

T f(t_j, d_i)correspond à la fréquence du termet_j dans le documentd_i;

|D|le nombre total des documents etDF(t_j)le nombre de documents contenant le terme t_j.

1.3.2 Autres approches de classification de documents

Depuis quelques années, le domaine de classification automatique de documents a connu une évolution fulgurante. Cette évolution est encouragée par la diversité et la création de dif- férentes approches dans le but de rendre plus optimale cette tâche. On retrouve dans la littéra- ture plusieurs types d’approches intervenant généralement sur la représentation de documents, l’extraction de caractéristiques, la pondération des descripteurs et le type de classificateur uti- lisé. Autre que la représentation par "Bag of Words", il existe d’autres types de représentation de documents notamment :

- la représentation des textes par des collocations qui regroupent certains mots afin d’obtenir des descripteurs ou expressions plus porteurs de sens au lieu d’utiliser des mots isolés composant le texte. Rémi Lavalley, Patrice Bellot et Marc El-Bèze dans [21], expliquent pourquoi le fait de considérer une suite de mots comme une seule unité informative permet d’améliorer les performances d’un système de classification ;

- la représentation des textes basée sur les concepts fondés sur le fait que si on peut suppo- ser que chaque terme a un sens, il est plus difficile de prouver que deux documents étant composés des mêmes termes aient forcément le même sens. Les auteurs proposent donc, une nouvelle approche de représentation textuelle « plus sémantique » basée non pas sur les termes présents dans le texte à traiter mais sur les concepts correspondants. Ainsi, au lieu de définir un espace vectoriel dont chaque composante représente un terme (mot ou n-grammes), on projette l’ensemble des termes du texte sur un ensemble fini de concepts.

- la représentation des documents avec le "Word embedding" [22, 23] qui est une méthode se focalisant sur l’apprentissage d’une représentation de mots. Cette technique permet de

(26)

représenter chaque mot d’un dictionnaire par un vecteur de nombres réels correspondant.

Ceci facilite notamment l’analyse sémantique des mots.

1.4 Algorithmes de classification

Maintenant que les documents sont représentés dans un format qui peut être interprété par des algorithmes d’apprentissage, les classificateurs peuvent être entraînés. La recherche en apprentissage automatique a produit une gamme variée d’algorithmes supervisés pour construire des classificateurs. Ainsi, beaucoup de recherches ont été faites,l’objectif étant de comparer dif- férents classificateurs pour la tâche de la classification automatique de documents [24]. Parmi les algorithmes d’apprentissage supervisé existants, nous accorderons une attention particu- lière au Naïves Bayes, à la régression logistique et au Support Vector Machine (SVM).

1.4.1 Algorithme Naïves Bayes

Le Naïves Bayes se retrouve dans le rang des algorithmes probabilistes. L’approche probabi- liste voit la fonction de classification en terme de probabilité qu’un document représenté par le vecteur−→

d_i = (w_i2, w_i3, w_i4, ..., wi|T|)(avec|T|le nombre de termes ou de caractéristiques de documents) appartienne à la classec_k. Elle calcule cette probabilité par l’application du théorème de Bayes énoncé par :

P(c_k/−→

d_i) = P(−→

d_i/c_k)P(c_k) P(−→

d_i) (1.3)

Ainsi, pour déterminer la probabilitéP(ck/−→

di), le classificateur bayésien naïf se met dans l’hy- pothèse que toutes les caractéristiques sont conditionnellement indépendantes : Ce qui nous permet d’écrire :

P(ti, tj) = P(ti)∗P(tj) (1.4) Et étant donné que :

P(t_i |t_j) = P(t_i, t_j)/P(t_j) (1.5) On obtient

P(t_i |t_j) = (P(t_i)∗P(t_j))

P(t_j) =P(t_i) (1.6)

Afin d’approfondir le mode opératoire du naives bayes, nous allons procéder par un exemple typique de document à classifier en deux classes( « offre » ou en « demande »). Soit un ensemble de documents :

(27)

Chapitre 1. État de l’art 1.4. Algorithmes de classification

t₁ t₂ t₃ t₄ Demande/Offre

D1 0 1 1 0 Demande

D2 1 0 1 0 Offre

D3 1 0 0 1 Demande

D4 0 1 0 1 Offre

D5 1 1 1 1 Demande

D6 0 0 1 0 ?

On souhaite classifier un document dont le vecteur représentatif estD₆ = {0,0,1,0}. Il s’agira donc de calculer la probabilité pour que le documentD₆ appartienne à la classe « Demande » puis à la classe « Offre » sachant quet₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0.

• P(Demande|t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) = ^P^(t¹^=0,t²^=0,t³^=1,t⁴=0|Demande)∗P(Demande) P(t1=0,t2=0,t3=1,t4=0)

P(t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) =P(t₁ = 0)∗P(t₂ = 0)∗P(t₃ = 1)∗P(t₄ = 0)

P(Demande) = 0.6;P(t₁ = 0 | Demande) = 0.33;P(t₂ = 0 | Demande) = 0.33;P(t₃ = 1 | Demande) = 0.66;P(t₄ = 0 | Demande) = 0.33;P(t₁ = 0) = 0.4;P(t₂ = 0) = 0.4;P(t₃ = 1) = 0.6;P(t₄ = 0) = 0.4;P(t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0|Demande) = 0.33∗0.33∗0.66∗0.33 = 0.02371842;P(t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) = 0.4∗0.4∗0.6∗0.4 = 0.0384;P(Demande|t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) = 0.02371842∗0.6/0.0384 = 0.3706;

Ainsi le documentD₆a 37.06% de chance d’appartenir à la classe « Demande ».

• P(Of f re|t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) = ^P^(t¹^=0,t²^=0,t³^=1,t⁴=0|Of f re)∗P(Of f re) P(t1=0,t2=0,t3=1,t4=0)

P(t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) =P(t₁ = 0)∗P(t₂ = 0)∗P(t₃ = 1)∗P(t₄ = 0)

P(Of f re) = 0.4;P(t₁ = 0 | Of f re) = 0.5;P(t₂ = 0 | Of f re) = 0.5;P(t₃ = 1 | Of f re) = 0.5;P(t₄ = 0 | Of f re) = 0.5;P(t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0|Of f re) = 0.5∗0.5∗0.5∗0.5 = 0.0625;P(t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) = 0.0384;P(Of f re|t₁ = 0, t₂ = 0, t₃ = 1, t₄ = 0) = 0.0625∗0.4/0.0384 = 0.6510

Ainsi le document D₆ à 65.10% de chance d’appartenir à la classe « Offre ». Le Naïves Bayes classifierait doncD₆comme étant une « offre ».

On déduit alors en cas général la formule permettant de calculer la probabilité d’apparte- nance d’un documentd_i à une classe est :

(28)

P(c_k |−→

d_i) =P(c_k)∗

|T|

Y

j=1

P(w_ij |c_k) (1.7)

En somme, la classification d’un document D_i par ce type de classifieur consiste à calculer la probabilitéP(c_k |−→

d_i)pourk ={1,2, ...,|C |}où C est l’ensemble des classes, puis à affecter le document à la classe qui génère la probabilité maximale. Ces classificateurs ont montré leur efficacité dans de nombreux travaux de classification de textes en particulier le filtrage de spams [3].

1.4.2 La régression logistique

Pour mieux comprendre ce modèle, nous définissons les deux mots :

• Régression : La régression est un ensemble de méthodes statistiques souvent utilisées pour analyser la relation d’une variable avec une ou plusieurs autres.

• Logistique :une variable est appelée logique si elle varie entre un état vrai et un état faux.

Une fonction logistique est définie par la fonctionf : R −→ {0,1}. La fonction logistique standard est appelée sigmoïde et est définie comme :

σ(x) = 1

1 +e^−x (1.8)

Ainsi un modèle de régression logistique vise à prédire l’état d’une variable logiqueY ∈ {0,1}

connnaissant les valeurs des variables d’entréesX ∈Rⁿ.

Considérons que nous ayons un ensemble de n documents. Notons d_i ∈ R^m,∀i ∈ [1...n]

le vecteur représentatif de dimension m du i-ème document, w_ij le poids du descripteur à la positionj du i-ème document et y_i ∈ {0,1}∀i ∈ [1...n]. L’objectif d’une régression linéaire est de prédire la valeur y d’un nouveau document d’entrée d_i. La valeur clé de la régression est définie par l’expression :E(Y | D = di). L’entrainement d’un modèle de régression logistique produit un vecteurΘde dimensionn+ 1. La classification du documentdrevient à calculer :

σ(d_iΘ) =σ(θ₀ +θ₁w_i1+θ₂w_i2+....+θ_nw_in) (1.9) Et la décision est donc 0 lorsque σ(d_iΘ) < 0.5 et 1 sinon. En résumé, le meilleur modèle est le modèle retournant le meilleur vecteur Θ. La régression logistique a déjà été utilisée avec succès en résumé automatique [26] et a montré de bonnes performances en tant qu’algorithme de combinaison de caractéristiques.

(29)

1.4.3 Le Support Vector Machine

L’algorithme SVM (Support Vector Machine) est une méthode d’apprentissage supervisée introduite pour résoudre un problème de reconnaissance de formes à deux classes [27]. En ce qui concerne son application à la problématique de catégorisation de documents, l’algorithme repose sur une interprétation géométrique simple. L’idée générale est de représenter l’espace des exemples (ici des documents) dans un espace vectoriel où chaque document est un point dans cet espace et de trouver la meilleure séparation possible de cet espace en deux classes.

L’espace de séparation est une surface de décision appelée marge, défini par les points « vecteur support ». Ces points se trouvent au minimum de marge. La marge se présente alors comme la plus courte distance entre un vecteur de support et son hyperplan. La marge se définit comme la plus petite distance entre les exemples de chaque classe et la surface séparatrice S :

M arge(S) = X

xi∈C_j

min(d(x_i, S)) (1.10)

Ainsi, la décision s’appuie sur les SVM pour couper l’espace en deux : d’un côté, ce qui est dans la catégorie, de l’autre côté, ce qui n’y est pas. L’approche par SVM permet donc de définir par apprentissage, un hyperplan dans un espace vectoriel qui sépare au mieux les données de l’ensemble d’apprentissage en deux classes, minimisant le risque d’erreur et maximisant la marge entre deux classes. La qualité de l’hyperplan est déterminée par son écart avec les hyperplans parallèles les plus proches des points de chaque classe. Le meilleur hyperplan est celui qui a la marge la plus importante. SVM a été étendu pour les points ne pouvant être séparés de manière linéaire (par exemple notre cas des vecteurs de documents), en transformant l’espace initial des vecteurs de données en un espace de dimension supérieure dans lequel les points deviennent séparables linéairement.

(30)

FIGURE1.4 – Exemples d’hyperplans séparateurs en deux dimensions Les vecteurs de support sont doncD₁, D₂, D₅.

Dans l’exemple de la figure 1.4, les exemples des deux classes peuvent être séparés par un hyperplan, le problème est dit linéairement séparable. Les deux hyperplans H1 et H2 sont tous les deux des séparateurs acceptables, mais l’hyperplan H1 a une plus grande marge et sera donc préféré. Pour calculer l’hyperplan optimal et donc la marge, seuls les exemples les plus proches de la zone-frontière sont mis à contribution. L’apprentissage consiste à déterminer ces exemples appelés vecteurs de support. Tous les autres peuvent être écartés et n’interviennent plus dans les calculs. Si les exemples ne sont pas linéairement séparables, on peut les plonger conceptuel- lement dans un espace de dimension plus grande (la dimension peut même être infinie) par une fonction de transformation appelée noyau (kernel). Dans cet espace, les exemples seront plus facilement séparables. Si cela ne suffit pas pour rendre les exemples séparables, il est possible d’ajouter encore un terme correctif qui autorise un nombre limité d’exemples à être mal classés.

Pendant l’apprentissage, on cherchera à rendre ce terme le plus petit possible. Un paramètre de l’algorithme permet de donner plus ou moins d’importance à ce terme correctif. Dans sa for- mulation initiale, SVM ne peut gérer que des problèmes bi-classes (des extensions commencent à apparaître pour faire du SVM multi-classe). La méthode la plus commune pour résoudre un problème multi-classe reste de le transformer préalablement en plusieurs sous-problèmes bi- classe. Cet algorithme est particulièrement bien adapté à la catégorisation de textes car il est capable de gérer des vecteurs de grande dimension. Dans la pratique, les catégories sont qua- siment toujours linéairement séparables.

(31)

Le SVM a été ces dernières années très souvent utilisé dans la classification de documents [28, 29, 31], par exemple pour la détection de spams(courriers électroniques non sollicités) [30].

1.4.4 Autres algorithmes

Autre que le Naives Bayes, la regression logistique et le Support Vector Machine, il existe d’autres algorithmes de classification dont les arbres de décision, les réseaux de neurones etc.

• Abres de décision : Les arbres de décision sont des techniques très employées dans les cas où il est important de trouver des règles afin de définir la classification. Les caractéris- tiques de la structure des arbres permettent une représentation interprétable des résultats.

Un arbre de décision correspond à une structure arborescente formée par des noeuds in- ternes et terminaux reliés par des branches. Pour arriver à chaque noeud terminal, il y a une trajectoire unique qui débute avec le noeud racine. La trajectoire correspond à une règle de décision (de la classe du document) formée par une conjonction (ET) de plusieurs conditions de test.

FIGURE1.5 – Arbre de décision

• Un réseau de neurones : C’est un réseau d’unités construit à partir des documents d’apprentissage où les unités d’entrée représentent les termes, les unités de sortie représentent

(32)

les classes et les arcs reliant les unités représentent les relations d’indépendances. Pour classer un documentd_ireprésenté par son vecteur−→

d_i = (w_i1, w_i2, ..., wi|T|), ses attributsw_ij avecj = 1...|T|sont chargés dans les unités d’entrées. L’activation de ces unités est pro- pagée à travers le réseau et la valeur de l’unité de sortie détermine la classe du document.

Wi1

W_i2 W_i3 W_i4

Demande Offre Couche

cachée Couche

d’entrée

Couche de sortie

FIGURE1.6 – Modèle de réseau de neurones

• Algorithme de Boosting : La technique de Boosting correspond à l’idée de construire un ensemble de classificateurs et de combiner leurs décisions pour effectuer la classification. Les classificateurs sont entrainés par une même méthode d’apprentissage de ma- nière séquentielle, telle que les résultats des classificateurs précédents servent d’exemples pour améliorer la performance des classificateurs suivants. Des algorithmes Boosting ont donné des réponses très efficaces pour la tâche de classification de textes [32].

1.4.5 Points forts et points faibles

• Le Naîves Bayes

- Points forts : Le Naîves Bayes est une méthode d’apprentissage populaire pour la classification de documents car il est rapide et facile à mettre en oeuvre et donne de bons résultats. Il est caractérisé par son insensibilité aux données manquantes, sa vitesse de classification et d’apprentissage.

- Points faibles : Une fois que l’espace d’apprentissage devient considérablement large, il est impossible d’interpréter le modèle construit [33].

• La régression logistique

(33)

- Points forts : La présentation et l’interprétation des résultats de cet algorithme sont plus simples. En plus la régression logistique est une méthode non paramétrique en ce sens qu’elle ne nécessite pas d’hypothèses sur la forme de la relation entre les variables d’entrées et de sorties. En particulier, aucune hypothèse de linéarité n’est requise.

- Points faibles : La régression logistique n’est performante que lorsqu’on identifie au préalable toutes les variables indépendantes pertinentes à l’entraînement du modèle.

Elle est sensible au sur-apprentissage [39].

• SVM

- Points forts : Les approches basées sur les SVM peuvent gérer un espace d’attributs de grande dimension avec une précision excellente de classification. Le SVM produit de meilleurs résultats à la fois aux niveaux test et apprentissage. Il est robuste par rapport au nombre de descripteurs et il est très rapide pendant la classification.

- Points faibles : L’algorithme ne résiste pas aux valeurs manquantes puisqu’il a besoin de toutes ces dernières pour faire son calcul.

• Arbres de décision

- Points forts : Les arbres de décision sont simples à comprendre et à interpréter. Ils ont besoin de peu de données et sont capables de gérer à la fois des données numériques et les catégories. Cet algorithme, évolue bien même lorsque le nombre d’exemples d’apprentissage augmente.

- Points faibles :Les arbres de décision sont basés sur des algorithmes heuristiques où les décisions sont prises à chaque nœud au niveau local. Ces algorithmes ne peuvent pas garantir de retourner un arbre de décision globalement optimal. Un arbre com- plet peut être sujet au sur-apprentissage, comme certaines branches peuvent être trop spécifiques aux données d’apprentissage. La plupart des méthodes d’arbre de déci- sion comprennent donc un procédé de construction de l’arbre et un autre pour l’éla- gage, pour enlever les branches trop spécifiques.

• Réseaux de neurones

- Points forts : Les réseaux de neurones sont des modèles non linéaires, ce qui les rend souples dans la modélisation des relations complexes du monde réel. Les réseaux de neurones sont en mesure d’estimer les probabilités qui fournissent la base pour établir la règle de classification et de l’analyse statistique.

- Points faibles : Avec l’augmentation du nombre d’entrées et les noeuds cachés, les pa- ramètres nécessaires pour le réseau neuronal augmentent également, ceci provoque le sur-apprentissage.

(34)

• Boosting

- Points forts : Il permet une amélioration de la qualité du classifieur boosté. On peut obtenir de très bons classificateurs en assemblant plusieurs classificateurs faibles. Il peut être adapté aux problèmes multi-classes.

- Points faibles : Le choix du meilleur classificateur de base n’est pas évident et sa performance est affectée par la performance du classificateur boosté.

1.5 Contribution de cette étude au vu de la littérature

1.5.1 Critique des approches d’extraction de caractéristiques existantes

Comme nous l’avons introduit dans la section 1.2.2, l’une des principales méthodes d’extraction de caractéristiques dans les problèmes de classification automatique de documents sont celles utilisant le TF et le TF-IDF comme mesure d’évaluation de la pertinence des mots ou des n-grammes. Ces méthodes présentent plusieurs limites :

• Le pondérateur TF repose sur l’idée que plus un mot apparait dans un texte, plus il est important. Cependant, en procédant de la sorte, on donne une grande importance aux mots ou aux n-grammes qui se produisent très souvent dans un grand nombre de documents et qui sont peu représentatifs d’un document en particulier. Ce pondérateur ne tient pas compte de l’ensemble du corpus d’apprentissage mais de chaque document du corpus d’apprentissage. En général, l’utilisation du pondérateur TF pour l’extraction de caractéristiques produit des caractéristiques presque à la taille du vocabulaire du corpus d’apprentissage (ou dataset) et ainsi pour des corpus d’apprentissage de taille importante, les caractéristiques pourrait atteindre des centaines de milliers. Ce qui demanderait une énorme quantité de ressources en temps et en puissance de calcul pour les autres étapes du processus de classification ;

• même si le pondérateur TF-IDF est à la base utilisé pour limiter les insuffisances du TF, il n’en demeure pas , pour autant, exempt de limitations. En effet, il calcule la similarité des documents directement dans l’espace de décompte des mots ou des n-grammes, ce qui peut être lent pour les grands vocabulaires.

Quant aux n-grammes, l’une des insuffisances est que la position des mots constituants un n-gramme est important puisque les mots d’un n-gramme sont consécutifs ou adjacents.

Ainsi, dans les cas où cette suite consécutive n’apparait pas un grand nombre fois dans l’ensemble du corpus d’apprentissage, il est jugé comme étant non pertinent par le TF- IDF.

(35)

Chapitre 1. État de l’art 1.5. Contribution de cette étude au vu de la littérature

1.5.2 Contributions

Dans ce travail, nous proposons donc une nouvelle approche d’extraction de caractéris- tiques pour faire face aux limitations du TF et du TF-IDF. Pour ce faire, nous allons extraire des séquences de mots des documents à classer. Notre approche combine l’idée de l’extraction de n-grammes, celle de la prise en compte de la fréquence des expressions et l’hypothèse que pour mieux capturer le contexte et la sémantique d’un texte l’on ne doit pas se limiter à regarder les mots consécutifs. Autrement dit, un mot situé au début d’un document pourrait constituer une séquence avec un autre mot situé à la fin du document si notre algorithme d’extraction de motifs séquentiels juge cela pertinent.

L’extraction de motifs séquentiels est une technique du data mining (ou fouille de données en français).

1.5.3 La fouille de données

La fouille de données (data mining en anglais) est une branche de l’IA qui a pour but d’extraire des connaissances dans une base de données à partir d’algorithmes dédiés. C’est donc l’analyse d’un ensemble d’observations (les données) qui a pour but de trouver des relations insoupçonnées et de résumer les données d’une nouvelle manière, de telle sorte qu’elles soient plus compréhensibles et utiles [34]. Le data mining est devenu si populaire qu’on retrouve son application dans un grand nombre de domaines parmi lesquels on peut citer :

Banques / Finances :

- détection d’usage frauduleux de cartes bancaires.

Médical / Pharmaceutique :

- diagnostic assisté par ordinateur par l’apprentissage de systèmes experts ; - explication ou prédiction de la réponse d’un patient à un traitement.

Vente / Marketing :

- détection d’associations de comportements d’achat ; - découverte de caractéristiques de clientèle.

Ces domaines utilisent le data mining au moyen des techniques telles que les règles d’associa- tion, les motifs séquentiels, analyse de lien etc. Nous ne nous intéresserons par la suite qu’à la technique d’extraction de motifs séquentiels.

(36)

Conclusion

Tout au long de ce chapitre, nous avons abordé les notions liées à la classification automatique de documents, les approches classiques d’extraction de caractéristiques qui sont basées sur les métriques de TF et TF-IDF ainsi que d’autres approches de classification automatique de documents abordées par plusieurs auteurs. Nous avons présenté les insuffisances et les limites des approches basées sur le TF et TF-IDF et pour surmonter ces insuffisances, nous proposons une autre approche basée sur l’extraction de motifs séquentiels.

(37)

Chapitre 2

Matériel et méthodes

Résumé. La mise en œuvre de notre approche nous a amené à faire des choix de langages informatique, des bibliothèques et de bases de données (ou datasets) adé- quats. Nous avons donc été confrontés au choix d’un langage de programmation parmi plusieurs autres. Ainsi, nous avons réalisé une étude comparative entre les langages Python, MATLAB, Octave et R. Quant aux bases de données, nous avons sélectionné celles qui sont les plus utilisées dans le domaine de classification automatique de documents. Nous présentons enfin les méthodes que nous utilisons pour résoudre le problème posé dans la problématique, il s’agit des notions liées à l’extraction de motifs séquentiels et à l’évaluation de modèle de classification automatique.

Introduction

Pour remédier aux insuffisances dont souffrent les approches de classification automatique de documents telles que le TF et le TF-IDF, nous avons proposé une approche basée sur l’extraction de motifs séquentiels. Cette approche est constituée de quatre différentes parties :

• l’extraction de caractéristiques ou descripteurs de documents à partir d’un dataset grâce à un algorithme d’extraction de motifs séquentiels ;

• la représentation des documents par une approche de "Bag of word" en utilisant les motifs séquentiels extraits comme descripteurs ;

• l’implémentation de différents classificateurs qui va nous permettre d’entrainer et de tes- ter notre système de classification de documents ;

• l’évaluation de nos classificateurs qui vont nous permettre de juger de leur qualité.