Impact de l'hyperparamètre alpha sur l'algorithme d'analyse de textes Latent Dirichlet Allocation

(1)

IMPACT DE L’HYPERPARAM `ETRE ALPHA SUR L’ALGORITHME D’ANALYSE DE TEXTES LATENT DIRICHLET ALLOCATION

´

EMILE DUCROCQ

DÉPARTEMENT DE GÉNIE INFORMATIQUE ET GÉNIE LOGICIEL ´

ECOLE POLYTECHNIQUE DE MONTR´EAL

M ÉMOIRE PRÉSENTÉ EN VUE DE L’OBTENTION DU DIPL ÔME DE MAÎTRISE ÈS SCIENCES APPLIQUÉES

(G ´ENIE INFORMATIQUE) D´ECEMBRE 2014

c

(2)

´

ECOLE POLYTECHNIQUE DE MONTR´EAL

Ce m´emoire intitul´e :

IMPACT DE L’HYPERPARAM `ETRE ALPHA SUR L’ALGORITHME D’ANALYSE DE TEXTES LATENT DIRICHLET ALLOCATION

présenté par : DUCROCQ Émile

en vue de l’obtention du diplôme de : Maˆıtrise ès sciences appliquées a été dûment accepté par le jury d’examen constitué de :

M. GAGNON Michel, Ph.D., pr´esident

M. DESMARAIS Michel C., Ph.D., membre et directeur de recherche M. ROBILLARD Pierre N., D.Sc., membre

(3)

REMERCIEMENTS

Je souhaiterais remercier toutes les personnes qui m’ont aidé durant le déroulement de la maˆıtrise. Tout d’abord, je veux exprimer ma gratitude envers M. Desmarais qui m’a proposé un sujet de recherche à la fois intéressant et comportant des applications industrielles im-portantes. Je souhaite aussi souligner son implication, sa persévérance et son soutien même quand des difficultés sont apparues, malgré les inconvénients et le risque financier que cela comportait. Je remercie aussi les autres étudiants de mon laboratoire, qui m’ont permis de montrer d’autres aspects du domaine de recherche.

Merci aussi à M. Catillon, PDG de l’entreprise Soar-media, qui m’a montré quelles pou-vaient être les applications pratiques que pouvait avoir le traitement de texte dans l’industrie, sans oublier l’organisme MITACS qui a permis dans un premier temps la collaboration avec l’entreprise. Le travail effectué en partenariat avec l’entreprise n’aurait pas été réalisable sans la contribution de ses employés, qui m’ont donné un aper¸cu plus complet des défis rencontrés par une entreprise tentant d’exploiter le filtrage collaboratif dans des pages web.

Je remercie aussi les professeurs M. Gagnon, M. Robert et M. Robillard d’avoir accepté d’être dans le jury de la présentation de mon mémoire, et tout particulièrement M. Gagnon d’avoir pris la responsabilité supplémentaire d’en être le président. De plus, la flexibilité et la disponibilité de M. Robillard a été fortement appréciée, d’autant plus que les circonstances générales auraient pu être plus favorable.

J’ai aussi beaucoup apprécié le soutien que ma famille m’a apporté, le goût qu’ils m’ont transmis pour les études scientifiques et les encouragements que j’ai re¸cus tout au long de ma scolarité.

Je souhaite aussi remercier toutes les autres personnes qui m’ont apport´e leur aide ou leur soutien, de pr`es ou de loin, dans tous les aspects de ma vie.

(4)

R´ESUM´E

L’algorithme de classification non supervisée de documents Latent Dirichlet Allocation (LDA) est devenu en l’espace d’une dizaine d’années l’un des plus cités dans la littérature du domaine de la classification. Cet algorithme a la particularité de permettre à un docu-ment d’appartenir à plusieurs thématiques dans des proportions variables. Celui-ci se base sur un hyper-paramètre encore peu étudié dans la communauté scientifique, le paramètre α qui contrôle la variabilité des thématiques pour chaque document. Ce paramètre correspond `

a l’unique paramètre de la distribution de Dirichlet. Il définit la probabilité initiale des do-cuments dans le contexte du LDA. À chaque extrême du spectre des valeurs que l’on peut assigner à ce paramètre, il devient possible de limiter chaque document à une seule th´ ema-tique, jusqu’à forcer tous les documents de partager toutes les thématiques uniformément. Le présent mémoire tente d’illustrer le rôle du paramètre α et de démontrer l’effet qu’il peut avoir sur la performance de l’algorithme.

Le paramètre α est un vecteur dont la longueur correspond au nombre de thématiques et qui est généralement fixé à une valeur constante. Cette valeur peut être soit déterminée arbitrairement, soit estimée durant la phase d’apprentissage. Une valeur faible amène la classification vers un petit nombre de thématiques par document, et à l’inverse une valeur ´

elevée amène à assigner plusieurs thématiques par documents.

Certains travaux de Wallach et coll. ont d´emontr´e que des distributions non uniformes `

a ce paramètre pouvaient améliorer la mesure de classification de l’algorithme LDA. Ces travaux ont été effectués avec des données réelles pour lesquelles nous ne connaissons pas la distribution des thématiques sous-jacentes. Ces données ne permettent donc pas de valider si l’amélioration obtenue provient du fait que la distribution des thématiques correspond effectivement à une distribution non uniforme dans la réalité, ou si au contraire d’autres facteurs liés à des minimums locaux du LDA ou d’autres facteurs circonstanciels expliquent l’amélioration.

Pour étudier cette question, notre étude porte sur des données synthétiques. Le LDA est un modèle génératif qui se prête naturellement à la création de documents synthétiques. Les documents sont générés à partir de paramètres latents connus. L’hypothèse naturelle qui est faite est évidemment de présumer qu’en arrimant le paramètre α utilisé avec l’algorithme LDA à la fois pour la génération des données et pour l’apprentissage, la performance sera la meilleure.

Les résultats démontrent que, contrairement aux attentes, la performance du LDA n’est pas nécessairement optimale lorsque les α de la génération et de l’apprentissage sont

(5)

iden-tiques. Les performances optimales varient selon les valeurs α du corpus. Les différences les plus marquées se trouvent lorsque le corpus tend à être composé de documents mono-thématiques, auquel cas les α d’apprentissage uniformes fournissent les meilleures perfor-mances. Les différences de performance s’amenuisent à mesure que les valeurs de α deviennent grandes et que les corpus sont composés de thématiques multiples. On observe alors moins de différences de performance et aucune tendance claire ne surgit quant à la performance optimale.

Wallach et coll. ont démontré qu’une distribution non uniforme pour α pouvait donner de meilleurs résultats, ce qui ne corrobore pas les conclusions de cette étude. Cependant, les raisons de l’amélioration obtenues demeurent encore hypothétiques. D’une part, les résultats proviennent de corpus réels, qui peuvent s’avérer plus complexes ou relativement différents du modèle du LDA. D’autre part, la différence peut aussi provenir de l’approche utilisée pour l’entraˆınement des variables latentes, ou encore parce que l’asymétrie du paramètre α était plus faible que pour notre étude. L’amélioration de leur performance pourrait provenir d’un maximum local. Car, contrairement à notre étude, il est difficile avec des données réelles de tenter d’explorer l’espace des paramètres latents d’un corpus puisqu’ils sont inconnus.

Une autre contribution de cette étude est d’améliorer la performance du LDA par l’ini-tialisation d’un de ses paramètres latents, la distribution des mots par thématique (la ma-trice β). Nous utilisons une méthode de classification non supervisée basée sur l’algorithme bayésien na¨ıf. Il en est ressorti un gain de performance substantiel dans le cas de corpus mono-thématiques en plus d’une meilleure fiabilité par des résultats plus stables.

Une dernière contribution aborde la problématique de la comparaison de classifications selon leur représentation des thématiques. Cela a amené à définir une mesure de similarité de matrices qui est robuste à la permutation et à la rotation. Ce travail est toujours en cours, mais nous rapportons les résultats partiels, car ils fournissent une contribution non négligeable. En plus de notre contexte, cette mesure peut avoir des applications dans plusieurs autres domaines où il faut évaluer et comparer des résultats d’algorithmes non supervisés, notamment comme la factorisation de matrices par valeurs non négatives (NMF), ou tout autre contexte où les résultats d’un algorithme s’expriment sous forme matricielle, mais où le résultat escompté peut être transformé par rotation et par permutation ce qui complexifie la comparaison.

(6)

ABSTRACT

Latent Dirichlet Allocation (LDA) is an unsupervised text classification algorithm that has become one of the most famous and quoted algorithm within the last ten years. This algorithm allows documents to belongs to several topics. LDA relies on an hyperparameter that is generally fixed and received little attention in the scientific community. This variable, α, is a vector that controls the proportions of topics in documents. It is the sole parameter of the Dirichlet probability distribution and it defines the initial probability of documents in the LDA model. Through α, one can force every documents to be composed of a single topic, or conversely make every document share the same mixture of topics. This thesis investigates the role of the α hyperparameter on the document classification performance of LDA.

The α vector’s length corresponds to the number of topics, which is initially defined to a constant value. This value can either be defined arbitrarily, or estimated during the learning phase. A small value leads to a small number of topics per document and vice-versa.

Work by Wallach and al. has demonstrated that non-uniform distributions of this vector parameter could enhance the classification performance of the LDA algorithm. This work has been conducted with real data, for which the underlying distribution of topics is unknown. Therefore, it does not allow to verify if the the improvement effectively comes from a better fit of the α parameter to real data, or if it comes from some other reasons such as better avoidance of local minima.

To investigate this question, our study is conducted with synthetic data. The LDA is a generative model and the generation of documents from an underlying LDA latent parameter configuration is straightforward. The documents are generated from known distributions of topics. The obvious hypothesis is to expect that the best performance of the classification will be obtained when the vector α for the corpus generation is identical to the one of the LDA training.

Contrary to expectations, results show that the performance is not better when α of the corpus is identical to the training one. The performances vary across the range of corpora α parameter. The strongest differences are observed when the corpus tends to be composed of mono-topics documents, in which case a uniform α tends to give better performance. The differences become smaller as α values get larger, until the corpus is composed of multiple well-distributed topics. In that case, we find smaller performance differences, and no clear performance trend emerges.

These results run against Wallach and al. results who have demonstrated that a non-uniform distribution for α can lead to better results. However, the reasons for their

(7)

improve-ments remain unclear. On one hand, they were relying on real corpus, that can be more complex or be relatively different from the LDA model. On the other hand, the differences could be related to the LDA latent variable training algorithm, and their improvements could be due to a local maximum, or because the α parameter distribution was flatter than in our study. Unlike our study, it is hard to explore the space of latent variable of a corpus with real data and therefore to rule out the possibility that the real data is subject to local tendencies. Another contribution of this study is the improvement of the LDA through the initializa-tion of one of its latent parameter, namely the distribuinitializa-tion of words per topic (the β matrix). We use an unsupervised classification method based on the naive Bayes algorithm. It yields a substantial improvement of performance in the case of uni-topic corpus, in addition to a greater reliability as the results are more stable across simulation runs.

A last contribution of our work addresses the problem of comparing classifications along their topic representation. This lead us to define a new similarity measure, which is resilient to permutation and rotation. This is still ongoing work, but we present partial results as an appendix of this document, since we believe it is a significant contribution. In addition to its use in our own context, this measure can have applications in several other fields where we require to evaluate and compare results coming from unsupervised algorithm results, such as the non-negative matrix factorization (NMF), or any other applications where the results can be expressed as a matrix that can be subject to permutations and rotations of its dimensions, which makes the comparison complex.

(8)

TABLE DES MATI`ERES

REMERCIEMENTS . . . iii

R´ESUM´E . . . iv

ABSTRACT . . . vi

TABLE DES MATI`ERES . . . viii

LISTE DES TABLEAUX . . . xi

LISTE DES FIGURES . . . xii

LISTE DES ANNEXES . . . xiii

LISTE DES SIGLES ET ABR´EVIATIONS . . . xiv

CHAPITRE 1 INTRODUCTION . . . 1

1.1 D´efinitions et concepts de base . . . 1

1.2 El´´ ements de la probl´ematique . . . 1

1.3 Objectifs de recherche . . . 3

1.4 Plan du m´emoire . . . 3

CHAPITRE 2 REVUE DE LITT´ERATURE . . . 4

2.1 L’analyse de texte . . . 4

2.1.1 Repr´esentation d’un document . . . 5

2.1.2 Etapes pr´´ eliminaires `a la classification de texte . . . 7

2.2 Classification de texte . . . 11

2.2.1 Supervision . . . 12

2.2.2 Le type de r´eponse souhait´ee . . . 12

2.2.3 L’apprentissage purement probabiliste versus l’approche avec informa-tion lexicale . . . 13

2.3 L’approche bay´esienne . . . 15

2.3.1 Principe et int´erˆet de l’apprentissage probabiliste . . . 15

2.3.2 Les diagrammes de plaques . . . 16

(9)

2.3.4 Esp´erance-Maximisation (E.M.) . . . 20

2.3.5 Exemple simple : la classification bay´esienne na¨ıve . . . 23

2.4 Cas particulier du LDA . . . 25

2.4.1 Forme du mod`ele . . . 25

2.4.2 Distribution de probabilit´e de Dirichlet . . . 29

2.4.3 Cas d’utilisations du LDA . . . 31

2.4.4 Difficult´e d’apprentissage . . . 32

2.4.5 D´eclinaisons de l’algorithme . . . 34

CHAPITRE 3 M ´ETHODOLOGIE . . . 37

3.1 M´ethodologie . . . 37

3.1.1 Approche g´en´erale . . . 37

3.1.2 Génération du corpus de document synthétique . . . 38

3.2 Critiques de la m´ethode . . . 39

3.2.1 Avantage de l’approche . . . 39

3.2.2 Inconv´enients de la m´ethode . . . 39

3.3 Importance de la mesure de performance . . . 40

CHAPITRE 4 CHOIX DE LA MESURE POUR L’´EVALUATION DE LA PERFOR-MANCE . . . 42

4.1 Adaptation du LDA au protocole exp´erimental . . . 42

4.2 Etablissement de la mesure de l’erreur `´ a utiliser . . . 43

4.2.1 Liste des m´etriques possibles . . . 43

4.2.2 Comportement des m´etriques . . . 51

CHAPITRE 5 RÉSULTAT DES EXP ÉRIMENTATIONS SUR LE PARAMÈTRE α . 60 5.1 Impact du paramètre α . . . 60

5.2 Initialisation de la matrice β par le bay´esien na¨ıf . . . 64

5.3 Analyse des r´esultats . . . 69

5.4 Compl´ement d’analyse . . . 70

CHAPITRE 6 CONCLUSION . . . 72

6.1 Synth`ese des travaux . . . 72

6.2 Limitations de la solution propos´ee . . . 73

6.3 Am´eliorations futures . . . 73

(10)

(11)

LISTE DES TABLEAUX

Tableau 4.1 Valeur des paramètres fixés lors de l’étude de l’impact du vocabulaire sur le LDA . . . 53 Tableau 4.2 Valeur des paramètres fixés lors de la comparaison des résultats des

métriques avec le LDA et sa référence . . . 55 Tableau 4.3 Valeur des paramètres fixés lors de la comparaison entre la similarité

de perplexité et celle de catégorisation . . . 56 Tableau 4.4 Valeur des paramètres fixés lors de la comparaison entre la similarité

de perplexit´e et celle de cat´egorisation . . . 58 Tableau 4.5 Valeurs de α(corpus) _explor´_{ees . . . 58}

Tableau 5.1 Différentes valeurs de α explorées pour établir son impact sur les per-formances du LDA . . . 60 Tableau 5.2 Evolution de la similarit´´ e de perplexité en fonction des α . . . 61 Tableau 5.3 Impact du paramètre α(corpus) _{sur les performances de la classification}

na¨ıve bay´esienne . . . 66 Tableau 5.4 Evolution de la similarit´´ e de perplexit´e du LDA en fonction des α,

après initialisation de la matrice β par la classification bayésienne na¨ıve 66 Tableau 5.5 Amélioration relative apportée par l’initialisation de la matrice β(app)

du LDA par celle du bay´esien na¨ıf . . . 68 Tableau A.1 Evolution de la cat´´ egorisation du LDA en fonction des α . . . 79 Tableau A.2 Evolution de la cat´´ egorisation du bay´esien na¨ıf en fonction de α(corpus) _{. 79}

Tableau A.3 Evolution de la cat´´ egorisation du LDA initialisé par le bayésien na¨ıf en fonction des α . . . 81 Tableau B.1 Evolution de la cat´´ egorisation du LDA en fonction des α . . . 83 Tableau B.2 Evolution de la cat´´ egorisation du bayésien na¨ıf en fonction de α(corpus) . 83 Tableau B.3 Evolution de la cat´´ egorisation du LDA initialisé par le bayésien na¨ıf en

(12)

LISTE DES FIGURES

Figure 2.1 Schéma explicatif du fonctionnement de la génération d’un document par le Labeled - LDA . . . 18 Figure 2.2 Procédure de génération d’un document par le Labeled - LDA . . . 19 Figure 2.3 Génération d’un document par le classificateur bayésien na¨ıf . . . 24 Figure 2.4 Génération d’un document par le Indexation Sémantique Latente

pro-babiliste (pLSI) . . . 27 Figure 2.5 Procédure de génération d’un document par le LDA . . . 28 Figure 2.6 Génération d’un document par le LDA (LDA) . . . 28 Figure 2.7 Cartes thermiques de la distribution de Dirichlet avec différentes valeurs

de α . . . 31 Figure 2.8 Modèle de l’inférence variationnelle pour le LDA . . . 32 Figure 4.1 Illustration du fonctionnement de l’erreur de rappel . . . 47 Figure 4.2 Comparaison de l’erreur quadratique avec la similarité de perplexité

pour une erreur par rapport à un vecteur de probabilité représenté par le point noir dans le triangle de probabilités. La couleur représente les différentes valeurs prises par les métriques dans l’espace de probabilités. 52 Figure 4.3 Comportement des métriques quand le vocabulaire est étendu . . . 54 Figure 4.4 Comparaison des métriques vis-à-vis de la référence . . . 55 Figure 4.5 Effet de la variance du nombre de mots par documents suivant la m´

e-trique choisie . . . 56 Figure 4.6 Effet de la similarit´e de perplexit´e en fonction de α(corpus) _{. . . 59}

Figure 5.1 Relation entre l’écart type des m et la performance du LDA . . . 62 Figure C.1 Gradation de la sensibilité de la métrique en fonction du bruit gaussien 99 Figure C.2 Gradation de la sensibilité de la métrique en fonction du bruit gaussien 100 Figure C.3 Relation entre l’écart-type des α et la performance du LDA selon perf(6)

appliqu´e sur la matrice θ . . . 103 Figure C.4 Relation entre l’´ecart-type des α et la performance du LDA selon perf(6)

(13)

LISTE DES ANNEXES

Annexe A Impact du paramètre α sur la matrice θ d’après la nouvelle métrique . 78 Annexe B Impact du paramètre α sur la matrice β d’après la nouvelle métrique . 82 Annexe C Mesure de corrélation de matrices . . . 86

(14)

LISTE DES SIGLES ET ABR´EVIATIONS

LDA Latent Dirichlet Allocation

AUC (de l’anglais Area Under The Curve) : aire sous la courbe d’un graphe de type ROC

ROC (de l’anglais Receiver Operating Characteristic) : mesure de perfor-mance d’un algorithme de recherche d’information, pr´esent´e sous forme d’une courbe.

I.A. (de Intelligence artificielle) : Domaine de l’informatique qui tente de simuler un comportement et raisonnement humain face `a un pro-bl`eme.Russell et al. (2010)

SVD (de l’anglais Singular Value Decomposition) : M´ethode de factorisation de matrice en produit de trois matrices, dont une diagonale et deux sous formes de matrices orthogonales.

expert Nom généralement donné à une personne (voire un groupe de per-sonnes) qui sont censés pouvoir donner le résultat qu’un algorithme idéal devrait donner. Cette méthode de vérification ou de mesure est généralement utilisée là où l’humain, avec sa connaissance et son dis-cernement, est considéré comme étant le meilleur système intelligent possible.

racinisation R´eduction des mots pour obtenir le radical, et ce de fa¸con algorith-mique.

lemmatisation Mise sous forme canonique des mots. divergence de

Kullback Leibler Mesure de dissimilarité entre deux fonctions de densité de probabilités. α, β et θ Variables de l’algorithme LDA (cf. 2.4.1)

w et (w) Variables d´esignant respectivement un mot et un vecteur de mots v et V Valeurs repr´esentant respectivement un mot du vocabulaire et en

capi-tale la taille du vocabulaire

k et K Variables désignant respectivement une thématique et en majuscule le nombre total de thématiques considérés

N Valeur repr´esentant le nombre de mots d’un texte M Variable d´esignant le nombre de documents d’un corpus

(15)

d Nombre r´ef´erant un document

R C’est le modèle de représentation interne du corpus de document (que ce soit à l’étape de génération du corpus synthétique ou à l’apprentissage par le LDA). Autrement dit, c’est à dire la matrice P (w|d).

Afin de simplifier les notations, le formalisme suivant a été adopté : — Les variables en gras représentent des vecteurs ou des matrices.

— Certains paramètres varient dans un intervalle d’entiers naturels. La borne supérieure de la variable est représentée en capitale.

(16)

CHAPITRE 1

INTRODUCTION

Avec l’apparition de l’informatique, le monde a vu apparaˆıtre de nouvelles problématiques complexes, dont la science tente de trouver des solutions. Le calcul numérique est devenu rapide, fiable et facilement accessible. Mais les ordinateurs sont de très bonnes machines pour exécuter des opérations prédéfinies, mais a contrario d’un être pourvu d’un cerveau, les outils informatiques ne sont pas capables de réflexion et d’analyse par elle-même. Une des sciences s’est ainsi développée autour du terme d’Intelligence Artificielle (I.A.) afin de simuler un comportement intelligent face à des problèmes donnés.

Cette tâche a de nombreuses sous-disciplines, comportant des intérêts et applications particuliers pour chacune d’entre elles. L’une d’elle, très connue avec l’émergence de géants du web comme Google et Yahoo ! est le traitement et l’analyse de textes. Ces entreprises tentent de répondre au mieux aux besoins d’informations de leurs utilisateurs, cela en leur proposant les pages web correspondant au mieux à leurs requêtes. D’autres compagnies en ont fait leur modèle : les entreprises de publicités en ligne, qui tentent de montrer le contenu qui correspond le mieux à la situation, basé sur le type de page visionné et aussi selon l’historique de navigation de l’internaute.

1.1 D´efinitions et concepts de base

Ce présent mémoire s’appuie sur de nombreux concepts introduits au fur et à mesure de l’évolution de l’Intelligence Artificielle, principalement dans le domaine de classification automatisée de documents. L’algorithme phare de l’étude est l’algorithme connu sous le nom de LDA. Cependant, pour comprendre son fonctionnement, il est nécessaire de se familiariser avec de nombreux concepts à la fois mathématiques et statistiques, qui seront définis au cours de la revue de littérature.

1.2 El´´ ements de la probl´ematique

Certaines entreprises sont régulièrement intéressées pour classifier automatiquement des documents selon leurs sujets. Celles-ci opèrent généralement sur des textes écrits en langues naturelles, c’est à dire dans un langage prévu pour s’adresser à des êtres humains, en respec-tant une structure complexe, mais précise, faisant appel à des connaissances externes. Ainsi,

(17)

une personne attribue un sens à des mots et des phrases, suivant le contexte et le raisonne-ment logique. Certains mots n’ont pas de significations propres, mais sont importants pour donner une structure à la phrase. D’autres ont un sens qui varie selon le contexte et son utilisation. Certains mots n’ont pas qu’une seule forme et des subtilités peuvent apparaˆıtre selon leur déclinaison. Par exemple, il y a une grande différence de sens entre “J’aime” et “J’aimerais”, même si les mêmes mots sont utilisés. Tout cela rend le problème de classifica-tion de documents très complexe. Et ce sont loin d’être les seules problématiques rencontrées dans le domaine de la classification de texte.

De nombreuses approches existent, suivant les moyens mis en œuvre et selon les situa-tions. Tous les algorithmes de classification de textes ont leurs faiblesses, dont les chercheurs tentent de s’émanciper au fur et à mesure de l’avancée de l’état de l’art. Cela peut être des restrictions imposées par les choix faits lors de la modélisation des documents, ou de défis qui n’ont pas encore été résolus. Parmi les contraintes les plus connues, il y a les problèmes rencontrés avec les mots qui ont une utilité grammaticale sans être porteurs de sens, comme les déterminants. Un être humain est capable de les isoler et d’interpréter leur utilité dans la phrase pour affiner le sens donné par l’expression, mais ce n’est pas le cas d’un ordinateur, qui se contente d’interpréter des instructions prédéfinies. Afin de dépasser ces limitations, qui sont intrinsèques aux algorithmes de classification, le corpus de texte subit généralement un traitement préliminaire qui élimine ces mots. Cependant, cette étape n’apporte pas une véritable solution au fond du problème, qui est l’incapacité des algorithmes à gérer ces mots de faible importance.

Le LDA se base un hyper-paramètre, nommé α, qui semble approprié pour gérer la pro-blématique des mots peu importants. Certains chercheurs ont tenté de démontrer son im-portance, en tâtonnant et en explorant différentes valeurs (McCallum et al., 2009) pour ce vecteur. Ces études, qui se basent sur des corpus réels, font la supposition nécessaire de conformité des corpus de documents vis-à-vis du modèle supposé en interne par le LDA. Cependant, travailler avec des corpus réels ne permet pas de connaˆıtre les variables cachées et les paramètres latents.

L’hyper-paramètre jouant un rôle crucial dans l’entraˆınement de l’algorithme, il est n´ eces-saire de s’assurer et de comprendre son impact. Afin d’apporter une rigueur supplémentaire `

a l’étude du rôle du vecteur α, nous allons mettre en place une méthodologie qui permettra d’évaluer son effet sur les performances du LDA.

(18)

1.3 Objectifs de recherche

L’objectif de la recherche est d’estimer la pertinence et l’importance de l’hyper-paramètre α. Cette variable est nécessaire à la génération des vecteurs représentant la proportion des thématiques pour chaque document, selon le modèle fixé par Blei et al.. L’idée générale avancée par l’auteur de l’algorithme est que les documents d’un corpus proviennent d’un α, et suivant celui fourni lors de l’entraˆınement de l’algorithme, les résultats pourront être radicalement différents. Il faudrait ainsi adapter ce paramètre à chaque corpus de documents et certains papiers ont tenté d’établir la pertinence de ce paramètre.

L’objectif fixé par ce mémoire est de fournir une analyse expérimentale pour estimer les effets de ce paramètre. Si celui-ci a un impact positif sur la performance de classification, il devient nécessaire de conduire une étude systématique de cette variable pour l’adapter à un problème spécifique. Un apprentissage du paramètre α s’avérerait alors nécessaire. Dans le cas contraire, si le α n’a aucune influence, il est possible de considérer que ce paramètre n’a d’importance que pour le fonctionnement interne de l’algorithme sans pour autant avoir d’im-pact sur les performances globales. Sous cette hypothèse, un simple vecteur fixé conviendrait `

a toutes les applications et il serait inutile d’allouer des ressources à l’étude de ce paramètre pour une utilisation spécifique.

1.4 Plan du m´emoire

Dans un premier temps, les concepts mis en œuvre dans ce domaine sont complexes et nécessitent de poser les bases scientifiques nécessaires à la compréhension des notions et des enjeux de cette étude. Cela permettra ensuite d’élaborer un protocole expérimental et une méthodologie appropriée à l’étude. Ensuite, une analyse complète des différentes métriques envisagées sera effectuée. Enfin, l’application pratique du mode opératoire précédemment mis en place permet d’obtenir certains résultats qui autorisent l’évaluation de l’importance de l’hyper-paramètre α.

(19)

CHAPITRE 2

REVUE DE LITT´ERATURE

Le sujet de ce présent mémoire est un algorithme particulier d’Intelligence Artificielle, mais pour comprendre le travail effectué, il est nécessaire de poser les bases de la classification automatique de texte et de balayer les possibilités qu’offre cette méthode. La démarche dans laquelle s’inscrit ce mémoire n’est plus à justifier dans le monde des moteurs de recherches, de la gestion bibliographique ou encore de la publicité ciblée, cependant il est important de connaˆıtre le fondement de celui-ci, à commencer par la question préliminaire : qu’est-ce que l’Intelligence Artificielle ?

2.1 L’analyse de texte

Le besoin de traitement automatique de documents, rendu possible avec l’informatique, a été particulièrement flagrant avec l’émergence de technologies de l’information, dont la principale de nos jours est le web. Les premiers utilisateurs se sont alors vu offrir une quantité astronomique de pages web offrant du contenu intéressant certaines personnes, mais pas tout le monde et pas en tout temps. Il fallait donc créer des sortes d’index ou de table des matières pour retrouver une page qui correspond au besoin des utilisateurs au moment donné. Ce fut l’émergence des moteurs de recherches, qui étaient de simples filtres au tout début, puis avec l’évolution des méthodes d’Intelligence Artificielle, se sont perfectionnées pour répondre à des requêtes de plus en plus complexes et de plus en plus proches de la langue naturelle.

D’autres applications s’en sont suivis : la reconnaissance de langue suivit des traductions automatiques pour que le contenu renseigné soit pertinent dans plusieurs langues, l’extrac-tion d’informal’extrac-tion, la classifical’extrac-tion de contenu, l’analyse syntaxique, les correcteurs orthogra-phiques et grammaticaux intelligents, etc. Les domaines d’applications sont devenus tellement vastes et diversifiés que des méthodes spécifiques ont été développées et sont en constante amélioration. Les contraintes changent aussi avec le temps, notamment en terme de puissance de calculs. Bien entendu, ce présent ouvrage ne prétend pas couvrir ces sujets, mais il existe des méthodes importantes et des problèmes à présenter pour comprendre les défis auxquels la classification de texte doit faire face.

(20)

2.1.1 Repr´esentation d’un document

Dans le cas d’étude, les documents sont sous forme textuelle, éventuellement accompagnés d’une image ou d’une autre forme de transmission d’informations. Cependant, l’analyse ne porte que sur la succession des mots qui les composent ; le traitement des images, vidéos et sons est complexe et appartient à des domaines de recherches différents. En outre, la finalité des algorithmes proposés et étudiés est de travailler sur des textes en langue fran¸caise (ou ´

eventuellement anglaise), ce qui réduit le champ de recherche. Cela ne suffit malheureusement pas à aboutir à un domaine d’analyse simple.

La complexit´e de la langue

La langue est un moyen de communication, structuré par des règles (de conjugaison, de grammaire, etc.) qu’un groupe de personnes choisit d’adopter pour échanger de l’information. Il existe plusieurs langues et chacune a ses spécificités qui la rendent unique. En revanche, un certain nombre de phénomènes structurels se retrouvent dans la majorité des langues, dont le mot, qui est l’unité de base.

En premier lieu, un texte souhaitant faire passer un message peut être écrit de nombreuses fa¸cons. Il peut y avoir des méthodes plus ou moins directes de donner une information, avec des niveaux de langue et des styles d’écriture qui diffèrent. Tout cela fait en sorte que deux phrases signifiant la même chose peuvent n’avoir presque aucun mot en commun. La composition d’un texte peut donc varier drastiquement alors que le contenu est le même. Les synonymes et paraphrases, qui sont communément utilisés pour éviter les répétitions, augmentent la diversité lexicale d’un texte, ce qui contribue à la richesse de la langue d’un texte. Ce phénomène de divergence lexicale s’amplifie quand plusieurs dialectes se confrontent. Même s’il est avéré que la diversité lexicale est un écueil du traitement automatique de la langue naturelle, celui-ci est loin d’être le seul. La polysémie est un autre danger qui peut avoir des effets plus insidieux. Il est récurrent que des mots aient plusieurs sens pouvant n’avoir aucun rapport thématique. Un mot impliqué dans une expression n’a généralement rien à voir avec le sens d’origine du terme. Cela peut se trouver par un usage dans le cadre d’expressions particulières à la langue, ou tout simplement de l’évolution de la signification d’un mot. L’ambigu¨ıté de la langue est un phénomène récurrent qui nécessite bien souvent de se référer au contexte. Autrement, un risque de quiproquo peut survenir à l’instar des célèbres pièces de Molière.

`

A cela s’ajoute un aspect hiérarchique dans la langue. Le sens commun permet de donner une liaison d’inclusion entre “automobile”, “roue” et “jante”. Cette information d’holonymie (ou de méronymie si l’on considère l’autre sens de l’inclusion) est souvent utilisée dans la

(21)

littérature pour éviter des répétions inutiles de mots. C’est un procédé très souvent utilisé pour alléger le style d’écriture. Les hyperonymes, comme “chapeau” pour désigner un “haut-de-forme”, permettent aussi d’obtenir ce genre d’artifice. Le sens opposé de cette relation s’appelle “hyponymie”.

Cette complexité apparente est à relativiser sur le grand nombre. Il est évident que plus il y a de documents dans le corpus traitant d’un même sujet avec des mots différents, plus il est aisé de trouver des relations entre les mots, et ainsi de trouver les mots faisant partie de la même thématique. Après cela, il existe d’autres pièges dont il faut prendre en compte. L’un d’eux concerne l’impact négatif des mots peu porteur de sens, comme “le”, “la”, “a”, dans les méthodes actuelles.

La repr´esentation en sac de mots

Quand un être humain lit un texte, il associe un sens à chacune des phrases, comprend la logique de celle-ci et est capable d’extraire le message global du paragraphe. Cependant, en l’état actuel de l’Intelligence Artificielle, il n’est pas possible d’émuler le fonctionnement de la compréhension. Et cela nécessiterait dans tous les cas de pouvoir intégrer à l’ordinateur, une notion du sens des mots. Par exemple, quand une personne parle d’une “voiture”, un être humain comprends que c’est un moyen de transport composé de roues, et ayant un moteur, etc. Un ordinateur ne voit qu’une succession de lettre. Or, à l’état actuel de la science, l’émulation de la compréhension humaine n’est pas encore quelque chose d’envisageable. Cela explique que, pour pouvoir analyser un document, il est nécessaire de faire un certain nombre d’hypothèses simplificatrices.

Selon la définition du dictionnaire de fran¸cais Larousse, un texte est un ensemble des termes, des phrases constituant un écrit, une œuvre écrite. Ainsi, l’élément unitaire ayant une utilité sémantique, est le mot (les morphèmes sont difficiles à reconnaˆıtre automati-quement) ; une lettre alphabétique seule ne porte pas de sens tandis qu’un mot en a un. Du fait de la complexité d’un document, il est nécessaire de faire des simplifications de fonctionnement, dans le but de capturer toute l’information qui peut être exploitable. En effet, selon la règle de la chaˆıne, un statisticien qui voudrait alors calculer la probabi-lité d’un texte ne contenant que la phrase “Il fait beau.” devra être capable de calculer P (“Il f ait beau.00) = P (“Il00)P (“f ait00|“Il00_{)P (“beau}00_|“Il00_{, “f ait}00_{). Il est ´}_{evident que cette}

règle ne peut être appliquée sur un document de grande taille.

La règle de la chaˆıne, quoique plus précise en théorie, est bien trop spécifique. Il faudrait pour cela être capable de calculer toutes les probabilités conditionnelles, ce qui est impos-sible en pratique. Cela nécessiterait aussi de disposer de quantité énorme de mémoire pour enregistrer ces probabilités. Certaines simplifications sont alors obligatoires. Cela passe dans

(22)

un premier temps dans la manière de voir et de représenter un corpus. La représentation en sac de mots est une des simplifications qui est très souvent faite.

Cette hypothèse consiste à considérer qu’il est possible de connaˆıtre le sujet du texte uniquement par son vocabulaire. Cela revient à considérer les documents comme un groupe-ment de mots, peu importe l’ordre des mots. C’est ce que l’on appelle le modèle de “sac de mots”. Dans le cas énoncé précédemment, le mot est l’élément unitaire, ce qui est un modèle qualifié d’unigramme, mais ce n’est pas toujours le cas. Certains modèles fonctionnent mieux en tenant compte de plusieurs mots. À ce moment-là, le vocabulaire du corpus n’est plus vraiment le nombre de mots différents, mais plutôt le nombre de N-gramme différents.

L’indépendance des probabilités est aussi une autre conjecture communément faite pour les algorithmes probabilistes, d’autant plus qu’elle rejoint l’idée du sac de mots. Il est considéré que la probabilité d’obtenir un mot ne dépend pas de celui qui a été trouvé précédemment. Toutes ces hypothèses reviennent à s’imaginer que le document est généré en tirant au hasard et avec remise, des mots d’un sac.

2.1.2 Etapes pr´´ eliminaires `a la classification de texte

Souvent, pour simplifier le problème d’analyse de texte, un certain nombre de transforma-tions sont appliquées. Celles-ci varient suivant le type de corpus, le modèle de document et l’usage prévu de celui-ci. Par exemple, dans le cas où les documents sont vus comme des sacs de mots, il importe peu de savoir l’ordre des mots. Il est donc possible de faire simplifications et de ne tenir en compte que de l’importance des mots.

Correction orthographique et ´eventuellement grammaticale

Suivant la source du corpus, il peut être composé de textes écrits dans une faible qua-lité orthographique et grammaticale. C’est généralement le cas des textes composés par des utilisateurs d’un site web. Il est donc très commun d’avoir recours à des correcteurs orthogra-phiques pour essayer d’obtenir des documents qui sont plus ou moins corrects, en se basant sur des méthodes plus ou moins sophistiquées. Le but de ce mémoire n’est pas de détailler les différentes méthodes de correction orthographique, mais il convient de parler de l’algorithme le plus populaire.

Il est souvent considéré que l’utilisateur a eu le droit à des cours qui expliquent comment ´

ecrire les mots, avec le respect des règles de conjugaison et de grammaire. Il resterait donc principalement des fautes de frappe. La méthode de correction la plus commune, principale-ment grâce à la simplicité de sa mise en œuvre, consiste à comparer les mots selon une liste de mots possibles et correctement orthographiés. Si le mot appartient à la liste, il est conservé ;

(23)

s’il en est absent, il y a une faute et on le remplace par le mot de la liste le plus proche. Cela nécessite donc de définir une notion de proximité ou de distance, ce qui est fait par la distance de Levenshtein (Soukoreff et MacKenzie, 2001). Cette métrique prend en compte les différentes fautes communes qui peuvent être commises lors de l’appui d’une touche.

Bien entendu, cette étape préliminaire n’est pas nécessaire si l’on considère que le corpus est écrit dans une belle prose. Il faut aussi considérer que cette étape doit être adaptée au contexte, c’est-à-dire selon la langue et aussi selon la méthode d’entrée des textes. À l’heure actuelle, quasiment tous les documents sont saisis sur un clavier, ce qui rend la distance de Levenshtein appropriée, mais si cela a été fait par une reconnaissance vocale, une correction par phonétique peut être considérée comme plus adaptée.

Le succès de cette étape peut être plus ou moins hasardeux. Tout d’abord, la liste peut ˆ

etre incomplète, parce que non adaptée à une expertise, ou que le vocabulaire d’usage n’est pas celui qui se trouve dans le dictionnaire. À cela s’ajoute le problème induit par les noms propres et marques, dans le sens où il ne faudrait pas qu’ils soient corrigés, mais il n’est pas toujours possible de les distinguer des noms communs.

R´eduction du vocabulaire

L’étape la plus courante est la réduction du vocabulaire : celui-ci étant le plus probl´ e-matique lors de l’analyse des textes. Plus le vocabulaire du corpus est étendu, plus il faut rassembler de documents pour entraˆıner un modèle statistique, afin que celui-ci soit capable de faire le rapprochement entre des mots qui n’ont a priori rien à voir. De plus, il faut s’as-surer que l’algorithme ne sur considère pas des mots qui n’ont pas d’importance. Cela pose des problèmes d’optimisation en ce qui concerne la vitesse de traitement, mais aussi souvent de précision : la majorité des méthodes sont sujettes à des problèmes de traitement, comme les “maximums locaux”, qui sont des erreurs d’apprentissage de l’algorithme. Ce défi est aussi connu comme la malédiction des dimensions (Bishop, 2006, p.34). Or, il y a une partie du vocabulaire qui est souvent considérée comme peu porteuse de sens. Il peut être judicieux de les retirer (c’est les cas des mots comme le, la, il, etc. ; ils sont généralement appelés mots vides ou encore mots-stops). Comme l’aspect grammatical n’influe pas dans ce genre de modèle, cela évite de prendre en compte cette sorte de “bruit” qui risque de perturber inuti-lement l’algorithme. Cependant, avoir la nécessité de recourir à ce procédé revient à avouer que la méthode d’analyse de texte n’est pas parfaite et se laisse distraire inutilement par des mots sans importance. Un algorithme fiable, idéalement recherché, n’aurait théoriquement pas besoin de ce genre d’étape.

La ponctuation n’a par ailleurs aucun effet dans les approches courantes d’analyse de corpus, dont le modèle des sacs de mots, donc elle est bien souvent retirée du corpus étudié.

(24)

Il y va de même des mots en majuscules : peu d’algorithmes prennent en compte la différence de casse dans les mots. Il est d’usage de mettre tous les mots en minuscule, et ce sans distinctions : un nom propre est souvent différentiable autrement que par la majuscule et savoir qu’un mot est en début ou milieu de phrase importe peu.

Les autres transformations majeures qui sont spécifiques aux langages et qui permettent de réduire le vocabulaire sont la racinisation et la lemmatisation. Elles se basent sur le fait que certains algorithmes, dont principalement ceux basés sur le sac de mots, n’accordent pas d’importance à la conjugaison des mots, s’ils sont au pluriel ou non, etc. Les procédés basés sur les statistiques, comme la méthode du bayésien na¨ıf, en sont des célèbres exemples. Cependant, si un mot, comme conducteurs, apparaˆıt dans un document, il serait considéré comme différent de conducteur. Ce genre de distinction n’est généralement pas nécessaire et cela constituerait une perte d’information : les statistiques des algorithmes probabilistes seraient moins précises et les performances globales seraient amoindries.

La racinisation est un algorithme, généralement formé sous une série de règles, qui consiste `

a transformer tous les mots sous leur forme radicale, qui est censée représenter le sens. De cette fa¸con, conducteur, conducteurs, conductrices et conduction pourraient tous être raccourcis en conduct, ce qui représenterait l’idée de transport. Bien sûr, le résultat présenté ici ne donne pas un autre mot existant dans la langue fran¸caise, comme c’est généralement le cas avec le procédé de racinisation. Le mot est alors réduit a une sorte d’étiquette, ce qui généralement suffisant pour faire des statistiques. Il existe plusieurs versions de ce processus, suivant le but atteindre et la langue du texte. Le plus connu, adapté pour la langue anglaise, est appelé Porter ; les francophones utilisent plutôt celui nommé Carry.

A contrario de la racinisation, la lemmatisation met tous les mots sous leur forme cano-nique, qui est est par exemple l’infinitif pour un verbe, et la forme singulière pour un nom. Mais pour mettre en œuvre un tel mécanisme, il faut un logiciel spécifique qui transforme tous les mots suivant une base de données. Cette opération est plus gourmande en temps de calcul, en espace mémoire, etc. Mais elle à l’avantage de pouvoir faire la distinction entre un nom, un verbe, un adjectif et un adverbe, ce qui peut avoir son importance dans certains cas. Il est aussi généralement possible d’avoir ces informations complémentaires dans une va-riable supplémentaire, tout en faisant moins d’erreurs de confusions entre les mots. Il est ainsi possible de faire la distinction entre un nom commun, un nom propre ou même parfois une expression. Cette dernière opération s’appelle l’étiquetage morphosyntaxique. TreeTagger est un des logiciels phares qui effectue ces opérations.

La réduction de vocabulaire passe aussi par des méthodes plus statistiques, comme le Term Frequency-Inverse Document Frequency. Le principe de cette méthode consiste à affecter des poids sur chacun des mots des documents. Il se base sur le constat qu’un mot qui se

(25)

trouve dans beaucoup de documents du corpus a probablement peu d’intérêt dans celui-ci (c’est la partie IDF de la méthode). En effet, il devient peu discriminant pour reconnaˆıtre un corpus par exemple (à l’instar des mots vides). En revanche, un mot qui est récurrent dans un document, à forte chance de tenir un rôle important et est probablement fortement représentatif du contenu du document (c’est le but du facteur TF). La définition commune du Term Frequency-Inverse Document Frequency est la suivante :

tfidfi,j= tfi,j· idfi=

ni,j

P

knk,j

· log |D| |{dj : ti ∈ dj}|

o`u ni,j correspond au nombre d’occurrences du mot ti dans un document, |D| au nombre

total de documents dans le corpus et |{dj : ti ∈ dj}| au nombre de documents o`u le terme ti

apparaˆıt.

Enfin, d’autres procédés sont utilisés pour réduire le vocabulaire : il s’agit de passer par des banques de synonymes, méronymes et équivalents pour rassembler des mots de sens voisins. Cependant, elles sont présentes de manières anecdotiques dans la littérature scientifique, comparativement aux méthodes décrites précédemment. Dans la même optique, il peut être possible d’essayer de trouver les expressions (Salton et Lesk, 1965) et de les remplacer par des mots ou phrases qui ne risquent pas de faire des données ambiguës dans le texte. Mais rares sont les personnes qui tentent de le faire.

Ce chapitre fait bien sûr un bref état des méthodes les plus communes de la réduction de vocabulaire. En effet, c’est un domaine très sensible de la Récupération d’Information qui a fait l’objet de moult développements, suivant le jeu de données et les informations connexes (s’il est multi-lingues par exemple (Rojas et al., 2007)).

Interpr´etation de symboles et mots n’appartenant pas `a la langue

Aussi, avec l’extension des réseaux sociaux, de plus en plus de chercheurs se sont posé la question du traitement des émoticônes et des interjections. Ce ne sont pas à proprement parler des mots, donc des entités qui peuvent être considérées comme faisant partie du vocabulaire, cependant, cela fait partie d’un remplacement du langage non verbal, qui ne peut pas toujours trouver de substitut et qui peut avoir plus de sens que le reste de la phrase. Ainsi, dans un dialogue, la phrase “Je suis super content :-)” a assurément un sens profondément différent de “Je suis super content :’-(”; la seconde phrase étant vraisemblablement ironique. Les algorithmes qui cherchent à établir une côte de popularité d’un candidat politique doivent tenir compte de ce genre de contenu, ce qui explique qu’il est commun de convertir ces caractères en des mots représentatifs de l’esprit qui est communiqué (Agarwal et al., 2011a), ´

(26)

2.2 Classification de texte

La classification de texte est une discipline qui était indispensable dans les bibliothèques et librairies, où il fallait s’assurer que les livres soient faciles à trouver. À ce moment, retrouver un document par son titre n’était pas aisé car il supposait que le lecteur sache le titre du livre. Le plus simple était encore d’avoir un classement des documents en catégories, pour que ceux qui avaient besoin d’informations sur un sujet sachent où chercher.

Ce genre de classification est encore très présente de nos jours : la structure même d’un certain nombre de sites web conserve une structure logique d’un point de vue thématique. L’aspect juridique non relié au service proposé est généralement regroupé dans la partie men-tion légale par exemple. Cependant, ce carcan est fait manuellement, parce que généralement peu contraignant à faire de cette manière et aussi plus sûr. Après tout, le contenu est fait par des humains, pour d’autres personnes ayant approximativement les mêmes facultés et m´ e-canismes de compréhension. Cependant, sur certains sites web, cette approche ne peut être faite par un administrateur. C’est notamment le cas de documents incorporant du contenu utilisateur, comme les forums de discussions, les sites de petites annonces en ligne, etc. La solution la plus commune est d’opter pour une classification faite par l’utilisateur qui poste le message, mais cette classification est généralement peu fiable et incomplète. De plus, per-sonne n’est prêt à renseigner bénévolement le thème du contenu posté par les utilisateurs pour les compagnies publicitaires, notamment parce que ce serait un travail fastidieux et que personne n’est intéressé pour fournir cette information à des entreprises qui ne jouissent pas nécessairement d’une image de marque rayonnante. Cependant, ces dernières ont d’un côté des publicités associées à un thème qu’elles doivent associer à des pages web dont elles ne connaissent pas toujours le type de contenu. Une approche automatique de classification, en conservant celle imposée par les fournisseurs des publicités, est alors nécessaire.

D’un point de vue purement matriciel ou mathématique, si on considère un document comme un vecteur de mots, le corpus devient alors une matrice de mots par documents. La classification de documents peut alors être vue comme une factorisation de matrices suivie d’une réduction de dimension (la matrice de mots par documents est approximée par la multiplication d’une matrice de thématiques par documents et d’une matrice de mots par thématiques). Cependant, l’espace des factorisations possibles est excessivement grand et il est pour ainsi dire impossible de conclure quoi que ce soit dans cette représentation. Il faut donc établir un certain nombre d’hypothèses réalistes et suivre un modèle.

La classification de texte est elle-même une discipline vaste qui se découpe en plusieurs sous-domaines, et les possibilités de solutions peuvent changer radicalement suivant l’ap-proche utilisée. À titre d’illustration, doit-on considérer que l’algorithme de classification a

(27)

besoin de respecter des catégories prédéfinies qui sont connues par l’utilisateur ? Si oui, com-ment les spécifier à l’algorithme pour qu’il sache faire la liaison et surtout qu’il respecte le motif dessiné par l’utilisateur ?

2.2.1 Supervision

Suivant le but recherché en utilisant un algorithme de classification, les besoins varient, donc les approches aussi. Parmi ces différentes approches, la question de l’utilisation d’un algorithme supervisé par rapport à un autre non-supervisé, fait partie des choix les plus im-portants à faire. Dans certains cas, l’utilisateur a une idée des catégories finales et veut les spécifier, pour que l’algorithme de classification sache quelles sont les classes qui doivent être obtenues. Cette attente peut être matérialisée, dans le cas de la classification de documents, `

a une liste de mots-clefs discriminatifs, ou encore une liste de documents types de chaque catégories. Ainsi, les algorithmes supervisés sont généralement initialisés par un corpus d’en-traˆınement qui est relié à une classification idéale. L’algorithme de classification doit alors comprendre le modèle qui se cache derrière la classification idéale de l’utilisateur pour être capable de l’étendre à d’autres documents.

L’approche supervisée peut, suivant le contexte considéré, être une grande simplification ou au contraire, susciter plus de problèmes qu’il n’en résout. Suivant les cas, une simple classification par règles et mots-clefs peut suffire à faire une classification des documents. Cela est généralement suffisant quand l’on veut être capable de classifier les documents par langues respectives. Pour éviter les problèmes liés aux mots pouvant appartenir à plusieurs langues, ou encore les fautes de frappe, et finir par avoir des documents qui peuvent être ou sont mal classifiés, les méthodes actuelles sont généralement basées sur un modèle bayésien na¨ıf (cf. section 2.3). La performance atteinte actuellement est telle que le problème est souvent considéré comme résolu (Russell et al., 2010, p.911).

Dans les cas les plus complexes de classification supervisée, un appel à un algorithme plus complexe, comme le supervised LDA (sLDA), est nécessaire. Le choix de l’algorithme dépend principalement du modèle du corpus et de la forme présupposée des corpus. Dans le cas de la supervision, il convient aussi de savoir si un document doit être considéré comme ne faisant partie que d’un thème ou être un mélange de plusieurs d’entre eux.

2.2.2 Le type de r´eponse souhait´ee

Suivant le contexte de l’utilisation d’une méthode de classification, un type de réponse peut être plus souhaitable qu’un autre. Dans certains cas, l’utilisateur veut faire des catégories distinctes et savoir quel est le thème le plus important pour chaque document. Il se peut donc

(28)

que l’on souhaite simplement connaˆıtre les mots qui appartiennent à des catégories différentes. Dans d’autres cas, il suffit de savoir dans quelle catégorie appartient un document, pour savoir ceux qui traitent un même thème en ne s’intéressant pas à la thématique par elle-même. Il convient aussi de savoir si les différents thèmes sont mutuellement exclusifs ou non. Il peut aussi y avoir une sorte de hiérarchie entre les différents thèmes, ou des évolutions de ceux-ci `

a travers le temps. `A cela s’ajoute la possibilit´e d’essayer de trouver des styles de langues, etc.

Prenons le cas où les documents sont considérés comme uniquement composés de mélanges de plusieurs thèmes. Dans ce cas, la réponse sera alors formulée soit sous forme binaire, soit en coefficient de proportion ou encore sous forme de distribution de probabilité de répartition des thèmes. Le choix de l’algorithme dépend évidemment de la forme de la réponse souhaitée, mais aussi selon le modèle des documents. Une explication plus détaillée se trouve dans le chapitre qui fait état des différents algorithmes 2.4.1.

2.2.3 L’apprentissage purement probabiliste versus l’approche avec information lexicale

Plusieurs approches ont été envisagées et sont présentes dans la littérature pour essayer de faire de la classification de texte. La plus utilisée à l’heure actuelle, parce que la plus performante, est l’approche statistique. Elle a en effet l’avantage de ne pas nécessiter de corpus ou données extérieures que les documents étudiés, ce qui allège considérablement le travail et facilite grandement la mise en œuvre. Cela permet en plus d’être plus flexible sur les cas d’utilisations.

Cependant, l’approche statistique, qui consiste principalement à compter le nombre d’oc-currences des mots des documents dans le corpus, ne peut faire la relation directe entre un texte parlant de “l’augmentation du prix de l’essence” avec “l’évolution du cours du pétrole dans le Moyen-Orient”. Il faut nécessairement que le vocabulaire entre ces deux textes se croise ou qu’un autre document du corpus permette de faire le pont entre les idées, ce qui n’est pas nécessairement le cas. Pourtant, un être humain parlant le fran¸cais est capable de savoir que l’essence est dérivée du pétrole, donc que les textes ont des points communs, du moins plus qu’un autre article parlant de “l’élevage des escargots”. Certains ont donc eu l’idée de rajouter des connaissances extérieures pour tenter d’améliorer les correspondances entre les mots, et de faire comme une personne le ferait instinctivement avec des associations d’idées.

Certaines personnes ont développé des dictionnaires relationnels, qui décrivent les liaisons entre les mots, ou plus précisément entre les groupes de sens (appelés synsets). Le principal est con¸cu pour la langue de Shakespeare et s’appelle Wordnet et une version traduiteR

(29)

en fran¸cais existe : Wolf . Ces deux dictionnaires ne sont malheureusement pas encoreR

terminés. Malgré cela, il est d’ores et déjà possible de relier de nombreux mots communs `

a partir de cette source, que ce soit par antonymie, méronymie, adjectif-nom-verbe, etc. Cette information peut être utile pour grouper des mots d’un sens voisin et ainsi réduire le vocabulaire. D’autres articles plus innovateurs tentent de prendre parti de la structure en arbre, pour calculer des distances entre les mots (par exemple avec les distances de Wu et Palmer ou encore de Leacock et Chodorow (Budanitsky et Hirst, 2006)) pour ensuite la transformer en distance entre les textes. Une fois la distance entre les textes trouvée, le rôle du classificateur revient à grouper les documents les plus similaires, au besoin selon des groupes prédéfinis. Malheureusement, la performance de cette méthode n’est pas toujours au rendez-vous et peu de chercheurs s’y intéressent (Agarwal et al., 2011b).

Une méthode autre a été développée pour calculer des distances entre les mots ou concepts, mais cette fois-ci en se basant sur des moteurs de recherches (Cilibrasi et Vitanyi, 2007). Ceux-ci ont des bases de données très larges de textes informatiques et donc contiennent un corpus bien plus satisfaisant pour obtenir des probabilités avec une grande précision. C’est le principe exploité dans la distance Google (Vitanyi, 2005) qui se base sur le nombre de documents qui contiennent les mots considérés. L’inconvénient majeur de cette méthode, c’est qu’il est nécessaire d’avoir une connexion Internet, et que les résultats sont variables dans le temps et selon le moteur de recherche. Il faut aussi prendre en compte que des requêtes répétées peuvent conduire à une mise sur liste noire de l’adresse IP de l’ordinateur faisant un usage abusif de cette distance.

La distance Google, par le fait qu’elle se base sur des statistiques faites sur des très grands corpus de documents, peut être vue comme une sorte de méthode probabiliste. Mais elle n’est pas la seule : l’approche bayésienne est sans conteste la plus utilisée de cette grande famille `

a ce jour. La section 2.3 dédiée à ce sujet détaille plus en profondeur ce concept. Et cette grande famille ne s’arrête pas là. Certains algorithmes, qui travaillent toujours uniquement sur les nombres d’occurrences de mots dans chaque document, adoptent une approche vec-torielle. Le corpus, grâce à la simplification des sacs de mots, est représentable sous forme d’une matrice de documents et de termes. Les valeurs à l’intérieur de la matrice deviennent alors des nombres d’occurrences, des fréquences ou des poids (comme ceux calculés avec le Term Frequency-Inverse Document Frequency). Ainsi, cette opération permet d’effectuer des opérations matricielles communes, comme la factorisation et réduction de matrices par le Décomposition en Valeurs Singulières (SVD). Cette opération est le fondement de l’algo-rithme Latent Semantic Analysis (LSA) 2.4.1 Il est aussi possible de calculer des corrélations entre des documents ou entre des mots, avec la similarité cosinus (Singhal, 2001). Ce der-nier point permet d’ouvrir les perspectives à de nombreux algorithmes de partitionnement

(30)

de données, tel que le très célèbre algorithme des K-moyennes ou celui des K-médo¨ıdes.

2.3 L’approche bay´esienne

L’approche bayésienne (souvent qualifié de statistique ou de probabiliste) est la famille d’algorithme d’Intelligence Artificielle probabiliste qui est la plus utilisée de nos jours, et ce dans un panel très varié d’application. Elle se trouve dans le traitement d’image, analyse de texte, prise de décision, etc. Certains chercheurs se sont par ailleurs attelés à trouver une explication pour son succès (Zhang, 2004). En pratique, de nombreuses raisons ont propulsé cette théorie à un tel rang de succès ; il est actuellement impossible d’envisager parler d’In-telligence Artificielle sans mentionner cette famille. Le paragraphe suivant explique la raison d’être de cette méthode et son origine.

2.3.1 Principe et int´erˆet de l’apprentissage probabiliste

A l’émergence de l’I.A., les ordinateurs étaient très peu accessibles et avaient une très faible puissance de calcul. L’histoire raconte même que Arthur Samuel, un des piliers fon-dateurs de cette discipline, travaillait la nuit dans les locaux d’IBM pour pouvoir mettre au point son programme qui jouait aux dames. À ce moment, les différents programmes qui ´

etaient considérés comme pseudo-intelligent étaient basés sur un système de règles, comme des arbres de décisions, majoritairement créés à la main. Mais la discipline évolua pour répondre à un besoin d’apprentissage automatisé. Très rapidement, des méthodes sont ap-parues, comme des classificateurs linéaires, pour séparer les données et inférer des règles ou des décisions. L’apprentissage était né. Cependant, un problème de bruit et d’incertitude s’est manifesté, que l’on associe maintenant au sur-apprentissage. Certaines valeurs peuvent ˆ

etre surprenantes, parce qu’il peut y avoir des erreurs de capteurs ou encore que certains paramètres sont inconnus. Il devient alors nécessaire de travailler avec une incertitude, et des paramètres cachés.

La solution choisie pour répondre à ce manque de l’I.A. a été de travailler avec ce qui représente l’incertitude en mathématique : le domaine des statistiques et des probabilités. Une modélisation permet alors de prendre une décision cohérente, grâce à des fonctions de probabilités. De plus, cela permet de travailler dans des domaines où la réponse appropriée a une infinité de valeurs possibles. Les valeurs cachées représentent alors les paramètres de la fonction de répartition de la distribution de probabilité choisie pour représenter le problème. Le rôle de l’apprentissage probabiliste revient alors, une fois le modèle choisi, à essayer de maximiser la vraisemblance du modèle de probabilité.

(31)

basé sur des fonctions paramétriques, mais ce n’est pas toujours le cas. Dans certaines situa-tions, la fonction de densité peut-être obtenue par des fonctions de noyaux, qui donne des fonctions de densité ne correspondant à aucun modèle statistique connu. Étant donné que les modèles bayésiens utilisés dans ce mémoire sont toutes paramétriques, le fonctionnement des fonctions de noyaux ne sera pas expliqué plus en détail.

Dans le domaine de la classification de texte, l’approche bayésienne est une des plus communes. Elle se base sur le modèle de sac de mots 2.1.1, ce qui permet de faire des statistiques dans chaque document. L’ensemble des mots possibles constitue le vocabulaire. Il est aussi important de noter que l’appellation de mot et vocabulaire est abusive : même si dans la majeure partie des cas, le mot est l’entité de base du document et de la méthode, il arrive que l’apprentissage par un modèle bayésien soit effectué sur des N-grammes. Le mot de l’approche bayésienne devient alors plusieurs mots dans le sens linguistique. Cependant, même si le travail sur des N-grammes peut apporter une amélioration de la performance de l’algorithme (Kondrak, 2005), il reste moins pratiqué que le travail sur des unigrammes. La raison principale de ce choix est souvent la simplification de la mise en œuvre, d’autant plus que la recherche de N-grammes nécessite souvent un travail sur des corpus de grandes tailles. Certaines entreprises vendent des dictionnaires de N-grammes pour travailler sur des corpus de tailles inférieurs tout en tirant avantage de l’apport de précision des N-grammes.

Les modèles bayésiens nécessitent au moins deux variables : un vecteur ou une matrice qui affectent à chaque document un thème en plus d’une matrice qui contient la probabilité de chaque mot du vocabulaire pour chaque thème. Celui-ci fait parti de la famille des algorithmes génératifs, dans le sens où un modèle parfait est supposé être capable de re-générer avec une haute probabilité les documents qui ont composé son jeu apprentissage. Contrairement aux méthodes discriminatives, qui se focalisent sur les données d’entrées pour essayer de trouver les variables cachées, les méthodes génératives essayent de trouver la valeur de la variable qui permet de mieux générer le corpus. Le but de la maximisation de la vraisemblance travaille par ailleurs dans ce sens. Si elle a été réussie, les paramètres optimums calculés lors de l’apprentissage permettent d’obtenir, pour chaque document, un vecteur de probabilité de mot. Il suffit alors de re-générer le document en respectant ce vecteur de probabilité de mot. L’hypothèse faite dans cette famille de classificateur est que plus la probabilité de générer un document du corpus est élevée, plus le modèle est approprié à la situation.

2.3.2 Les diagrammes de plaques

La performance d’une approche bayésienne dépend grandement du modèle sous-jacent, des fonctions probabilistes et des hypothèses qui sont faites. Dans certains cas, il est raisonnable d’estimer qu’un document ne contient qu’un seul thème, mais sur certains corpus, c’est une

(32)

supposition trop radicale. Avec cette hypothèse réductrice, qui peut ne pas permettre de bien séparer le contenu des documents, certains problèmes peuvent survenir sur des textes qui sont issue de plusieurs thématiques, où encore ceux qui ne traitent qu’un aspect d’une thématique. C’est généralement le cas des essais philosophiques, qui ne peuvent prétendre répondre à toutes les questions d’un thème, sans faire des restrictions de sujet, en précisant la signification de chacun des mots du thème abordé. D’un autre côté, la définition d’un mot n’est pas vraiment censée aborder une multitude de sujets dans un texte, mais plutôt essayer de se concentrer sur une signification du mot. Cependant, la polysémie reste envisageable et est généralement traitée en plusieurs points dans un dictionnaire.

Afin de surpasser toutes ces limitations, des algorithmes bay´esiens se basent sur plusieurs ´

etapes composées de variables cachées, qui sont censées raffiner la représentation des do-cuments. Ainsi, suivant le modèle choisi, il peut être possible de choisir de représenter un document comme une multitude de sujets, ou encore de surpasser d’autres problèmes de représentations. Un choix de distributions statistiques est nécessaire pour permettre le m´ e-canisme de génération des documents selon le schéma pré-établi. Les variables cachées sont `

a ce moment-là les paramètres des différentes fonctions de probabilités.

Puisque le modèle joue un rôle significatif, une représentation est apparue et commun´ e-ment admise dans la littérature scientifique. Elle est souvent composée de deux parties : un graphique qui donne le modèle, et une autre qui donne les étapes successives de génération, avec les fonctions de probabilités respectives. À titre d’illustration, nous allons rapidement mentionner l’algorithme du Labeled - LDA (L-LDA). Ce n’est pas le modèle le plus simple, qui est le bayésien na¨ıf 2.3.5, mais le L-LDA contient un modèle qui illustre bien la majorité des cas de figures qui peuvent être rencontrés. De plus, la complexité du schéma permet de comprendre pourquoi il est important d’avoir une représentation graphique claire qui ex-plique le modèle génératif visuellement. Son algorithme est dénoté par l’auteur lui-même par le schéma 2.1.

Cette représentation graphique est constituée de trois types de symboles, qui sont des cercles, des rectangles et des flèches. Chacune de ces formes ont leur utilité pour se donner un visuel sur le fonctionnement de l’algorithme considéré.

— Les cercles, qui sont parfois grisés, représentent des variables du modèle. Un label leur est associé et représente leur nom qui sera utilisé dans la description du modèle. Ainsi, dans le cas spécifique du Labeled - LDA, les variables sont au nombre de huit, et certaines sont très souvent utilisées dans les modèles. Ainsi, la variable w représente communément un mot du document, zw la thématique associée à ce mot et β la

probabilité d’un mot pour une thématique. Une autre information est aussi fournie par l’intermédiaire des cercles : dans le cas où un cercle est grisé, la variable est