S´election des attributs r´eduction de la dimension

indiquant la fa¸con dont le message a été constitué ainsi que son parcours depuis sa création (la séquence de serveurs de messagerie traversés par le message). Cette partie structurée permet de attribuer une sorte de ”réputation” au message.

4.6 S´election des attributs - r´eduction de la dimension

Dans les applications de classement de documents textuels, il n’est pas rare que la dimension (nombre d’attributs différents extraits des exemples) atteigne 104_`_{a 10}7_{, dont très peu pertinents}

[25] [171]. L’utilisation de termes d’ordre sup´erieur au mot contribue `a cet explosion.

Le premier problème lié à la dimension est la complexité algorithmique (temps de traitement et place de stockage requise). Idéalement, on privilégie des algorithmes dont la complexité augmente au plus linéairement avec la taille du problème. Des algorithmes faisant appel à, par exemple, des inversions de matrices, peuvent devenir inutilisables avec des dimensions trop importantes.

Intuitivement, la vitesse d’apprentissage décroit avec l’augmentation du nombre d’attributs [25]. Langley et Iba [161] [162] ont démontré analytiquement que pour un classificateur k-NN, le nombre d’exemples nécessaires augmente, en moyenne, exponentiellement avec le nombre d’attributs.

Le sur-ajustement (overfitting) est une autre conséquence du nombre important d’attributs [23, p. 9], [126, p. 194], [138, p. 16]. Il s’agit d’attribuer à un problème une complexité (dimension) plus importante qu’il ne le faut, ce qui diminue la capacité de généralisation du classificateur.

Cette phase de sélection d’attributs ou réduction de la dimension de la représentation est effectuée, après la segmentation.

Pour ce faire, il y a deux approches, selon la méthode utilisée [138, p. 16] [231] : sélection d’un sous-ensemble d’attributs ou extraction des attributs.

4.6.1 S´election de sous-ensembles d’attributs

Il s’agit de s´electionner et supprimer les attributs non pertinents ou qui n’ont pas d’inﬂuence dans le classement. Il y a encore deux sous-approches : filtrage et wrapper.

Approche wrapper

Le principe de cette approche est la recherche de l’ensemble d’attributs qui minimise l’erreur de généralisation du classificateur. Dans une première méthode, on va chercher à construire l’ensemble des attributs de fa¸con incrémentale, les ajoutant un par un, à partir d’un ensemble vide [231], [5, p.106]. À chaque étape, les attributs ajoutés sont ceux qui contribuent le plus à la réduction de l’erreur de classement. L’opération s’arrête lorsque l’erreur de classement ne diminue plus de fa¸con significative. C’est l’approche de sélection directe7_{. Une variante est la}

s´election inverse8_{: il s’agit de partir plutˆ}_{ot de l’ensemble complet et d’enlever les attributs, un}

par un, jusqu’`a ce que l’erreur de classement cesse de diminuer.

L’intérêt de cette approche est son indépendance de l’algorithme de classement, vu comme une boˆıte noire. Par contre, l’inconvénient est la complexité algorithmique : il faut évaluer, à chaque pas, l’erreur de classement marginal pour chaque attribut non encore traité. Une diminution de la complexité peut être obtenue dans les cas où il est possible d’éliminer plusieurs attributs, à chaque pas de traitement. Néanmoins, vu l’ordre de grandeur des dimensions en jeu, l’approche devient intraitable pour les problèmes de classement de textes. Pour cette raison, cette approche est très rarement utilisée dans ces problèmes [231].

Dans le cas particulier du classement de spams, s’agissant d’un processus évolutif (non stationnaire), on cherchera à faire, tant que possible, de l’apprentissage incrémental, ce qui nécessite la mise à jour fréquente du modèle et rend cette approche encore moins intéressante.

En anglais, forward selection

Chapitre 4. La Repr´esentation des Messages ´Electroniques Approche filtrage

Dans cette approche, la pertinence des termes est évaluée uniquement par rapport à des caractéristiques des attributs, sans tenir compte de l’erreur de classement et, par conséquent, du type d’algorithme de classement.

Il s’agit d’évaluer l’importance de l’attribut et de sélectionner les plus pertinents. Sebastiani [231] cite quelques critères courants pour les tâches de classement de textes. La pertinence d’un attribut, par rapport au classement s’interprète comme une dépendance statistique entre la classe et l’attribut - c’est ce qui essayent d’évaluer, la plupart de ces critères.

– ´Elimination des formes banales9 _{- il s’agit de supprimer les termes qui ont un faible}

pouvoir discriminant. Par exemple, les articles (le, la, les, ...). Il s’agit d’une m´ethode d´ependante de la langue.

– Fr´equence dans les Documents - DF10 _{- Il s’agit du nombre de documents dans}

lesquels l’attribut est présent. Ce critère sert juste à éliminer les termes peu fréquents, statistiquement peu représentatifs. Il n’est pas rare que certains filtres éliminent aussi les termes dont la fréquence est élevée dans toutes les classes et qui finissent par être peu discriminants.

– Gain d’Information - IG11 _{- Il s’agit d’une mesure issue de la th´eorie d’information}

´evaluant la diminution d’incertitude moyenne de la classe lorsque l’on tient compte de la pr´esence/absence du terme ti [73, p. 19]. IG(ti) = H(C)− H(C|ti) IG(ti) =− X c∈C P (c) log2P (c) + X c∈C t∈Ti P (t)P (c_{|t) log}2P (c|t)

où C =_{{ham, spam}, représente l’ensemble des classes, et T}i={ti, ti} indique la présence

ou absence du terme dans le document.

NOTE : En fait, ce critère correspond à l’Information Mutuelle, tel qu’il est connu en Théorie d’Information, entre le terme ti et la classe, mais il est

appelé autrement pour ne pas être confondu avec le critère Rapport d’Association, connu, à tort, par l’appellation Information Mutuelle. Il y a parfois confusion et l’on trouve des publications utilisant l’un des critères comme étant l’autre - voir par exemple Battiti [15] ou Zaffalon [272], qui ont utilisé ce critère, tout en le désignant, à juste titre, ”Mutual Information”.

– Information Mutuelle - MI12_{- Ce critère a été proposé par Church et Hanks [52] sous le}

nom Rapport d’Associaton13_{, un rapport dérivé de l’information mutuelle, et défini comme}

´etant : I(t, c) = log2 P (t, c) P (t) P (c) = log2 P (t_|c) P (t) = log2 P (c_|t) P (c)

Cette valeur peut être estimée à partir des valeurs de la table de contingence de l’attribut versus la classe, ce qui permet d’estimer les quatre valeurs correspondantes aux quatre cases de la table. Deux valeurs dérivées sont la moyenne et le maximum :

Iavg(t) = X c∈{ham,spam} P (c) I(c, t) Imax(t) = max c∈{ham,spam}I(c, t) 9

Les formes banales sont aussi connues sous la d´enomination termes-outils. En anglais : stop word removal

En anglais, Document Frequency

En anglais, Information Gain

En anglais, Mutual Information

4.6. S´election des attributs - r´eduction de la dimension

Le problème avec ce critère est qu’il est fortement dépendant de la probabilité marginale des termes [266], ce qui fait que, pour des termes avec probabilités conditionnelles P (c_|ti)

équivalentes les termes rares auront des scores plus importants que des termes courants. Ces scores ne sont donc pas comparables si la plage de variation des probabilités à priori des termes est trop importante.

– Test de χ2_{- Le test statistique de χ}2_{permet d’´evaluer l’ind´ependance statistique du terme}

t et de la classe c, `a partir de la table de contingence du terme versus la cat´egorie. χ2(tk, ci) = |T | (P (tk

, ci) P (tk, ci) − P (tk, ci) P (tk, ci))2

P (tk, ci) P (tk, ci) P (tk, ci) P (tk, ci)

Cette valeur peut être comparée à une distribution de χ2 _{avec un degré de liberté pour}

tester l’ind´ependance entre le terme et la classe.

Yang et Pedersen [266] et Rogati et Yang [215] ont comparé, pour une application de classement thématique, l’efficacité de cinq critères, dont certains cités ci-dessus et ont trouvé des meilleurs résultats pour χ2_{, IG et DF, devant MI. Yang et Pedersen observent une très forte}

corrélation entre ces trois critères et suggèrent qu’ils peuvent être choisis indifféremment, selon les caractéristiques de l’application. Dans ces deux études, l’efficacité était encore optimale pour des ensembles d’attributs de dimension inférieure à 10 % de la dimension d’origine. Les deux études ont utilisé le même corpus de documents : REUTERS.

D’autres critères sont cités par Sebastiani [231] et ses références.

4.6.2 Extraction (ou construction) d’attributs

Le but des méthodes d’extraction d’attributs est, non pas de supprimer les attributs inutiles mais, d’en créer des nouveaux, synthétiques, représentant aussi bien, du point de vue de l’algorithme de classement, le document de départ, mais avec moins d’attributs.

Les méthodes les plus courantes dans les applications de classement textuel sont des traitements morphologiques des termes : il s’agit d’effectuer des traitements au niveau de la forme des termes (mots), normalement pour regrouper les attributs ”équivalents”.

Lemmatisation - c’est le regroupement sous une forme canonique (en général à partir d’un dictionnaire) des occurrences du texte [164]. En fran¸cais, ce regroupement se pratique en général de la manière suivante :

– les formes verbales à l’infinitif – les substantifs au singulier – les adjectifs au masculin singulier – les formes élidées à la forme sans élision

Par exemple, les mots ”petit ”, ”petite”, ”petits”, ”petitesse” sont tous convertis en ”petit ”. Aussi, les différentes formes du verbe ”être” : ”suis”, ”est ”, ”sommes”, ... sont convertis à l’infinitif.

Extraction des racines : Stemming - c’est une transformation similaire à la lemmatisation, mais il s’agit juste d’extraire les racines des termes, par suppression des affixes. En langue anglaise, l’algorithme de stemming le plus courant est celui proposé par Por- ter [182, p.31] [203].

Ces deux méthodes sont parfois incluses dans la catégorie ”séléction d’attributs”, et sont dé- pendantes de la langue. Dans un environnement multi-langues, l’implémentation des heuristiques spécifiques à chaque langue est nécessaire.

Leopold et Kindermann [169], Lewis [173] ont montré que, dans le cas particulier des algorithmes de classement du type SVM, des méthodes de sélection d’attributs du type lemmatisation et stemming n’améliorent pas leur efficacité. appliqués à des langues telles le fran¸cais et allemand. D’autres méthodes d’extractions/construction d’attributs existent, telles la PCA (Analyse des Composantes Principales) [23, p. 561], ces méthodes restent coûteuses et ne sont pas utilisées dans les applications de classement textuel.

Chapitre 4. La Repr´esentation des Messages ´Electroniques

4.6.3 R´eduction de dimension dans les applications de filtrage de spam

Dans les paragraphes précédents nous avons présenté quelques méthodes courantes de sélec- tion d’attributs utilisées dans les applications de traitement et classement de documents textuels. Ces méthodes sont toutefois peu ou pas utilisées dans les applications courantes de filtrage de spam, en particulier dans les filtres bayésien na¨ıfs. La raison première est le besoin d’une opé- ration qui relève le plus souvent d’une optimisation, donc complexe à mettre en oeuvre et de coût de traitement souvent élevé. Le flot de messages n’étant pas un processus stationnaire les classificateurs doivent être mis à jour en permanence. Cela fait que l’on privilégie les méthodes plus simples de sélection d’attributs.

Ces méthodes visent, en réalité, à réduire la dimension du vocabulaire construit lors de l’apprentissage. L’approche que l’on trouve fréquemment dans les classificateurs ”dit bayésiens na¨ıfs” issus de la communauté des logiciels libres est plutôt de garder la taille de départ du vocabulaire et de sélectionner, dans le message à classer, les N termes les plus ”informatifs”14_{. Le critère}

définissant la relation d’ordre est la quantité d’information sur la classe contenue dans chaque terme : I(t) = 1_{− H(P}t(c = spam)), t∈ D H(x) = x log1 x+ (1− x) log 1 1− x (4.3)

La fonction I(t) est convexe, atteint sa valeur minimale pour P = 0.5 et est symétrique par rapport au minimum. L’utilisation d’une autre fonction quelconque avec ces caractéristiques comme critère permet de préserver la relation d’ordre. Dans la pratique, la fonction utilisée est plutôt :

I′(t) =_|Pt(c = spam))− 0.5| (4.4)

Pour le problème de filtrage de spam, Drucker et al [92] ont expérimenté plusieurs critères de sélection d’attributs, en particulier ceux qui avaient déjà été comparés par Yang et Pedersen [266] et ont estimé que la suppression des formes banales dégrade l’efficacité et que pour les SVM, l’absence de sélection d’attributs ne modifie pas ni l’efficacité ni les performances de l’algorithme de classement. Aussi, les algorithmes de ”boosting” utilisant des arbres de décision choisissent naturellement les meilleurs attributs comme partie intégrante de l’apprentissage [92].

Dans l’état actuel des recherches, l’utilité d’une méthode générale de réduction du nombre d’attributs reste un problème ouvert.

Pour le problème de classement thématique de textes, certains travaux présentent des ré- sultats, en apparence, contradictoires. Par exemple, pour le classement thématique utilisant des SVMs, Drucker et Vapnik [92] Leopold et Kindermann [169] Bekermann [17] et Lewis et Yang [173] ont estimé que la sélection d’attributs n’était pas utile, alors que Rogati et Yung [215] Gabrilovich et Milkovitch [111] estiment le contraire. Ces auteurs avancent des explications, tout à fait plausibles, telles les caractéristiques statistiques du corpus (vocabulaire important et di- versifié) et les caractéristiques particulières des applications [111] [17], la robustesse des SVMs aux attributs non pertinents [173].

Aussi, il ne semble pas raisonnable d’étudier des méthodes de sélection d’attributs indépen- damment de l’algorithme de classement et des données [59].

Dans le document Contribution au classement statistique mutualisé de messages électroniques (spam) (Page 59-62)