Repr´esentation des messages - Contribution au classement statistique mutualisé de messages éle

9.2 Repr´esentation des messages

Le choix du niveau de décomposition - mots ou caractères - pour la représentation de messages ne peut pas se justifier ni de fa¸con analytique, ni de fa¸con objective. Il s’agit juste d’un choix justifié par des arguments subjectifs. Des arguments qui pourront ne pas être valables dans l’avenir ou dans d’autres contextes linguistiques.

Notre choix est d’utiliser des 4-grams de niveau caractère extraits de la fa¸con suivante : on considère une fenêtre textuelle de taille 4 caractères se dépla¸cant le long du message, caractère par caractère. Ainsi, la phrase ”allons enfants de la patrie” va générer les 4-grams suivants : ”allo”, ”llon”, ”lons”, ”ons ”, ”ns e”, ”s en”, ” enf”, ”enfa”, ”nfan”, ...

Plusieurs arguments justiﬁent le choix niveau caract`ere et pas mot :

– simplicité et précision - l’heuristique d’extraction de n-grams de niveau caractère peut être définie de fa¸con précise, tandis que l’extraction de mots suppose la définition d’un ensemble de caractères séparateurs. Certains de ces caractères seront ou pas des séparateurs, selon le contexte et la langue, par exemple le ”.” selon qu’il se trouve à la fin d’un mot (fin de mot et de phrase), entouré de chiffres (séparateur décimal) ou entouré de lettres (partie d’une sigle). Il n’y a pas d’heuristique simple et générale permettant de définir la règle d’extraction des mots ;

– robustesse - les n-grams de niveau caractère plus résistants aux attaques visant le proces- sus de segmentation des messages. Une technique souvent utilisé les ”spammeurs” est, par exemple, l’introduction de caractères séparateurs (espaces, virgules, caractères spéciaux, ...) entre les lettres des mots critiques (p. ex., ”V,I,A,G,R,A”) de fa¸con à perturber l’algorithme de segmentation des messages. Par ailleurs, ce niveau de décomposition est courante dans les outils de correction orthographique, puisqu’il permet de détecter et corriger les erreurs, considérées comme du bruit ;

– regroupement par le sens - l’utilisation des n-grams est une fa¸con simple d’extraire la racine des mots permettant de regrouper, par exemple, des formes conjuguées. Dans ce cas de représentation de niveau mot, il faut faire appel à des opérations de lemmatisation et/ou stemming, avec des heuristiques non triviales et dépendantes de la langue utilisée.

– dépendances inter mots - l’extraction des n-grams au fil de l’eau permet de préserver, au moins partiellement, la relation de succession des termes dans le texte, ce qui n’est pas le cas lorsque l’unité est le mot.

La longueur, quatre, a été choisie de fa¸con expérimentale, dans des expérimentations prélimi- naires, et constitue un compromis entre la complexité et la capacité d’extraction d’information : l’ordre 3 semble ne pas extraire suffisamment d’information et le niveau 5 génère des classificateurs exigent plus d’échantillons pour constituer un vocabulaire significatif.

Un argument contre l’utilisation de mots comme terme élémentaire de segmentation est l’envi- ronnement de fonctionnement hostile. En effet, dans la classe ham les messages sont bien rédigés alors que ce n’est pas le cas dans la classe spam. Des nombreuses astuces sont utilisées pour tromper les analyseurs lexicaux des classificateurs. Par exemple, le mot ”VIAGRA” peut être écrit soit comme ”V I A G R A” (insertion de caractères séparateurs entre les lettres) ou alors ”VI4@R4” (remplacement de lettres par des caractères visuellement semblables). Le but étant de faire en sorte que le texte soit visuellement compréhensible par l’expéditeur mais pas par un analyseur lexical.

Enfin, ces choix sont à revoir dans les contextes de langue dominante dans le flot. Par exemple, la langue dominante peut appartenir à la famille des langues agglutinantes (turc, hongrois, ou japonais) ou être codée avec d’autres familles de caractères (langues asiatiques ou des pays de l’est). Malheureusement, nous n’avons pas d’échantillons de messages permettant de vérifier ces contextes.

Chapitre 9. Un ﬁltre anti-spam avec apprentissage actif en ligne

Sprob

m

Slogit

w0 w1 w2 w3 wn

Fig. _{9.2: SLDC - Un classiﬁcateur linear discriminant simple}

9.3 SLDC - Simple Linear Discriminative Classifier

Nous avons choisi un algorithme du type discriminant linéaire, simple, décrit par la Figure 9.2. Du point de vue fonctionnel (en mode classement), il est similaire au Perceptron, avec la fonction de lien (link function) remplacée par une fonction sigmo¨ıde. L’algorithme de classement s’inspire, en partie, de celui proposé par Goodman et Yih [115], avec une stratégie d’apprentissage différente (actif plutôt que supervisé) et des modifications dans la représentation des messages.

Le résultat du classificateur est une valeur de score, évaluée selon l’Équation 6.14, et présenté en deux échelles : logit (_{−∞, ∞) et probabilité [0, 1]. Ces scores sont donnés par :}

Slogit =− hw · mi

Sprob=

1 1 + e−hw·mi

(9.1) avec w le vecteur de paramètres du classificateur et m la représentation du message à classer. La classe attribuée par le classificateur résulte d’un seuillage utilisant une valeur triviale de seuil :

ˆ y = ( 1 si Slogit> 0 (spam) 0 si Slogit≤ 0 (ham) (9.2) Les deux scores Slogitet ˆy = Sprob´etant li´es par la fonction sigmo¨ıde, la valeur de seuil Slogit = 0,

correspond `a Sprob= 1/2.

Remarque 9.1 (Les ´echelles des scores). Les d´esignations Slogitet Sprobconstituent, d’une certaine

fa¸con, un abus de langage et servent juste à établir un lien entre les échelles de valeur de ces deux présentations de score et ne correspondent pas à une estimation de probabilité à posteriori de la classe, comme on pourrait penser. La raison principale, dans le contexte présent, est que l’apprentissage actif ne résulte pas d’un échantillonnage i.i.d. de l’ensemble d’exemples.

9.3.1 Apprentissage

Notre choix d’apprentissage en ligne se fait par descente de gradient stochastique (voir Annexe C). La fonction de coˆut est l’erreur quadratique :

Lt= (yt− ˆyt)2 (9.3)

avec y ∈ {0, 1} l’étiquette réelle du message et 0 ≤ ˆy ≤ 1 est le score du message, estimé par le classificateur.

La mise `a jour du vecteur de param`etres se fait selon : wt+1= wt+ ηt+1∇wLt

= wt+ ηt+1(yt− ˆyt)m

(9.4) Le taux d’apprentissage ηt suit une loi de récurrence définie par :

ηt=

1_{− η}∞

Dans le document Contribution au classement statistique mutualisé de messages électroniques (spam) (Page 103-105)