• Aucun résultat trouvé

dans l’´evaluation de la pertinence des documents donnait des r´esultats plus satisfaisants. L’id´ee de cette inclusion est de ramener les caract´eristiques des documents `a celles d’un document de taille fixe normalis´ee.

Dans les applications de filtrage de spam, la plage de variation de la longueur des messages est assez large : de quelques kilo-octets `a quelques m´ega-octets et les spams sont souvent bien plus courts que les hams, rarement d´epassant 20 Ko.

Dans les applications de filtrage de spam, les approches les plus courantes de normalisation de la longueur sont :

1. Utiliser les N termes les plus pertinents - C’est l’approche propos´ee par Graham [116] (15 termes), et souvent utilis´ee dans les applications distribu´ees sous licence GPL. Il s’agit d’extraire les termes trouv´es dans le message entier et de ne retenir que les plus pertinents. Cela fait que les documents sont vus comme ayant toujours une taille fixe. Cette m´ethode sert `a la fois pour normaliser la longueur du document et `a r´eduire la dimension du probl`eme.

2. Tronquer le message `a une longueur fixe Cormack [58] a utilis´e des n-grams pour repr´esenter des messages tronqu´es `a environ 3500 caract`eres et observ´e des meilleurs r´esul- tats que si la totalit´e du message avait ´et´e retenue. Aussi, l’utilisation de n-grams de taille fixe fait que le nombre d’attributs est fixe comme la longueur du document.

3. Utiliser la norme Euclidienne (Norme L2), pour normaliser les vecteurs d’attributs [226].

xi−normalized=

xi

< x

i, xi >

Bien entendu, cette m´ethode ne peut pas ˆetre appliqu´ee que pour certains types d’algo- rithmes de classement et pour certaines repr´esentations.

4. Ne rien faire.

4.8

La Multiplicit´e des Langues

La multiplicit´e des langues dans les applications de classement de spams est un probl`eme connu, mais `a peine effleur´e. L’hypoth`ese courante que la messagerie ´electronique est constitu´ee de messages en langue anglaise ou utilisant uniquement l’alphabet latin n’est pas justifiable [59]. N´eanmoins, la majorit´e des travaux publi´es utilisent des corpus en langue anglaise et, assez souvent, ne le mentionnent mˆeme pas. Une explication probable est l’environnement de recherche : les travaux sont souvent effectu´es par des anglophones, ou utilisant des corpus de messages en anglais. Accessoirement, quelques travaux publi´es sont plus sp´ecifiques au traitement de messages en d’autres langues, mais nous n’avons pas trouv´e, `a ce jour, des publications concernant la probl´ematique de la multiplicit´e linguistique dans les spams.

Du cˆot´e des messages l´egitimes, dans les pays non-anglophones, il n’est par rare qu’une per- sonne puisse avoir des correspondants dans plusieurs pays et ´ecrire et recevoir ses messages dans les langues de ses diff´erents correspondants. Si la langue dominante aux ´Etats Unis est l’anglais, en France, le contenu d’une boˆıte aux lettres peut varier du tout en fran¸cais `a un m´elange de fran¸cais, anglais, allemand, italien, ... avec des proportions variables selon l’utilisateur. Il peut aussi arriver que le mˆeme message puisse contenir des parties en plusieurs langues.

Du cˆote des spams, MessageLabs [130] rapporte que aux ´Etats Unis la langue dominante dans les spams est l’anglais pour plus de 90 %, tandis que ce chiffre peut baisser `a de l’ordre de 50 % dans d’autres pays. En mˆeme temps, il n’est pas rare de trouver des spams dont le contenu est un m´elange de plusieurs langues. Il n’est pas raisonnable de consid´erer comme vraie l’hypoth`ese que les spams sont des messages construits de fa¸con coh´erente.

Du point de vue linguistique, les langues se classent selon leur morphologie en : agglutinante, flexionnelle, isolante, synth´etique ou polysynth´etique [28, p. 41] et [97]. Ce classement indique,

Chapitre 4. La Repr´esentation des Messages ´Electroniques par exemple, comment des nouveaux mots peuvent se cr´eer `a partir des morph`emes15. D’autre

part, ce classement se fait selon les caract´eristiques dominantes de la langue : chaque langue pr´esente, g´en´eralement, des caract´eristiques de plusieurs classes. Ces diff´erences morphologiques font que les op´erations classiques de r´eduction de dimension fond´ees sur la recherche des ra- cines ou d´ecomposition en morph`emes (telles la lemmatisation et stemming) sont tr`es fortement d´ependantes de chaque langue.

Des langues diff´erentes peuvent impliquer aussi des codages de caract`eres diff´erentes. Alors que le code ASCII sur 7 bits suffit pour coder la langue anglaise, d’autres langues utiliseront des jeux de caract`eres diff´erents et mˆeme du codage sur plusieurs octets.

L’approche la plus courante dans les applications multi-langues16de recherche documentaire

est la traduction de la requˆete soit dans les diff´erentes langues des documents soit dans une langue pivot [120, p. 149-179] [146].

Dans les applications de cat´egorisation de textes, les approches les plus fr´equentes sont l’ex- traction de ontologies [85], ce qui remonte l’analyse `a un niveau conceptuel (s´emantique), ou alors, une extension multi-langue de l’approche d´ej`a utilis´ee pour les probl`emes mono-langues [132] [24] [6] [208]. Dans cette derni`ere approche, on ins`ere un niveau de traduction qui peut ˆetre avant ou apr`es la segmentation du texte, avec g´en´eration d’un vocabulaire dans une langue cible ou dans toutes les langues possibles des documents `a classer17.

Jalam [132] et Biskri [24] sugg`erent l’utilisation de n-grams de niveau caract`ere pour la seg- mentation vue la propri´et´e intrins`eque d’extraction de la racine des termes (stemming) sans avoir `

a faire appel `a des heuristiques d´ependantes de la langue.

Osgur [198] a propos´e une m´ethode de filtrage de spam, pour des langues agglutinantes18,

(en particulier la langue Turque). Sa m´ethode consiste `a extraire la racine de chaque mot trouv´e dans le texte, avant de la transmettre au classificateur. Ciltik [53] exp´eriment´e des n-grams de niveau caract`ere (apr`es traitement morphologique) et compar´e les r´esultats de classement de messages en anglais et en turc. Ces exp´erimentations sont int´eressantes puisque d´emontrent l’int´erˆet d’utilisation de n-grams de niveau caract`ere, d´ej`a pr´evu par Jalam, n´eanmoins elles ont l’inconv´enient d’avoir ´et´e faites dans un contexte mono-langue.

La prise en compte de l’aspect multi-langue dans le classement de spams pr´esente quelques difficult´es qui n’existent pas dans le classement de documents textuels courants.

1. Identifier la langue du message n’est pas une op´eration ni facile ni fiable. D’une part les spams sont des documents cr´e´es sans aucun souci de conformit´e (bien au contraire) et d’autre part, la longueur des textes n’est g´en´eralement pas suffisante pour d´etecter la langue. Dans la boˆıte aux lettres de l’auteur, au mois de novembre 2009, la longueur moyenne19 des spams est de 5,3 Ko (dont 90 % ont une longueur inf´erieure `a 5,7 Ko)

et celle des hams est de 16,9 Ko (dont 90 % ont une longueur inf´erieure `a 6,9 Ko). 2. On trouve souvent, dans les spams, des morceaux de texte en plusieurs langues dans le mˆeme

message, ou alors des mots ”synth´etiques”, ajout´es dans le but de tromper les m´ethodes de segmentation fond´ees sur le caract`ere r´egulier des messages.

3. Le vocabulaire utilis´e par le classificateur est l’union des vocabulaires de toutes les langues pr´esentes dans les boˆıtes aux lettres. Mˆeme si les langues sont souvent tr`es diff´erentes, il n’est pas raisonnable de consid´erer les vocabulaires comme ´etant disjoints (en particulier `a cause des mots communs).

4. Les messages ´electroniques contiennent, en plus de la partie r´edig´ee dans un langage naturel, des parties codifi´ees (p. ex. des URL) et des m´eta-informations telles les en-tˆetes ou des

15

En linguistique, on d´efinit un morph`eme, ou radical, comme la plus petite unit´e porteuse de sens qu’il soit possible d’isoler dans un ´enonc´e.

16

En anglais, Cross Language Information Retrieval

17

On a trouv´e des r´ef´erences `a l’utilisation de l’Esp´erantocomme langue cible, mais aucune publication d´edi´ee `

a ce cas particulier

18

Dans une langue agglutinante les mots sont cr´e´es par ajout d’affixes (g´en´eralement des suffixes) `a un radical. Le basque, le turc, le finlandais, le japonais et le cor´eensont des exemples de langues agglutinantes.

19

Ces valeurs incluent les en-tˆetes, les informations de mise en forme (HTML) et les ´eventuels fichiers attach´es et images.