• Aucun résultat trouvé

7.5

Les modes d’apprentissage courants

Nous pouvons identifier au moins quatre modes d’apprentissage dans les applications de filtrage de spam, que ce soient dans les solutions commerciales ou diffus´es avec licence libre ou des propositions issues de la recherche.

Apprentissage sur les erreurs - Il s’agit d’un mode d’apprentissage o`u le destinataire re- tourne les informations sur les erreurs de classement d´etect´ees. G´en´eralement, il ne d´etecte pas toutes les erreurs et ne retourne pas les erreurs de la classe hams, sauf lorsqu’il s’agit de messages anodins (pour des questions de confidentialit´e).

Apprentissage unilat´eral (one side learning) - Cette approche se justifie par la difficult´e de collecte d’exemples de la classe ham. Le principe de fonctionnement des filtres n’est pas le classement des messages en deux cat´egories mais l’identification des spams, tout le reste ´etant consid´er´e comme ´etant des hams. Il s’agit d’une approche courante dans les solutions commer- ciales. Les spams proviennent, la plupart, des pi`eges `a spam et, parfois, des messages retourn´es par des utilisateurs des solutions.

Apprentissage sur des corpus synth´etiques - Cette approche consiste `a collecter des exemples `a partir de listes de discussion e nouvelles pour les hams e de messages des pots de miel pour les spams.

Auto-apprentissage - Il s’agit d’un mode d’apprentissage automatique, souvent dans des filtres comportant deux (ou plus) classificateurs - les messages soumis `a l’apprentissage d’un classificateur statistique sont ceux class´es par l’autre classificateur, pr´e-construit. Le classificateur construit de cette fa¸con a souvent tendance `a d´eriver progressivement, au fur et `a mesure que les erreurs d’un classificateur se propagent `a l’autre.

Ces modes d’apprentissage (ou plutˆot param´etrage, selon le cas) ont souvent des inconv´enients pratiques qui impactent leur efficacit´e ou leur utilit´e.

Ils visent surtout `a d´ependre, le moins possible, de l’intervention du le destinataire. Dans tous les cas, il s’agit d’un fonctionnement en boucle (presque) ouverte. Il n’y a donc aucune garantie que le mod`ele interne des classificateurs soit repr´esentatif du flot `a classer.

Du mode de fonctionnement en boucle ouverte et non intervention du destinataire des mes- sages d´ecoule l’impossibilit´e d’une ´evaluation objective de l’efficacit´e de classement, autre que la satisfaction ressentie par les utilisateurs de la messagerie.

Le dernier inconv´enient concerne la pertinence des exemples utilis´es pour l’apprentissage, qui ne sont jamais choisis par le classificateur, mais selon des crit`eres probablement pas optimaux. A cause de la course vers la perfection et le filtrage parfait, on peut se demander si les classificateurs construits de cette fa¸con ne sont pas sur-ajust´es.

7.6

Discussion et Conclusions

Dans ce chapitre nous avons pu identifier trois types de communaut´es ayant des caract´eris- tiques diff´erentes. Ces diff´erences sont telles que la strat´egie de filtrage optimale peut varier selon le type de communaut´e.

Les fournisseurs de solutions commerciales cherchent a cr´eer des produits passe partout. Les solutions typiques sont des solutions utilisant tout d’abord des listes noires - ce sont des solutions qui rejettent les messages par leur provenance : les origines douteuses. Ce sont des solutions qui ne d´ependent pas des caract´eristiques de la communaut´e d’appartenance du destinataire. L’efficacit´e de ces solutions ne d´epassent pas, en g´en´eral, un taux de d´etection de l’ordre de 70 `a 80 %. Ces solutions sont, en g´en´eral, compl´et´ees par des solutions de filtrage de contenu. Ces solutions de

Chapitre 7. L’utilisation mutualis´ee d’un filtre anti-spam filtrage de contenu sont, le plus souvent complexes et int`egrent rarement des retours d’information des destinataires.

Il s’agit de solutions fonctionnant en boucle (presque) ouverte `a cause du faible niveau de retour d’information pris en compte pour la mise `a jour du syst`eme de filtrage.

Tr`es peu sont les travaux publi´es concernant le classement mutualis´e de message ´electroniques. Ils s’appliquent, en g´en´eral, `a un environnement d’entreprise ou alors ils ne tiennent pas compte du type de communaut´e.

Une des voies exploit´ees consiste `a utiliser des classificateurs mixtes, utilisant des informations `

a la fois globales et sp´ecifiques au destinataire [233]. Cette voie ne semble int´eressante que dans les contextes o`u le nombre d’utilisateurs de la messagerie est limit´e ou quand le module de filtrage est proche de la boite aux lettres de l’utilisateur, `a cause du besoin de gestion des pr´ef´erences de chaque utilisateur.

Yih et Chang [249] [261] soul`event le probl`eme des messages publicitaires, probl`eme qui n’est pas sp´ecifique au filtrage mutualis´e, mais qui prend de l’importance dans ce contexte, `a cause des diff´erences d’appr´eciation par les destinataires.

Tr`es peu de r´esultats publi´es sur le filtrage de spams tiennent compte ou mentionnent les caract´eristiques particuli`eres des corpus de messages utilis´es, autres que la quantit´e par classe. Pour des questions de confidentialit´e, les messages l´egitimes de test provenaient assez souvent de listes de discussion publiques ou des boˆıtes aux lettres de plusieurs individus [9], [220]. Drucker et al [92] ont utilis´e des messages provenant d’une seule boˆıte aux lettres mais, surement pour les mˆemes raisons, les messages utilis´es n’ont pas ´et´e rendus publiques. Les messages distribu´es par listes de discussion ne constituent qu’une partie des messages re¸cus par un destinataire quelconque et pr´esentent, en g´en´eral, une diversit´e assez faible et ne sont donc pas repr´esentatifs d’un flot r´eel de messages.

Le corpus TREC Spam 2005 [64] [65] a ´et´e le premier corpus public de taille importante, constitu´e `a partir de boˆıtes aux lettres d’individus identifiables d’une mˆeme communaut´e : il s’agissait du contenu de la messagerie de la soci´et´e Enron, tomb´es dans le domaine public lors de la faillite de l’entreprise. Malgr´e l’int´erˆet de ce corpus, les messages couvrent une p´eriode autour de la banqueroute et refl`etent une situation exceptionnelle et non pas pas une situation de fonctionnement stable dans une entreprise. Le corpus TREC Spam 2007 porte une am´elioration dans le sens o`u les messages des deux classes ont ´et´e re¸cus en mˆeme temps sur le mˆeme serveur de messagerie. N´eanmoins, d’une part il s’agit encore d’utilisateurs fictifs et, d’autre part, les messages l´egitimes ont ´et´e distribu´es par des listes de diffusion auxquelles ces utilisateurs, fictifs, ont ´et´e abonn´es.

La r´eflexion men´ee dans ce chapitre sugg`ere un renforcement du fonctionnement de la boucle de retour d’information avec de l’apprentissage actif.

CHAPITRE

8

Caract´eristiques spatiotemporelles d’un flot de messages

La statistique est la premi`ere des sciences inexactes.

Edmond et Jules de Goncourt

8.1

Introduction

Le but de l’apprentissage d’un classificateur est la construction d’un mod`ele (ou une fonction) `a partir d’un ensemble d’exemples repr´esentatifs de la population d’o`u seront extraits les objets `a traiter : les exemples r´esultent d’un tirage al´eatoire i.i.d. de la population d’objets.

Dans un cas g´en´eral de classement d’objets il est possible que les exemples ne soient pas significatifs de la population, et cela pour plusieurs raisons. Dans le contexte qui nous concerne, le classement mutualis´e de messages ´electroniques, on peut avancer deux raisons : la constitution d’un ensemble d’´echantillons significatifs du flot de messages peut ne pas ˆetre une tˆache triviale et mˆeme si cela ´etait possible, il peut y avoir une d´erive temporelle.

Dans ce chapitre, nous menons une r´eflexion sur les causes de ces d´ecalages, et la fa¸con dont elle se manifeste. Dans le Chapitre 9, nous proposons une solution bas´ee sur une architecture d’apprentissage actif en ligne.