• Aucun résultat trouvé

La taxonomie des solutions de filtrage mutualis´e

Ergonomie et non-intrusion - il faut que l’utilisateur puisse, en un ou deux ”clics de souris”, d´emarrer le processus de retour d’information sans qu’il ne soit d´erang´e dans son activit´e en cours. Il ne faut pas que cela soit une contrainte.

Exhaustivit´e - les utilisateurs ne signalent pas syst´ematiquement les erreurs ou l’exactitude de classement et quand ils le font c’est, le plus souvent, pour une seule des classes. Le signalement syst´ematique de bon classement de tous les messages n’est pas envisageable. Donc, l’apprentissage se fait avec un ensemble de messages qui ne correspond pas `a un ´echantillonnage i.i.d. du flot de messages.

Confidentialit´e - en g´en´eral, pour des raisons de protection de la vie priv´ee, les utilisateurs n’acceptent pas de transmettre leurs messages l´egitimes `a un administrateur de messagerie, alors qu’il s’agit des messages qu’ils ne souhaitent surtout pas voir class´es en erreur. Les utilisateurs acceptent plus facilement de fournir des retours d’information sur les spams que sur les hams.

Diversit´e des crit`eres d’appr´eciation - La d´efinition de ce que c’est un ”spam” est d´ej`a assez floue et varie selon le point de vue l´egal, ou technique mais varie aussi d’individu `a individu, aussi bien du point de vue d´efinition que du seuil de tol´erance au spam.

Retard - Il y a toujours un retard entre le moment o`u le message passe par le filtre et le moment o`u le destinataire lit le message et retourne une information de classement. Selon la ”distance” entre le filtre et le destinataire, ce retard peut varier entre quelques minutes et quelques jours. Ce retard peut aussi varier selon l’heure de la journ´ee et le jour de la semaine. Ce d´elai peut-ˆetre mˆeme exceptionnellement tr`es long : e.g. pendant les vacances.

7.4

La taxonomie des solutions de filtrage mutualis´e

Le type de solution probablement le plus largement diffus´e et utilis´e pour le filtrage de spam dans une communaut´e, ce sont les listes noires ou de r´eputation. Il s’agit de listes d’adresses IP consid´er´ees suspectes. Cette m´ethode ne rel`eve pas des techniques d’apprentissage artificiel et se caract´erise parle fait que le filtrage est fond´e uniquement sur le mode de distribution des messages et ne tient pas compte ni du contenu, ni du destinataire. Il ne s’agit pas d’une op´era- tion de classement en deux cat´egories mais juste d’identification des messages distribu´es par des interm´ediaires jug´es suspects. Ce sont des solutions ”prˆete `a l’emploi” avec un fonctionnement ind´ependant du type de communaut´e. N´eanmoins, le taux de d´etection de spams de ce type de solution rarement d´epasse 80 % sur un flot de messages r´eel [119]. Le fonctionnement de nom- breuses solutions commerciales de filtrage est bas´e sur l’utilisation de ces listes, compl´et´ees par une panoplie d’autres m´ethodes de filtrage, parfois obscures ou gard´ees secr`etes. La multiplicit´e et la complexit´e des m´ethodes devient un argument de vente.

Kolcz [149] ´enum`ere les difficult´es du filtrage individualis´e chez un ESP (Email Service Pro- vider) h´ebergeant quelques millions de boˆıtes aux lettres et ´etabli des limites de faisabilit´e se basant sur des crit`eres de coˆut et b´en´efice (mod`ele ´economique). Kolcz estime que cette option est `a privil´egier par rapport `a un filtrage collectif lorsque les spams sont dominants dans le flot et qu’une quantit´e encore importante de spams passe au travers d’un filtrage collectif.

CanIt2 et j-chkmail3 sont deux filtres anti-spam libres avec un classificateur ”Bay´esien Na¨ıf”

int´egr´e, qui distribuent les informations d’apprentissage. N´eanmoins, le mode de collecte et consti- tution des ensembles d’exemples utilis´es pour l’apprentissage diff`ere.

CanIt collecte des signatures (liste de termes) des messages re¸cus par des utilisateurs (volon- taires) du filtre [244] et les valide avant de les int´egrer dans une base commune qui sera distribu´ee `a l’ensemble des utilisateurs du filtre. En 2006, dans un forum de discussion, l’auteur de ce lo- giciel indiquait que la base de signatures contenait 6.548.626 termes extraits de 446.740 spams et 181.182 hams4. L’id´ee derri`ere cette proc´edure est que l’ensemble de messages collect´es est

repr´esentatifs du flot de messages `a filtrer et, comme dans le cas d’utilisation de corpus publiques de messages, le crit`ere de classement ne d´epend pas du destinataire.

2 CanIt- http://www.roaringpenguin.com 3 j-chkmail- http://www.j-chkmail.org 4 http://objectmix.com/sendmail/207206-spamassassin-db.html

Chapitre 7. L’utilisation mutualis´ee d’un filtre anti-spam La base de termes distribu´ee par j-chkmail est destin´ee plutot au filtrage sp´ecifique dans une population du type campus universitaire. Le corpus d’apprentissage de j-chkmail est constitu´e, pour les hams, de messages en provenance de listes de diffusion publiques caract´eristiques de cette communaut´e et de messages donn´es par des volontaires et pour les spams, de messages re¸cus par l’auteur ou dans des pi`eges `a spam. En mai 2011, cette base ´etait constitu´ee de 934468 termes extraits de 72819 spams et 63395 hams. De ces 934468 termes, seulement 201817 termes sont partag´es par les deux classes. L’id´ee derri`ere cette proc´edure est que dans le cas d’un classificateur g´en´eratif (Bay´esien Na¨ıf) le processus de filtrage revient, en fait, `a comparer le vocabulaire d’un message avec ceux des classes et de choisir la classe dont le vocabulaire ressemble le plus.

Les d´emarches de ces deux filtres sont assez ”´etonnantes”: d’une part, rien ne permet d’affirmer que les messages collect´es soient repr´esentatifs du flot de messages `a classer et, d’autre part, pour des raisons de respect de la vie priv´ee, il n’existe pas d’´evaluation s´erieuse de leur efficacit´e. Le manque d’´evaluation d’efficacit´e, en continu, fait que, malgr´e les constantes mises `a jour, ces filtres fonctionnent en boucle ouverte et, en effet, le nombre important de termes sugg`ere qu’ils soient sur-ajust´es.

N´eanmoins, ces filtres fonctionnent assez bien, selon l’impression subjective que l’on peut obtenir des utilisateurs de ces filtres. L’explication la plus probable est que les vocabulaires des classes sont assez disjoints, comme nous verrons dans le chapitre 12. Cela fait que la probabilit´e `a priori des classes et la probabilit´e conditionnelle des termes sachant la classe ont peu d’importance dans le classement : la connaissance des termes pr´esents dans chaque classe suffit pour obtenir des r´esultats satisfaisants.

Segal [233] propose l’apprentissage global d’un classificateur Bay´esien Na¨ıf avec la possibilit´e d’utilisation d’informations individualis´ees au niveau des termes. Au moment du classement d’un message on utilise, pour chaque terme, l’information globale, sauf si l’information individuelle existe avec un niveau de confiance sup´erieur. Cette m´ethode est mise en pratique dans le filtre DSPAM5. Ce filtre, utilis´e `a Rice University, contient 750K termes dans la base commune et,

en moyenne, un peu moins de 20K termes dans la base de chaque utilisateur. Cela fait que, en moyenne, chaque utilisateur a, `a sa disposition une base d’environ 770K termes. Le nombre total de termes de tous les utilisateurs, sachant qu’il y a 15.000, est de l’ordre de 300M + 750K6. Il est

`a remarquer que ce m´elange de donn´ees obtenus `a partir de sources diff´erentes n’est envisageable que sous l’hypoth`ese d’ind´ependance statistique des termes.

Enfin, on remarque qu’un des objectifs des fournisseurs de solutions commerciales de filtrage de contenu est d’avoir un produit prˆet `a l’emploi (ou presque), quelque soit l’environnement d’utilisation. Pour atteindre ce but, un principe souvent utilis´e est de baser le filtrage sur l’iden- tification des spams et non pas le classement en deux cat´egories. Cette tactique dispense (presque) le besoin de collecte de messages l´egitimes mais exige une tr`es bonne connaissance des spams en circulation, que l’on obtient grˆace `a des messages collect´es par des nombreuses sondes, pi`eges `a spam ou d´enonciation par les utilisateurs du produit en question. Ces filtres sont tr`es souvent mis `a jour plusieurs fois par jour. Il est probable, mais pas d´emontr´e, qu’ils soient, en quelque sorte, sur-ajust´es et que leur efficacit´e puisse se d´egrader tr`es rapidement en absence de mises `a jour. Ces produits utilisent des heuristiques, `a la fois complexes et artisanales, pour s´electionner les messages en provenance des pi`eges `a spam qui seront utilis´es pour le param´etrage des filtres [191]. Yih et al [249] [261] estiment, bas´es sur des analyses de contenu des messages de 200.000 utili- sateurs volontaires de hotmail.com, qu’une quantit´e importante d’erreurs de filtrage proviennent des Gray Mail, des messages dont le classement varie d’un destinataire `a l’autre. Ils supposent que ces messages sont, pour la plupart, des messages publicitaires et proposent de les identi- fier, par d´etection de campagnes publicitaires - un certain nombre de messages identiques (ou presque) envoy´es dans un intervalle de temps assez court (I-Match [50] [150]) - et de traiter ces messages s´epar´ement. Le principe est int´eressant mais il n’a pas ´et´e par d´emontr´e ni que les r´esultats puissent ˆetre transpos´ees `a d’autres types de communaut´e, ni qu’il soit applicable dans des communaut´es dont le niveau de trafic n’est pas aussi important que hotmail.com.

5

DSPAM - http://dspam.sourceforge.net

6