La taxonomie des solutions de ﬁltrage mutualis´e

Ergonomie et non-intrusion - il faut que l’utilisateur puisse, en un ou deux ”clics de souris”, démarrer le processus de retour d’information sans qu’il ne soit dérangé dans son activité en cours. Il ne faut pas que cela soit une contrainte.

Exhaustivité - les utilisateurs ne signalent pas systématiquement les erreurs ou l’exactitude de classement et quand ils le font c’est, le plus souvent, pour une seule des classes. Le signalement systématique de bon classement de tous les messages n’est pas envisageable. Donc, l’apprentissage se fait avec un ensemble de messages qui ne correspond pas à un échantillonnage i.i.d. du flot de messages.

Confidentialité - en général, pour des raisons de protection de la vie privée, les utilisateurs n’acceptent pas de transmettre leurs messages légitimes à un administrateur de messagerie, alors qu’il s’agit des messages qu’ils ne souhaitent surtout pas voir classés en erreur. Les utilisateurs acceptent plus facilement de fournir des retours d’information sur les spams que sur les hams.

Diversité des critères d’appréciation - La définition de ce que c’est un ”spam” est déjà assez floue et varie selon le point de vue légal, ou technique mais varie aussi d’individu à individu, aussi bien du point de vue définition que du seuil de tolérance au spam.

Retard - Il y a toujours un retard entre le moment où le message passe par le filtre et le moment où le destinataire lit le message et retourne une information de classement. Selon la ”distance” entre le filtre et le destinataire, ce retard peut varier entre quelques minutes et quelques jours. Ce retard peut aussi varier selon l’heure de la journée et le jour de la semaine. Ce délai peut-être même exceptionnellement très long : e.g. pendant les vacances.

7.4 La taxonomie des solutions de filtrage mutualis´e

Le type de solution probablement le plus largement diffusé et utilisé pour le filtrage de spam dans une communauté, ce sont les listes noires ou de réputation. Il s’agit de listes d’adresses IP considérées suspectes. Cette méthode ne relève pas des techniques d’apprentissage artificiel et se caractérise parle fait que le filtrage est fondé uniquement sur le mode de distribution des messages et ne tient pas compte ni du contenu, ni du destinataire. Il ne s’agit pas d’une opéra- tion de classement en deux catégories mais juste d’identification des messages distribués par des intermédiaires jugés suspects. Ce sont des solutions ”prête à l’emploi” avec un fonctionnement indépendant du type de communauté. Néanmoins, le taux de détection de spams de ce type de solution rarement dépasse 80 % sur un flot de messages réel [119]. Le fonctionnement de nombreuses solutions commerciales de filtrage est basé sur l’utilisation de ces listes, complétées par une panoplie d’autres méthodes de filtrage, parfois obscures ou gardées secrètes. La multiplicité et la complexité des méthodes devient un argument de vente.

Kolcz [149] énumère les difficultés du filtrage individualisé chez un ESP (Email Service Pro- vider) hébergeant quelques millions de boˆıtes aux lettres et établi des limites de faisabilité se basant sur des critères de coût et bénéfice (modèle économique). Kolcz estime que cette option est à privilégier par rapport à un filtrage collectif lorsque les spams sont dominants dans le flot et qu’une quantité encore importante de spams passe au travers d’un filtrage collectif.

CanIt2 _{et j-chkmail}3 _{sont deux filtres anti-spam libres avec un classificateur ”Bayésien Na¨ıf”}

intégré, qui distribuent les informations d’apprentissage. Néanmoins, le mode de collecte et consti- tution des ensembles d’exemples utilisés pour l’apprentissage diffère.

CanIt collecte des signatures (liste de termes) des messages re¸cus par des utilisateurs (volontaires) du filtre [244] et les valide avant de les intégrer dans une base commune qui sera distribuée à l’ensemble des utilisateurs du filtre. En 2006, dans un forum de discussion, l’auteur de ce lo- giciel indiquait que la base de signatures contenait 6.548.626 termes extraits de 446.740 spams et 181.182 hams4_{. L’idée derrière cette procédure est que l’ensemble de messages collectés est}

représentatifs du flot de messages à filtrer et, comme dans le cas d’utilisation de corpus publiques de messages, le critère de classement ne dépend pas du destinataire.

2 CanIt- http://www.roaringpenguin.com 3 j-chkmail- http://www.j-chkmail.org 4 http://objectmix.com/sendmail/207206-spamassassin-db.html

Chapitre 7. L’utilisation mutualisée d’un filtre anti-spam La base de termes distribuée par j-chkmail est destinée plutot au filtrage spécifique dans une population du type campus universitaire. Le corpus d’apprentissage de j-chkmail est constitué, pour les hams, de messages en provenance de listes de diffusion publiques caractéristiques de cette communauté et de messages donnés par des volontaires et pour les spams, de messages re¸cus par l’auteur ou dans des pièges à spam. En mai 2011, cette base était constituée de 934468 termes extraits de 72819 spams et 63395 hams. De ces 934468 termes, seulement 201817 termes sont partagés par les deux classes. L’idée derrière cette procédure est que dans le cas d’un classificateur génératif (Bayésien Na¨ıf) le processus de filtrage revient, en fait, à comparer le vocabulaire d’un message avec ceux des classes et de choisir la classe dont le vocabulaire ressemble le plus.

Les démarches de ces deux filtres sont assez ”étonnantes”: d’une part, rien ne permet d’affirmer que les messages collectés soient représentatifs du flot de messages à classer et, d’autre part, pour des raisons de respect de la vie privée, il n’existe pas d’évaluation sérieuse de leur efficacité. Le manque d’évaluation d’efficacité, en continu, fait que, malgré les constantes mises à jour, ces filtres fonctionnent en boucle ouverte et, en effet, le nombre important de termes suggère qu’ils soient sur-ajustés.

Néanmoins, ces filtres fonctionnent assez bien, selon l’impression subjective que l’on peut obtenir des utilisateurs de ces filtres. L’explication la plus probable est que les vocabulaires des classes sont assez disjoints, comme nous verrons dans le chapitre 12. Cela fait que la probabilité à priori des classes et la probabilité conditionnelle des termes sachant la classe ont peu d’importance dans le classement : la connaissance des termes présents dans chaque classe suffit pour obtenir des résultats satisfaisants.

Segal [233] propose l’apprentissage global d’un classificateur Bayésien Na¨ıf avec la possibilité d’utilisation d’informations individualisées au niveau des termes. Au moment du classement d’un message on utilise, pour chaque terme, l’information globale, sauf si l’information individuelle existe avec un niveau de confiance supérieur. Cette méthode est mise en pratique dans le filtre DSPAM5_{. Ce filtre, utilisé `}_{a Rice University, contient 750K termes dans la base commune et,}

en moyenne, un peu moins de 20K termes dans la base de chaque utilisateur. Cela fait que, en moyenne, chaque utilisateur a, `a sa disposition une base d’environ 770K termes. Le nombre total de termes de tous les utilisateurs, sachant qu’il y a 15.000, est de l’ordre de 300M + 750K6_{. Il est}

à remarquer que ce mélange de données obtenus à partir de sources différentes n’est envisageable que sous l’hypothèse d’indépendance statistique des termes.

Enfin, on remarque qu’un des objectifs des fournisseurs de solutions commerciales de filtrage de contenu est d’avoir un produit prêt à l’emploi (ou presque), quelque soit l’environnement d’utilisation. Pour atteindre ce but, un principe souvent utilisé est de baser le filtrage sur l’identification des spams et non pas le classement en deux catégories. Cette tactique dispense (presque) le besoin de collecte de messages légitimes mais exige une très bonne connaissance des spams en circulation, que l’on obtient grâce à des messages collectés par des nombreuses sondes, pièges à spam ou dénonciation par les utilisateurs du produit en question. Ces filtres sont très souvent mis à jour plusieurs fois par jour. Il est probable, mais pas démontré, qu’ils soient, en quelque sorte, sur-ajustés et que leur efficacité puisse se dégrader très rapidement en absence de mises à jour. Ces produits utilisent des heuristiques, à la fois complexes et artisanales, pour sélectionner les messages en provenance des pièges à spam qui seront utilisés pour le paramétrage des filtres [191]. Yih et al [249] [261] estiment, basés sur des analyses de contenu des messages de 200.000 utilisateurs volontaires de hotmail.com, qu’une quantité importante d’erreurs de filtrage proviennent des Gray Mail, des messages dont le classement varie d’un destinataire à l’autre. Ils supposent que ces messages sont, pour la plupart, des messages publicitaires et proposent de les identi- fier, par détection de campagnes publicitaires - un certain nombre de messages identiques (ou presque) envoyés dans un intervalle de temps assez court (I-Match [50] [150]) - et de traiter ces messages séparément. Le principe est intéressant mais il n’a pas été par démontré ni que les résultats puissent être transposées à d’autres types de communauté, ni qu’il soit applicable dans des communautés dont le niveau de trafic n’est pas aussi important que hotmail.com.

DSPAM - http://dspam.sourceforge.net

Dans le document Contribution au classement statistique mutualisé de messages électroniques (spam) (Page 89-91)