Les modes d’apprentissage courants - Contribution au classement statistique mutualisé de messag

7.5 Les modes d’apprentissage courants

Nous pouvons identifier au moins quatre modes d’apprentissage dans les applications de filtrage de spam, que ce soient dans les solutions commerciales ou diffusés avec licence libre ou des propositions issues de la recherche.

Apprentissage sur les erreurs - Il s’agit d’un mode d’apprentissage où le destinataire retourne les informations sur les erreurs de classement détectées. Généralement, il ne détecte pas toutes les erreurs et ne retourne pas les erreurs de la classe hams, sauf lorsqu’il s’agit de messages anodins (pour des questions de confidentialité).

Apprentissage unilatéral (one side learning) - Cette approche se justifie par la difficulté de collecte d’exemples de la classe ham. Le principe de fonctionnement des filtres n’est pas le classement des messages en deux catégories mais l’identification des spams, tout le reste étant considéré comme étant des hams. Il s’agit d’une approche courante dans les solutions commerciales. Les spams proviennent, la plupart, des pièges à spam et, parfois, des messages retournés par des utilisateurs des solutions.

Apprentissage sur des corpus synthétiques - Cette approche consiste à collecter des exemples à partir de listes de discussion e nouvelles pour les hams e de messages des pots de miel pour les spams.

Auto-apprentissage - Il s’agit d’un mode d’apprentissage automatique, souvent dans des filtres comportant deux (ou plus) classificateurs - les messages soumis à l’apprentissage d’un classificateur statistique sont ceux classés par l’autre classificateur, pré-construit. Le classificateur construit de cette fa¸con a souvent tendance à dériver progressivement, au fur et à mesure que les erreurs d’un classificateur se propagent à l’autre.

Ces modes d’apprentissage (ou plutôt paramétrage, selon le cas) ont souvent des inconvénients pratiques qui impactent leur efficacité ou leur utilité.

Ils visent surtout à dépendre, le moins possible, de l’intervention du le destinataire. Dans tous les cas, il s’agit d’un fonctionnement en boucle (presque) ouverte. Il n’y a donc aucune garantie que le modèle interne des classificateurs soit représentatif du flot à classer.

Du mode de fonctionnement en boucle ouverte et non intervention du destinataire des messages découle l’impossibilité d’une évaluation objective de l’efficacité de classement, autre que la satisfaction ressentie par les utilisateurs de la messagerie.

Le dernier inconvénient concerne la pertinence des exemples utilisés pour l’apprentissage, qui ne sont jamais choisis par le classificateur, mais selon des critères probablement pas optimaux. A cause de la course vers la perfection et le filtrage parfait, on peut se demander si les classificateurs construits de cette fa¸con ne sont pas sur-ajustés.

7.6 Discussion et Conclusions

Dans ce chapitre nous avons pu identifier trois types de communautés ayant des caractéris- tiques différentes. Ces différences sont telles que la stratégie de filtrage optimale peut varier selon le type de communauté.

Les fournisseurs de solutions commerciales cherchent a créer des produits passe partout. Les solutions typiques sont des solutions utilisant tout d’abord des listes noires - ce sont des solutions qui rejettent les messages par leur provenance : les origines douteuses. Ce sont des solutions qui ne dépendent pas des caractéristiques de la communauté d’appartenance du destinataire. L’efficacité de ces solutions ne dépassent pas, en général, un taux de détection de l’ordre de 70 à 80 %. Ces solutions sont, en général, complétées par des solutions de filtrage de contenu. Ces solutions de

Chapitre 7. L’utilisation mutualisée d’un filtre anti-spam filtrage de contenu sont, le plus souvent complexes et intègrent rarement des retours d’information des destinataires.

Il s’agit de solutions fonctionnant en boucle (presque) ouverte à cause du faible niveau de retour d’information pris en compte pour la mise à jour du système de filtrage.

Très peu sont les travaux publiés concernant le classement mutualisé de message électroniques. Ils s’appliquent, en général, à un environnement d’entreprise ou alors ils ne tiennent pas compte du type de communauté.

Une des voies exploitées consiste à utiliser des classificateurs mixtes, utilisant des informations `

a la fois globales et spécifiques au destinataire [233]. Cette voie ne semble intéressante que dans les contextes où le nombre d’utilisateurs de la messagerie est limité ou quand le module de filtrage est proche de la boite aux lettres de l’utilisateur, à cause du besoin de gestion des préférences de chaque utilisateur.

Yih et Chang [249] [261] soulèvent le problème des messages publicitaires, problème qui n’est pas spécifique au filtrage mutualisé, mais qui prend de l’importance dans ce contexte, à cause des différences d’appréciation par les destinataires.

Très peu de résultats publiés sur le filtrage de spams tiennent compte ou mentionnent les caractéristiques particulières des corpus de messages utilisés, autres que la quantité par classe. Pour des questions de confidentialité, les messages légitimes de test provenaient assez souvent de listes de discussion publiques ou des boˆıtes aux lettres de plusieurs individus [9], [220]. Drucker et al [92] ont utilisé des messages provenant d’une seule boˆıte aux lettres mais, surement pour les mêmes raisons, les messages utilisés n’ont pas été rendus publiques. Les messages distribués par listes de discussion ne constituent qu’une partie des messages re¸cus par un destinataire quelconque et présentent, en général, une diversité assez faible et ne sont donc pas représentatifs d’un flot réel de messages.

Le corpus TREC Spam 2005 [64] [65] a été le premier corpus public de taille importante, constitué à partir de boˆıtes aux lettres d’individus identifiables d’une même communauté : il s’agissait du contenu de la messagerie de la société Enron, tombés dans le domaine public lors de la faillite de l’entreprise. Malgré l’intérêt de ce corpus, les messages couvrent une période autour de la banqueroute et reflètent une situation exceptionnelle et non pas pas une situation de fonctionnement stable dans une entreprise. Le corpus TREC Spam 2007 porte une amélioration dans le sens où les messages des deux classes ont été re¸cus en même temps sur le même serveur de messagerie. Néanmoins, d’une part il s’agit encore d’utilisateurs fictifs et, d’autre part, les messages légitimes ont été distribués par des listes de diffusion auxquelles ces utilisateurs, fictifs, ont été abonnés.

La réflexion menée dans ce chapitre suggère un renforcement du fonctionnement de la boucle de retour d’information avec de l’apprentissage actif.

CHAPITRE

8

Caract´eristiques spatiotemporelles d’un flot de messages

La statistique est la premi`ere des sciences inexactes.

Edmond et Jules de Goncourt

8.1 Introduction

Le but de l’apprentissage d’un classificateur est la construction d’un modèle (ou une fonction) à partir d’un ensemble d’exemples représentatifs de la population d’où seront extraits les objets à traiter : les exemples résultent d’un tirage aléatoire i.i.d. de la population d’objets.

Dans un cas général de classement d’objets il est possible que les exemples ne soient pas significatifs de la population, et cela pour plusieurs raisons. Dans le contexte qui nous concerne, le classement mutualisé de messages électroniques, on peut avancer deux raisons : la constitution d’un ensemble d’échantillons significatifs du flot de messages peut ne pas être une tâche triviale et même si cela était possible, il peut y avoir une dérive temporelle.

Dans ce chapitre, nous menons une réflexion sur les causes de ces décalages, et la fa¸con dont elle se manifeste. Dans le Chapitre 9, nous proposons une solution basée sur une architecture d’apprentissage actif en ligne.

Dans le document Contribution au classement statistique mutualisé de messages électroniques (spam) (Page 91-94)