• Aucun résultat trouvé

TP info : Filtre de spam - Dur´ee : 2 s´eances de 1h Date

N/A
N/A
Protected

Academic year: 2022

Partager "TP info : Filtre de spam - Dur´ee : 2 s´eances de 1h Date"

Copied!
2
0
0

Texte intégral

(1)

TP info : Filtre de spam - Dur´ee : 2 s´eances de 1h

Date

1 Objectif

Objectif L’objectif de ce TP est de cr´eer un programme qui lorsqu’on lui donne un mail (sous forme fichier texte .txt), est capable de dire si c’est un spam ou non. Pour un ˆetre humain, il est en g´en´eral assez facile de distinguer un spam d’un mail normal. Mais ce n’est pas le cas pour un ordinateur, et il faudra trouver des crit`eres fiables pour distinguer les deux. Malgr´e cela, le programme peut se tromper, et il faudra tenir compte du facteur erreur.

Question 1.1. Le programme ne sera pas parfait, et il pourra se tromper. Que vaut-il mieux :

• Dire qu’un mail est un spam alors que ¸ca en est pas un

• Dire qu’un mail n’est pas un spam alors que ¸ca en est un.

On peut r´esumer les choix dans un tableau : v´erit´e/pr´evision Oui (Spam) Non-spam

Oui OK Erreur

Non Erreur OK

2 M´ ethode

Premi`ere ´etape Nous allons faire une analyse des mots utilis´es dans les spams et dans les e-mails non spams.

L’objectif est de montrer que certains mots reviennent beaucoup plus souvent dans les spams (comme le mot

”gagner”, ou ”argent”, ”f´elicitations”, etc).

http://vadeker.net/reponses/arnaques/spammers_scammers_arnaques.html http://www.exemplede.fr/exemple-de-spam/

Deuxi`eme ´etape En ce basant sur les donn´ees statistiques de la fr´equence d’apparition des mots, on regarde un mail : si les mots ”f´elicitations”, ”argent”, etc apparaissent beaucoup, alors on conclura que c’est un spam.

3 Etude de la fr´ equence d’apparition des mots dans un spam et dans un mail classique

Premi`ere ´etape On r´ecup`ere un fichier texte contenant une centaine de spams (exemple spam.txt) et un autre fichier contentant une centaine de mails classique (exemple mails.txt).

On donne un programme (fait par moi-mˆeme).

En entr´ee : un fichier .txt (contenant le/les mail(s) `a analyser)

En sortie : Un tableau. Premi`ere colonne les mots apparaissant dans les mails; deuxi`eme colonne le nombre d’occurrence du mot

Analyse des spams

Question 3.1. Lancer le programme donn´e, en mettant le fichier des mails spams en entr´ee. Mettre les r´esultats dans un tableur.

Question 3.2. Calculer la fr´equence d’apparition de chaque mot.

Analyse des mails non-spams

Question 3.3. Recommencer les questions de la partie pr´ec´edente avec les mails non-spams.

Comparaison spams et non-spams

Question 3.4. Comparer les mots les plus fr´equents dans les spams et les non-spams.

1

(2)

4 Filtre spam

On arrive maintenant `a l’´etape cruciale de l’activit´e. On donne un mail. Je veux un programme qui me dise : ”oui c’est un spam” ou ”non ce n’est pas un spam”, en se basant sur les mots pr´esent dans ce mail.

Le mail se trouve dansmail.txt.

Question 4.1. Analyser la fr´equence d’apparition des mots dans ce mail.

Question 4.2. A vu d’oeuil, cela ressemble-t-il `a un spam ?

Il faut donc faire comprendre `a l’ordinateur que les r´esultats de fr´equence des mots ressemblent `a ceux d’un spam.

2

Références

Documents relatifs

` A l’aide d’un intervalle de fluctuation au seuil de 95%, d´ eterminer si le lyc´ ee Alexandre Dumas est repr´ esentatif de la population fran¸ caise2. Les r´ esultats

D´ eterminer le pourcentage de fromages de ch` evre ayant un poids compris entre 92 et 107g3. D´ eterminer la classe modale puis le mode de cette

Introduction.- En langage C, l’acc`es ` a un ´el´ement d’un tableau peut se faire classiquement par le nom du tableau accompagn´e d’un index, mais aussi par un pointeur

a - Calculer pour chaque sou-espace la performance moyenne et enregistrer le r´ esultat dans un data frame (utiliser summaryBy si possible).. b - Rep´ erer les 3 sous-espaces les

c - Comparer de nouveau, ` a l’aide d’un test statistique, les moyennes des 4 s´ eries de donn´ ees ` a partir de sous-´ echantillons al´ eatoires de taille 30. Exercice 4 :

b - Le fichier ruban-3 initial final.csv contient la longueur de la trajectoire suivie par la pro- cession au d´ ebut (lorsque la tˆ ete atteint le point d’arriv´ e) et ` a la fin de

b - Ecrire une fonction carres qui affiche une ligne de carr´ es dont les intensit´ es de couleurs rouges, bleues et vertes sont contenues dans trois tableaux d’entier de mˆ

D’apr`es le th´eor`eme dit des “extrema li´es”, les extrema de la fonction (x, y, z) 7→ z sur chacune des composantes connexes de C sont obtenus aux points o` u la