• Aucun résultat trouvé

Projet : Classification des objets connectés

N/A
N/A
Protected

Academic year: 2022

Partager "Projet : Classification des objets connectés"

Copied!
2
0
0

Texte intégral

(1)

Projet : Classification des objets connect é s

Nesrine Ammar nesrine.am.b@gmail.com

Projet :

Pour ce projet, nous allons identifier les objets connectés en se basant sur une classification supervisée. Pour cela, nous utilisons des attributs extraits à partir du trafic des objets. Le premier ensemble des attributs est des caractéristiques des flux réseaux tel que taille de paquet… le deuxième ensemble est des attributs textuels représentés par une matrice binaire. Les données contiennent 33 classes d’objets. Vous aurez besoin de la colonne ‘label’ dans la partie 2.

Partie 1 :

Un module sous le nom de ‘training_flows.py’ pour cette partie.

- Préparer les données et organisez les attributs.

- Découvrez et visualisez les données.

- Construisez un modèle de classification des objets sur le premier ensemble des attributs utilisant 70% des données pour l’apprentissage.

- Comparer les résultats des algorithmes de classification supervisés que vous sélectionnez.

- Vérifier à chaque fois si le modèle sur-apprend ou sous-apprend en utilisant la métrique ‘score de classification’ : accuracy_score ( y_true , y_pred) de sklearn.metrics.

- Évaluer le modèle utilisant les métriques de performance : précision, rappel et la matrice de confusion sur les données d’apprentissage ainsi que les données de test.

- Choisissez le meilleur algorithme pour ce problème de classification.

- Reconstruisez le meilleur modèle en variant quelques hyperparamètres de l’algorithme et testez à chaque fois le score de classification sur les données de test. Retournez la meilleure combinaison des hyperparamètres.

- Créer une fonction permettant de construire un modèle en choisissant à chaque fois un sous-ensemble d’attributs. Puis retournez les scores de classification obtenus sur les données de test. Interprétez les résultats.

- Entraînez un modèle que sur les flux DHCP des données d’apprentissage. Est-ce que les flux DHCP sont suffisants pour avoir une bonne performance ?

(2)

Partie 2 :

Un module sous le nom de ‘training_flows_text.py’ est demandé.

- Refaire les étapes de la partie 1 en construisant un vecteur d’attributs à partir des attributs numériques et attributs textuels. Éliminer l’attribut ou les attributs redondant ou non nécessaires pour la classification.

- Évaluer le meilleur modèle utilisant les métriques de performance : précision, rappel et la matrice de confusion sur les données d’apprentissage ainsi que les données de test.

- Comparer les valeurs de précision et rappel des modèles obtenus sur les attributs numériques des flux et sur les attributs combinés.

Notes :

- Utilisez Pandas pour manipuler les données.

- Vous pouvez utiliser le processus Grid Search de la librairie sklearn pour régulariser les hyperparamètres des algorithmes.

Références

Documents relatifs

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Dans cet article, nous abordons la classification croisée lorsque le tableau de données porte sur un ensemble d’individus décrits par des variables quantitatives et, pour tenir

Comme les copules permettent de d´ efinir de mani` ere dissoci´ ee le mod` ele de d´ ependance et la nature des distributions marginales (Hoff, 2007), on propose tout

Nous montrons ici que cette mˆeme mesure peut ˆetre reprise pour apprendre `a partir de donn´ees partiellement ´etiquet´ees, et illustrons avec des tests sur des donn´ees

Nous pouvons calculer AU C meilleure la valeur de l’AUC avec le choix optimal de la référence, AU C mauvais la valeur de l’AUC avec le choix de la plus mauvaise référence et AU

Dans une première partie, nous allons montrer, sur un exemple, comment une ACP peut être insuffisante pour appréhender l'effet d'une structure factorielle sur les u.s.,La

Our results suggest that phenotypic response to soil change is mediated by the architectural development, capturing performance traits related to growth and

​Pareil que la premièr partie: vous devez utiliser l’algorithme Arbre de décision pour construire un modèle de classification des objets sur l’ensemble des attributs