Projet : Classification des objets connect é s
Nesrine Ammar – nesrine.am.b@gmail.com
Projet :
Pour ce projet, nous allons identifier les objets connectés en se basant sur une classification supervisée. Pour cela, nous utilisons des attributs extraits à partir du trafic des objets. Le premier ensemble des attributs est des caractéristiques des flux réseaux tel que taille de paquet… le deuxième ensemble est des attributs textuels représentés par une matrice binaire. Les données contiennent 33 classes d’objets. Vous aurez besoin de la colonne ‘label’ dans la partie 2.
Partie 1 :
Un module sous le nom de ‘training_flows.py’ pour cette partie.
- Préparer les données et organisez les attributs.
- Découvrez et visualisez les données.
- Construisez un modèle de classification des objets sur le premier ensemble des attributs utilisant 70% des données pour l’apprentissage.
- Comparer les résultats des algorithmes de classification supervisés que vous sélectionnez.
- Vérifier à chaque fois si le modèle sur-apprend ou sous-apprend en utilisant la métrique ‘score de classification’ : accuracy_score ( y_true , y_pred) de sklearn.metrics.
- Évaluer le modèle utilisant les métriques de performance : précision, rappel et la matrice de confusion sur les données d’apprentissage ainsi que les données de test.
- Choisissez le meilleur algorithme pour ce problème de classification.
- Reconstruisez le meilleur modèle en variant quelques hyperparamètres de l’algorithme et testez à chaque fois le score de classification sur les données de test. Retournez la meilleure combinaison des hyperparamètres.
- Créer une fonction permettant de construire un modèle en choisissant à chaque fois un sous-ensemble d’attributs. Puis retournez les scores de classification obtenus sur les données de test. Interprétez les résultats.
- Entraînez un modèle que sur les flux DHCP des données d’apprentissage. Est-ce que les flux DHCP sont suffisants pour avoir une bonne performance ?
Partie 2 :
Un module sous le nom de ‘training_flows_text.py’ est demandé.
- Refaire les étapes de la partie 1 en construisant un vecteur d’attributs à partir des attributs numériques et attributs textuels. Éliminer l’attribut ou les attributs redondant ou non nécessaires pour la classification.
- Évaluer le meilleur modèle utilisant les métriques de performance : précision, rappel et la matrice de confusion sur les données d’apprentissage ainsi que les données de test.
- Comparer les valeurs de précision et rappel des modèles obtenus sur les attributs numériques des flux et sur les attributs combinés.
Notes :
- Utilisez Pandas pour manipuler les données.
- Vous pouvez utiliser le processus Grid Search de la librairie sklearn pour régulariser les hyperparamètres des algorithmes.