Procédure de la sélection des caractéristiques

Techniques de sélection des caractéristiques

2. Sélection supervisée des caractéristiques

2.2. Procédure de la sélection des caractéristiques

Une procédure de sélection des caractéristique typique (illustrée par la Figure 2.1) se défini en quatre étapes : (i) génération du sous-ensemble ; (ii) évaluation du sous-ensemble ; (iii) critère d'arrêt et (iv) validation des résultats [Liu 2005]. Le processus commence par la génération du sous-ensemble utilisant une stratégie de recherche particulière pour produire des sous-ensembles de caractéristiques candidates. Ensuite, chaque sous-ensemble candidat est évalué selon un certain critère d'évaluation et comparé au précédent. Le processus de génération et d'évaluation des sous-ensembles est répété jusqu'à ce qu'un critère d'arrêt donné soit satisfait. Enfin, le meilleur sous-ensemble de caractéristique sélectionnée est validé par des connaissances antérieures ou par certaines données de test. La stratégie de recherche et le critère d'évaluation sont deux sujets clés dans l'étude de la sélection des caractéristiques.

Figure 2.1. Processus de sélection des caractéristiques. [Chouaib 2011] 2.4.1. Génération

"Sur quel point de l'espace de caractéristiques la recherche peut-elle commencer ?".

La sélection d'un point dans l'espace de sous-ensemble de caractéristique pour commencer la recherche peut affecter la direction de la recherche. Une fois que le point de départ est bien choisi, une procédure de génération (aussi appelé procédure de recherche) doit être définie. Il existe essentiellement trois stratégies différentes de recherche pour trouver un sous-ensemble de caractéristiques optimal, à savoir : exhaustive, heuristique et aléatoire.

2.4.2. Evaluation

L'évaluation de la performance des techniques de sélection des caractéristiques peut être effectuée sur différents axes. Dans cette sous-section, nous nous référons aux approches les plus couramment utilisées. Lorsque nous traitons des problèmes de classification, nous cherchons généralement à trouver le plus petit sous-ensemble de caractéristiques avec la plus haute précision de classification. Principalement, les méthodes d’évaluation peuvent être divisées en trois catégories : filter, wrapper et embedded.

2.2.1.1. La méthode Filter

Le modèle filter (aussi appelé méthode de filtrage) évalue la pertinence des caractéristiques selon des mesures qui reposent sur les caractéristiques générales des données d’apprentissage sans impliquer aucun algorithme d'apprentissage. Il commence par choisir une stratégie de

Ensemble des Caractéristiques

Génération des sous- ensembles

Evaluation des sous- ensembles Validation Critères d’arrêt Non Non Oui

recherche et déterminer la direction de la recherche pour commencer à rechercher les caractéristiques pertinentes dans l'ensemble de données. Ensuite, il attribue un score de pertinence à chaque caractéristique par des mesures statistiques ; plus le score est élevé, plus une caractéristique est pertinente [Saeys 2007]. Un aperçu visuel de cette approche est donné par la figure 2.2.

Figure 2.2. Illustration du modèle filter. [Tan 2007]

Les méthodes filter classent les caractéristiques en fonction de leurs pertinences. Celles qui sont classées en tête sont les plus pertinentes et celles classées en dessous sont considérées moins pertinentes [Huang 2007]. Enfin, les caractéristiques avec des scores élevés de pertinence sont sélectionnées et présentées comme entrées pour le classifieur [Saeys 2007].

Cependant, Les approches filter souffrent d’un inconvénient majeur ; est qu’elles ignorent l’impact du sous-ensemble de caractéristiques choisis sur la performance de l’algorithme d’apprentissage.

2.2.1.2. Les méthodes Wrapper :

Tandis que les techniques filtre traitent le problème de trouver un sous-ensemble optimal de caractéristiques indépendamment de l’algorithme d’apprentissage, les méthodes wrapper (aussi appelées méthodes enveloppantes) se basent sur l’intégration d’un l’algorithme d’apprentissage dans la recherche du meilleur sous-ensemble de caractéristiques. L'approche wrapper a reçu beaucoup d'attention en raison de ses meilleures performances de généralisation [Bouaguel 2015 ; Hewahi 2015 ; El Aboudi 2016]. Elle s'appuie sur la performance d'un classifieur spécifique pour évaluer la qualité d'un ensemble sélectionnée de caractéristiques [Kohavi 1997]. Une procédure de recherche dans l'espace des sous-ensembles de caractéristiques possibles est définie, divers sous-ensembles de caractéristiques sont générés et la précision de la classification estimée par l'algorithme d'apprentissage pour chaque sous-

Génération de sous-ensemble de caractéristiques Evaluation de sous- ensemble Classification Données d’apprentissage Données de test Sous-ensemble de caractéristiques Sous-ensemble

final Validation des résultats

ensemble de caractéristiques est évaluée. La démonstration des méthodes enveloppantes est exposée comme suit (Figure 2.3):

Figure 2.3. Illustration du modèle wrapper. [Kohavi 1997]

L'interaction des méthodes wrapper avec l'algorithme de classification aboutit souvent à une meilleure précision de classification des sous-ensembles sélectionnés par rapport à la précision obtenue avec les méthodes filter [Kohavi 1997 ; Guyon 2003 ; Saeys 2007 ; El Aboudi 2016]. Néanmoins, les sous-ensembles sélectionnés dépendent du classifieur et présentent un risque élevé du surapprentissage (Overfitting) [Saeys 2007]. Certaines études [Stracuzzi 2007] rapportent que les approches wrapper non-déterministes sont généralement plus rapides que les approches déterministes.

2.2.1.3. Les méthodes Embedded

Les méthodes embedded (aussi appelées méthodes embarquées ou méthodes intégrées) intègrent la sélection dans le processus d’apprentissage. Contrairement aux méthodes wrapper où la base d’apprentissage est divisée en deux parties : base d’apprentissage et base de validation afin de valider le sous-ensemble obtenu de caractéristiques, les méthodes intégrées utilisent toute la base d’apprentissage pour établir le système. Une telle représentation permet : (i) une amélioration de qualité des résultats obtenus ainsi, (ii) une réduction de temps de calcul. Un diagramme schématique de la sélection de caractéristiques intégrées est illustré dans la figure 2.4. Génération de sous-ensemble de caractéristiques Evaluation des caractéristiques Algorithme de classification Algorithme de classification Evaluation FinaleEvaluation Finale Ensemble d’apprentissage Ensemble d’apprentissage Ensemble de caractéristiques

Ensemble de test Estimation de la _précision Ensemble de

caractéristiques

Estimation de performance

Figure 2.4. Illustration du modèle embedded. [Kaushik 2016] 2.4.3. Critère d’arrêt

Certains critères doivent être définis pour arrêter le processus de recherche du/des sous- ensemble(s) optimal de caractéristiques. Un processus de sélection de caractéristiques peut être arrêté selon l'un des critères suivants :

- Si la recherche est terminée.

- Si une taille prédéfinie du sous-ensemble de caractéristiques est sélectionnée. - Si un nombre prédéfini d'itérations est exécuté.

- Si nous avons obtenu un sous-ensemble de caractéristiques optimal ou suffisamment bon en fonction des critères d’évaluation.

- Si la modification (ajout ou suppression des caractéristiques) du sous-ensemble des caractéristiques ne porte pas d’amélioration sur la qualité du sous-ensemble.

2.4.4. Validation

Un moyen simple de validation des résultats est de mesurer directement le résultat en utilisant la connaissance préalable des données. Si nous connaissons préalablement les caractéristiques pertinentes, nous pouvons comparer cet ensemble connu de caractéristiques avec les caractéristiques sélectionnées. Les connaissances sur les caractéristiques non pertinentes ou redondantes peuvent également nous aider mais, nous ne nous attendons pas à ce qu'ils soient sélectionnés. Dans les applications du monde réel, cependant, nous n'avons généralement pas ces connaissances antérieures. Par conséquent, nous devons compter sur certaines méthodes indirectes en surveillant le changement de performance de classification avec le changement de caractéristiques. Par exemple, si nous utilisons le taux d'erreurs de classification comme indicateur de performance pour une tâche de classification ; pour un sous- ensemble de caractéristiques sélectionné, nous pouvons simplement effectuer l'expérience

Ensemble de caractéristiques Performances Générer un sous- ensemble Algorithme de Classification

"avant et après" pour comparer le taux d'erreurs du classifieur sur l'ensemble complet des caractéristiques et ce qui a appris sur le sous-ensemble sélectionné.

Dans le document Techniques d’apprentissage pour la sélection d’attributs : Application à la reconnaissance des formes (Page 53-58)