• Aucun résultat trouvé

7. Une nouvelle approche de s ´election d’attributs pour la classification bas ´ee sur

7.3. Exp´erimentations sur la s´election de caract´eristiques par des outils de logique

7.3.3. Combinaison de m´ethodes diff´erentes

N´eanmoins, il ne suffit pas d’´egaler les performances actuelles des m´ethodes de s´election d’attributs pour justifier pleinement la n´ecessit´e d’une nouvelle approche. Aussi, nous pro-posons d´esormais d’am´eliorer la port´ee de cette proposition en combinant les avantages que ces deux approches peuvent apporter (c’est-`a-dire la typicalit´e a1− r2− d2avanc´ee et le gain d’information d’origine). L’int´erˆet de l’utilisation d’une m´ethode aussi diff´erente r´eside sur-tout dans la diversification qu’elle apporte lors de la s´election des sous-parties.

7.3. Exp´erimentations sur la s´election de caract´eristiques par des outils de logique floue On a d´ej`a mentionn´e le point cl´e de cette nouvelle tecnhique de s´election des caract´eris-tiques : les entit´es extraites sont s´electionn´ees en fonction d’autres crit`eres que ceux utilis´es par les m´ethodes classiques. Par ailleurs, en utilisant deux m´ethodes, on obtient deux en-sembles de caract´eristiques assez diff´erents (affirmation confirm´ee par les r´esultats de Fi-gure 7.3).

Il en d´ecoule naturellement la derni`ere proposition de ce chapitre qui est de comparer les r´esultats de 3DRESC, avec une variation de la distribution (ou r´epartition) de l’utilisation des m´ethodes de s´election des caract´eristiques :

— typicalit´e seule ;

— gain d’information seul ;

— combinaison des deux pr´ec´edentes m´ethodes, d´efinie en % du nombre total d’attributs s´electionn´es.

Concr`etement, au lieu de choisir n attributs en utilisant une seule m´ethode, on propose d’utiliser conjointement k% de n avec de la typicalit´e et (100 − k%) de n avec du gain d’in-formation. Afin d’obtenir une vue d’ensemble des effets de cette combinaison, plusieurs proportions de sous-parties s´electionn´ees pour chaque m´ethode de s´election sont test´ees dans Table 7.2.

Ce dernier ensemble d’exp´eriences met en ´evidence la combinaison du nouveau type de s´election par degr´e de typicalit´e en le combinant avec l’approche du gain d’information. Dans ce cas, la contribution est faite par l’utilisation conjointe des sous-parties trouv´ees par chacune de ces deux approches. Ainsi, les sous-parties s´electionn´ees proviennent soit de l’approche par gain d’information (I.G.), soit de l’approche par typicalit´e.

L’int´erˆet de l’utilisation de m´ethodes aussi diff´erentes r´eside dans la diversification qu’elle apporte pour la s´election des sous-parties, et non plus de la performance de la seule m´ethode propos´ee.

L’id´ee revient `a utiliser l’union des meilleurs extraits de chaque m´ethode de s´election de caract´eristiques pour couvrir la plupart des possibilit´es d’´el´ements pertinents selon chaque crit`ere.

Quel que soit le nombre d’objets, on peut constater que les r´esultats sont am´elior´es et per-mettent de confirmer l’int´erˆet de cette s´election par typicalit´e. Le gain de performance peut s’expliquer par l’int´erˆet de constituer un ensemble de sous-parties s´electionn´ees en intro-duisant une diversit´e apport´ee par le choix de diff´erents filtres. En effet, ils r´esultent direc-tement de l’utilisation conjointe de diff´erents crit`eres de pertinence. Il s’av`ere que, d’apr`es les r´esultats donn´es dans la Figure 7.5, la distribution de 50% − 50% entre typicalit´e et gain d’information permet la meilleure am´elioration de la pr´evision, bien que le nombre total de sous-parties reste le mˆeme.

Afin de mieux comprendre les raisons de cette am´elioration, la Table 7.3 montre le rapport du nombre de doublons dans les extraits retenus sur le nombre total d’extraits dans le cas d’une distribution ´equilibr´ee (50% − 50%).

Est consid´er´ee comme doublon une sous-partie s´electionn´ee qui a ´et´e mise en avant `a la fois par le gain d’information et les m´ethodes de typicalit´e. La pr´esence de doublons ´etant tr`es

TABLE7.2. – AUC pour la classification avec combinaison d’attributs R´epartition de sous-parties Nombre total d’objets

choisie (en % de l’ensemble)

Gain Typicalit´e 40 objets 60 objets 80 objets 100 objets

d’information 100% 0% 0.737 ± 0.097 0.762 ± 0.099 0.783 ± 0.106 0.801 ± 0.105 80% 20% 0, 763 ± 0.094 0.784 ± 0.096 0.811 ± 0.098 0.826 ± 0.102 60% 40% 0.787 ± 0.111 0.806 ± 0.102 0.821 ± 0.088 0.836 ± 0.089 50% 50% 0.790 ± 0.105 0.798 ± 0.102 0.824 ± 0.101 0.842 ± 0.094 40% 60% 0.786 ± 0.108 0.790 ± 0.089 0.819 ± 0.101 0.837 ± 0.085 20% 80% 0.779 ± 0.099 0.782 ± 0.093 0.807 ± 0.091 0.826 ± 0.094 0% 100% 0.743 ± 0.099 0.774 ± 0.093 0.782 ± 0.091 0.811 ± 0.094

TABLE7.3. – Pr´esence de doublons Nombre d’objets Pourcentage de doublons

40 0%

60 0%

80 0.5%

7.3. Exp´erimentations sur la s´election de caract´eristiques par des outils de logique floue

FIGURE7.5. – Gain d’information (`a gauche) ou typicalit´e (`a droite) pour la r´epartition des sous-parties selon leur m´ethode de s´election

FIGURE7.6. – Gain d’information (en abscisse) et typicalit´e (en ordonn´ee)

faible, on peut en d´eduire que :

— utiliser conjointement ces deux m´ethodes n’est pas absurde,

— le gain de performance est d ˆu `a la vari´et´e introduite par l’utilisation de diff´erentes approches de s´election.

De plus, la non-corr´elation des valeurs de gain d’information et de typicalit´e est ´egalement illustr´ee par une projection sur la Figure 7.6. Chaque point de cette route correspond `a une sous-partie pour laquelle la valeur en abscisse est le gain d’information obtenu, et la valeur en ordonn´ee est son degr´e de typicalit´e.

7.3.4. Bilan

Apr`es exp´erimentations, il s’est av´er´e que l’id´ee initialement propos´ee qui consistait `a uti-liser des outils issus de la logique floue ont permis de mettre en place une nouvelle m´ethode de s´election de caract´eristiques pertinentes. Appliqu´ee `a la m´ethode 3DRESC propos´ee en chapitre 2, une combinaison de la m´ethode avec le gain d’information classique am´eliore la performance de fac¸on notable. Par ailleurs, les param´etrages pr´ec´edemment choisis restent adapt´es, ne remettant ainsi en cause que la m´ethode de s´election de sous-surfaces.

Documents relatifs