Dénitions du problème

Ne retenir que certains attributs impose de faire des choix, de décider quels attributs conserver en fonction d'un certain critère. Quels que soient les objectifs exacts que l'on cherche à atteindre, il semble naturel de privilégier les attributs les plus pertinents au regard de la tâche nale à eectuer, à savoir la classication dans notre cas. L'étude du comportement de divers classieurs sur des bases de données articielles a par ailleurs permis de mettre en évidence la dégradation des performances de ces classieurs en présence d'attributs non pertinents (Molina et al.,2002;Ng,1998;Kohavi et John,1997).

Dans ces expérimentations, les attributs non pertinents sont des attributs générés aléa-toirement et qui n'ont aucun lien avec la variable cible à modéliser. S'il est aisé de construire des attributs non pertinents, il est beaucoup plus délicat de les identier dans des applica-tions réelles, du moins tant que cette notion reste dénie de façon aussi vague. La notion de pertinence joue donc un rôle central dans la sélection d'attributs. Aussi nous semble-t-il essentiel de commencer par une analyse plus poussée de cette notion avant de formaliser plus précisément la tâche que doit réaliser un algorithme de sélection d'attributs.

7.2.1 Pertinence d'un attribut

La notion de pertinence en tant que telle n'a aucun sens. Il s'agit d'une relation. Un objet pourra en eet être pertinent pour tel objet, mais pas pour tel autre. Il convient donc toujours de préciser l'objet cible pour lequel on cherche à savoir si tel objet est pertinent ou non. Notons que nous pouvons raisonnablement poser que cette relation est réexive, mais rien ne permet d'armer a priori qu'elle doit être transitive ou même symétrique.

Dans notre contexte, il nous importe de trouver des attributs qui sont pertinents pour une tâche de classication supervisée. On s'intéressera donc à la pertinence d'un attribut v_i de V pour la classe y que l'on cherche à modéliser. Une dénition satisfaisante de la per-tinence dans ce cadre doit d'une part reéter le sens commun, et d'autre part pouvoir être utilisable concrètement ou au moins permettre une meilleure compréhension du problème. Les travaux précurseurs de philosophes et logiciens tels que Gärdenfors (1978) ont exercé une inuence notable sur les travaux liés à la pertinence en intelligence articielle.

7.2. DÉFINITIONS DU PROBLÈME 117 Nous nous focaliserons sur les retombées dans le domaine de l'apprentissage automatique1.

Bell et Wang (2000) retracent la liation entre les diérentes dénitions de la pertinence qui ont pu être proposées depuis les travaux de Gärdenfors. Pour Gärdenfors, la notion de pertinence est une relation ternaire et non binaire.

Un objet o sera pertinent relativement à une hypothèse h dans le contexte c, si la vraisemblance de h, connaissant c, est aectée par la connaissance supplé-mentaire de o. Dans le cas contraire o sera considéré comme non pertinent.

Gärdenfors a développé une axiomatisation pour formaliser cette dénition, mais nous ne retiendrons pour la suite que les idées principales sur lesquelles elle repose.

La notion de contexte est fondamentale (voir à ce sujet les réexions inspirées de la pragmatique deEkbia et Maguitman(2001)).

La pertinence se caractérise par la variation de la vraisemblance d'une hypothèse entre deux états de connaissance.

Nous allons maintenant voir comment ces idées ont été appliquées pour qualier et parfois quantier la pertinence d'une variable.

Les travaux de Pearl (1988) sur la notion d'indépendance conditionnelle, qui reète la non-pertinence, sont à la base des réseaux de croyance aujourd'hui largement utilisés en intelligence articielle. La construction de ces réseaux est fortement apparentée à la sélection d'attributs. Koller et Sahami (1996) ont d'ailleurs repris les idées de Pearl pour construire un algorithme de sélection d'attributs. Un attribut X sera considéré comme non pertinent relativement à un attribut Y dans un contexte Z, si et seulement si Y est indépendant de X conditionnellement à Z. Le contexte Z correspond ici à un ensemble d'attributs ne contenant ni X ni Y . Dans le cadre probabiliste utilisé par Pearl, cela nous amène à la première dénition de la pertinence. Nous noterons r (X, Y, Z) la relation qui exprime la pertinence de X relativement à Y dans le contexte Z et la négation de cette relation sera notée r (X, Y, Z).

Dénition 1

r (X, Y, Z) ⇔ P (Y |X, Z) = P (Y |Z)

Autrement dit la connaissance de X n'apporte, par rapport à Z, aucune information supplémentaire sur Y .

Dans le domaine de la sélection d'attributs en classication supervisée, de nombreuses dénitions ont été posées.Molina et al.(2002) en orent, à notre connaissance, la synthèse la plus récente et la plus complète. Nous ne mentionnerons que celles qui nous semblent utiles pour expliciter le fonctionnement des diverses techniques de sélection que nous présenterons à la section7.3. Aussi invitons-nous le lecteur intéressé à se référer à cette synthèse. Comme nous centrons désormais notre propos sur la classication supervisée, nous considérerons toujours la pertinence au regard de cette tâche de classication. Nous nous permettrons par conséquent de parler d'attributs pertinents, sans préciser à chaque fois qu'il s'agit d'attributs pertinents relativement à la classe y que l'on cherche à modéliser.

Kohavi et John (1997) proposent d'aner la classication binaire des attributs (per-tinents,non pertinents) en segmentant la catégorie des attributs pertinents. Pour eux, il faut distinguer les attributs fortement pertinents des attributs faiblement pertinents. Les

1Les travaux en logique de révision de croyance et autres logiques non monotones qui ont joué un rôle majeur en intelligence articielle dans les années 70 se sont également beaucoup intéressés à cette notion de pertinence (Ekbia et Maguitman,2001;Delgrande et Pelletier,1998).

118 CHAPITRE 7. SÉLECTION D'ATTRIBUTS premiers sont indispensables et doivent être intégrés dans tout modèle de y. Les seconds apportent de l'information sur la classe y dans certains contextes. En fonction du modèle que l'on souhaite construire, certains d'entre eux peuvent être importants. Nous noterons les deux relations correspondantes rf orte et rf aible. Pour tout ensemble W ⊆ V de m attri-buts, nous noterons W la variable jointe des variables appartenant à cet ensemble. Ainsi pour V = {v1, ..., v_p}, nous avons V = (v1, ..., v_p), V désignant une variable aléatoire. En-n Si désignera l'ensemble V − {vi} Avec ces notations les dénitions de Kohavi et John s'expriment de la façon suivante :

Dénition 2

r_{f orte}(vi, y) ⇔ ∃vji, sji, yj pour lesquels P (vi = vji, Si = sji) > 0, tels que P (y = y_j|v_i= v_ji, S_i= s_ji) 6= P (y = y_j|S_i= s_ji)

Dénition 3

r_{f aible}(v_i, y) ⇔ r_{f orte}(v_i, y) , ∃S_i⁰⊂ S_i, v_ji, s_ji⁰ , y_j pour lesquels Pv_i= v_ji, S_i⁰= s⁰_ji> 0 tels que Py = yj|v_i = vji, S_i⁰ = s⁰_ji

6= Py = yj|S_i⁰ = s⁰_ji

Contrairement à ce que nous avions fait précédemment, le contexte dans lequel la per-tinence est considérée n'a pas été spécié au niveau des relations rf orte et rf aible. Ces deux dénitions ne sont que des applications de la notion d'indépendance conditionnelle pour lesquelles deux contextes diérents sont envisagés. Pour faire apparaître plus clairement ce contexte, nous pouvons réécrire ces deux relations de la façon suivante :

r_{f orte}(v_i, y) ⇔ r (v_i, y, S_i)

r_{f aible}(v_i, y) ⇔ r_{f orte}(v_i, y) et ∃S0

i ⊂ S_i tel que r (vi, y, S_i⁰)

Cette distinction entre attributs fortement et faiblement pertinents a joué un rôle im-portant dans le développement de nouvelles techniques de sélection d'attributs. Blum et Langley(1997) en ont proposé une reformulation, à laquelle peuvent être rattachés de nom-breux travaux du domaine. Les nouvelles dénitions qui en découlent sont apparentées aux mesures de cohérence2 développées parAlmuallim et Dietterich(1994). L'idée sous-jacente est que l'on peut éviter d'estimer directement les probabilités conditionnelles. Il sut de considérer les valeurs des diérents attributs pour les exemples de E.

Si deux exemples de classes diérentes ne dièrent que par la valeur de l'attribut vi, alors cet attribut contient une information importante sur la classe. Ceci n'est évidemment valable que pour des attributs discrets. Dans ce cas-là nous sommes sûr que les probabilités conditionnelles P (y|vi, Si)et P (y|Si) dièrent. Les dénitions que nous donnons ci-après sont donc des restrictions des deux dénitions précédentes. Blum et Langley parlent de pertinence par rapport à l'échantillon. Leurs dénitions dépendent en eet de l'échantillon E d'exemples disponibles.

Dénition 4

r^E_{f orte}(vi, y) ⇔ ∃e_k, e_l∈ E tels que      v_kj = v_lj∀v_j ∈ S_i vki 6= v_li y_k 6= y_l

7.2. DÉFINITIONS DU PROBLÈME 119 Dénition 5 r_{f aible}^E (v_i, y) ⇔ r_{f orte}(v_i, y) et ∃S0 i ⊂ S_i, e_k, e_l∈ E tels que      vkj = vlj∀v_j ∈ S_i⁰ v_ki 6= v_li y_k6= y_l

Jusqu'ici nous avons considéré la pertinence d'un attribut relativement à la classe. Ce qui nous importe in ne ce sont les performances de la phase d'apprentissage pour laquelle la sélection d'attributs n'est qu'un prétraitement. Aussi est-il tentant d'intégrer directement l'algorithme d'apprentissage dans une dénition de la pertinence.

Les techniques nommées traditionnellement wrappers reposent sur cette idée (Kohavi et John, 1997), formalisée par la notion d'utilité incrémentale introduite par Caruana et Freitag (1994). Leur formalisation peut être considérée comme une application des idées de Gärdenfors dans laquelle le contexte correspond à un ensemble d'attributs W. L'hy-pothèse qui nous intéresse est le modèle résultant de l'apprentissage. La variation de la vraisemblance de cette hypothèse est mesurée comme la diérence entre les performances du modèle appris à partir de W et celles du modèle appris à partir de W et de la variable dont on cherche à évaluer la pertinence. En reprenant la catégorisation de John et Ko-havi des attributs faiblement et fortement pertinents, nous proposons de dénir les notions de pertinence forte et faible relativement à un algorithme d'apprentissage A et un critère de performance J à maximiser. Le modèle A (W) construit par A à partir d'un ensemble de variables W dépend également de l'ensemble d'exemples E, mais nous simplierons les notations en supprimant la référence à cet ensemble.

Dénition 6

r^A,J_{f orte}(v_i, y) ⇔ J (A ({v_i} ∪ S_i)) > J (A (S_i)) Dénition 7

r^A,J_{f aible}(v_i, y) ⇔ r_{f orte}(v_i, y) et ∃S0

i ⊂ S_i tel que J A {vi} ∪ S_i⁰ > J A S0 i

Outre les probabilités, toute mesure d'incertitude peut théoriquement être utilisée pour évaluer la vraisemblance d'une hypothèse. Il est également possible d'employer une mesure entropique issue de la théorie de l'information (Shannon,1948). L'entropie d'une variable peut en eet être interprétée comme une mesure d'incertitude. Si les applications de l'entro-pie, notée I, à la sélection d'attributs sont nombreuses comme nous le verrons à la section

7.3, ce sont les travaux de Wang et Bell (1999); Bell et Wang (2000) qui ont le mieux formalisé cette approche et mis en évidence l'intérêt de ses propriétés pour la sélection d'attributs.

L'entropie conditionnnelle est utilisée pour prendre en compte le contexte dont nous avons souligné l'importance. Ce qui importe étant la variation de la vraisemblance prise en contexte, la pertinence sera dénie via le gain d'information sur la variable cible y apporté par la connaissance supplémentaire d'un attribut vi par rapport à un contexte donné. De même que nous avons présenté l'utilité incrémentale au travers des notions de pertinence faible et forte, nous allons spécialiser la dénition de Bell et Wang pour dénir la pertinence entropique forte et faible.

Dénition 8

r_{f orte}^ent (vi, y) ⇔ ^{IM (v}ⁱ^{, y|S}ⁱ⁾ I (y|S_i) ^{> 0}

120 CHAPITRE 7. SÉLECTION D'ATTRIBUTS Dénition 9

r^ent_{f aible}(vi, y) ⇔ rf orte(vi, y) et ∃S0

i⊂ S_i tel que ^{IM (v}i, y|S_i⁰) I (y|S_i⁰) ^{> 0}

L'intérêt de cette approche ainsi que de celle Caruana et Freitag est de fournir non seulement un critère permettant de juger si un attribut est pertinent ou non, mais également une mesure quantitative de cette pertinence.

Au travers des dénitions précédentes nous avons vu qu'il était possible de distinguer des attributs fortement pertinents, faiblement pertinents et non pertinents. Les études em-piriques sur des bases de données articielles, citées précédemment, ainsi que des exemples donnés par Guyon et Elissee (2003), ont mis en avant les eets néfastes sur les perfor-mances d'un classieur que pouvaient causer des attributs non pertinents, mais aussi des attributs qu'ils qualient de redondants. Diverses dénitions de la redondance ont été don-nées dans la littérature, souvent basées sur le concept de corrélation entre attributs. Nous aurons l'occasion d'y revenir à la section7.3. Nous ne donnons ici que la dénition due àYu et Liu(2004) qui nous servira pour la suite. Celle-ci s'appuie sur le concept de couverture de Markov introduit parKoller et Sahami(1996).

Dénition 10 Soit Mi ⊂ V, v_i ∈ M/ _i. Mi forme une couverture de Markov pour l'attribut vi si et seulement si :

P (V − M_i− {v_i}, y|v_i, M_i) = P (V − M_i− {v_i}, y|M_i)

Une couverture de Markov pour vi regroupe donc un ensemble d'attributs qui apporte une information sur y mais également sur l'ensemble des autres attributs de V, qui subsume celle qui est apportée par vi.

La notion de redondance peut alors être dénie de la façon suivante :

Dénition 11 vi est redondant (sous-entendu par rapport à l'ensemble d'attributs V et au regard de la tâche de classication), si et seulement si rf aible(v_i, y)et ∃Mi ⊂ V tel que M_i forme une couverture de Markov pour vi.

Dénie ainsi, la notion de redondance permet donc d'aner encore la catégorisation des attributs en spécialisant la catégorie des attributs faiblement pertinents. An de synthétiser les diérents points de vue sur la notion de pertinence, nous reproduisons sur la gure7.1

le schéma deYu et Liu(2004) qui ore une représentation de cette catégorisation. 7.2.2 Formalisations de la sélection d'attributs

Au vu de la catégorisation des attributs que nous venons de présenter, il est assez naturel de présenter la sélection d'attributs comme la recherche des attributs fortement pertinents et de ceux qui sont faiblement pertinents mais non redondants. Cette conception du problème, pour importante qu'elle soit3, ne fait pas apparaître de manière explicite les objectifs que l'on cherche à atteindre en procédant à la sélection d'attributs. Ces objectifs sont implicitement intégrés dans les choix des mesures de pertinence et de redondance.

7.2. DÉFINITIONS DU PROBLÈME 121

Fig. 7.1 Une catégorisation possible des attributs : A={attributs non pertinents}, B₁={attributs faiblement pertinents et redondants}, B2={attributs faiblement pertinents et non redondants}, C={attributs fortement pertinents}

7.2.2.1 Problème d'optimisation

Diérents objectifs sont envisageables en fonction du domaine d'application considéré. Sans perte de généralité, nous pouvons supposer que les objectifs sont résumés par un critère J qu'il convient de maximiser. J est une application qui associe à tout ensemble d'attributs un score. Suivant les connaissances du domaine que l'on peut avoir, diérentes formalisations sont envisageables.

On xe d < p le nombre d'attributs à sélectionner. Trouver le sous-ensemble d'attri-buts Vopt de cardinal d qui maximise J.

V_opt = arg max

W⊆V,|W|=dJ (W)

On xe Jo le seuil de performance acceptable. Trouver le sous-ensemble Vopt de cardinalité minimale dont la performance est supérieure à Jo.

V_opt = arg min

W⊂V,J (W)≥Jo

|W|

Les dénitions précédentes imposent de xer certains paramètres d ou Jo, et peuvent paraître restrictives. Une version plus générale est celle que nous avons adoptée à la section 3.1lorsque nous avons mis en place un algorithme génétique pour sélection-ner les attributs les plus pertinents sur la base des conits intra-étatiques. Il s'agit simplement de trouver le sous-ensemble maximisant le critère J, sans imposer aucune contrainte sur la cardinalité du sous-ensemble en question.

V_opt= arg max

W⊂VJ (W)

Notons que le maximum peut être atteint pour plusieurs sous-ensembles. Si tel est le cas, sera retenu celui de cardinalité minimale.

122 CHAPITRE 7. SÉLECTION D'ATTRIBUTS 7.2.2.2 Préservation de caractéristiques essentielles pour la classication

Ces formalisations sont les plus couramment admises, mais certains auteurs envisagent le problème sous l'angle de la préservation de certaines caractéristiques qui peuvent être déteriorées par la suppression d'attributs. Bell et Wang (2000) s'intéressent à la quantité d'information portée sur la classe tandis queKoller et Sahami(1996) considèrent la distri-bution de la variable cible. On a ainsi les deux autres formalisations possibles suivantes.

Trouver le sous-ensemble de plus faible entropie qui permet de préserver l'information utile pour la tâche de classication. Soit X l'ensemble des ensembles d'attributs qui préservent le gain d'information sur la classe y. On a

X = {W ⊂ V, IM (W, y) = IM (V, y)}

La tâche de sélection d'attributs consiste alors à trouver le sous-ensemble Vopt déni de la façon suivante :

V_opt = arg min

W∈XI (W )

Une modélisation bayésienne de la classication supervisée consiste à aecter à tout nouvel exemple la classe la plus vraisemblable au vu des données à disposition, c'est-à-dire celle qui maximise la probabilité conditionnelle de la classe sachant les données P (y|V = v). Étant donné l'importance de cette distribution pour la classication, Koller et Sahami proposent de trouver le sous-ensemble d'attributs qui permette de la préserver au mieux. Si l'on note ∆ une mesure de distance entre deux distributions de probabilités, l'objectif est alors de trouver un sous-ensemble Vopt, de cardinalité minimale, tel que ∆ (P (y|V ) , P (y|Vopt))soit susamment faible.

Koller et Sahami ont proposé de dénir ∆ à partir de la divergence de Küllback-Leibler. Si l'on note v le vecteur des valeurs des variables de V pour un exemple e et v|_V_opt la projection de v sur Vopt on a :

∆ (P (y|V ) , P (y|V_opt)) =^X

v P (v) K X i=1 P (y = c_i|V = v) log₂ ^{P (y = c}ⁱ^{|V = v)} P y = c_i|V_opt= v|_V_opt ! 7.2.2.3 Pondération d'attributs

Fortement apparentée à la sélection d'attributs, la pondération d'attributs consiste à aecter un poids à chaque variable, qui reète l'importance de celle-ci vis-à-vis des autres variables. Il s'agit d'une généralisation de la sélection d'attributs, puisqu'il sut de consi-dérer des poids binaires (1 si la variable est sélectionnée et 0 sinon) pour se ramener à une tâche de sélection. Cette approche par pondération est essentielle pour l'ordonnancement des attributs ou pour l'utilisation de certains algorithmes d'apprentissage comme les plus proches voisins. Raymer et al. (2000) proposent par exemple d'apprendre ces poids via un algorithme génétique et de les réutiliser dans une moyenne pondérée pour eectuer le calcul des distances entre exemples. L'intérêt de la pondération d'attributs pour les plus proches voisins a été également mis en évidence parKohavi et al.(1997). Les techniques de régression ou les réseaux de neurones opèrent intrinsèquement une recherche de la meilleure pondération possible.

Précisons cependant que la pondération d'attributs ne permet pas de réduire les coûts d'acquisition et de stockage de l'information. Il faut toujours autant d'attributs en entrée. Les modèles ne sont d'ailleurs pas plus simples, et l'apprentissage n'est pas non plus rapide puisqu'il y a tout autant d'attributs à prendre en compte. Aussi ne nous intéresserons-nous pas spéciquement à ce domaine. Notons cependant que tout algorithme de pondération

7.3. ÉTAT DE L'ART SUR LES TECHNIQUES DE SÉLECTION D'ATTRIBUTS 123

Dans le document Evaluation des risques de crise, appliquée à la détection des conflits armés intra-étatiques (Page 124-131)

Dénitions du problème