• Aucun résultat trouvé

Filtrage basé sur le test de Kolmogorov-Smirnov

7.4 Filtrage basé sur le test de Kolmogorov-Smirnov

Les diérentes approches de la sélection d'attributs, ainsi que leurs principales carac-téristiques ayant été présentées de manière générique, il convient désormais de les replacer dans le contexte de notre travail : l'évaluation des risques. Rappelons à cet eet quels en sont les enjeux et plus particulièrement les contraintes que nous nous sommes imposées. Ceci nous permettra de statuer, d'un point de vue théorique, sur la méthode qui est la mieux adaptée à notre problème, parmi toutes celles que nous avons abordées.

7.4.1 Motivations

7.4.1.1 Choix d'une méthode de sélection

Au cours de la partieI et plus précisément de la section2, nous avons contraint de la manière suivante le modèle d'évaluation des risques que nous souhaitions mettre en place.

 Le modèle doit être appris automatiquement en mode supervisé.

 Le modèle doit être transparent : les résultats de l'estimation doivent être interpré-tables facilement.

 Le modèle doit être le plus objectif possible : il doit intégrer le moins d'hypothèses possibles quant aux facteurs de risque potentiels.

Les deux premières contraintes ont d'ores et déjà été prises en compte. Nous avons en eet choisi de restreindre notre état de l'art aux méthodes de sélection d'attributs appli-cables à la classication supervisée. Nous avons de plus ignoré les méthodes d'extraction d'attributs qui créent de nouveaux attributs pouvant nuire à la compréhension du modèle nal.

La troisième contrainte suggère que le nombre d'attributs décrivant les données doit être aussi grand que possible. Ne faisant aucune supposition sur la nature des facteurs de risque dont il convient de suivre l'évolution dans un processus d'évaluation des risques, il paraît en eet naturel d'essayer d'en collecter le plus grand nombre pour ensuite laisser l'apprentissage décider de ceux qui sont réellement pertinents. Pour que notre modèle soit aussi générique que possible, il nous faudra donc trouver une méthode de sélection qui soit capable de travailler en grande dimension.

Au vu de notre état de l'art, les wrappers, dont le coût est prohibitif en grande dimension sont donc à proscrire. Il nous faut ainsi trouver une autre approche que celle qui a été envisagée à la section3.1 : un wrapper, dont la recherche dans le treillis est guidée par un algorithme génétique.

Parmi les ltres, la troisième et dernière approche que nous avons décrite semble la mieux appropriée. Contrairement aux méthodes apparentées à ReliefF, elle tient non seule-ment compte de la pertinence, mais égaleseule-ment de la redondance. Elle le fait en outre avec une complexité qui est en moyenne moindre par rapport à celle des ltres utilisant une mesure d'ensemble pour guider la recherche dans le treillis.

Au vu du bon comportement empirique du ltre introduit parYu et Liu(2004), tant du point de vue des performances en classication que des temps de calcul, nous avons décidé d'orienter nos recherches vers le modèle de ltre rapide basé sur la corrélation que nous avons proposé pour généraliser l'approche de Yu et Liu (voir algorithme9). Ayant conservé la dénomination de Yu et Liu pour désigner l'algorithme générique, nous nous référerons à leur algorithme par le sigle FCBF (Fast Correlation-Based Filter).

158 CHAPITRE 7. SÉLECTION D'ATTRIBUTS 7.4.1.2 Faiblesses du ltrage rapide basée sur l'incertitude symétrique

Les contraintes que nous venons de recenser correspondent à celles que nous nous sommes imposées. Il en est d'autres qui s'imposent à nous, du fait de la nature des don-nées que nous avons à traiter pour réaliser l'évaluation des risques. Il nous faut également en tenir compte pour choisir la méthode de sélection adéquate. Les données relatives aux conits armés intra-étatiques qui sont à la base de nos premières expérimentations (section

2.2) présentent quatre caractéristiques qui peuvent inuer sur nos choix méthodologiques.  Le nombre d'attributs est élevé. Ceci conrme la nécessité de se tourner vers des

méthodes de sélection d'attributs de faible complexité.

 Nombreuses sont les valeurs d'attributs à ne pas être renseignées. Ce point nous a amené à nous intéresser à la substitution des valeurs manquantes (voir section 6). Nous y reviendrons à la section 7.5 lorsque nous envisagerons l'impact des données manquantes sur la sélection d'attributs.

 La répartition des classes (crise et non-crise) est fortement deséquilibrée. C'est pour cette raison que nous avons insisté sur l'importance de la mesure d'évaluation d'un classieur, qui ne saurait être réduite au taux de bonnes classications (voir section

2.3). Nous y reviendrons à la section 7.6 lorsque nous comparerons empiriquement diérentes méthodes de sélection d'attributs.

 Les indicateurs utilisés sont des attributs continus, ou discrets et ordonnés. La ca-pacité des méthodes de sélection d'attributs à pouvoir traiter des attributs continus devra donc également être considérée.

Si FCBF répond à nos exigences de complexité, nous avons souligné à la n de la section précédente certaines de ses limites : le choix des seuils de pertinence et de redondance est problématique. Après avoir passé en revue les spécicités des données auxquelles la méthode de sélection doit pouvoir s'adapter, nous pouvons ajouter une autre limite : la prise en compte des attributs continus.

La mesure de corrélation utilisée par Yu et Liu pour évaluer la pertinence et la redon-dance des attributs est en eet une mesure issue de la théorie de l'information : l'incertitude symétrique. Elle ne s'applique pas directement aux attributs continus. Il faudrait pour cela estimer les densités de probabilité utilisées dans le calcul de l'entropie qui est à la base de l'incertitude symétrique. Mais les estimations ne sont généralement pas ables lorsque le nombre d'exemples est réduit. Aussi Yu et Liu (2004); Hall (2000) ont-ils recours à une méthode de discrétisation pour convertir les attributs continus en variables discrètes sur lesquelles ils peuvent estimer facilement l'incertitude symétrique.

Cela pose problème car une étape supplémentaire doit être réalisée. Ceci accroît la complexité de la sélection d'attributs et augmente le nombre de paramètres du modèle puisque ceux qui sont inhérents à la phase de discrétisation doivent être inclus dans ce modèle. Avant de xer ses paramètres il faut de plus savoir quelle méthode de discrétisation choisir. Ceci implique que plusieurs méthodes doivent être envisagées, leurs paramètres testés, avant de choisir celle qui convient.

Pouvoir travailler directement sur les données continues permettrait de se passer de cette étape supplémentaire et de conserver un modèle aussi simple que possible. Cette préférence pour des modèles simples correspond au principe du rasoir d'Occam (Domingos,

1999). Ce principe est fréquemment invoqué et appliqué dans les sciences expérimentales pour privilégier les solutions simples.

7.4. FILTRAGE BASÉ SUR LE TEST DE KOLMOGOROV-SMIRNOV 159 Nous avons vu en n de section précédente comment Biesiada et Duch (2005), en remplaçant l'incertitude symétrique par la distance de Kolmogorov-Smirnov dans l'analyse de la redondance, résolvaient partiellement les problèmes sus-mentionnés de FCBF. À partir de cette distance il est en eet possible de construire un test statistique qui permet de conclure, pour un niveau de conance donné, sur la redondance entre deux attributs. Le seuil de redondance est nettement plus simple à dénir, son interprétation étant en outre immédiate. L'autre avantage de cette distance, que nous n'avions pas mentionné jusqu'alors, réside dans le fait qu'elle s'applique directement aux variables continues. Nous désignerons la méthode de Biesiada et Duch par le sigle KSCBF (Kolmogorov-Smirnov Correlation-Based Filter).

7.4.2 Description de la méthode

Nous avons choisi de construire un ltre rapide basé sur la corrélation, en nous ap-puyant exclusivement sur la distance de Kolmogorov-Smirnov, que nous nommerons par la suite KSF (Kolmogorov-Smirnov Filter). Autrement dit nous proposons d'eectuer non seulement l'analyse de la redondance mais également l'analyse de la pertinence à l'aide de cette distance et du test statistique qui lui est associé. Comme nous l'avons mentionné précédemment, cette distance, qui correspond à une mesure de divergence, peut être utili-sée comme mesure de pertinence. Utgo et Clouse(1996) l'emploient par exemple en lieu et place du gain d'information pour construire des arbres de décision. Voyons maintenant plus en détail comment ce test est appliqué dans chacune des deux étapes de l'analyse. 7.4.2.1 Analyse de la redondance

Pour l'analyse de la redondance entre viet vj, nous avons indiqué précédemment que le test de Kolmogorov-Smirnov consistait à tester l'hypothèse nulle suivante H0 : Fvi = Fvj. Pour une variable v, Fv désigne sa fonction de répartition. On a :

∀x ∈ R, Fv(x) = Z x

t=−∞

pv(t) dt = P (v ≤ x)

où P désigne la probabilité d'un événement, tandis que que pv correspond à la densité de probabilité associée à la variable v.

Pour tester H0, on utilise la distance de Kolmogorov-Smirnov δKS, introduite à la section 7.3.1.2. Si H0 est correcte, δKS doit être nulle. Les densités de probabilité pvi et pvj sont a priori inconnues et très diciles à estimer. Aussi utilise-t-on plutôt les fonctions de répartition empiriques que l'on peut construire à partir des valeurs de vi et vj prises par les n exemples dont nous disposons : E = {e1, ..., en}. Nous avons alors Fvi(x) = kn où k correspond au nombre d'exemples pour lesquels la valeur de vi est inférieure à x : k = |{eh∈ E, vhi≤ x}|.

Pour pouvoir calculer la distance δKS Fvi, Fvj



, l'étape la plus coûteuse correspond au tri des valeurs vhi et vhj qui a une complexité de l'ordre de O (n × log2(n)). Notons que la complexité du calcul de l'incertitude symétrique est du même ordre, puisqu'il faut également procéder à ce tri durant la phase de discrétisation.

Si H0 est vraie, il est possible de montrer que l'on a la relation suivante : ∀t ≥ 0 lim x→∞P βn× δKS Fvi, Fvj > t = 2 X k=1 (−1)k+1exp −2k2t2 (7.7)

160 CHAPITRE 7. SÉLECTION D'ATTRIBUTS où βnest un facteur correctif qui tient compte du nombre d'exemples à partir desquels ont été estimées les fonctions de répartition empiriques. En pratique on prendra l'approximation suivante : βn=n + 0.12 + 0.11

n (Press et al.,2002).

À partir de cette relation, la construction du test de Kolmogorov-Smirnov est immé-diate. SoitδKSi,jˆ la valeur observée de la distance de Kolmogorov-Smirnov entre les fonctions de répartition empiriques de vi et vj. Le membre droit de l'équation7.7calculé en prenant ti,j = βn×δKSi,jˆ donne en eet directement la p-valeur associée à ce test, notée pi,j. Si l'on xe le niveau de conance à 1 − α, et si le nombre d'exemples n est susamment grand (en pratique n > 30), la probabilité que la valeur théorique de βn× δKS Fvi, Fvj



soit au moins égale au ti,j estimé, est égale à pi,j sous H0. Si celle-ci est susamment faible il est peu vraisemblable que H0 soit vraie. Le test consiste donc à utiliser la règle de décision suivante :

pi,j ≤ α ⇒ Rejeter H0 vi et vj ne sont pas redondants pi,j > α ⇒ Accepter H0 vi et vj sont redondants

Cette méthode d'analyse de la redondance est exactement celle qui a été mise en place parBiesiada et Duch(2005) (avec α = 0.05). Elle correspond au test eectué à la ligne14

de l'algorithme9. En observant plus nement cet algorithme, on s'aperçoit que ce test est eectué (taille (Vopt) − i) fois lorsque la i-ième variable la plus pertinente est considérée.

On retrouve donc les problèmes de comparaisons multiples évoqués à la section5. Aussi avons-nous modié l'analyse de la redondance telle que la présentent Biesiada et Duch

(2005), an de prendre en compte le fait que de multiples comparaisons sont réalisées à chaque étape. Reprenant les recommandations émises alors, nous avons décidé de mettre en place la procédure ascendante de Holland-Copenhaver pour ajuster le taux d'erreurs global.

7.4.2.2 Analyse de la pertinence

Pour l'analyse de la pertinence, nous proposons de considérer le problème sous l'angle suivant. Un attribut vi sera d'autant plus pertinent vis-à-vis de la variable classe y, qu'il permet de discriminer les diérences classes (modalités de y). Supposons pour le moment que nous n'avons que deux classes c1 et c2. Le pouvoir discriminant de vi relativement à y, sera d'autant plus grand que la densité de probabilité de vi sachant c1 sera diérente de la densité de probabilité de vi sachant c2. Une mesure de divergence peut alors être employée pour mesurer ce pouvoir discriminant et donc la pertinence d'un attribut.

Nous utilisons la distance δKS



Fvi|c1, Fvi|c2 comme mesure de divergence. Si l'on pose l'hypothèse nulle suivante H0 : Fvi|c1 = Fvi|c2, cette distance peut être utilisée pour construire un test permettant de juger de la pertinence de vi vis-à-vis de y. Lorsque H0 est rejetée, nous en concluons que vi est pertinent. La diérence observée entre les deux fonctions de répartition empiriques ne peut être due au seul hasard, du moins la probabilité que l'on se trompe est inférieure à α.

Lorsque nous avons K > 2 classes, la méthode n'est plus valable. Pour l'étendre il sut de réaliser K(K−1)

2 tests pour juger du pouvoir discriminant de vi sur toutes les paires de classes possibles. S'il existe au moins une paire pour laquelle vi est jugé pertinent alors nous pourrons considérer que vi peut être utile au processus de classication. Pour chaque attribut nous allons devoir mener en parallèle K(K−1)

2 tests. Il nous faudra donc ici aussi, ajuster le taux d'erreurs global. Comme précédemment nous mettrons en place la procédure ascendante de Holland-Copenhaver pour y parvenir.

7.4. FILTRAGE BASÉ SUR LE TEST DE KOLMOGOROV-SMIRNOV 161 7.4.2.3 Synthèse

An de mettre en évidence les diérences entre les algorithmes FCBF, KSCBF et KSF, rappelons la liation qui existe entre eux. FCBF qui fut proposé par Yu et Liu a servi de source d'inspiration à Biesiada et Duch qui ont développé KSCBF pour résoudre le problème du choix du seuil de redondance. Nous avons nous-même repris et étendu avec KSF ces deux algorithmes, an d'éviter le recours à la discrétisation des attributs continus et de faciliter non seulement le choix du seuil de redondance mais également celui du seuil de pertinence.

Ces trois ltres sont assez proches et reposent sur des idées similaires. Ils font tous partie de la famille plus générique des ltres rapides à base de corrélation que nous avons décrite par l'algorithme9. Au sein de ce formalisme commun, les trois ltres ne se diérencient que par les choix des mesures de pertinence et de redondance, ainsi que des seuils correspondants γp et γr. Le tableau 7.1récapitule ces diérences.

Tab. 7.1  Choix des mesures de pertinence et de redondance, des seuils de pertinence γp et de redondance γr

Filtre pert (vi, y) γp red (vi, vj) γr

FCBF SU (vi, y) logp 2p1 SU (v i, vj) SU (vi, y)2 KSCBF SU (vi, y) 03 KS Fv i, Fvj 0.054 KSF max  KS  Fvi|ck, Fvi|ch  , k 6= h  f (0.05)5 KS Fv i, Fvj  f (0.05)5 1 Il s'agit du nombre d'attributs que l'on souhaite conserver après analyse de la

per-tinence.

2 On suppose que vi est moins corrélé à y que vj.

3 Tous les attributs sont donc conservés après analyse de la pertinence.

4 C'est la p-valeur associée à la mesure de corrélation qui est comparée à ce seuil.

5 f désigne une fonction faisant varier le seuil original 0.05 an d'ajuster le taux d'erreurs global.

En remplaçant la comparaison de l'incertitude symétrique à un seuil dicile à dénir par un test de Kolmogorov-Smirnov pour eectuer les analyses de pertinence et de redondance, le ltre KSF que nous proposons permet de traiter directement les variables continues. De plus le choix des seuils est beaucoup plus simple puisqu'ils correspondent à des niveaux de conance d'un test statistique. Ce sont là les deux lacunes du modèle original FCBF que nous cherchions à combler. Mais n'importe quelle statistique applicable directement aux données continues aurait aussi bien pu être envisagé.

Premièrement, les expériences de Biesiada et Duch (2005) laissent penser que la mé-trique de Kolmogorov-Smirnov peut remplacer l'incertitude symémé-trique sans dégrader les performances en classication. Pour être plus exact, elles ne permettent pas de montrer le contraire. Duch (2006), passant en revue les diérentes mesures d'évaluation utilisées dans le ltrage, note au contraire que les tests de corrélation statistique tels que celui de Pearson ou de Student, sont assez mal adaptés lorsque le nombre d'échantillons est faible et suggère l'utilisation d'un test de permutation pour obtenir des estimations plus ables des p-valeurs. Les expériences de Radivojac et al. (2004) corroborent ce point. Les tests de permutation s'accompagnent cependant d'un accroissement notable de la complexité, ce que nous voulons éviter.

162 CHAPITRE 7. SÉLECTION D'ATTRIBUTS Deuxièment, les tests de Pearson ou de Student appartiennent à la famille des tests pa-ramétriques. Ils reposent sur un certain nombre d'hypothèses qui sont rarement vériables. Lorsque le nombre d'échantillons est faible, les statistiques sur lesquelles reposent ces tests ne peuvant plus être estimées de manière able. Le test de Kolmogorov-Smirnov fait quant à lui partie des tests non paramétriques et ses estimations sont moins sensibles au nombre d'échantillons.

7.4.3 Limites de la méthode

Nous n'avons jusqu'à présent détaillé que les raisons qui nous ont incité à développer une nouvelle méthode de sélection d'attributs ainsi que les forces de cette méthode. Pour parfaire cette description, il convient maintenant de présenter ses faiblesses.

Le principal inconvénient de notre approche concerne les attributs discrets. Si le test de Kolmogorov-Smirnov s'applique directement sur les attributs continus, ce que nous sou-haitions, il nous faut préciser qu'il ne peut s'appliquer théoriquement que sur des données continues. Il s'appuie en eet sur les fonctions de répartition empiriques de variables conti-nues. Contrairement à ce que laissent supposer les expériences sur des données discrètes de

Biesiada et Duch(2005), la construction des fonctions de répartition empiriques pour des variables discrètes peut être vide de sens.

Pour préciser cette remarque, il est utile de faire un point sur les diérents types d'attributs que nous considérons depuis le début de cette thèse. Une classication de ces diérents types a été donnée de façon anodine à la gure 6.14, dans laquelle nous nous sommes eorcé de caractériser une base de données. Nous avons alors distingué les attributs continus des attributs discrets. Parmi les attributs discrets on peut encore distinguer ceux qui sont ordonnés de ceux que nous qualions de symboliques. Une dernière distinction peut être faite en fonction du domaine de dénition de ces attributs. Il peut en eet être ni ou non. Cette classication n'est évidemment pas exhaustive. Nous n'avons en eet pas pris en compte les attributs structurés, les variables linguistiques... Mais cette classication sera susante pour notre propos. Seul le caractère ordonné ou non des attributs discrets va nous intéresser.

Pour tout attribut discret et ordonné, étendre la notion de fonction de répartition em-pirique ne pose aucun problème. En eet, les attributs continus sont traités comme des attributs discrets ordonnés lorsque nous construisons cette fonction. À partir de l'ensemble ni des n exemples qui sont à notre disposition, pour une variable continue vi, nous pou-vons trouver une permutation σ telle que vσ(1)i < ... < vσ(n)i. La fonction de répartition empirique se calcule alors de la manière suivante : ∀x

Fvi(x) = P (vi ≤ x) = k n

où k est l'entier tel que vσ(k)i < x < vσ(k+1)i. Le point essentiel de ce calcul réside dans l'obtention de σ. Rechercher une telle permutation n'a de sens que si une relation d'ordre peut être construite sur le domaine de dénition de vi.15.

Le test de Kolmogorov-Smirnov ne peut donc s'appliquer que pour comparer des fonc-tions de répartition de deux variables continues ou discrètes et ordonnées. Ajoutons cepen-dant que dans le cas discret, il faut encore que la relation d'ordre utilisée pour trier les valeurs des deux variables soit la même, sans quoi la distance de Kolmogorov-Smirnov ne pourra être calculée.

7.4. FILTRAGE BASÉ SUR LE TEST DE KOLMOGOROV-SMIRNOV 163 Prenons un exemple. Soit v un attribut correspondant à la forme des yeux et w un