• Aucun résultat trouvé

UNE MÉTHODE DE CLASSIFICATION À BASE DE COPULES POUR LA DÉTECTION

Algorithme 16 Estimation de densité de probabilité conditionnelle

Entrées :

{Xi}n

i=1 un échantillon à partir de la d− distribution F de densité f. Ω = {ω1, · · · , ωm} m classes d’apprentissage.

Output :Densités conjointes fj(x) ; i = 1, · · · , m ;

1 début

2 pour chaque j ∈ {1, · · · , m} faire

3 Transformer les observations Xj i en Uj

i = Fj

ni(Xi) où Fj ni ;

4 Estimée la iiéme distribution limité à la classe ωj

5 et Xj

i dénote une observation de la classe ωj ;

6 Estimer la densité marginale fj

i pour classe ωj;

7 Estimer la densité conjointe des données transformées de la classe ωj. La densité est notée cj et est équivalente à la densité de la copule.;

8 Estimer la densité conjointe des données originales de la classe ωj avec :

fj(x) = cj(F1(x1), . . . , Fd(xd))Yd

i=1 fij(xi)

9 fin

10 fin

Cette approche nous permet, d’une part, d’atténuer la malédiction de la dimensionnalité et nous permet, d’ autre part, de traiter les données même dans le cas où la variance n’existe. Comme elle tiens compte des relations non-linéaires qui peuvent exister entre les attributs. Une nouvelle observation x sera affectée à la classe ωr solution de :

r= arg max

j fj(x) (5.1)

Avant d’entamer, en détaille le modèle de classification développé, il nous semble important de présenter une courte introduction aux copules.

5.2 Les Copules

Les copules jouent un rôle très important dans plusieurs domaines des statistiques et de l’apprentissage automatique comme outil d’études des mesures sans échelle de dépendance et comme point de départ dans la construction des familles de distributions bidirectionnelles en particulier dans les applications où les dépendances sont non-linéaires.

La meilleure définitions des copules est celle donnée par le fameux théorème de Sklar-[370, 276] qui précise le lien entre la fonction de copule et la fonction de distribution conjointe.

Theorem 1. (Théorème de Sklar)

Soit F une fonction de distribution à d-dimensions sur des variables aléatoires réelles avec des fonctions marginales f1, f2, ..., fd, il existe alors une fonction de copule C tel que ∀x ∈ ¯Rd

on a :

F (x1, . . . , xd) = C(f1(x1), . . . , fd(xd)) (5.2)

où ¯R dénote l’axe réel étendu [−∞, ∞] et C : [0, 1]p

[0, 1].

La distribution de copule peut, également, être définie comme une distribution conjointe des variables aléatoires uniformément distribuées :

C(u1, . . . , up) = P (U1 ≤ u1, . . . , Up ≤ up) (5.3)

où Ui ∼ U(0, 1) for i = 1, . . . , p.

Il est à noté que si f1(x1), . . . , fd(xd) dans (5.2) sont toutes continues alors, C est unique.

Sinon , C est uniquement déterminée sur Ran(f1) × Ran(f2) × · · · × Ran(fd), où Ran signifie

le Rang.

Inversement, si C est une d-copule et f1, . . . , fd sont des fonctions de distribution alors la fonction F définie ci-haut est une fonction de distribution à d dimensions ayant comme marginales f1, . . . , fd. ( La démonstration est donnée dans [370]).

A partir du théorème de sklar, on voie que pour des fonctions de distribution multivariées continues , les marginales uni-variées et la structure de dépendance multivariée peuvent être séparées et que la structure de dépendance peut être représentée par une copule. Une impor-tante conséquence du théorème 1 est que la d−densité conjointe F et les densités marginales

f1, f2, . . . , fd sont aussi reliées

f(x1, . . . , xd) = c (F1(x1), . . . , Fd(xd))Yd

i=1

fi(xi) (5.4) où c dénote la densité de la copule C. L’équation (5.4) montre que le produit des densités marginales et la copule "construisent" une d−densité conjointe. L’unique fonction de copule, liée à la distribution multivariée F ayant fi; 1 ≤ i ≤ d comme marginales continues, est déterminée par

C(u1, . . . , ud) = F (F−1

i (u1), . . . , F−1

i (ud)) (5.5)

où F−1

i (s) = {t | Fi(t) ≥ s} dénote le pseudo-inverse de la marginales uni-variée Fi;

i = 1, · · · , d. La copule est essentiellement un moyen pour transformer la variable aléatoire (X1, · · · , Xd) en une autre variable aléatoire (U1, · · · , Ud) = (F1(X1), · · · , Fd(Xd)) ayant des marginales uniformes sur [0, 1] est préserve les dépendances entre ses composantes. Sans l’hy-pothése de continuité, l’équation 5.5 doit être utilisée avec précaution (voir [298] ou [271]).

5.3 Estimation de la fonction de Copule

Estimer la fonction copule revient en premier lieu, à estimer séparément les marginales et la loi conjointe. D’ailleurs, certaines de ces fonctions peuvent être entièrement connues. Selon les prétentions faites, quelques quantités doivent être estimées de façon paramétriquement, ou semi ou même non-paramétrique. Dans le dernier cas, nous devons choisir entre la méthodologie habituelle d’employer "les contre-parties empiriques" et les méthodes de lissage bien connues dans les statistiques tel que : Noyaux, ondelettes, polynômes orthogonaux, les voisins les plus proches, etc.

Ici, nous ferrons recours à une méthode non paramétrique pour estimer la copule car d’une part, l’estimation non paramétrique des copules ne nécessite la définition d’aucun paramètre ou seuil. De plus, elle offre un meilleur pouvoir de généralisation et peut fournir les informations initiales requises pour un modèle paramétrique. Et d’autre part, les distributions marginales et la distribution conjointe sont directement observables alors que la copule est une structure de dépendance cachée, ceci rend la tâche de proposer un modèle paramétrique de copule approprié non triviale.

En fait, l’estimation non paramétrique des copules remonte à Deheuvels [102], qui a proposé la copule dite empirique défini par :

Cn(u) = 1 n n X i=1 I (Fn,1(Xi1) ≤ u1, . . . , Fn,d(Xi,d) ≤ ud) (5.6) où Fn,i sont des fonctions de distribution empiriques données par :

Fn,j(x) = 1 n n X i=1 I(Xi,j ≤ x) (5.7) avec j = 1, . . . , d et u ∈ [0, 1]d.

soit Ri le rank de Xi sur l’échantillon X1, . . . , Xn. Notez que Cn est une fonction de

R1, R2, . . . , Rn, car Fn,j(Xi) = Ri,j n i= 1, . . . , n, à savoir : Cn(u) = 1 n n X i=1 I Ri,1 n ≤ u1, . . . ,Ri,d n ≤ ud  . (5.8)

A partir de cette représentation, on peut considérer Cn(u) comme une distribution multi-variée avec des marginales uniformes prenant des valeurs dans l’ensemble 1

n,

2

n, . . . ,1. ainsi sa densité donnée par :

cn(u) = ∂C(u1, ..., ud)

∂u1, · · · , ∂ud. (5.9)

peut être estimée par une fonction noyau standard :

ˆcn(u) = 1 n n X j=1 d Y i=1 h−1i K ui− Uji h−1i ! (5.10)

où Ui est la transformée de la donnée originale :Ui = Fj n,i(Xi).

La fonction noyau uni-variée K(u) peut être n’importe quel fonction qui satisfait les condi-tions suivantes :

(a) K(x) ≥ 0 et R

RK(x)dx = 1. (b) R

RxK(x)dx = 0 (Symétrique sur l’origine). (c) admet un second moment finie e.g. R

Rx2K(x)dx < ∞.

Nous avons à choisir la fonction noyau K ainsi que son paramètre de lissage ou sa bande passante h. En fait, le choix de K est un problème de moindre importance, différentes fonctions produisant de bons résultats peuvent être utilisées(Voir la table 5.1 pour quelque exemples).

Nous utiliserons, comme noyau, une fonction gaussienne donnée par :

K(v) =1

exp(−

v

Table 5.1 – Quelques fonctions noyaux. Kernel K(x) 1 uniform 121(|x|≤1) 2 Epanechnikov 34(1 − x2)1(|x|≤1) 3 Gaussian √1 exp x 2  4 triangular (1 − |x|)1(|x|≤1) 5 Triweight 3532(1 − x2)31(|x|≤1) 6 Tricube 7081(1 − x3)31(|x|≤1) 7 Biweight(Quartic) 15 16(1 − x2)21(|x|≤1) 8 Cosine π 4cos( π 2x)1(|x|≤1)

Dans la pratique le choix d’une méthode efficace pour calculer h pour un ensemble d’ob-servations est plus complexe vue l’influence de la bande passante sur la forme de l’estimateur correspondant. Si la bande passent est trop petite, on obtiendra un estimateur avec une haute variabilité et un sous-lissage. Et si la valeur de h est importante, l’estimateur résultant sera très lisse et plus éloigné de la fonction que nous essayons d’estimer[330](Fig. 5.1).

Figure 5.1 – Densité de distribution normale standard et l’estimateur noyau(KDE) de sa densité obtenues à partir d’un échantillon aléatoire de taille 500 ; avec des bandes passantes différentes : Ligne continue : Vrai densité (normal standard). ligne pointillée : KDE avec h =

Pour évaluer le compromis entre le biais et la variance, Silverman [366] a suggéré l’utilisation de la bande passante donnée par :

hn= 0.9(min(ˆσ,IQR 1.34)n

1

5 (5.12)

où IRQ est l’intervalle interquantille et et ˆσ est l’écart type de l’échantillon. Comme dans toutes les procédures de sélection de bande passante souhaitables, cette bande passante devient plus petit que le nombre d’observations n augmente, mais ne va pas à zéro "trop vite" [111].

5.4 Le classificateur probabiliste

Comme mentionner ci-haut, le but de ce chapitre est de développer une méthode de classi-fication non paramétrique en utilisant les copules pour estimer la densité conditionnelle fj(x) pour qu’un élément x soit membre d’une classe ω. En réalité, nous utilisons la copule empirique comme outil d’estimation de fj(x) donnée par l’équation 5.4.

Considérons un ensemble m classe ωi; i = 1, · · · , m. Chaque classe ωi est caractérisée par un vecteur aléatoire à d-dimension Xi = (Xi

1, . . . , Xdi). Soit (Xi

11, . . . , X1dj ), . . . , (Xj

n1, . . . , Xndj ) un échantillon aléatoire issue de la classe ωj. La distribution de la composante Xj

i du vecteur aléatoire Xj peut être estimée par

Fn,ij (xi) = 1 n n X k=1 I  Xkij ≤ xi  .

La fonction de densité de cette composante est, aussi, estimée par ˆ fij(xi) = 1 n n X j=1 K(xi− Xji) où K(x) =1 exp(− x2 2) La densité du vecteur Xj peut être estimée par

ˆ fj(x) = ˆcj Fn,1j (x1), . . . , Fj n,d(xd) d Y i=1 ˆ fij(xi) (5.13) où ˆcj dénote l’estimateur de la densité de la copule associée au vecteur aléatoire Xj estimée par une fonction noyau standard dans l’équation 5.10.

Ainsi, tous les éléments de notre classificateur sont construits, à savoir : — ˆc l’estimateur de la densité de la copule,

— ˆfij l’estimateur de la densité marginale, — et ˆfj l’éstimateur de la densité conjoint.

Le but du classificateur et de déterminer, étant donnée une nouvelle observation x, sa classe la plus probable ωr choisie comme suit :

r= arg max

j

ˆ

fj(x)