• Aucun résultat trouvé

Consistance d'un estimateur de minimum de variance étendue

N/A
N/A
Protected

Academic year: 2021

Partager "Consistance d'un estimateur de minimum de variance étendue"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: hal-00258115

https://hal.archives-ouvertes.fr/hal-00258115

Submitted on 21 Feb 2008

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Consistance d’un estimateur de minimum de variance

étendue

Joseph Rynkiewicz

To cite this version:

Joseph Rynkiewicz. Consistance d’un estimateur de minimum de variance étendue. Comptes rendus

de l’Académie des sciences. Série I, Mathématique, Elsevier, 2005, 341, pp.133-136. �hal-00258115�

(2)

hal-00258115, version 1 - 21 Feb 2008

Statistique

Consistance d’un estimateur de minimum de variance ´etendue

Consistency of a least extended variance estimator

Joseph Rynkiewicz

a

a

SAMOS/MATISSE, Universit´e de ParisI, 72 rue Regnault 75013 Paris, France, T´el. et Fax : 01-44-07-87-05

Abstract

We consider a generalization of the criterion minimized by the K-means algorithm, where a neighborhood structure is used in the calculus of the variance. Such tool is used, for example with Kohonen maps, to measure the quality of the quantification preserving the neighborhood relationships. If we assume that the parameter vector is in a compact Euclidean space and all it components are separated by a minimal distance, we show the strong consistency of the set of parameters almost realizing the minimum of the empirical extended variance. To cite this article:

R´esum´e

On consid`ere une g´en´eralisation du crit`ere minimis´e par l’algorithme des K-moyennes [K-means], o`u une structure de voisinage est introduit dans le calcul de la variance. Un tel outil est utilis´e, par exemple avec des cartes de Kohonen, pour mesurer la qualit´e de la quantification respectant les structures de voisinage. Si on suppose que le vecteur param`etre est dans un compact d’un espace euclidien et que toutes ses composantes sont s´epar´ees par une distance minimale, on montre la consistance forte de l’ensemble des param´etres assez proches du minimum de variance ´etendue. Pour citer cet article :

1. Introduction

Nous consid´erons une g´en´eralisation de la variance intra-classe qui est consid´er´ee comme le principal crit`ere de mesure de qualit´e des cartes de Kohonen (cf Kohonen [4]), bien que l’algorithme de Kohonen ne minimise pas exactement ce crit`ere (cf Cottrell et al. [1]). La variance ´etendue est la somme de la variance intra-classe et d’un terme qui d´epend des classes voisines. Sa minimisation permet notamment d’obtenir une classification qui respecte les relations de voisinage et qui donne lieu `a des interpr´etations

(3)

ais´ees, puisque la proximit´e des classes correspond `a la proximit´e des donn´ees r´eelles repr´esent´ees par ces classes.

Nous consid´erons dans toute la suite que les observations i.i.d. sont dans le compact [0, 1]d, qu’elles ont

pour mesure de probabilit´e P qui admet une densit´e par rapport `a la mesure de Lebesque, born´ee par une constante B. Dans la suite, on appelera “centro¨ıde” un vecteur de [0, 1]d qui repr´esente une classe d’observations ω.

D´efinition1.1 Pour e∈ N, e≤ d, soit un ensemble fini I ⊂ ZeetΛ la fonction de voisinage d´efinie de

I− I := {i − j, i, j ∈ I} dans [0, 1] telle que Λ(k) = Λ(−k) et Λ(0) = 1. D´efinition1.2 Notonsk.k la norme euclidienne, soit

DδI :=  x := (xi)i∈I ∈  [0, 1]dI tels que kxi− xjk ≥ δ, si i 6= j 

l’ensemble des centro¨ıdes xi s´epar´es par une distance d’au moins δ.

D´efinition1.3 La tessellation de Vorono¨ı (Ci(x))i∈I est d´efinie par

Ci(x) :=

n

ω∈ [0, 1]d tels quekxi− ωk < kxj− ωk si j 6= i

o

En cas d’ex-aequo, on assigneω ∈ Ci(x) grˆace `a l’ordre lexicographique surI. On remarquera alors que

(Ci(x))i∈I est une partition bor´elienne dont l’int´erieur coincide avec la mosa¨ıque de Vorono¨ı ouverte.

R´eciproquement, l’indice de la tesselation de Vorono¨ı pour une observation ω est d´efinie par Cx−1(ω) := i∈ I tel que ω ∈ Ci(x)

D´efinition1.4 La variance ´etendue est : V (x) :=12P

i,j∈IΛ(i− j)

R

Ci(x)kxj− ωk

2dP (ω)

De mˆeme, lorsqu’il y a un nombre finin d’observations, on d´efinit la variance ´etendue empirique : Vn(x) := 2n1 Pi∈IPω∈Ci(x)

 P

j∈IΛ(i− j)kxj− ωk2



Si une observation se trouve sur un hyperplan m´ediateur entre deux centro¨ıdes, tout d´eplacement d’un de ces deux centro¨ıdes entrainera un saut de la variance ´etendue `a moins que la mesure de cette observation ne soit nulle (par exemple, si la mesure ne charge pas les traces d’hyperplan). La fonction de variance ´etendue empirique Vn(x) n’est donc pas continue et il n’existe pas, en g´en´eral, d’ensemble de centro¨ıdes

r´ealisant son minimum. Cependant, si on consid`ere les suites xntelles que V

n(xn) soit suffisamment proche

de son minimum, on peut se demander si ces suites convergent vers l’ensemble des centro¨ıdes minimisant la variance th´eorique V (x). Pour cela, nous proc´edons selon le mˆeme sch´ema de d´emonstration que Pollard [5] et nous commen¸cons par montrer que les fonctions de variance ´etendue v´erifient une loi uniforme des grands nombres.

2. Loi uniforme des grands nombres

Soit la famille de fonctions

G :=    gx(ω) := X j∈I Λ Cx−1(ω)− j kxj− ωk2 pour x∈ DIδ   

Pour montrer la loi uniforme des grands nombres, il suffit de montrer que sup x∈Dδ I Z gx(ω)dPn(ω)− Z gx(ω)dP (ω) p.s. −→ 0 (1) 2

(4)

puisque, pour toute mesure de probabilit´e Q sur [0, 1]d : Z gx(ω)dQ(ω) = Z X j∈I Λ Cx−1(ω)− j kxj− ωk2dQ(ω) = 1 2 X i,j∈I Λ(i− j) Z Ci(x) kxj− ωk2dQ(ω)

d’apr`es Gaenssler et Stute [3], une condition suffisante pour que l’´equation (1) soit v´erifi´ee est que : ∀ε > 0, ∀x0∈ DδI il existe un voisinage S(x0) de x0tel que

Z gx0(ω)dP (ω)− ε < Z  inf x∈S(x0) gx(ω)  dP (ω) Z sup x∈S(x0) gx(ω) ! dP (ω) < Z gx0(ω)dP (ω) + ε

On peut d’abord prouver le r´esultat suivant, en utilisant une technique similaire `a la preuve du lemme 11 de Fort et Pag`es [2].

Lemme 2.1 Soitx∈ Dδ

I etλ la mesure de Lebesgue sur [0, 1]d. NotonsEcle compl´ementaire de

l’ensem-bleE dans [0, 1]d et|I| le cardinal de l’ensemble I. Pour 0 < α <δ 2, soit

i (x) =ω ∈ [0, 1]d/∃y ∈ DIδ, xj = yj sij6= i et kxi− yik < α et ω ∈ Cic(y)∩ Ci(x)

l’ensemble des ω changeant de cellule de Vorono¨ı lorsque le centro¨ıde xi se d´eplace d’une distance d’au

plusα. Alors supx∈Dδ Iλ (U α i (x)) < (|I| − 1)  2α δ + α √ 2d−1 Consid´erons maintenant x0∈ Dδ

I et S(x0) un voisinage de x0 inclus dans une boule de rayon α, pour

la distance euclidienne sur Dδ

I. Soit W (x0) l’ensemble des ω restant dans leur cellule de Vorono¨ı lorsque

on d´eplace x0 vers n’importe quel x

∈ S(x0). Pour tout ω∈ W (x0) on a inf x∈S(x0)gx(ω)≥ gx 0(ω)− X j∈I Λ Cx−10(ω)− j   kx0j− ωk 2 − inf x∈S(x0)kx 0 j− ωk 2 ≥ gx0 j(ω)− X j∈I  kx0 j− ωk2− inf x∈S(x0)kx 0 j− ωk2 

Pour tout ω∈ [0, 1]d, on a, pour α suffisamment petit,

kx0 j− ωk2− infx∈S(x0)kxj− ωk2 < ε 2B|I| ainsi Z W(x0) X j∈I  kx0 j − ωk2− inf x∈S(x0)kxj− ωk 2  dP (ω) < ε 2 et Z W(x0)  gx0(ω)− inf x∈S(x0)gx(ω)  < ε 2

Soit, maintenant W (x0)c, l’ensemble des ω changeant de cellule de Vorono¨ı quand les centro¨ıdes vont

de x0 vers un x∈ Sx0. Si α < δ

2|I|, alors en d´epla¸cant s´equentiellement les composantes x 0

i de x0 vers xi

de x, chaque configuration interm´edaire reste dans Dδ2

I. Comme, pour tout i∈ I, kxi− ωk2est born´e par

1 sur [0, 1]d, le lemme 2.1, assure alors que

Z W(x0)c gx(ω)dP (ω) < B|I|(|I| − 1))  4α δ + α √ 2d−1

Finalement, si on choisit α suffisamment petit pour que B|I|(|I| − 1)) 4α δ + α  √ 2d−1 < ε 2, on obtient Z Dδ I gx0(ω)dP (ω)− ε < Z Dδ I  inf x∈S(x0)gx(ω)  dP (ω)

(5)

Exactement de la mˆeme fa¸con, pour α suffisamment petit, on obtient : Z Dδ I sup x∈S(x0) gx(ω) ! dP (ω) < Z Dδ I gx0(ω)dP (ω) + ε

Ainsi, la condition suffisante pour la loi uniforme des grands nombres est vraie pour la variance ´etendue.

3. Consistance

On veut montrer la consistance des centro¨ıdes qui minimisent “presque” la variance ´etendue dans Dδ I.

Soit l’ensemble des “quasi-estimateurs” de minimum de variance ´etendue :

¯ χβ

n :=

( x∈ Dδ

I tels que Vn(x) < inf x∈Dδ I Vn(x) + 1 β(n) )

avec β(n) une fonction strictement positive tel que limn→+∞β(n) = ∞. Soit ¯χ = arg minx∈Dδ IV (x)

l’ensemble qui minimise la variance ´etendue th´eorique, comme la fonction x7−→ V (x) est continue et non constante sur Dδ

I, pour tout voisinageN de ¯χ, il existe η (N ) > 0 tel que

∀x ∈ Dδ

I\N , V (x) > min x∈Dδ I

V (x) + η (N )

Pour montrer la consistance forte, il suffit de montrer que pour tout voisinageN de ¯χ on a lim n→∞χ¯ β n p.s ⊂ N ⇐⇒ limn→∞V ¯χβ n − V (¯χ) p.s. ≤ η (N )

avec V (E)− V (F ) := sup {V (x) − V (y) pour x ∈ E et y ∈ F }. Par d´efinition Vn χ¯βn

p.s.

≤ Vn( ¯χ) + β(n)1 , de plus la loi uniforme des grands nombres assure que

limn→∞Vn( ¯χ) − V (¯χ) p.s

= 0, on obtient ainsi limn→∞Vn χ¯βn

 p.s. ≤ V (¯χ) + η(N )2 , de mˆeme on aura limn→∞V ¯χβn − Vn χ¯βn p.s. = 0 et lim n→∞V ¯χ β n − η (N ) 2 p.s. < lim n→∞Vn χ¯ β n p.s. ≤ V (¯χ) +η (N ) 2 finalement limn→∞V ¯χβn − V (¯χ) p.s.

≤ η (N ) ce qui prouve la consistance forte du quasi-estimateur de minimum de variance ´etendue.

R´ef´erences

[1] Cottrell, M., Fort, J.C. and Pag`es, G., Theoretical aspects of the SOM algorithm, Neurocomputing, volume 21, p. 119-138, 1998

[2] Fort, J.C and Pag`es, G., On the A.S. convergence of the Kohonen algorithm with a general neighborhood function, Ann. Appl. Prob., volume 5 :4, p.1177-1216, 1995

[3] Gaenssler, P., Stute, W., Empirical processes : A survey of results for independent and identically distributed random variables, Ann. Prob., volume 7 :2 (1979), p.193-243

[4] Kohonen, T., Self-Organizing Maps, Springer Series in Information Sciences, Volume 30, Springer, 1995. [5] Pollard, D., Strong consistency of k-mean clustering, Ann. Stat., volume 9 :1 (1981), p. 135-140

Références

Documents relatifs

[r]

Dans la section 4, une analyse de l’état d’équilibre des cartes topologiques nous conduira à proposer un nouvel algorithme : VQN (Vector Quantization with Neighbourhood), plus

Ecrire la m´ ethode “public static int recherche(int[] tab, int x, int o)” de la classe “TableauEn- tier” qui renvoie l’indice de l’occurence n ◦ o de x ou −1 si x

[r]

[r]

Pour ˆetre utilisable, on estime que le mat´eriau plastique ne doit pas avoir perdu plus de 20 % de sa temp´erature initiale lors des 3 premi`eres secondes du refroidissement.. Lors

[r]

Une solution qui ne s’annule pas en un point donn´ e, ne s’annulera pas dans un intervalle ouvert contenant ce point... La d´ eriv´ ee est strictement n´ egative ; f est