• Aucun résultat trouvé

Sur la proportion des paires de voisins réciproques pour une distribution uniforme dans un espace euclidien

N/A
N/A
Protected

Academic year: 2022

Partager "Sur la proportion des paires de voisins réciproques pour une distribution uniforme dans un espace euclidien"

Copied!
5
0
0

Texte intégral

(1)

L ES CAHIERS DE L ’ ANALYSE DES DONNÉES

J.-P. B ENZÉCRI

Sur la proportion des paires de voisins réciproques pour une distribution uniforme dans un espace euclidien

Les cahiers de l’analyse des données, tome 7, n

o

2 (1982), p. 185-188

<http://www.numdam.org/item?id=CAD_1982__7_2_185_0>

© Les cahiers de l’analyse des données, Dunod, 1982, tous droits réservés.

L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (http:

//www.numdam.org/conditions). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

Vol. VII - 1982 - n°2 - p. 185-188

SUR LA PROPORTION DES PAIRES DE VOISINS RÉCIPROQUES POUR UNE DISTRIBUTION UNIFORME DANS UN ESPACE EUCLIDIEN

[PROP. RECIP.]

par J. P. Benzécri (l)

Rappzl de la dcjinÂ.tion dzé voisin* /t?fU 10*0 que*

Soit I un ensemble fini muni d'une distance d : on dit que i et i' sont deux voisins réciproques au sein de I si on a simultanément

d(i,i*) - inf (d(i,i") |i"e I ~{i}} ; d(i,i') = inf{d(i\i") |i"€ I -{iMÎ.

Autrement dit s'il n'y a pas d'élément de I (autre que i)plus proche de i que ne l'est i' ; ni d'élément de I (autre que i ' )plus proche de i' que ne 1'est i.

Les paires de voisins réciproques pouvant être agrégés en un seul parcours du tableau des distances (cf.IPROG. C.A.H. RECIP.] p. 195, il importe de connaître la fréquence des paires de voisins récipro- ques pour apprécier les mérites de l'algorithme des voisins récioro- ques.

En particulier on peut considérer le cas modèle suivant : l'en- semble I est construit par tirages, au hasard, successifs indépendants suivant une distribution uniforme sur un ouvert borné (e.g. un cube) de l'espace euclidien de dimension n. Il est clair, vu le caractère local du problème que pour Card I tendant vers l'infini, la forme du domaine ouvert n'intervient pas.

Dans la présente note on étudiera d'abord le cas modèle n = 1 : où les points de l'ensemble I sont tirés suivant une loi uniforme sur un segment de droite (e.g. (0,1)) . Puis le cas général, avec la limite n •+ «».

2 Etude, d'unz d<l&tK<Lbu.tloYi un^jOKmz &ufj la. dKQJLto.

Notons Card I = m : l'ensemble I peut être considéré comme un point (distribué uniformément) du cube (0,l)ffl : plus précisément on doit identifier deux points du cube aont les m coordonnées n e diffèrent que par une permutation, et qui définissent un même I . On peut encore supposer que :

x(l) r x(2) < s x(m)

Cherchons la probabilité pour que x (r) et x(r+l) soient des voi- sins réciproques (sous l'hypothèse que 2 < r £ m -2 : i.e. x(2) n'est point premier, ni x(r+l) dernier). Il est clair que cet événement ne il) Professeur de statistique. Université Pierre et Marie Curie.

(3)

186 J.P. BENZECRI

dépend q u e d e s c o o r d o n n é e s d e s quatre points de rang r-1, r, r+1, r+2 car seul l e point r-1 peut entrer en concurrence avec r+1 pour ê t r e le p l u s p r o c h e voisin d e r (et de même r+2 avec r pour r + 1 ) . On c a l - c u l e r a d o n c la p r o b a b i l i t é conditionnelle, x(r-l) et x(r+2) étant f i - x é s , q u e x ( r ) et x(r+l) soient voisins réciproques : cette probabili- té q u i n e dépend p a s d e s coordonnées x(r-l) et x(r+2) ni d e r sera a u s s i la p r o b a b i l i t é pour que deux éléments consécutifs soient v o i -

sins r é c i p r o q u e s .

COjM

oc L\^

(0,0) fci,o>

Pour la commodité d u dessin o n a noté x(r-l) = 0 ; x(r+2) = 1 (ce q u i n'est qu'un changement d'échelle sans effet sur l e calcul des p r o b a b i l i t é s en vue) ; et noté x(r) = x ; x(r+l) = y. Sur le triangle d é f i n i par x < y, la condition de voisinage réciproque délimite un sous t r i a n g l e (hachuré sur la figure) qui en est le 1/3. Telle est la p r o - b a b i l i t é q u e x(r) et x(r+l) soient voisins réciproques, si 2 <r < m - 2 ; d a n s l e s c a s r - 1 et r = m-1 on trouve sans peine que cette proba- bilité est 1/2.

D o n c l'espérance mathématique d u nombre d e s paires agrégées en un p a r c o u r s est pour le modèle étudié égal au tiers du nombre m des p o i n t s d e I . En m o y e n n e o n aura, après ce parcours, m / 3 i n d i v i d u s isolés et m / 3 paires constituées par agrégation de deux voisins r é - c i p r o q u e s .

3 Etude, d'une. distribution unl^oKme. o.n dlme.nélon n 2. 2

m p o i n t s sont disposés au hasard dans un ouvert d e volume V de l'espace euclidien de dimension n par tirages aléatoires indépendants.

Pour c a l c u l e r la p r o p o r t i o n moyenne d e paires de voisins réciproques, nous c o m m e n c e r o n s par déterminer la loi de la distance p d'un point M a son p l u s p r o c h e voisin M ' ; puis nous calculerons la probabilité con- d i t i o n n e l l e p(p) (fonction de p ) p o u r que M soit aussi l e p o i n t du n u a g e le p l u s p r o c h e d e M'. En intégrant p(p) par rapport à la loi de P o n aura la possibilité pour qu'un point ait un voisin réciproque , p r o b a b i l i t é q u i n'est autre que le double du rapport à m du n o m b r e m o y e n d e p a i r e s d e v o i s i n s réciproques.

3* 7 Lo^ dz *-a distance, d'un point à bon pluà proche, voisin : Notons

B ( n ) Rn (ou, en bref, B Rn ) le volume d'une boule d e rayon R dans l'espace d e d i m e n s i o n n . La probabilité F(p) que la distance é t u - diée soit supérieure à p , se calcule (à la lii.ùte m •+ ^comme la probabilité qu a u c u n d e s (m-1) a u t r e s points n e tombe d a n s la boule d e rayon p ayant pour centre un premier point ? soit :

F(p) (1 - (B(n) pn/V)) m"1

soit à la limite et en notant d = V / m la densité moyenne du nuaqe de

p o i n t s : ^

(4)

F(p) = e x p ( - p " B(n) d)

D ' o ù pour la d e n s i t é d e la loi d e r é p a r t i t i o n d e P e n t r e 0 e t l'infini :

f (P) B ( n ) . d . n . pn~ . e x p (-p B ( n ) d ) .

3.2 Probabilité condltlonne.lle. p[p) an jonction de. p = (M , M' ) , que.

M soit le plus proche, voisin de. son plus proche, voisin M' :

Sur la figure on a n o t é C la p a r t i e d e la b o u l e d e c e n t r e M * et d e rayon P e x t é r i e u r e à la b o u l e B d e c e n t r é M et d e r a y o n P- L e s v o l u m e s de B et C sont r e s p e c t i v e m e n t :

V o l ( B ) = B ( n ) P V o l ( C ) = C ( n ) p

où B ( n ) et C(n) s'expriment par d e s i n t é g r a l e s sur l e c a l c u l d e s q u e l - les n o u s r e v i e n d r o n s . C e c i posé la p r o b a b i l i t é c o n d i t i o n n e l l e p ( p) c h e r c h é e est c e l l e q u ' a u c u n d e s m - 2 p o i n t s (autres q u e M e t M ' ) n e t o m b e d a n s C ; (sous la c o n d i t i o n c o m p l é m e n t a i r e , n é g l i g e a b l e à la l i m i t e q u ' a u c u n point n e tombe d a n s B ) . D ' o ù :

P(P) - (1 - (C(n)pn/(V - B ( n ) pn) ) )m"2 ;

soit à la limite (en p o s a n t comme c i - d e s s u s d = V / m ) : p(p) = e x p ( - pn C ( n ) d) .

5-3 Probabilité. Qu'un point ait un voisin réciproque. : On d o i t c a l -

c u l e r u n e i n t é g r â l ë-: ~~

/ { f (p) p ( p ) d p | p € ( 0 , ~ ) }

= S B ( n ) . d . n . Pn _ 1. e x p ( - pnB ( n ) d ) e x p ( - pnC ( n ) d ) d p

= / B ( n ) . d . n . Pn _ 1. e x p ( - Pn( B ( n ) + C ( n ) ) d ) d p

= / ( B ( n ) / ( B ( n ) + C ( n ) ) ) ( B ( n ) +C (n)) d . n . pn _ 1e x p ( - pn (B (n)+C (n))d)dp

= B ( n ) / ( B ( n ) + C ( n ) ) .

D a n s le c a s p a r t i c u l i e r , d é j à t r a i t é , o ù n = 1 , o n a :

C = 1

d'où B / ( B + C ) = 2/3. L a p r o b a b i l i t é q u ' u n p o i n t ait u n v o i s i n r é c i p r o - q u e est 2/3 ; soit p o u r l e t a u x d e s p a i r e s la v a l e u r 1/3 d é j à t r o u v é e au § 1. Pour n > 2 il faut r e v e n i r au calcul d e B ( n ) et d e C ( n ) .

(5)

188 J.P. BENZECRI

3.4 Calculs de. volume.

La figure définit des notations qu'il est inutile de commenter.

On a :

B « 2H = 2S(îr/2) ;

C = 2(H-L) = 2(S(ir/2) -S (TT/3)) ; B/(B+C)= S(TT/2)/(2S(TT/2)-S(V3)) ;

= 1/(2-(S(TT/3)/S(TT/2)Ï) ;

Un c a l c u l c l a s s i q u e d o n n e p o u r S ( 9 ) : S ( 6 ) = B ( n - l ) / ( s i nnt d t | t e ( 0 , 6 ) } ,

(où B(n-l) est comme ci-dessus, le volume de la boule de rayon 1 en dimension n-1). Faisons le calcul pour n = 2

S(S) = 2 /sin2t dt

= /(l-cos2t)dt = 9 - (sin26/2) ;

S(TT/2) =TT/2 ; S (TT/3) = (TT/3) - (/3/4)« 0,614 ; d'où : B/CB +C) «0,621 <2/3.

Quand n tend vers l'infini, S (TT/3) tend à être négligeable vis- à-vis de S(w/2) et donc B ~C et B/(B+C) *l/2.

4 Conclusion : Egicaclté de. l'algorithme, des voisins réciproques Ainsi quand n varie de 0 à l'infini le nombre de paires de voi- sins réciproques agrégés (en moyenne) au premier parcours varie de m/3 à m/4.

Ce qui arrive aux itérations suivantes est plus difficile à ap- précier car, les points restants après agrégation n'étant pas en si- tuation quelconque ils ne rentrent pas nous semble-t-il jdans un modèle aléatoire simple. Si toutefois chaque parcours du tableau des distances réduisait véritablement d'environ (1/4) le nombre des som- mets, on pourrait évaluer comme suit en fonction du nombre m des in- dividus le nombre d des distances à calculer :

Ad/Am s*Cm2/2)/(m/4) = 2 m

(car en bref à chaque parcours on calcule m /2 distances et m varie 2 de m/4...) d'où par intégration

d *» m (pour une autre évaluation, cf. p. 226) 2

On sait que l'algorithme de base qui effectue une agrégation par parcours, donne d = m3/6 . Nos évaluations, même approximatives mon- trent en tout cas de façon certaine l'efficacité de l'algorithme des voisins réciproques ; efficacité que confirme l'expérimentation sur les données réelles.

Références

Documents relatifs

En utilisant un cercle trigonométrique pour justifier votre résultat, donner l’expression de arccos(cos x) en fonction de x sur [0; π].. En déduire le tracé de la courbe de g

Pour nous rendre compte de la généralité delà méthode, remar- quons que les fonctions ainsi trouvées ne sont pas seulement les intégrales générales du système proposé; mais

Les cinq tétraèdres, dont chacun a pour sommets les projections de l'un des points donnés sur les /aces du tétraèdre ayant pour sommets les quatre autres, sont deux à deux

de la recherche du n-ème plus proche voisin, est de traiter autant de distances qu'il reste de sommets (plus précisément; de sommets, en dehors de la chaîne): on voit que ce coût est

SI ON UTILISE CE SOUS PROGRAMME .L'ALLOCATION N'EST PAS DYNAMIQUE. PROGRAMME HIVOR.CLASSIFICATION ASCENDANTE BINAIRE,ALGORITHME DES VOISINS RECIPROQUES PAR LA METHODE DES

de Rham, évite de rechercher le plus proche voisin v(s) d'un sommet s, si un v(s) déterminé antérieure- ment subsiste-, et d'autre part n'opère jamais que sur une seule chaî-

Ni lorsque la chaîne contient tous les individus car dans ce cas BO (NR) et BO(NR-l) sont néces- sairement voisins réciproques.. Le calcul de l'écart DDK (qui se fait en bref

1 lnttiodiiQ.tA.on : En classification hiérarchique ascendante, le procé- dé consiste à grouper les observations individuelles en classes par a- grégation successive jusqu'à ce