L ES CAHIERS DE L ’ ANALYSE DES DONNÉES
J.-P. B ENZÉCRI
Sur la proportion des paires de voisins réciproques pour une distribution uniforme dans un espace euclidien
Les cahiers de l’analyse des données, tome 7, n
o2 (1982), p. 185-188
<http://www.numdam.org/item?id=CAD_1982__7_2_185_0>
© Les cahiers de l’analyse des données, Dunod, 1982, tous droits réservés.
L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (http:
//www.numdam.org/conditions). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
Vol. VII - 1982 - n°2 - p. 185-188
SUR LA PROPORTION DES PAIRES DE VOISINS RÉCIPROQUES POUR UNE DISTRIBUTION UNIFORME DANS UN ESPACE EUCLIDIEN
[PROP. RECIP.]
par J. P. Benzécri (l)
Rappzl de la dcjinÂ.tion dzé voisin* /t?fU 10*0 que*
Soit I un ensemble fini muni d'une distance d : on dit que i et i' sont deux voisins réciproques au sein de I si on a simultanément
d(i,i*) - inf (d(i,i") |i"e I ~{i}} ; d(i,i') = inf{d(i\i") |i"€ I -{iMÎ.
Autrement dit s'il n'y a pas d'élément de I (autre que i)plus proche de i que ne l'est i' ; ni d'élément de I (autre que i ' )plus proche de i' que ne 1'est i.
Les paires de voisins réciproques pouvant être agrégés en un seul parcours du tableau des distances (cf.IPROG. C.A.H. RECIP.] p. 195, il importe de connaître la fréquence des paires de voisins récipro- ques pour apprécier les mérites de l'algorithme des voisins récioro- ques.
En particulier on peut considérer le cas modèle suivant : l'en- semble I est construit par tirages, au hasard, successifs indépendants suivant une distribution uniforme sur un ouvert borné (e.g. un cube) de l'espace euclidien de dimension n. Il est clair, vu le caractère local du problème que pour Card I tendant vers l'infini, la forme du domaine ouvert n'intervient pas.
Dans la présente note on étudiera d'abord le cas modèle n = 1 : où les points de l'ensemble I sont tirés suivant une loi uniforme sur un segment de droite (e.g. (0,1)) . Puis le cas général, avec la limite n •+ «».
2 Etude, d'unz d<l&tK<Lbu.tloYi un^jOKmz &ufj la. dKQJLto.
Notons Card I = m : l'ensemble I peut être considéré comme un point (distribué uniformément) du cube (0,l)ffl : plus précisément on doit identifier deux points du cube aont les m coordonnées n e diffèrent que par une permutation, et qui définissent un même I . On peut encore supposer que :
x(l) r x(2) < s x(m)
Cherchons la probabilité pour que x (r) et x(r+l) soient des voi- sins réciproques (sous l'hypothèse que 2 < r £ m -2 : i.e. x(2) n'est point premier, ni x(r+l) dernier). Il est clair que cet événement ne il) Professeur de statistique. Université Pierre et Marie Curie.
186 J.P. BENZECRI
dépend q u e d e s c o o r d o n n é e s d e s quatre points de rang r-1, r, r+1, r+2 car seul l e point r-1 peut entrer en concurrence avec r+1 pour ê t r e le p l u s p r o c h e voisin d e r (et de même r+2 avec r pour r + 1 ) . On c a l - c u l e r a d o n c la p r o b a b i l i t é conditionnelle, x(r-l) et x(r+2) étant f i - x é s , q u e x ( r ) et x(r+l) soient voisins réciproques : cette probabili- té q u i n e dépend p a s d e s coordonnées x(r-l) et x(r+2) ni d e r sera a u s s i la p r o b a b i l i t é pour que deux éléments consécutifs soient v o i -
sins r é c i p r o q u e s .
COjM
oc L\^
(0,0) fci,o>
Pour la commodité d u dessin o n a noté x(r-l) = 0 ; x(r+2) = 1 (ce q u i n'est qu'un changement d'échelle sans effet sur l e calcul des p r o b a b i l i t é s en vue) ; et noté x(r) = x ; x(r+l) = y. Sur le triangle d é f i n i par x < y, la condition de voisinage réciproque délimite un sous t r i a n g l e (hachuré sur la figure) qui en est le 1/3. Telle est la p r o - b a b i l i t é q u e x(r) et x(r+l) soient voisins réciproques, si 2 <r < m - 2 ; d a n s l e s c a s r - 1 et r = m-1 on trouve sans peine que cette proba- bilité est 1/2.
D o n c l'espérance mathématique d u nombre d e s paires agrégées en un p a r c o u r s est pour le modèle étudié égal au tiers du nombre m des p o i n t s d e I . En m o y e n n e o n aura, après ce parcours, m / 3 i n d i v i d u s isolés et m / 3 paires constituées par agrégation de deux voisins r é - c i p r o q u e s .
3 Etude, d'une. distribution unl^oKme. o.n dlme.nélon n 2. 2
m p o i n t s sont disposés au hasard dans un ouvert d e volume V de l'espace euclidien de dimension n par tirages aléatoires indépendants.
Pour c a l c u l e r la p r o p o r t i o n moyenne d e paires de voisins réciproques, nous c o m m e n c e r o n s par déterminer la loi de la distance p d'un point M a son p l u s p r o c h e voisin M ' ; puis nous calculerons la probabilité con- d i t i o n n e l l e p(p) (fonction de p ) p o u r que M soit aussi l e p o i n t du n u a g e le p l u s p r o c h e d e M'. En intégrant p(p) par rapport à la loi de P o n aura la possibilité pour qu'un point ait un voisin réciproque , p r o b a b i l i t é q u i n'est autre que le double du rapport à m du n o m b r e m o y e n d e p a i r e s d e v o i s i n s réciproques.
3* 7 Lo^ dz *-a distance, d'un point à bon pluà proche, voisin : Notons
B ( n ) Rn (ou, en bref, B Rn ) le volume d'une boule d e rayon R dans l'espace d e d i m e n s i o n n . La probabilité F(p) que la distance é t u - diée soit supérieure à p , se calcule (à la lii.ùte m •+ ^comme la probabilité qu a u c u n d e s (m-1) a u t r e s points n e tombe d a n s la boule d e rayon p ayant pour centre un premier point ? soit :
F(p) (1 - (B(n) pn/V)) m"1
soit à la limite et en notant d = V / m la densité moyenne du nuaqe de
p o i n t s : ^
F(p) = e x p ( - p " B(n) d)
D ' o ù pour la d e n s i t é d e la loi d e r é p a r t i t i o n d e P e n t r e 0 e t l'infini :
f (P) B ( n ) . d . n . pn~ . e x p (-p B ( n ) d ) .
3.2 Probabilité condltlonne.lle. p[p) an jonction de. p = (M , M' ) , que.
M soit le plus proche, voisin de. son plus proche, voisin M' :
Sur la figure on a n o t é C la p a r t i e d e la b o u l e d e c e n t r e M * et d e rayon P e x t é r i e u r e à la b o u l e B d e c e n t r é M et d e r a y o n P- L e s v o l u m e s de B et C sont r e s p e c t i v e m e n t :
V o l ( B ) = B ( n ) P V o l ( C ) = C ( n ) p
où B ( n ) et C(n) s'expriment par d e s i n t é g r a l e s sur l e c a l c u l d e s q u e l - les n o u s r e v i e n d r o n s . C e c i posé la p r o b a b i l i t é c o n d i t i o n n e l l e p ( p) c h e r c h é e est c e l l e q u ' a u c u n d e s m - 2 p o i n t s (autres q u e M e t M ' ) n e t o m b e d a n s C ; (sous la c o n d i t i o n c o m p l é m e n t a i r e , n é g l i g e a b l e à la l i m i t e q u ' a u c u n point n e tombe d a n s B ) . D ' o ù :
P(P) - (1 - (C(n)pn/(V - B ( n ) pn) ) )m"2 ;
soit à la limite (en p o s a n t comme c i - d e s s u s d = V / m ) : p(p) = e x p ( - pn C ( n ) d) .
5-3 Probabilité. Qu'un point ait un voisin réciproque. : On d o i t c a l -
c u l e r u n e i n t é g r â l ë-: ~~
/ { f (p) p ( p ) d p | p € ( 0 , ~ ) }
= S B ( n ) . d . n . Pn _ 1. e x p ( - pnB ( n ) d ) e x p ( - pnC ( n ) d ) d p
= / B ( n ) . d . n . Pn _ 1. e x p ( - Pn( B ( n ) + C ( n ) ) d ) d p
= / ( B ( n ) / ( B ( n ) + C ( n ) ) ) ( B ( n ) +C (n)) d . n . pn _ 1e x p ( - pn (B (n)+C (n))d)dp
= B ( n ) / ( B ( n ) + C ( n ) ) .
D a n s le c a s p a r t i c u l i e r , d é j à t r a i t é , o ù n = 1 , o n a :
C = 1
d'où B / ( B + C ) = 2/3. L a p r o b a b i l i t é q u ' u n p o i n t ait u n v o i s i n r é c i p r o - q u e est 2/3 ; soit p o u r l e t a u x d e s p a i r e s la v a l e u r 1/3 d é j à t r o u v é e au § 1. Pour n > 2 il faut r e v e n i r au calcul d e B ( n ) et d e C ( n ) .
188 J.P. BENZECRI
3.4 Calculs de. volume.
La figure définit des notations qu'il est inutile de commenter.
On a :
B « 2H = 2S(îr/2) ;
C = 2(H-L) = 2(S(ir/2) -S (TT/3)) ; B/(B+C)= S(TT/2)/(2S(TT/2)-S(V3)) ;
= 1/(2-(S(TT/3)/S(TT/2)Ï) ;
Un c a l c u l c l a s s i q u e d o n n e p o u r S ( 9 ) : S ( 6 ) = B ( n - l ) / ( s i nnt d t | t e ( 0 , 6 ) } ,
(où B(n-l) est comme ci-dessus, le volume de la boule de rayon 1 en dimension n-1). Faisons le calcul pour n = 2
S(S) = 2 /sin2t dt
= /(l-cos2t)dt = 9 - (sin26/2) ;
S(TT/2) =TT/2 ; S (TT/3) = (TT/3) - (/3/4)« 0,614 ; d'où : B/CB +C) «0,621 <2/3.
Quand n tend vers l'infini, S (TT/3) tend à être négligeable vis- à-vis de S(w/2) et donc B ~C et B/(B+C) *l/2.
4 Conclusion : Egicaclté de. l'algorithme, des voisins réciproques Ainsi quand n varie de 0 à l'infini le nombre de paires de voi- sins réciproques agrégés (en moyenne) au premier parcours varie de m/3 à m/4.
Ce qui arrive aux itérations suivantes est plus difficile à ap- précier car, les points restants après agrégation n'étant pas en si- tuation quelconque ils ne rentrent pas nous semble-t-il jdans un modèle aléatoire simple. Si toutefois chaque parcours du tableau des distances réduisait véritablement d'environ (1/4) le nombre des som- mets, on pourrait évaluer comme suit en fonction du nombre m des in- dividus le nombre d des distances à calculer :
Ad/Am s*Cm2/2)/(m/4) = 2 m
(car en bref à chaque parcours on calcule m /2 distances et m varie 2 de m/4...) d'où par intégration
d *» m (pour une autre évaluation, cf. p. 226) 2
On sait que l'algorithme de base qui effectue une agrégation par parcours, donne d = m3/6 . Nos évaluations, même approximatives mon- trent en tout cas de façon certaine l'efficacité de l'algorithme des voisins réciproques ; efficacité que confirme l'expérimentation sur les données réelles.