Inférence dans le Stochastic Block Model pour les grands graphes

(1)

HAL Id: hal-01197533

https://hal.archives-ouvertes.fr/hal-01197533

Submitted on 6 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Inférence dans le Stochastic Block Model pour les grands graphes

Antoine Channarond, Jean-Jacques Daudin, Stephane Robin

To cite this version:

Antoine Channarond, Jean-Jacques Daudin, Stephane Robin. Inférence dans le Stochastic Block

Model pour les grands graphes. JFGG’10 : Journée thématique Fouille de grands graphes, Oct 2010,

Toulouse, France. 20 p. �hal-01197533�

(2)

Inf´ erence dans le Stochastic Block Model pour les grands graphes

Antoine Channarond, Jean-Jacques Daudin, St´ ephane Robin

AgroParisTech

FGG’10

(3)

1

Stochastic Block Model (SBM)

2

Classification et inf´ erence consistantes

3

Simulations

4

Conclusion

(4)

Stochastic Block Model (SBM)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

_ij

)

_1≤i,j≤n

.

Variables cach´ ees :

(Z

i

)

_1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees :

(X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

_i

= q et Z

_j

= r , X

_ij

suit une loi de Bernoulli de param` etre π

_qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

_qr

)

_1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(5)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

_ij

)

_1≤i,j≤n

.

Variables cach´ ees :

(Z

i

)

_1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees :

(X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

_i

= q et Z

_j

= r , X

_ij

suit une loi de Bernoulli de param` etre π

_qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

_qr

)

_1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(6)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

_ij

)

_1≤i,j≤n

.

Variables cach´ ees :

(Z

i

)

_1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees :

(X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

_i

= q et Z

_j

= r , X

_ij

suit une loi de Bernoulli de param` etre π

_qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

_qr

)

_1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(7)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

_ij

)

_1≤i,j≤n

.

Variables cach´ ees : (Z

i

)

_1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees : (X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

_i

= q et Z

_j

= r , X

_ij

suit une loi de Bernoulli de param` etre π

_qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

_qr

)

_1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(8)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

_ij

)

_1≤i,j≤n

.

Variables cach´ ees : (Z

i

)

_1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees : (X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

_i

= q et Z

_j

= r , X

_ij

suit une loi de Bernoulli de param` etre π

_qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

_qr

)

_1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(9)

Cadre statistique

Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.

Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.

Table : Exemples de mod` eles

Q = 1 Q = 3 Q = 4 Q = 5

π = 0.4 π =

1 ε ε 1

π =







0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0







π =







0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0







(10)

Cadre statistique

Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.

Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.

Table : Exemples de mod` eles

Q = 1 Q = 3 Q = 4 Q = 5

π = 0.4 π =

1 ε ε 1

π =







0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0







π =







0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0







(11)

Cadre statistique

Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.

Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.

Table : Exemples de mod` eles

Q = 1 Q = 3 Q = 4 Q = 5

π = 0.4 π =

1 ε ε 1

π =







0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0







π =







0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0







(12)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets. Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

_1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(13)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

_1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(14)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

_1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(15)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

_1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(16)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

_1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(17)

Classification et inf´erence consistantes

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

^D_nⁱ

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la

distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la

classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(18)

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

^D_nⁱ

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la

distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la

classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(19)

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

^D_nⁱ

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la

distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la

classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(20)

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

^D_nⁱ

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(21)

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

^D_nⁱ

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(22)

Algorithme consistant des plus grands ´ ecarts (PGE)

Ordonner la suite (T

_i

)

_1≤i≤n

: T

₍₁₎

≤ · · · ≤ T

_(n)

Calculer les ´ ecarts (T

(i+1)

− T

(i)

)

1≤i≤n−1

Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.

Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts

(23)

Algorithme consistant des plus grands ´ ecarts (PGE)

Ordonner la suite (T

_i

)

_1≤i≤n

: T

₍₁₎

≤ · · · ≤ T

_(n)

Calculer les ´ ecarts (T

(i+1)

− T

(i)

)

1≤i≤n−1

Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.

Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts

(24)

Algorithme consistant des plus grands ´ ecarts (PGE)

Ordonner la suite (T

_i

)

_1≤i≤n

: T

₍₁₎

≤ · · · ≤ T

_(n)

Calculer les ´ ecarts (T

(i+1)

− T

(i)

)

1≤i≤n−1

Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.

Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts

(25)

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

_q

6= π

_r

.

(26)

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

q

6= π

r

.

Definition

On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min

q6=r

|π

q

− π

_r

|

(27)

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

q

6= π

r

.

Definition

On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min

q6=r

|π

_q

− π

_r

|

Definition

On appelle distance maximale intraclasse la variable al´ eatoire d d´ efinie ainsi : d = max

1≤q≤Q

sup

i∈Cq

|T

i

− π

q

|

(28)

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

_q

6= π

_r

.

Definition

On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min

q6=r

|π

q

− π

r

|

Definition

On appelle distance maximale intraclasse la variable al´ eatoire d d´ efinie ainsi : d = max

1≤q≤Q

sup

i∈Cq

|T

i

− π

_q

|

On notera de plus α

0

= min

1≤q≤Q

α

q

la plus petite des proportions du mod` ele.

(29)

Un heureux ´ ev´ enement pour l’algorithme PGE

Si les T

i

sont suffisamment concentr´ es autour de leur π

q

respectif, la

classification selon les plus grands ´ ecarts est sans erreur ; suffisamment faisant r´ ef´ erence ` a la distance caract´ eristique δ.

Si d ≤

^δ₅

, alors le plus grand ´ ecart entre des sommets de mˆ eme classe est

strictement plus petit que le plus petit ´ ecart entre des sommets de classe

distincte, donc les Q − 1 plus grands ´ ecarts classent bien les sommets.

(30)

Utilisation d’un argument de concentration

Cet heureux ´ ev´ enement est en fait de forte probabilit´ e pour n assez grand grˆ ace ` a la concentration. Illustration : in´ egalit´ e de concentration issue de l’in´ egalit´ e de Hoeffding.

∀t > 0 P(|T

i

− π

q

| > t|Z

i

= q) ≤ 2e

^−2nt²

Th´ eor` eme

Pour tout t > 0, P(d > t) ≤ 2ne

^−2nt²

P(d > t|Z = z ) = P



 [

1≤q≤Q

[

i,z_i=q

{|T

_i

− π

_q

| > t}|Z = z





≤ X

1≤q≤Q

X

i,z_i=q

P(|T

i

− π

q

| > t|Z = z )

≤ X

1≤q≤Q

X

i,z_i=q

P(|T

_i

− π

_q

| > t|Z

_i

= q)

≤ 2ne

^−2nt²

(31)

Conclusion

Th´ eor` eme

Soit E l’´ ev´ enement “il existe une erreur de classification”.

P(E) ≤ 2ne

⁻²⁵²^nδ²

+ Q(1 − α

₀

)

ⁿ⁺¹

L’algorithme PGE est donc consistant. Notons ( C b

_q

)

_1≤q≤Q

la partition de l’ensemble des sommets en classes, produite par l’algorithme.

Estimateurs de α et π : α b

_q

= | C b

q

|

n et b π

_qr

= 1

| C b

_q

|| C b

_r

| X

(i,j)∈Cbq×Cbr

X

_ij

Th´ eor` eme

( α, b b π) est un estimateur consistant de (α, π).

Remarque : Efficacit´ e assur´ ee sous la condition δ q

lnn n

.

(32)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(33)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(34)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur :

Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(35)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(36)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(37)

Simulations

R´ esultats de classification avec δ = 0.02, n ≤ 50000

Figure : Taux de faux sur les classes pr´ edites

Figure : Taux de manquants sur les

vraies classes

(38)

Simulations

R´ esultats de classification avec δ = 0.04, n ≤ 16000

Figure : Taux de faux sur les classes pr´ edites

Figure : Taux de manquants sur les

vraies classes

(39)

Simulations

R´ esultats d’estimation avec δ = 0.04, n ≤ 16000

Figure : Estimation des connectivit´ es

π =





0.6 0.3 0.1 0.3 0.2 0.5 0.1 0.5 0.4





Figure : Estimation des proportions

α = (0.2, 0.4, 0.4)

(40)

Simulations

R´ esultats d’estimation avec δ = 0.04, n ≤ 16000

Figure : Ecart-type de l’estimateur des connectivit´ es

Figure : Ecart-type de l’estimateur des

proportions

(41)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence. Meilleur aux n petits, mais perd l’avantage dans les grands graphes. M´ ethode d’histogramme ` a pas adaptatif

Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(42)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.

Meilleur aux n petits, mais perd l’avantage dans les grands graphes.

M´ ethode d’histogramme ` a pas adaptatif Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(43)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.

Meilleur aux n petits, mais perd l’avantage dans les grands graphes.

M´ ethode d’histogramme ` a pas adaptatif

Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(44)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.

Meilleur aux n petits, mais perd l’avantage dans les grands graphes.

M´ ethode d’histogramme ` a pas adaptatif Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(45)

Conclusion

Merci de votre attention !

(46)

Conclusion

Algorithme de maillage ` a pas constant

Figure : Taux de faux sur les classes pr´ edites

Figure : Taux de manquants sur les

vraies classes

(47)

Conclusion