HAL Id: hal-01197533
https://hal.archives-ouvertes.fr/hal-01197533
Submitted on 6 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Inférence dans le Stochastic Block Model pour les grands graphes
Antoine Channarond, Jean-Jacques Daudin, Stephane Robin
To cite this version:
Antoine Channarond, Jean-Jacques Daudin, Stephane Robin. Inférence dans le Stochastic Block
Model pour les grands graphes. JFGG’10 : Journée thématique Fouille de grands graphes, Oct 2010,
Toulouse, France. 20 p. �hal-01197533�
Inf´ erence dans le Stochastic Block Model pour les grands graphes
Antoine Channarond, Jean-Jacques Daudin, St´ ephane Robin
AgroParisTech
FGG’10
1
Stochastic Block Model (SBM)
2
Classification et inf´ erence consistantes
3
Simulations
4
Conclusion
Stochastic Block Model (SBM)
Pr´ esentation du Stochastic Block Model
Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X
ij)
1≤i,j≤n.
Variables cach´ ees :
(Z
i)
1≤i≤nune suite i.i.d. de variables multinomiales ` a Q
´ etats, de param` etre
α = (α
1, . . . , α
Q)
Variables observ´ ees :
(X
ij)
1≤i,j≤nune matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z
i= q et Z
j= r , X
ijsuit une loi de Bernoulli de param` etre π
qr. On appelle matrice de connectivit´ e la matrice sym´ etrique :
π = (π
qr)
1≤q,r≤QLoi des degr´ es : D
i|Z
i= q ∼ B(n − 1, π
q), o` u π
q=
Q
P
r=1
α
rπ
qr.
Stochastic Block Model (SBM)
Pr´ esentation du Stochastic Block Model
Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X
ij)
1≤i,j≤n.
Variables cach´ ees :
(Z
i)
1≤i≤nune suite i.i.d. de variables multinomiales ` a Q
´ etats, de param` etre
α = (α
1, . . . , α
Q)
Variables observ´ ees :
(X
ij)
1≤i,j≤nune matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z
i= q et Z
j= r , X
ijsuit une loi de Bernoulli de param` etre π
qr. On appelle matrice de connectivit´ e la matrice sym´ etrique :
π = (π
qr)
1≤q,r≤QLoi des degr´ es : D
i|Z
i= q ∼ B(n − 1, π
q), o` u π
q=
Q
P
r=1
α
rπ
qr.
Stochastic Block Model (SBM)
Pr´ esentation du Stochastic Block Model
Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X
ij)
1≤i,j≤n.
Variables cach´ ees :
(Z
i)
1≤i≤nune suite i.i.d. de variables multinomiales ` a Q
´ etats, de param` etre
α = (α
1, . . . , α
Q)
Variables observ´ ees :
(X
ij)
1≤i,j≤nune matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z
i= q et Z
j= r , X
ijsuit une loi de Bernoulli de param` etre π
qr. On appelle matrice de connectivit´ e la matrice sym´ etrique :
π = (π
qr)
1≤q,r≤QLoi des degr´ es : D
i|Z
i= q ∼ B(n − 1, π
q), o` u π
q=
Q
P
r=1
α
rπ
qr.
Stochastic Block Model (SBM)
Pr´ esentation du Stochastic Block Model
Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X
ij)
1≤i,j≤n.
Variables cach´ ees : (Z
i)
1≤i≤nune suite i.i.d. de variables multinomiales ` a Q
´ etats, de param` etre
α = (α
1, . . . , α
Q)
Variables observ´ ees : (X
ij)
1≤i,j≤nune matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z
i= q et Z
j= r , X
ijsuit une loi de Bernoulli de param` etre π
qr. On appelle matrice de connectivit´ e la matrice sym´ etrique :
π = (π
qr)
1≤q,r≤QLoi des degr´ es : D
i|Z
i= q ∼ B(n − 1, π
q), o` u π
q=
Q
P
r=1
α
rπ
qr.
Stochastic Block Model (SBM)
Pr´ esentation du Stochastic Block Model
Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X
ij)
1≤i,j≤n.
Variables cach´ ees : (Z
i)
1≤i≤nune suite i.i.d. de variables multinomiales ` a Q
´ etats, de param` etre
α = (α
1, . . . , α
Q)
Variables observ´ ees : (X
ij)
1≤i,j≤nune matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z
i= q et Z
j= r , X
ijsuit une loi de Bernoulli de param` etre π
qr. On appelle matrice de connectivit´ e la matrice sym´ etrique :
π = (π
qr)
1≤q,r≤QLoi des degr´ es : D
i|Z
i= q ∼ B(n − 1, π
q), o` u π
q=
Q
P
r=1
α
rπ
qr.
Stochastic Block Model (SBM)
Cadre statistique
Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.
Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.
Table : Exemples de mod` eles
Q = 1 Q = 3 Q = 4 Q = 5
π = 0.4 π =
1 ε ε 1
π =
0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0
π =
0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0
Stochastic Block Model (SBM)
Cadre statistique
Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.
Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.
Table : Exemples de mod` eles
Q = 1 Q = 3 Q = 4 Q = 5
π = 0.4 π =
1 ε ε 1
π =
0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0
π =
0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0
Stochastic Block Model (SBM)
Cadre statistique
Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.
Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.
Table : Exemples de mod` eles
Q = 1 Q = 3 Q = 4 Q = 5
π = 0.4 π =
1 ε ε 1
π =
0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0
π =
0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0
Stochastic Block Model (SBM)
Enjeux de l’inf´ erence dans le SBM
Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :
Algorithme EM : aussi complexe que le maximum de vraisemblance.
MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets. Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.
Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.
La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.
Si (C
q)
1≤q≤Qest la partition en classes : α b
q= |C
q|
n et π b
qr= 1
|C
q||C
r| X
(i,j)∈Cq×Cr
X
ijStochastic Block Model (SBM)
Enjeux de l’inf´ erence dans le SBM
Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :
Algorithme EM : aussi complexe que le maximum de vraisemblance.
MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.
Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.
Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.
La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.
Si (C
q)
1≤q≤Qest la partition en classes : α b
q= |C
q|
n et π b
qr= 1
|C
q||C
r| X
(i,j)∈Cq×Cr
X
ijStochastic Block Model (SBM)
Enjeux de l’inf´ erence dans le SBM
Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :
Algorithme EM : aussi complexe que le maximum de vraisemblance.
MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.
Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.
Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.
La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.
Si (C
q)
1≤q≤Qest la partition en classes : α b
q= |C
q|
n et π b
qr= 1
|C
q||C
r| X
(i,j)∈Cq×Cr
X
ijStochastic Block Model (SBM)
Enjeux de l’inf´ erence dans le SBM
Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :
Algorithme EM : aussi complexe que le maximum de vraisemblance.
MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.
Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.
Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.
La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.
Si (C
q)
1≤q≤Qest la partition en classes : α b
q= |C
q|
n et π b
qr= 1
|C
q||C
r| X
(i,j)∈Cq×Cr
X
ijStochastic Block Model (SBM)
Enjeux de l’inf´ erence dans le SBM
Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :
Algorithme EM : aussi complexe que le maximum de vraisemblance.
MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.
Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.
Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.
La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.
Si (C
q)
1≤q≤Qest la partition en classes : α b
q= |C
q|
n et π b
qr= 1
|C
q||C
r| X
(i,j)∈Cq×Cr
X
ijClassification et inf´erence consistantes
Ph´ enom` ene de concentration des degr´ es normalis´ es
Histogrammes des degr´ es normalis´ es T
i=
Dni:
Figure : n = 500 Figure : n = 5000 Figure : n = 15000
Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la
distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la
classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.
Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser
d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire
l’inf´ erence des param` etres.
Classification et inf´erence consistantes
Ph´ enom` ene de concentration des degr´ es normalis´ es
Histogrammes des degr´ es normalis´ es T
i=
Dni:
Figure : n = 500 Figure : n = 5000 Figure : n = 15000
Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la
distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la
classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.
Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser
d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire
l’inf´ erence des param` etres.
Classification et inf´erence consistantes
Ph´ enom` ene de concentration des degr´ es normalis´ es
Histogrammes des degr´ es normalis´ es T
i=
Dni:
Figure : n = 500 Figure : n = 5000 Figure : n = 15000
Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la
distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la
classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.
Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser
d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire
l’inf´ erence des param` etres.
Classification et inf´erence consistantes
Ph´ enom` ene de concentration des degr´ es normalis´ es
Histogrammes des degr´ es normalis´ es T
i=
Dni:
Figure : n = 500 Figure : n = 5000 Figure : n = 15000
Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.
Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser
d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire
l’inf´ erence des param` etres.
Classification et inf´erence consistantes
Ph´ enom` ene de concentration des degr´ es normalis´ es
Histogrammes des degr´ es normalis´ es T
i=
Dni:
Figure : n = 500 Figure : n = 5000 Figure : n = 15000
Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.
Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser
d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire
l’inf´ erence des param` etres.
Classification et inf´erence consistantes
Algorithme consistant des plus grands ´ ecarts (PGE)
Ordonner la suite (T
i)
1≤i≤n: T
(1)≤ · · · ≤ T
(n)Calculer les ´ ecarts (T
(i+1)− T
(i))
1≤i≤n−1Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.
Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts
Classification et inf´erence consistantes
Algorithme consistant des plus grands ´ ecarts (PGE)
Ordonner la suite (T
i)
1≤i≤n: T
(1)≤ · · · ≤ T
(n)Calculer les ´ ecarts (T
(i+1)− T
(i))
1≤i≤n−1Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.
Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts
Classification et inf´erence consistantes
Algorithme consistant des plus grands ´ ecarts (PGE)
Ordonner la suite (T
i)
1≤i≤n: T
(1)≤ · · · ≤ T
(n)Calculer les ´ ecarts (T
(i+1)− T
(i))
1≤i≤n−1Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.
Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts
Classification et inf´erence consistantes
Hypoth` ese et d´ efinitions pr´ eliminaires
Hypoth` ese
On suppose d´ esormais que pour tout q 6= r , π
q6= π
r.
Classification et inf´erence consistantes
Hypoth` ese et d´ efinitions pr´ eliminaires
Hypoth` ese
On suppose d´ esormais que pour tout q 6= r , π
q6= π
r.
Definition
On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min
q6=r
|π
q− π
r|
Classification et inf´erence consistantes
Hypoth` ese et d´ efinitions pr´ eliminaires
Hypoth` ese
On suppose d´ esormais que pour tout q 6= r , π
q6= π
r.
Definition
On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min
q6=r
|π
q− π
r|
Definition
On appelle distance maximale intraclasse la variable al´ eatoire d d´ efinie ainsi : d = max
1≤q≤Q
sup
i∈Cq
|T
i− π
q|
Classification et inf´erence consistantes
Hypoth` ese et d´ efinitions pr´ eliminaires
Hypoth` ese
On suppose d´ esormais que pour tout q 6= r , π
q6= π
r.
Definition
On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min
q6=r
|π
q− π
r|
Definition
On appelle distance maximale intraclasse la variable al´ eatoire d d´ efinie ainsi : d = max
1≤q≤Q
sup
i∈Cq
|T
i− π
q|
On notera de plus α
0= min
1≤q≤Q
α
qla plus petite des proportions du mod` ele.
Classification et inf´erence consistantes
Un heureux ´ ev´ enement pour l’algorithme PGE
Si les T
isont suffisamment concentr´ es autour de leur π
qrespectif, la
classification selon les plus grands ´ ecarts est sans erreur ; suffisamment faisant r´ ef´ erence ` a la distance caract´ eristique δ.
Si d ≤
δ5, alors le plus grand ´ ecart entre des sommets de mˆ eme classe est
strictement plus petit que le plus petit ´ ecart entre des sommets de classe
distincte, donc les Q − 1 plus grands ´ ecarts classent bien les sommets.
Classification et inf´erence consistantes
Utilisation d’un argument de concentration
Cet heureux ´ ev´ enement est en fait de forte probabilit´ e pour n assez grand grˆ ace ` a la concentration. Illustration : in´ egalit´ e de concentration issue de l’in´ egalit´ e de Hoeffding.
∀t > 0 P(|T
i− π
q| > t|Z
i= q) ≤ 2e
−2nt2Th´ eor` eme
Pour tout t > 0, P(d > t) ≤ 2ne
−2nt2P(d > t|Z = z ) = P
[
1≤q≤Q
[
i,zi=q
{|T
i− π
q| > t}|Z = z
≤ X
1≤q≤Q
X
i,zi=q
P(|T
i− π
q| > t|Z = z )
≤ X
1≤q≤Q
X
i,zi=q
P(|T
i− π
q| > t|Z
i= q)
≤ 2ne
−2nt2Classification et inf´erence consistantes
Conclusion
Th´ eor` eme
Soit E l’´ ev´ enement “il existe une erreur de classification”.
P(E) ≤ 2ne
−252nδ2+ Q(1 − α
0)
n+1L’algorithme PGE est donc consistant. Notons ( C b
q)
1≤q≤Qla partition de l’ensemble des sommets en classes, produite par l’algorithme.
Estimateurs de α et π : α b
q= | C b
q|
n et b π
qr= 1
| C b
q|| C b
r| X
(i,j)∈Cbq×Cbr
X
ijTh´ eor` eme
( α, b b π) est un estimateur consistant de (α, π).
Remarque : Efficacit´ e assur´ ee sous la condition δ q
lnn n
.
Simulations
Plan de simulation
Deux volets de simulations avec Q = 3 :
Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T
i) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.
Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.
Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.
Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.
Simulations
Plan de simulation
Deux volets de simulations avec Q = 3 :
Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T
i) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.
Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.
Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.
Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.
Simulations
Plan de simulation
Deux volets de simulations avec Q = 3 :
Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T
i) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.
Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.
Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur :
Taux de mal class´ es sur chaque classe pr´ edite.
Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.
Simulations
Plan de simulation
Deux volets de simulations avec Q = 3 :
Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T
i) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.
Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.
Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.
Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.
Simulations
Plan de simulation
Deux volets de simulations avec Q = 3 :
Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T
i) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.
Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.
Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.
Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.
Simulations
R´ esultats de classification avec δ = 0.02, n ≤ 50000
Figure : Taux de faux sur les classes pr´ edites
Figure : Taux de manquants sur les
vraies classes
Simulations
R´ esultats de classification avec δ = 0.04, n ≤ 16000
Figure : Taux de faux sur les classes pr´ edites
Figure : Taux de manquants sur les
vraies classes
Simulations
R´ esultats d’estimation avec δ = 0.04, n ≤ 16000
Figure : Estimation des connectivit´ es
π =
0.6 0.3 0.1 0.3 0.2 0.5 0.1 0.5 0.4
Figure : Estimation des proportions
α = (0.2, 0.4, 0.4)
Simulations
R´ esultats d’estimation avec δ = 0.04, n ≤ 16000
Figure : Ecart-type de l’estimateur des connectivit´ es
Figure : Ecart-type de l’estimateur des
proportions
Conclusion
Conclusions et perspectives
M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.
Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence. Meilleur aux n petits, mais perd l’avantage dans les grands graphes. M´ ethode d’histogramme ` a pas adaptatif
Utilisation sur des donn´ ees r´ eelles
Figure : Histogramme des degr´ es normalis´ es
Conclusion
Conclusions et perspectives
M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.
Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.
Meilleur aux n petits, mais perd l’avantage dans les grands graphes.
M´ ethode d’histogramme ` a pas adaptatif Utilisation sur des donn´ ees r´ eelles
Figure : Histogramme des degr´ es normalis´ es
Conclusion
Conclusions et perspectives
M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.
Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.
Meilleur aux n petits, mais perd l’avantage dans les grands graphes.
M´ ethode d’histogramme ` a pas adaptatif
Utilisation sur des donn´ ees r´ eelles
Figure : Histogramme des degr´ es normalis´ es
Conclusion
Conclusions et perspectives
M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.
Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.
Meilleur aux n petits, mais perd l’avantage dans les grands graphes.
M´ ethode d’histogramme ` a pas adaptatif Utilisation sur des donn´ ees r´ eelles
Figure : Histogramme des degr´ es normalis´ es
Conclusion
Merci de votre attention !
Conclusion
Algorithme de maillage ` a pas constant
Figure : Taux de faux sur les classes pr´ edites
Figure : Taux de manquants sur les
vraies classes
Conclusion