• Aucun résultat trouvé

Inférence dans le Stochastic Block Model pour les grands graphes

N/A
N/A
Protected

Academic year: 2021

Partager "Inférence dans le Stochastic Block Model pour les grands graphes"

Copied!
47
0
0

Texte intégral

(1)

HAL Id: hal-01197533

https://hal.archives-ouvertes.fr/hal-01197533

Submitted on 6 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Inférence dans le Stochastic Block Model pour les grands graphes

Antoine Channarond, Jean-Jacques Daudin, Stephane Robin

To cite this version:

Antoine Channarond, Jean-Jacques Daudin, Stephane Robin. Inférence dans le Stochastic Block

Model pour les grands graphes. JFGG’10 : Journée thématique Fouille de grands graphes, Oct 2010,

Toulouse, France. 20 p. �hal-01197533�

(2)

Inf´ erence dans le Stochastic Block Model pour les grands graphes

Antoine Channarond, Jean-Jacques Daudin, St´ ephane Robin

AgroParisTech

FGG’10

(3)

1

Stochastic Block Model (SBM)

2

Classification et inf´ erence consistantes

3

Simulations

4

Conclusion

(4)

Stochastic Block Model (SBM)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

ij

)

1≤i,j≤n

.

Variables cach´ ees :

(Z

i

)

1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees :

(X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

i

= q et Z

j

= r , X

ij

suit une loi de Bernoulli de param` etre π

qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

qr

)

1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(5)

Stochastic Block Model (SBM)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

ij

)

1≤i,j≤n

.

Variables cach´ ees :

(Z

i

)

1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees :

(X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

i

= q et Z

j

= r , X

ij

suit une loi de Bernoulli de param` etre π

qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

qr

)

1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(6)

Stochastic Block Model (SBM)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

ij

)

1≤i,j≤n

.

Variables cach´ ees :

(Z

i

)

1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees :

(X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

i

= q et Z

j

= r , X

ij

suit une loi de Bernoulli de param` etre π

qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

qr

)

1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(7)

Stochastic Block Model (SBM)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

ij

)

1≤i,j≤n

.

Variables cach´ ees : (Z

i

)

1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees : (X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

i

= q et Z

j

= r , X

ij

suit une loi de Bernoulli de param` etre π

qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

qr

)

1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(8)

Stochastic Block Model (SBM)

Pr´ esentation du Stochastic Block Model

Les graphes sont non orient´ es binaires. Ils sont d´ esign´ es par leur nombre de sommets n et leur matrice d’adjacence X = (X

ij

)

1≤i,j≤n

.

Variables cach´ ees : (Z

i

)

1≤i≤n

une suite i.i.d. de variables multinomiales ` a Q

´ etats, de param` etre

α = (α

1

, . . . , α

Q

)

Variables observ´ ees : (X

ij

)

1≤i,j≤n

une matrice de variables ind´ ependantes conditionnellement ` a Z . Sachant Z

i

= q et Z

j

= r , X

ij

suit une loi de Bernoulli de param` etre π

qr

. On appelle matrice de connectivit´ e la matrice sym´ etrique :

π = (π

qr

)

1≤q,r≤Q

Loi des degr´ es : D

i

|Z

i

= q ∼ B(n − 1, π

q

), o` u π

q

=

Q

P

r=1

α

r

π

qr

.

(9)

Stochastic Block Model (SBM)

Cadre statistique

Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.

Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.

Table : Exemples de mod` eles

Q = 1 Q = 3 Q = 4 Q = 5

π = 0.4 π =

1 ε ε 1

π =

0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0

π =

0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0

(10)

Stochastic Block Model (SBM)

Cadre statistique

Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.

Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.

Table : Exemples de mod` eles

Q = 1 Q = 3 Q = 4 Q = 5

π = 0.4 π =

1 ε ε 1

π =

0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0

π =

0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0

(11)

Stochastic Block Model (SBM)

Cadre statistique

Mod` ele g´ en´ eratif statistique ` a param` etres dont on veut faire l’inf´ erence en d´ eterminant des estimateurs consistants. La classification n’est pas un but en soi, mais un sous-produit de la m´ ethode d’inf´ erence.

Mod` ele ` a classes cach´ ees : introduction d’une structure sous-jacente non observ´ ee ⇒ mod` ele plus riche qu’Erd˝ os-R´ enyi par exemple.

Table : Exemples de mod` eles

Q = 1 Q = 3 Q = 4 Q = 5

π = 0.4 π =

1 ε ε 1

π =

0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0

π =

0 1 1 0 0 1 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0

(12)

Stochastic Block Model (SBM)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets. Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(13)

Stochastic Block Model (SBM)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(14)

Stochastic Block Model (SBM)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(15)

Stochastic Block Model (SBM)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(16)

Stochastic Block Model (SBM)

Enjeux de l’inf´ erence dans le SBM

Maximum de vraisemblance trop complexe algorithmiquement. M´ ethodes d’inf´ erence alternatives existantes :

Algorithme EM : aussi complexe que le maximum de vraisemblance.

MCMC (Snijders et Nowicki, 2001) : jusqu’` a quelques centaines de sommets.

Variationnel (Daudin, Picard, Robin, 2008) : jusqu’` a quelques milliers de sommets.

Point commun de ces m´ ethodes : elles mettent ` a jour alternativement la classification des sommets et les estimateurs des param` etres.

La classification est un sous-produit de l’inf´ erence, mais reste l’obstacle principal ` a l’inf´ erence. Si les classes ´ etaient r´ ev´ el´ ees, il suffirait d’utiliser les estimateurs des moments usuels.

Si (C

q

)

1≤q≤Q

est la partition en classes : α b

q

= |C

q

|

n et π b

qr

= 1

|C

q

||C

r

| X

(i,j)∈Cq×Cr

X

ij

(17)

Classification et inf´erence consistantes

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

Dni

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la

distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la

classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(18)

Classification et inf´erence consistantes

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

Dni

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la

distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la

classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(19)

Classification et inf´erence consistantes

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

Dni

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la

distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la

classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(20)

Classification et inf´erence consistantes

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

Dni

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(21)

Classification et inf´erence consistantes

Ph´ enom` ene de concentration des degr´ es normalis´ es

Histogrammes des degr´ es normalis´ es T

i

=

Dni

:

Figure : n = 500 Figure : n = 5000 Figure : n = 15000

Plus n est grand, plus la structure en classes se r´ ev` ele d’elle-mˆ eme dans la distribution des degr´ es, et donc plus l’inf´ erence sera facile. Cependant la classification n’est pas un but en soi : elle ne servira qu’` a mieux inf´ erer.

Attention, les degr´ es ne sont pas ind´ ependants, et on ne peut pas utiliser

d’algorithme usuel d´ edi´ e aux mod` eles de m´ elanges (type EM) pour faire

l’inf´ erence des param` etres.

(22)

Classification et inf´erence consistantes

Algorithme consistant des plus grands ´ ecarts (PGE)

Ordonner la suite (T

i

)

1≤i≤n

: T

(1)

≤ · · · ≤ T

(n)

Calculer les ´ ecarts (T

(i+1)

− T

(i)

)

1≤i≤n−1

Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.

Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts

(23)

Classification et inf´erence consistantes

Algorithme consistant des plus grands ´ ecarts (PGE)

Ordonner la suite (T

i

)

1≤i≤n

: T

(1)

≤ · · · ≤ T

(n)

Calculer les ´ ecarts (T

(i+1)

− T

(i)

)

1≤i≤n−1

Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.

Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts

(24)

Classification et inf´erence consistantes

Algorithme consistant des plus grands ´ ecarts (PGE)

Ordonner la suite (T

i

)

1≤i≤n

: T

(1)

≤ · · · ≤ T

(n)

Calculer les ´ ecarts (T

(i+1)

− T

(i)

)

1≤i≤n−1

Trouver les Q − 1 plus grands ´ ecarts de sorte ` a former Q groupes de points.

Figure : Formation de Q groupes de points s´ epar´ es par les Q − 1 plus grands ´ ecarts

(25)

Classification et inf´erence consistantes

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

q

6= π

r

.

(26)

Classification et inf´erence consistantes

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

q

6= π

r

.

Definition

On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min

q6=r

q

− π

r

|

(27)

Classification et inf´erence consistantes

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

q

6= π

r

.

Definition

On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min

q6=r

q

− π

r

|

Definition

On appelle distance maximale intraclasse la variable al´ eatoire d d´ efinie ainsi : d = max

1≤q≤Q

sup

i∈Cq

|T

i

− π

q

|

(28)

Classification et inf´erence consistantes

Hypoth` ese et d´ efinitions pr´ eliminaires

Hypoth` ese

On suppose d´ esormais que pour tout q 6= r , π

q

6= π

r

.

Definition

On appelle distance minimale caract´ eristique le r´ eel strictement positif δ d´ efini ainsi : δ = min

q6=r

q

− π

r

|

Definition

On appelle distance maximale intraclasse la variable al´ eatoire d d´ efinie ainsi : d = max

1≤q≤Q

sup

i∈Cq

|T

i

− π

q

|

On notera de plus α

0

= min

1≤q≤Q

α

q

la plus petite des proportions du mod` ele.

(29)

Classification et inf´erence consistantes

Un heureux ´ ev´ enement pour l’algorithme PGE

Si les T

i

sont suffisamment concentr´ es autour de leur π

q

respectif, la

classification selon les plus grands ´ ecarts est sans erreur ; suffisamment faisant r´ ef´ erence ` a la distance caract´ eristique δ.

Si d ≤

δ5

, alors le plus grand ´ ecart entre des sommets de mˆ eme classe est

strictement plus petit que le plus petit ´ ecart entre des sommets de classe

distincte, donc les Q − 1 plus grands ´ ecarts classent bien les sommets.

(30)

Classification et inf´erence consistantes

Utilisation d’un argument de concentration

Cet heureux ´ ev´ enement est en fait de forte probabilit´ e pour n assez grand grˆ ace ` a la concentration. Illustration : in´ egalit´ e de concentration issue de l’in´ egalit´ e de Hoeffding.

∀t > 0 P(|T

i

− π

q

| > t|Z

i

= q) ≤ 2e

−2nt2

Th´ eor` eme

Pour tout t > 0, P(d > t) ≤ 2ne

−2nt2

P(d > t|Z = z ) = P

 [

1≤q≤Q

[

i,zi=q

{|T

i

− π

q

| > t}|Z = z

≤ X

1≤q≤Q

X

i,zi=q

P(|T

i

− π

q

| > t|Z = z )

≤ X

1≤q≤Q

X

i,zi=q

P(|T

i

− π

q

| > t|Z

i

= q)

≤ 2ne

−2nt2

(31)

Classification et inf´erence consistantes

Conclusion

Th´ eor` eme

Soit E l’´ ev´ enement “il existe une erreur de classification”.

P(E) ≤ 2ne

2522

+ Q(1 − α

0

)

n+1

L’algorithme PGE est donc consistant. Notons ( C b

q

)

1≤q≤Q

la partition de l’ensemble des sommets en classes, produite par l’algorithme.

Estimateurs de α et π : α b

q

= | C b

q

|

n et b π

qr

= 1

| C b

q

|| C b

r

| X

(i,j)∈Cbq×Cbr

X

ij

Th´ eor` eme

( α, b b π) est un estimateur consistant de (α, π).

Remarque : Efficacit´ e assur´ ee sous la condition δ q

lnn n

.

(32)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(33)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(34)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur :

Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(35)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(36)

Simulations

Plan de simulation

Deux volets de simulations avec Q = 3 :

Evaluation de la qualit´ e de classification. Simulation et stockage des degr´ es normalis´ es (T

i

) uniquement, dans un mod` ele o` u δ = 0.02 jusqu’` a n = 50000.

Evaluation de la qualit´ e de l’estimation, n´ ecessitant le stockage de la matrice X . Mod` ele o` u δ = 0.04, jusqu’` a n = 16000.

Evaluation de l’algorithme sur 500 graphes tir´ es. Crit` eres d’erreur : Taux de mal class´ es sur chaque classe pr´ edite.

Taux de manquants dans la classe pr´ edite par rapport ` a la vraie classe.

(37)

Simulations

R´ esultats de classification avec δ = 0.02, n ≤ 50000

Figure : Taux de faux sur les classes pr´ edites

Figure : Taux de manquants sur les

vraies classes

(38)

Simulations

R´ esultats de classification avec δ = 0.04, n ≤ 16000

Figure : Taux de faux sur les classes pr´ edites

Figure : Taux de manquants sur les

vraies classes

(39)

Simulations

R´ esultats d’estimation avec δ = 0.04, n ≤ 16000

Figure : Estimation des connectivit´ es

π =

0.6 0.3 0.1 0.3 0.2 0.5 0.1 0.5 0.4

Figure : Estimation des proportions

α = (0.2, 0.4, 0.4)

(40)

Simulations

R´ esultats d’estimation avec δ = 0.04, n ≤ 16000

Figure : Ecart-type de l’estimateur des connectivit´ es

Figure : Ecart-type de l’estimateur des

proportions

(41)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence. Meilleur aux n petits, mais perd l’avantage dans les grands graphes. M´ ethode d’histogramme ` a pas adaptatif

Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(42)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.

Meilleur aux n petits, mais perd l’avantage dans les grands graphes.

M´ ethode d’histogramme ` a pas adaptatif Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(43)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.

Meilleur aux n petits, mais perd l’avantage dans les grands graphes.

M´ ethode d’histogramme ` a pas adaptatif

Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(44)

Conclusion

Conclusions et perspectives

M´ ethode d’inf´ erence consistante et permettant le traitement de graphes de plusieurs millions de noeuds.

Algorithme ` a maillage ` a pas constant (d´ ej` a test´ e) : choisir les Q mailles les plus remplies pour les classes, et jeter les autres sommets pour l’inf´ erence.

Meilleur aux n petits, mais perd l’avantage dans les grands graphes.

M´ ethode d’histogramme ` a pas adaptatif Utilisation sur des donn´ ees r´ eelles

Figure : Histogramme des degr´ es normalis´ es

(45)

Conclusion

Merci de votre attention !

(46)

Conclusion

Algorithme de maillage ` a pas constant

Figure : Taux de faux sur les classes pr´ edites

Figure : Taux de manquants sur les

vraies classes

(47)

Conclusion

Figure : Estimation des proportions

Références

Documents relatifs

a une loi normale de moyenne 140 s et d’´ ecart type 14 s. Si on pr´ el` eve un ´ echantillon de 25 temps d’assemblage, quelle est la probabilit´ e que la moyenne ´

Th´ eor` eme quantile : besoin d’un terme suppl´

On ne peut pas toujours aller d’un sommet quelconque du graphe ` a un autre par un chemin de longueur inf´ erieure ou ´ egale ` a 3. Parmi ces trois propositions, lesquelles sont

l’algorithme somme-produit permet de faire l’inf´ erence sur les arbres l’algorithme max-somme pour le d´ ecodage. l’algorithme EM pour faire de l’estimation dans les mod` eles

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

Estimation des param` etres et de l’´ etat cach´ e des mod` eles d’espace d’´ etats: application au mod`

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´