Mise en place expérimentale - Comparaison expérimentale

2.4 Comparaison expérimentale

2.4.1 Mise en place expérimentale

Nous présentons ici le protocole expérimental mis en place afin de comparer les différentes mesures présentées dans les sections précédentes.

Les graphes. Nous avons travaillé sur 8 graphes, à savoir :

• 3 graphes aléatoires de type Erdős-Rényi (ER01, ER02 etER05),

• 2 graphes aléatoires formés de 5 clusters de 50 sommets (CGMpd etCGMtd), • 3 graphes réels (RW_protein_lcc, RW_power et RW_dsV_lcc).

Les caractéristiques de ces graphes sont données dans le tableau 2.5. RW_power

est un graphe modélisant le réseau électrique de l’ouest des États-Unis : les sommets sont les générateurs et les différents postes électriques : transformateurs, nœud d’interconnexion de lignes, etc. Les arêtes représentent les lignes électriques existant entre ces éléments. Ce graphe a été diffusé par Watts et Strogatz[1998]. Le graphe

RW_protein_lccest la plus grande composante connexe d’un réseau d’interaction de protéines [Jeong et al., 2001]. Chaque sommet correspond à une protéine présente dans les Saccharomyces cerevisiae (une levure), et une arête relie deux protéines si une interaction directe a été identifié entre elles. EnfinRW_dsV_lccest la plus grande composante connexe d’un graphe de synonymie des verbes du français (DicoSyn). Nous utiliserons des graphes provenant de cette même ressource au chapitre suivant, en section 3.5.

Les graphes aléatoires comportant des clusters (CGMpdetCGMtd) sont construits grâce au modèle suivant.

Cluster Graph Model, CGM. Nous proposons d’appeler CGM (pour Cluster Graph Model) le modèle consistant à construire un graphe à partir de k groupes de r sommets chacun, tel que les arêtes soient aléatoires mais avec différentes probabilités à l’intérieur ou entre les groupes. Une arête entre deux sommets du même groupe existe avec une probabilité µintra, et avec une probabilité µinter entre des sommets de groupes différents. Les deux graphes ont été construits avec k = 5, r = 50. Pour

CGMpd on a µintra = 0.15 et µinter = 0.01, alors que pour CGMtd µintra = 0.50 et µinter = 0.02. CGMtd est donc plus dense, et avec des clusters plus lisibles que

Table 2.5 – Pedigree des graphes utilisés pour la comparaison. n et m sont l’ordre

et la taille des graphes, hki le degré moyen, ncc le nombre de composante connexe, « directed » indique si les graphes sont dirigés ou non, c le coefficient de cluste- ring, lccp est la longueur moyenne des plus courts chemins sur cette plus grande

composante connexe, et ρ est corrélation des degrés.

n m hki ncc directed c lccp ρ ER01 1000 4942 9.88 1 F alse 0.01 3.27 −0.005 ER02 1000 9977 19.95 1 F alse 0.02 2.64 −0.005 ER05 1000 25029 50.06 1 F alse 0.05 2.03 0.002 CGMpd 250 1176 9.41 1 F alse 0.10 2.86 −0.007 CGMtd 250 3522 28.18 1 F alse 0.37 2.17 0.009 RW_protein_lcc 1458 1948 2.67 1 F alse 0.05 6.81 −0.209 RW_power 4941 6594 2.67 1 F alse 0.10 18.99 0.004 RW_dsV_lcc 8993 51333 11.42 1 F alse 0.14 4.20 0.062

Les mesures de similarité. Nous avons comparé toutes les mesures présentées jusque là excepté celles qui sont non-symétriques. Les noms utilisés pour repérer les méthodes correspondent à ceux indiqués précédemment. Il convient d’indiquer les précisions suivantes :

• CO-l, DS-l, JD-l, etc. correspondent aux méthodes locales calculées en consi- dérant une boucle sur chaque sommet, les autres méthodes locales sont donc calculées sans boucle sur les sommets ;

• (SRK) SRK08 : γ = 0.8,

• (KTZ)KTZ001: α = 0.01,KTZm09: α = 0.9λ1 avec λ1 la plus forte des valeurs

propres de A,

• (LP)LP05 : α = 0.5, LP001: α = 0.01, • (EDK) EDK01 : α = 0.1, EDK10 : α = 1,

• (LEDK) LEDK01 : α = 0.1, LEDK05 : α = 0.5, LEDK10 : α = 1, • (NLEDK) NLEDK05: α = 0.5, NLEDK50 : α = 5, NLEDK100 : α = 10, • (CTRW) CTRW05 : α = 0.5, CTRW50: α = 5, CTRW100 : α = 10, • (RCTK) RCTK07: α = 0.7, RCTK09 : α = 0.8,

• (RLK) RLK08 : α = 0.8,

• (PPR-avg) PPR08-avg : d = 0.8,

Notons aussi que les méthodes CFL2R, CFL3R, CFL5R correspondent à la confluence calculée, pour les paires adjacentes, en retirant l’arête correspondante du graphe (voir sous-section 2.2.2). Aussi toutes les méthodes semi-globales (hormis MDK et

Table 2.6 – Récapitulatif des familles de paires de sommets utilisées pour la com-

paraison. Nous considérons que les « hubs » sont les 10% des sommets ayant le plus de voisins, les « petits » sont les 90% restants.

graphe paire

ER E adjacents

NE non-adjacents

CGM

C-E adjacents dans le même cluster

C-NE non-adjacents dans le même cluster

NC-E adjacents dans différents clusters

NC-NE non-adjacents dans différents clusters

E-BB deux « hubs » adjacents

E-BS un « hub » et un « petit » adjacents

E-SS deux « petits » adjacents

NE-BB deux « hubs » non-adjacents

NE-BS un « hub » et un « petit » non-adjacents

NE-SS deux « petits » non-adjacents

Paires échantillons. Les mesures de similarité sont évaluées sur des échantillons des paires de sommets de chacun de ces graphes. Pour chacun des types de graphe nous avons en effet déterminé différentes familles de paires de sommets. Par exemple sur les graphes type Erdős-Rényi, il y a deux familles : les paires adjacentes et les paires de sommets non-adjacents. Ces différentes familles de paires de sommets sont présentées dans le tableau 2.6. Pour chacun des graphes, 100 paires de sommets de chaque famille ont été sélectionnées aléatoirement. Les méthodes sont comparées sur ces paires. Ce choix de familles de paires de sommets permet d’éviter des biais de représentation. En effet ces familles séparent l’ensemble des paires de sommets d’un graphe en des sous-ensembles de tailles très différentes. Si les paires étaient simplement tirées au hasard, certaines familles seraient sur-représentées et d’autres sous-représentées. Ce découpage en famille va aussi nous permettre de mieux com- prendre les résultats, en effet nous pourrons observer le comportement des méthodes sur chaque famille de paires.

Corrélation et clustering hiérarchique. L’évaluation consiste donc à mesurer la corrélation entre les valeurs des mesures de similarité sur ces différentes paires, éventuellement en se limitant à certains graphes ou/et à certaines familles de paires. Pour cela nous avons utilisé le coefficient de corrélation de Pearson (voir par exemple [Saporta,2006, section 6.1.2]), et le coefficient de Spearman [Saporta, 2006, section 6.3.1]. Le coefficient de Pearson mesure la corrélation linéaire entre deux séries de valeurs, alors que le coefficient de Spearman mesure la corrélation des rangs. Deux

méthodes ont un coefficient de Spearman fort (c’est-à-dire proche de 1) si leurs valeurs induisent presque le même classement des paires de sommets, sans forcément qu’elles soient corrélées linéairement.

Nous avons construit différents regroupements hiérarchiques des mesures de si- milarité à partir des coefficients de corrélation : initialement chaque mesure est seule dans un groupe, puis successivement les deux groupes les « plus proches » sont ras- semblés. Cela jusqu’à ce que toutes les mesures soient dans un seul groupe. Pour mesurer une distance entre deux mesures s1 et s2nous utilisons la méthode suivante : d(s1, s2) = 1 − max(c(s1, s2), 0) (2.83)

où c(s1, s2) est le coefficient de corrélation entre s1 et s2. Notons que les corrélations

négatives sont ramenées à zéro. Cela ne change pas fondamentalement les résultats, simplement pour une distance de 1 toutes les mesures seront regroupées. La distance entre deux groupes est évaluée en utilisant la méthode dite de saut maximal (ou complete linkage en anglais). Cela consiste à prendre comme distance entre deux groupes, la plus grande des distances entre les éléments des deux groupes. Ainsi la distance entre deux groupes (de similarités) S1 et S2 vaut :

d(S1, S2) = max s1∈S1, s2∈S2 d(s1, s2) (2.84) = 1 − min s1∈S1, s2∈S2 max(c(s1, s2), 0) (2.85)

Pour plus de détails sur les méthodes de clustering hiérarchique nous renvoyons à [Gan et al.,2007, section 7.2].

Dans le document Métrologie des graphes de terrain, application à la construction de ressources lexicales et à la recherche d'information (Page 61-64)