Détection de communautés dans les réseaux d'information utilisant liens et attributs

(1)

HAL Id: tel-01056985

https://tel.archives-ouvertes.fr/tel-01056985

Submitted on 21 Aug 2014

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

d’information utilisant liens et attributs

David Combe

To cite this version:

(2)

Détection de communautés dans les réseaux

d’information utilisant liens et attributs

Thèse présentée devant l’Université Jean Monnet

pour obtenir le grade de Docteur en informatique

par David COMBE

soutenue le 15 octobre 2013 devant le jury composé de

M. Hamamache KHEDDOUCI Professeur des Universités Rapporteur

M. Emmanuel VIENNET Professeur des Universités Rapporteur M. Pierre MARET Professeur des Universités Examinateur Mme Christine LARGERON Professeur des Universités Directrice

M. El˝od EGYED-ZSIGMOND Maître de conférences Co-directeur M. Mathias GÉRY Maître de conférences Co-encadrant

(3)

(4)

3 Alors que les réseaux sociaux s’attachent à représenter des entités et les relations existant entre elles, les réseaux d’information intègrent également des attributs décri-vant ces entités ; ce qui conduit à revisiter les méthodes d’analyse et de fouille de ces réseaux. Dans ces travaux, nous proposons des méthodes de classification des entités du réseau d’information qui exploitent d’une part les relations entre celles-ci et d’autre part les attributs les caractérisant. Nous nous penchons sur le cas des réseaux à vec-teurs d’attributs, où les entités du réseau sont décrites par des vecvec-teurs numériques. Ainsi nous proposons des approches basées sur des techniques reconnues pour chaque type d’information, faisant appel notamment à l’inertie pour la classification automa-tique et à la modularité de Newman et Girvan pour la détection de communautés. Nous évaluons nos propositions sur des réseaux issus de données bibliographiques, faisant usage en particulier d’information textuelle. Nous évaluons également nos ap-proches face à diverses évolutions du réseau, notamment au regard d’une détériora-tion des informadétériora-tions des liens et des attributs, et nous caractérisons la robustesse de nos méthodes à celle-ci.

While social networks use to represent entities and relationships between them, information networks also include attributes describing these entities, leading to re-view the analysis and mining methods for these networks. In this work, we discuss classification of the entities in an information network. Classification operate simulta-neously on the relationships and on the attributes characterizing the entities. We look at the case of attributed graphs where entities are described by numerical feature vec-tors. We propose approaches based on proven classification techniques for each type of information, including the inertia for machine learning and Newman and Girvan’s modularity for community detection. We evaluate our proposals on networks from bibliographic data, using textual information. We also evaluate our methods against various changes in the network, such as a deterioration of the relational or vector data, mesuring the robustness of our methods to them.

(5)

(6)

Remerciements

Je remercie d’abord Christine Largeron, ma directrice, sans laquelle rien n’aurait été possible. J’ai pu apprécier sa détermination dans les moments où j’ai eu le plus d’incertitudes, ainsi que son ouverture d’esprit sur le plan scientifique. Je remercie en-suite El˝od Egyed-Zsigmond, co-directeur, qui n’a jamais hésité à braver les kilomètres entre Lyon et Saint-Etienne. Il a toujours été disponible, en face à face comme à dis-tance, de bon conseil, et un soutien. Je remercie aussi Mathias Géry, co-encadrant, dont les avis et conseils ont toujours fait l’objet de beaucoup d’attention de la part de nous tous, car il ne parle jamais pour ne rien dire.

Je remercie les personnes qui m’ont fait l’honneur de prendre part au jury. Je remercie ainsi Emmanuel Viennet, Hamamache Kedhoucci pour leur lecture attentive du manuscrit et leurs remarques pertinentes. Enfin, je remercie Pierre Maret de bien avoir voulu présider ce jury.

Je tiens à remercier les très nombreuses personnes avec lesquelles j’ai partagé mes deux bureaux. D’abord Jean-Philippe, Aurélien et Fabien déjà avec moi dans les am-phis de la Métare, mais aussi Émilie, Stéphanie, Christophe, Laurent et Frédéric, qui m’ont accueilli, m’ont beaucoup appris, ainsi que Chahrazed, Tung, Mattias, Vladimer, Hao, Michael, Émilie, Taygun, Nidhal, Aytaç, Stéphanie, Natacha, Adrien, Johan, Juri, Jan-Willem et Bert-Jan. Rien que ça. J’ai apprécié la rencontre de personnes d’horizons aussi variés pendant ce travail, dans le laboratoire mais aussi au cours des quelques conférences auxquelles j’ai participé.

J’ajoute un grand merci pour mes professeurs de la Faculté des Sciences, Catherine, Fabrice, Marc S., Marc B., Baptiste, François, Philippe, Thierry, car il y a certainement un petit bout de chacun d’eux dans dans le manuscrit, ainsi qu’à ceux qui sont arrivés un peu tard pour que je les connaisse devant un tableau noir, Leonor, Élisa, Rémi et Amaury. Je remercie aussi Colin de la Higuera et Jean-Christophe Janodet qui ne sont pas pour rien dans le fait que j’ai finalement réalisé ce travail. Je remercie également tout le personnel du laboratoire Hubert Curien.

(7)

(8)

Table des matières

Introduction 15

1 Du réseau social au réseau d’information 19

1.1 Introduction . . . 19

1.2 Réseau social et graphe . . . 19

1.2.1 Notions relatives aux graphes . . . 20

1.2.2 Distances dans un graphe . . . 21

1.2.3 Mesures de centralité . . . 21

1.3 Réseau d’information . . . 24

1.4 Réseau bibliographique . . . 24

1.4.1 Base de données bibliographique d’articles et/ou méta-données associées . . . 25

1.4.2 Un exemple : la base DBLP . . . 26

1.4.3 Relations de base déductibles d’une base de données bibliogra-phique . . . 26

1.4.4 Construction du jeu de données des 4 sessions . . . 28

1.5 Conclusion . . . 34

2 Classification automatique et détection de communautés 37 2.1 Introduction . . . 37

2.2 Classification automatique . . . 37

2.2.1 Principes et concepts de base . . . 37

2.2.2 Approches méthodologiques . . . 39

2.2.3 Évaluation de la qualité d’un partitionnement . . . 43

2.3 Détection de communautés dans les graphes . . . 53

2.3.1 Formalisation . . . 54

2.3.2 Approches méthodologiques . . . 54

2.3.3 Critères d’évaluation . . . 63

2.3.4 Conclusion . . . 66

2.4 Détection de communautés dans les réseaux d’information . . . 66

2.4.1 Motivations . . . 66

(9)

2.4.3 Traitement comme un problème de partitionnement dans un

graphe après intégration des valeurs des attributs . . . 68

2.4.4 Traitement comme un problème de classification automatique . 70 2.4.5 Extension de la méthode de détection de communautés de Lou-vain . . . 71 2.4.6 Modèles statistiques . . . 72 2.4.7 Évaluation . . . 73 2.5 Conclusion . . . 76 3 ToTeM 79 3.1 Introduction . . . 79 3.2 Formalisation . . . 80 3.3 La méthode ToTeM . . . 82 3.3.1 Initialisation . . . 82 3.3.2 Phase itérative . . . 82

3.3.3 Phase de fusion des sommets . . . 83

3.4 Optimisation du calcul de la modularité et de l’inertie . . . 86

3.5 Complexité . . . 89

3.6 Critères globaux de qualité . . . 89

3.6.1 Indice de Calinski-Harabasz . . . 90

3.6.2 Probabilité critique . . . 91

3.6.3 Score différent de la modularité . . . 91

3.7 Évaluation sur des réseaux artificiels . . . 92

3.7.1 Réseau de référence (R) . . . 93

3.7.2 Dégradation de l’information relationnelle (réseaux R.1.1 et R.1.2) 96 3.7.3 Dégradation des attributs (réseaux R.2.1 et R.2.2) . . . 98

3.7.4 Augmentation de la taille du réseau (réseaux R.3.1 et R.3.2) . . 100

3.7.5 Augmentation du nombre d’arêtes (réseaux R.4.1 et R.4.2) . . . 101

3.7.6 Conclusion sur l’évaluation après dégradation de l’information . 102 3.7.7 Dégradation simultanée de l’information relationnelle et des va-leurs des attributs sur un réseau de taille supérieure . . . 103

3.7.8 Conclusion sur l’évaluation sur des réseaux artificiels . . . 106

3.8 Évaluation un réseau bibliographique . . . 106

3.8.1 Hypothèses et scénarios . . . 107

3.8.2 Méthodes comparées . . . 108

3.8.3 Résultats expérimentaux . . . 111

(10)

Table des matières 9

3.9.1 Présentation du jeu de données . . . 116

3.9.2 Résultat sur la vérité terrain brute (en 3 classes) . . . 119

3.9.3 Résultats sur la vérité terrain "connexifiée" (en 2 644 classes) . 119 3.10 Conclusion . . . 121

4 Méthode 2Mod-Louvain 123 4.1 Introduction . . . 123

4.2 Critère de modularité basée sur l’inertie . . . 124

4.2.1 Distance attendue . . . 126

4.2.2 Bornes du critère de qualité . . . 126

4.2.3 Propriétés du critère de qualité . . . 129

4.2.4 Application sur un exemple . . . 131

4.3 Méthode 2Mod-Louvain . . . 134

4.3.1 Synthèse des informations de distance dans la deuxième phase 135 4.3.2 Optimisation de l’algorithme durant la phase itérative par calcul incrémental du gain de modularité . . . 136

4.4 Évaluation sur des réseaux artificiels . . . 139

4.4.1 Réseau de référence (réseau R) . . . 139

4.4.2 Dégradation de l’information relationnelle (réseaux R.1.1 et R.1.2)143 4.4.3 Dégradation des attributs (réseaux R.2.1 et R.2.2) . . . 144

4.4.4 Augmentation de la taille du réseau (réseaux R.3.1 et R.3.2) . . 145

4.4.5 Augmentation du nombre d’arêtes (réseaux R.4.1 et R.4.2) . . . 147

4.4.6 Synthèse des résultats des méthodes 2Mod-Louvain, Louvain et des K-means et conclusion . . . 147

4.5 Évaluation sur des réseaux réels . . . 150

4.5.1 Réseau des 4 sessions . . . 150

4.5.2 Jeu de données PubMed-Diabètes . . . 151

4.6 Conclusion . . . 152

5 Conclusion et perspectives 155 A Comparaison des outils d’analyse de réseaux sociaux 159 A.1 Introduction . . . 159

A.2 Notations . . . 160

A.2.1 One-mode graph . . . 161

A.2.2 Two-mode graph . . . 161

A.3 Expected functionalities of network analysis tools . . . 162

A.3.1 Visualization . . . 162

(11)

A.3.3 Clustering and community detection . . . 166

A.4 Benchmarking . . . 168

A.4.1 Evaluated tools . . . 168

A.4.2 Datasets . . . 169

A.4.3 Evaluated criteria . . . 169

A.4.4 File formats . . . 170

A.4.5 Benchmarking results . . . 172

A.4.6 Overview per tool . . . 174

A.4.7 Software matching special interests . . . 176

A.4.8 Other interesting tools for social network analysis . . . 178

A.5 Conclusion . . . 179

(12)

Table des figures

1.1 Extrait du fichier XML de la base de données DBLP . . . 27

1.2 Exemple de document textuel attaché à un auteur . . . 30

1.3 Exemple de document textuel attaché à un auteur après élimination des mots vides . . . 31

1.4 Exemple de document textuel attaché à un auteur après lemmatisation 32 2.1 Le problème d’appariement (par Rosenberg et al.) . . . . 52

2.2 Pourquoi la partition (a) est-elle la plus mauvaise ? . . . . 55

2.3 Défaut de la modularité souligné par Ye et al. . . . 57

2.4 Partition optimisant le score de modularité sur le réseau Karate . . . . 60

3.1 Réseau d’information d’illutration . . . 83

3.2 Phase itérative . . . 84

3.3 Partition obtenue à la fin de la phase itérative . . . 84

3.4 Fin de la phase de fusion des sommets . . . 86

3.5 Distribution des attributs des sommets du réseau R (écart-type de 7) . 94 3.6 Catégories de la vérité terrain du jeu de données synthétique de référence 95 3.7 Distribution des attributs par classe sur R.2.1 (écart-type de 10) . . . . 98

3.8 Distribution des attributs par classe sur le réseau R.2.2 (écart-type de 12) 99 3.9 Déroulement de la méthodeT S1 . . . 109

3.10 Déroulement de la méthodeT S2 . . . 110

3.11 Déroulement de la méthodeT S3 . . . 112

3.12 Extrait du vocabulaire de 500 mots retenu dans PubMed . . . 117

3.13 Exemple de résumé . . . 118

3.14 Vecteur associé au résumé de la figure 3.13 . . . 119

3.15 Résultats sur les 3 catégories de la vérité terrain brute . . . 120

3.16 Résultats sur les 2 644 classes de la vérité terrain après connexification 121 4.1 Représentation des points de l’exemple . . . 132

4.2 Distribution des valeurs de l’attribut des sommets de R par classe . . . 140

4.3 Partitions du réseau de reéférence R . . . 141

4.4 2Mod-Louvain appliqué à PubMed . . . 153

(13)

A.2 Community detection with igraph and the spinglass algorithm . . . 163

A.3 Visualization of Zachary’s Karate club using the Pajek application and Kamada-Kawai layout . . . 163

A.4 Dendrogram of the Walktrap algorithm results on the Zachary dataset (igraph website example) . . . 167

A.5 Zachary dataset extract in Pajek .net format . . . 170

A.6 Zachary dataset extract in GML format . . . 171

A.7 Zachary dataset extract in GraphML format . . . 172

A.8 Zachary dataset in DAT format . . . 173

A.9 Pajek snapshot . . . 174

A.10 Gephi snapshot . . . 175

(14)

Liste des tableaux

1.1 La base de données DBLP, au 19 juillet 2010 . . . 26

1.2 Effectif de chaque session . . . 28

2.1 Synthèse des critères d’évaluation . . . 74

3.1 Répartition des extrémités des liens du graphe de référence R . . . 94

3.2 Résultats sur le réseau R . . . 96

3.3 Répartition des extrémités des liens du graphe R.1.1 . . . 97

3.4 Résultats sur le graphe R.1.1 . . . 97

3.17 Bilan de l’expérimentation, selon le score de NMI entre la partition ter-rain et la partition réelle) . . . 103

3.18 Dégradation simultanée des relations et des attributs . . . 105

3.19 Effectif de chaque session . . . 107

3.20 Résultat de la méthode T en 3 classes . . . 113

3.21 Résultat de la méthode T en 4 classes . . . 113

3.22 Résultats de la méthode relationnelle de référence . . . 114

3.23 Synthèse des résultats : modèlesT , S, T S1,T S2,T S3 et ToTeM . . . . 115

3.24 Matrices de coïncidence pour les quatre méthodes de combinaison com-parées . . . 116

3.26 Résultats par rapport à la vérité non connexe (3 classes) . . . 119

3.27 Évaluation par rapport à la vérité connexe de PubMed-Diabètes . . . . 120

(15)

4.2 Matrice des carrés des distances, normalisées par l’inertie totale

asso-ciée àV . . . 133

4.3 Inertie associée à chaque point deV . . . 133

4.4 Distance attendued2 exp entre chaque couple de points . . . 133

4.5 Matrice de gain de modularité des attributs quand on place deux indi-vidus dans une même classe . . . 134

4.6 Répartition des extrémités des liens du graphe R . . . 140

4.7 Matrice de coïncidence associée à l’application de la méthode de Lou-vain qui produit 4 classes sur le réseau de référence R . . . 142

4.8 Matrice de coïncidence du réseau de référence R.1.1 issue de l’applica-tion des K-means . . . 142

4.9 Matrice de coïncidence du réseau de référence R issue de l’application de 2Mod-Louvain . . . 143

4.10 Matrice de coïncidence du graphe R.1.1 dégradé à 25% . . . 143

4.11 Matrice de coïncidence du graphe R.1.2 . . . 144

4.12 Matrice de coïncidence du graphe R.2.1 avec des écarts-types de 10 . . 144

4.13 Matrice de coïncidence du graphe R.2.2 avec des écarts-types de 12 . . 145

4.14 Matrice de coïncidence du réseau R.3.1 à 999 sommets . . . 145

4.15 Matrice de coïncidence du graphe R.3.2 à 9 999 sommets . . . 146

4.18 Bilan de l’expérimentation sur des réseaux artificiels . . . 149

4.19 Résultat de l’application de 2Mod-Louvain sur le réseau des 4 sessions 150 4.20 Résultat de l’application de Louvain sur le réseau des 4 sessions . . . . 151

4.21 Résultat de l’évaluation de 2Mod-Louvain et des méthodes de référence sur PubMed-Diabètes . . . 151

4.22 Résultat de l’évaluation de 2Mod-Louvain et des méthodes de référence sur PubMed-Diabètes, après connexification des classes . . . 152

A.2 Criteria evaluated from unavailable or weak (– –) to mature (++) . . 177

(16)

Introduction

Nous tissons au quotidien des liens de différentes natures avec des personnes. Ces liens existent au sein de la sphère familiale ou professionnelle, les liens forts, ou avec des personnes avec lesquelles nous n’aurons communiqué qu’une seule fois, les liens faibles. Toutes ces relations, considérées collectivement, constituent des ré-seaux sociaux. Ces réré-seaux ont depuis longtemps fait l’objet d’études notamment en sciences sociales par des sociologues, des comportementalistes, des économistes, etc. Ainsi Wasserman définit un réseau social comme un ensemble d’acteurs et la donnée des relations existant entre eux (Wasserman et Faust, 1994b). On considère que ces réseaux sont le reflet d’une organisation où, à son échelle, chaque acteur du réseau est amené à créer des liens avec d’autres acteurs. L’analyse de ces liens peut permettre de prédire des caractéristiques des acteurs ou l’apparition de liens entre eux ou encore de connaître les modalités de diffusion dans le réseau. On peut aussi chercher à détecter des groupes d’acteurs fortement connectés entre eux. C’est ce sujet qui est au cœur de cette thèse où nous nous intéressons à la détection de communautés dans les réseaux. L’avènement des réseaux sociaux en ligne a conduit à un regain d’intérêt pour leur analyse y compris en informatique. Ces réseaux de l’internet ont permis de valider à plus grande échelle des théories émises en sociologie comme par exemple la théorie des six degrés de séparation de Milgram ou la notion de réseau "petit monde" qui ont façonné la vision que nous portons sur les graphes sociaux (Milgram, 1967).

Mais cet intérêt est dû aussi à la disponibilité d’information portant non seulement sur les relations qui existent entre les acteurs, mais aussi de données permettant de décrire ou de caractériser ces derniers. Les techniques et services du Web 2.0 per-mettent en effet aux utilisateurs de certains sites internet de devenir producteurs ou consommateurs d’information et d’entrer en relation avec les autres internautes en dé-clarant par exemple leurs caractéristiques (âge, sexe, etc.). De plus en plus souvent, on dispose donc de réseaux où les acteurs sont non seulement reliés entre eux mais ont également des informations attachées, telles qu’un profil d’utilisateur ou un contenu produit. Ces données attachées peuvent être des étiquettes, des vecteurs numériques, du contenu textuel, etc. Ces réseaux enrichis, désignés par le nom de réseaux d’infor-mation, peuvent être représentés par un graphe dont les sommets sont décrits par des attributs.

(17)

Par ailleurs la classification automatique, dont l’objet est de regrouper les éléments ayant les mêmes caractéristiques au regard d’une mesure de similarité, a également donné lieu à de nombreux travaux, mais les méthodes de classification automatique ne permettent pas de tirer parti, en plus des valeurs associées aux éléments, de leurs connexions dans un graphe.

C’est la raison pour laquelle des recherches récentes ont été consacrées à la détec-tion de communautés exploitant données reladétec-tionnelles et attributs. En effet, la prise en compte conjointe des deux types de données soulève des questions nouvelles liées à la façon de tirer le meilleur parti de l’ensemble des données. Cette approche est no-tamment justifiée par le phénomène d’homophilie, qui traduit la tendance qu’ont les individus à se lier avec d’autres individus aux caractéristiques similaires. Nous verrons dans cette thèse dans quelle mesure nous pouvons améliorer le processus de détection de communautés en combinant les deux types d’informations.

Dans le chapitre 1, nous présenterons le contexte de ce travail en introduisant les notions de graphe, de réseau social, de réseau d’information et nous expliquerons comment des données bibliographiques peuvent être exploitées pour construire un réseau d’information.

Le chapitre 2 est dédié à l’état de l’art. Nous commencerons par étudier les mé-thodes classiques de classification non supervisée et détaillerons les modes d’évalua-tion. Nous ferons de même pour la détection de communautés dans les graphes, qui dispose de ses critères, méthodes, et modes d’évaluation propres. Nous présenterons ensuite l’état de l’art de la détection de communautés dans des réseaux où les sommets sont décrits par des attributs et distinguerons quatre familles de méthodes permettant de traiter ce problème.

Dans le chapitre 3, nous présentons notre première proposition, ToTeM, une mé-thode de détection de communautés qui étend la mémé-thode de Louvain de façon à prendre en compte les attributs. La méthode de Louvain utilise comme critère d’opti-misation la modularité de Newman et Girvan (Newman et Girvan, 2004), une mesure de la qualité d’une partition des sommets d’un graphe. Nous proposons d’adjoindre à cette mesure l’inertie interclasses, qui mesure la qualité d’une partition pour la clas-sification automatique, de façon à opérer un partitionnement selon les deux critères. On verra cependant que ces deux critères ont des propriétés et des valeurs limites dif-férentes, qui peuvent laisser penser qu’un critère peut prendre le pas sur l’autre lors de la classification. Nous testerons notre méthode sur des réseaux artificiels et un réseau réel que nous avons construit à partir d’informations bibliographiques.

(18)

17 différente pour la prise en compte des attributs. Là où l’utilisation d’un critère joignant modularité de Newman et Girvan et inertie interclasses pouvait poser des problèmes de normalisation, nous proposons de remplacer l’inertie par un critère que nous avons construit, la modularité basée sur l’inertie. Celle-ci est inspirée de la modularité de Newman et Girvan mais, là où cette dernière est fondée sur des notions d’arêtes et de degrés, la modularité basée sur l’inertie utilise des distances et la notion d’inertie. Ce faisant, nous traiterons le problème de la pondération des deux informations en y apportant un éclairage nouveau.

Nous conclurons alors avec le chapitre 5, qui présentera notamment les perspec-tives que nous donnons à ces travaux.

(19)

(20)

C

HAPITRE

1

Du réseau social

au réseau d’information

Sommaire

1.1 Introduction . . . . 19

1.2 Réseau social et graphe . . . . 19

1.3 Réseau d’information . . . . 24

1.4 Réseau bibliographique . . . . 24

1.5 Conclusion . . . . 34

1.1 Introduction

Dans ce chapitre, nous présentons d’abord le contexte des réseaux sociaux en gé-néral, dans la section 1.2. Nous introduisons également les concepts de la théorie des graphes qui nous serons utiles par la suite. Nous aborderons alors la notion de ré-seau d’information dans la section 1.3. Nous terminerons ce chapitre par les notions propres aux bases bibliographiques, qui constituent le domaine d’application privilé-gié de nos travaux. Dans la section 1.4, nous décrirons aussi les étapes nécessaires pour construire un réseau d’information à partir d’une base bibliographique, qui sera utilisé à des fins d’évaluation dans le chapitre 3.

1.2 Réseau social et graphe

(21)

1.2.1 Notions relatives aux graphes

On considère un graphe G = (V, E) où V est l’ensemble des sommets et E _⊆ V _{× V est l’ensemble des arêtes. On s’intéressera dans ce document, sauf indication} contraire, aux graphes non orientés, lesquels décrivent une relation symétrique entre les sommets.

Les sommets sont les objets, au sens général du terme, qui sont en relation dans le graphe. On parle souvent aussi de nœuds ou d’acteurs. On noteraN le nombre de sommets deG, avec N =_{|V |.}

Deux sommetsv et v′_{sont adjacents si ils sont les extrémités d’une même arête du} graphe, c’est-à-dire si(v, v′)∈ E.

Les arêtes décrivent les relations entre les sommets du graphe. Une arête relie deux sommets (éventuellement confondus) du graphe. Les arêtes peuvent être valuées, c’est-à-dire qu’une valeur leur est attribuée. Une valuation forte indique alors une relation de forte intensité. On dit que le graphe est valué. Sauf indication contraire, seuls des graphes ne comportant que des valuations positives sur leurs arêtes seront traités.

Une arête est incidente à un sommet si le sommet constitue une (ou deux) de ses extrémités.

La matrice d’adjacence A du graphe G est la matrice carrée de côté |V | dont le termeA [v, v′_{] correspond à la valuation, que nous notons de façon simplifiée}_A

v,v′, de l’arête éventuelle liant le sommet v au sommet v′_{, ou 0 si} _{v et v}′ _{ne sont pas} adjacents.

On noteM la somme des valuations des arêtes de G :

M = 

(v,v′_{)∈V ×V}

Av,v′ (1.1)

Le degrédeg(v) d’un sommet v∈ V est le nombre d’arêtes adjacentes à v.

Dans un graphe valué, on préférera le plus souvent utiliser le degré valué qui tient compte de la valuation des arêtes :

k(v) =  v′_∈V

Avv′ (1.2)

(22)

1.2. Réseau social et graphe 21 Un graphe est dit complet si tous ses sommets sont adjacents deux à deux :

∀(v, v′)_{∈ V × V, (v, v}′)_{∈ E} (1.3) Un sous-grapheG′ _{= (V}′_{, E}′_{) de G, avec V}′ _{⊂ V , E}′ _{⊂ E est composé des sommets} de V’ et des arêtes deE ayant leurs deux extrémités dans V′.

Une cliqueG′ = (V′, E′) est un sous-graphe de G où tous les couples de sommets deV′_{sont reliés par une arête, c’est donc un sous-graphe complet de}_G.

Un graphe biparti est un graphe dont l’ensemble des sommets est divisé en deux sous-ensemble disjointsV1 etV2 et tel que chaque arête connecte un sommet deV1 à un sommet deV2.

Une composante connexe est un ensemble maximal de sommets tel qu’entre tout couple de sommets(v1, vn) il existe un chemin, c’est-à-dire une succession de sommets v2, v3, . . . , vn−1deV avec (vi, vi+1)∈ E, ∀i = 1, . . . , n − 1.

Un graphe est non-orienté si∀(v, v′₎_{∈ E, (v}′_{, v)}_{∈ E, c’est-à-dire si les arêtes sont} faites de paires de sommets non ordonnées. Si les arêtes sont présentes sous forme de couples de sommets, avec une origine et une destination, alors le graphe est orienté. 1.2.2 Distances dans un graphe

La notion de distance entre objets étant d’une importance primordiale dans toute tâche de classification, nous allons voir quelles sont les mesures applicables à des sommets d’un graphe.

Dans un graphe non valué, la longueur du plus court chemin entre deux sommets v et v′ _de _{V correspond au nombre d’arêtes qu’il faut traverser au minimum pour} joindrev et v′. Elle est appelée distance géodésique entrev et v′.

Dans un graphe valué, la distance du plus court chemin est la somme minimale des valuations des arêtes nécessaires pour joindre les sommetsv et v′_.

Cette distance est bien plus coûteuse en calcul, a fortiori si l’on n’impose pas des valuations positives sur chaque arête. De plus, dans cette configuration peuvent ap-paraître des cycles infinis de coût négatif. En pratique, on pourra alors borner les distances minimum. Inversement, dans le cas où il est impossible de relier deux som-mets, on pourra borner la distance maximum entre deux sommets.

1.2.3 Mesures de centralité

(23)

Parmi ces indicateurs, figurent les mesures de centralité qui visent à évaluer des propriétés souvent abstraites des entités du réseau social. On distingue la centralité de proximité, de prestige, de pouvoir, de cohésion, etc (Freeman, 1979).

De nombreux auteurs ont parlé des centralités sans qu’une définition consensuelle existe. On peut néanmoins s’intéresser à la nomenclature de Koschutzki et al. qui pro-pose une typologie de ces mesures selon les axes suivants (Koschützki et al., 2005) :

– l’accessibilité (Reachability), qui repose sur une notion de distance entre les som-mets (degré, excentricité, proximité) ;

– l’écoulement (Amount of flow), qui repose sur une notion de flux circulant entre les sommets du graphe. On prendra pour exemple la centralité d’intermédiarité (Freeman, 1979) et les mesures qui font usage d’une marche aléatoire (Page-Rank (Page et al., 1999), HITS (Kleinberg, 1999)).

– la vitalité (Vitality), pour déterminer l’importance d’un sommet ou d’une arête dans un graphe en faisant la différence entre f (G) et f (G_{\ v}x), où la fonction f () est une mesure quantitative caractérisant G et G\ vx désigne le graphe G privé du sommetvx.

– la réaction (Feedback) où le score d’un sommet dépend implicitement des scores des autres sommets dans le réseau, comme dans l’indice de Katz (Katz, 1953). Selon le cas, on va choisir une centralité appropriée au contexte d’application. Ainsi, on fera usage d’une centralité axée sur l’accessibilité pour choisir l’emplacement des services d’urgence tels que des casernes de pompiers. On choisira une centralité basée sur l’écoulement pour placer des capteurs pour mesurer la contamination d’un réseau d’eau. On utilisera la vitalité pour mesurer l’impact de la présence d’un service d’hôpital dans son environnement. Enfin on aura recours à la réaction pour mesurer l’impact de la mise à disposition d’un serveur miroir dans un réseau de serveursG sur la qualité de service perçue par les utilisateurs d’un site web.

1.2.3.1 Centralité de degré

La mesure de la centralité la plus simple est le degré. Que le graphe soit valué ou pas, on mesure la somme de l’intensité de la connexion d’un sommet avec ses voisins directs.

CD(v) =  v′_∈V

Av,v′ (1.4)

(24)

1.2. Réseau social et graphe 23

C_D′ (v) = deg(v)

|V | − 1 (1.5)

Cette mesure est indiquée dans les situations où on peut assimiler l’importance d’un sommet à son activité potentielle de communication.

1.2.3.2 Centralité d’intermédiarité (Betweenness centrality)

La centralité d’intermédiarité est une autre mesure de centralité d’un sommet dans un graphe. L’intermédiarité d’un sommetu_{∈ V est définie par :}

CB(u) =

 v,v′_∈V,v̸=v′

ϕ(v, v′|u)

ϕ(v, v′₎ (1.6)

oùϕ(v, v′_{) est le nombre de plus courts chemins passant du sommet v au sommet} v′ et ϕ(v, v′|u) est le nombre de plus courts chemins du sommet v au sommet v′ passant paru.

Les sommets qui se trouvent fréquemment sur les plus courts chemins entre deux autres sommets ont une intermédiarité plus grande que les autres (Freeman, 1979; Brandes, 2008).

L’intermédiarité peut également être définie pour une arêtee (edge betweenness) : CEB(e) =

 (v,v′_{)∈V ×V}

ϕE(v, v′|e)

ϕ(v, v′₎ (1.7)

oùϕE(v, v′|e) est le nombre de plus courts chemins du sommet v au sommet v′passant par l’arêtee.

1.2.3.3 Centralité de proximité (Closeness centrality)

Pour les graphes connexes, la centralité de proximité est l’inverse de la distance moyenne à tous les autres sommets. La centralité de proximité est plus grande pour les sommets qui sont à faible distance de tous les autres sommets. Ainsi, dans le monde réel, dans un contexte où les arêtes sont des rues et les sommets des carrefours, les carrefours ayant la plus grande centralité de proximité sont les meilleurs candidats pour accueillir des services d’urgence.

La centralité de proximité est définie par : CC(v) =

1

Σ_v′_{∈V \v}dist(v, v′)

(1.8)

(25)

entre deux sommets ou la somme des valuations de ces arêtes pour les graphes valués. L’inverse de la centralité de proximité est appelé indice de Shimbel.

Borgatti et al. proposent une étude approfondie des notions attachées à la centra-lité (Borgatti, 2005).

1.3 Réseau d’information

Avec l’émergence du Web 2.0 et des réseaux numériques, la notion de réseau so-cial a dû être généralisée pour tenir compte de caractéristiques décrivant les acteurs du réseau et leurs relations. Ceci a conduit à la définition de la notion de réseau d’in-formation homogènes ou hétérogènes par Han (Sun et Han, 2012), celle de graphe d’information par Moser et al. (Moser et al., 2007) ou encore de graphe avec attributs par Zhou (Zhou et al., 2009).

Dans la suite, nous appellerons réseau d’information un réseau où chaque sommet est décrit par des données qui peuvent être structurées ou non structurées. Il peut s’agir de données numériques, sous la forme d’un ensemble ou plus communément d’un vecteur, de données textuelles, ou plus généralement de données de n’importe quel type. Un exemple d’un tel réseau est celui d’un site de microblogs où chaque utilisateur peut se lier d’amitié avec d’autres et où il se décrit par le biais d’une courte biographie (contenu textuel), de son âge et de sa taille (vecteur numérique), ou en-core de ses centres d’intérêt à choisir dans une liste (étiquettes).

Nous verrons comment un tel réseau peut être dérivé d’un graphe où les sommets sont associés à des documents de nature textuelle dans la section 1.4.4.2.

1.4 Réseau bibliographique

De nombreuses sources de données peuvent être modèlisés sous la forme de ré-seaux d’information. On citera ainsi par exemple les fichiers logs de services web (Serrour et Kheddouci, 2010) ou de réseaux d’affiliation où les liens peuvent prendre différentes natures (Zhao et Getoor, 2006). Le domaine des réseaux bibliographiques est l’application principale de ce travail, bien que plusieurs de nos travaux se veuillent parfaitement transposables à d’autres domaines.

(26)

1.4. Réseau bibliographique 25 1.4.1 Base de données bibliographique d’articles et/ou méta-données

associées

Une base de données bibliographique est une compilation d’informations (de méta-données) sur un ensemble d’articles de recherche. Parmi ces méta-données, les plus fréquentes sont :

– des auteurs, – des publications, – des journaux, – des conférences,

– des attributs temporels comme les années de publication.

Les bases de données bibliographiques sont issues de démarches très différentes. La qualité de leurs méta-données, le nombre de documents référencés et l’exploitabi-lité par tout un chacun des informations varient selon le type de la base.

En particulier, on peut distinguer trois grands types de bases de données biblio-graphiques :

– les catalogues bibliographiques des éditeurs comme ACM Digital Library1_, Sprin-ger2, Elsevier3, IEEE4, etc. Ils sont le plus souvent créés à partir d’actes (comptes-rendus) de conférences ou des méta-données issues des journaux scientifiques de l’éditeur.

– les bases créées par leurs utilisateurs, parmi lesquelles Mendeley5, Academia.edu6, Zotero7, CiteULike8, Bibsonomy9, etc. Les utilisateurs enregistrent eux-mêmes les méta-données des articles qui les intéressent et participent ainsi à l’enrichis-sement d’une bibliothèque commune.

– les bases professionnelles telles que DBLP10_{, ISI Web of Science}11_{, etc. Ici les} articles sont intégrés en lot, à partir d’actes, par un petit nombre de personnes autorisées. S’il est parfois possible de demander l’insertion d’actes en particulier, leur intégration effective passe par un superviseur.

Dans le but d’éviter les confusions, voici la définition qui sera retenue pour quelques termes relatifs aux données bibliographiques.

(27)

Un article de recherche est un document composé d’un titre, d’un résumé, d’un corps et d’une bibliographie. Il est associé à la liste de ses auteurs et à un événement comme un journal ou une conférence. Il a une date de publication (l’information est le plus souvent limitée à l’année).

Un événement est une revue ou une conférence, garant de la qualité et hôte d’une publication. Dans la suite, on décide que deux éditions d’une conférence (de deux an-nées différentes) ou deux numéros d’une revue correspondent à un même événement.

1.4.2 Un exemple : la base DBLP

DBLP (Digital Bibliography & Library Project) est une base de données que nous avons utilisée pour nos expérimentations. Elle est maintenue par l’université alle-mande de Trier. Ce n’est pas un site de réseautage social dans la mesure où il n’y a pas de notion d’utilisateur dans le système. Les articles scientifiques eux-mêmes sont absents de la base. Cependant, les méta-données qu’elle contient permettent de créer le réseau social sous-jacent de collaborations scientifiques des auteurs, relatif à l’ensemble des articles présents dans la base.

DBLP est téléchargeable sous la forme d’un fichier XML comprenant la liste des enregistrements qui sont utilisés sur le site. Chaque enregistrement correspond aux métadonnées associées à une publication. La figure 1.1 montre la forme des enregis-trements dans le fichier XML de la base DBLP mis à disposition et la table 1.1 quelques caractéristiques de cette base. DBLP ne fournit ni le résumé ni le contenu des articles.

Taille de l’archive 720 Mo Nombre d’enregistrements 2 246 044 Nombre d’auteurs 837 047

TABLE1.1 – La base de données DBLP, au 19 juillet 2010

1.4.3 Relations de base déductibles d’une base de données bibliogra-phique

On parle souvent de réseau bibliographique car, à l’instar de la communauté scien-tifique, qui constitue un réseau de collaborateurs parmi les plus vastes, les bases de données bibliographiques témoignent de la coopération dans le monde académique.

(28)

1.4. Réseau bibliographique 27

<article mdate="2010-06-01" key="journals/corr/abs-1005-1659"> <author>Brian Karrer</author>

<author>M. E. J. Newman</author>

<title>Random graphs containing arbitrary distributions of subgraphs</title> <ee>http://arxiv.org/abs/1005.1659</ee> <year>2010</year> <journal>CoRR</journal> <volume>abs/1005.1659</volume> </article>

<article mdate="2009-04-22" key="journals/corr/abs-0903-0419"> <author>Gourab Ghoshal</author>

<author>Vinko Zlatic</author> <author>Guido Caldarelli</author> <author>M. E. J. Newman</author>

<title>Random hypergraphs and their applications</title> <ee>http://arxiv.org/abs/0903.0419</ee>

FIGURE1.1 – Extrait du fichier XML de la base de données DBLP

Dans ce document nous nous attacherons à trois relations particulièrement utili-sées en matière de modélisation de bases de données bibliographiques, la citation et la coparticipation.

1.4.3.1 Relation de citation

Une citation est un renvoi dans un article vers un article antérieur. L’ensemble des citations faites dans un article est appelé bibliographie de l’article et est usuellement placée à la fin de celui-ci.

On dit qu’un article v cite un article v′ quand les références de l’article v′ sont présentes dans la bibliographie de l’articlev.

On notera qu’un nombre très restreint de citations a été intégré à la base DBLP. 1.4.3.2 Relation de coparticipation

(29)

ou conférence) sans forcément être co-auteurs. 1.4.3.3 Relation de copublication

On dit de deux auteurs qu’ils ont copublié si ils figurent ensemble dans la liste des auteurs d’au moins un même article.

1.4.4 Construction du jeu de données des 4 sessions

Afin d’évaluer les algorithmes de détection de communautés que nous avons dé-veloppés, nous avons été amenés à construire un jeu de données muni de plusieurs vérités terrain. Celles-ci seront utilisées de manière à évaluer la performance de la classification en fonction de partitions qui sont significatives selon les données tex-tuelles ou relationnelles ou encore selon les deux types de données. Dans cette section nous décrivons la façon dont ce jeu de référence a été réalisé.

Les données utilisées pour construire ce réseau sont issues de DBLP pour les infor-mations relationnelles (participation d’un auteur à une conférence, etc.) et des sites des deux conférences SAC 2009 et IJCAI 2009 pour les données textuelles.

Ces deux conférences ont chacune une session sur un même thème : la robotique. On considérera en outre une session supplémentaire dans SAC 2009 sur la bioinforma-tique, ainsi qu’une quatrième session dans IJCAI 2009 sur la logique par contraintes. Ces deux dernières sessions ont été choisies pour le fait qu’elles sont a priori diffé-rentes dans le vocabulaire employé et donc identifiables uniquement sur la base du texte qui y est rattaché.

Les effectifs des auteurs ayant participé à ces 4 sessions sont indiqués dans le tableau 1.2.

Session et conférence de rattachement Effectif

A Bioinformatique (SAC) 24

B Robotique (SAC) 16

C Robotique (IJCAI) 38

D Contraintes (IJCAI) 21

Effectif du jeu de données 99

TABLE1.2 – Effectif de chaque session

À partir de ces données, le problème de partitionnement peut consister à détermi-ner :

(30)

1.4. Réseau bibliographique 29 – sa conférence : SAC (A_{∪ B) ou IJCAI (C ∪ D)}

– sa thématique : Bioinformatique (A), Robotique (B∪ C) ou Contraintes (D) Nous allons montrer dans la suite que selon les données utilisées (textuelles, relation-nelles ou les deux), l’objectif est plus ou moins facile à atteindre. Pour ce faire, nous devons à partir de ces deux sources de données construire un réseau d’information G = (V, E) dans lequel chaque sommet v de V correspond à un des 99 auteurs ayant participé à au moins une des quatre sessions.

1.4.4.1 Données relationnelles utilisées pour construire le grapheG = (V, E) Les données relationnelles, concernant la coparticipation à des conférences, sont issues de la base de données bibliographique DBLP. L’instantané utilisé date de juillet 2010. Les données utilisées concernent des événements (conférences et revues) enre-gistrés entre 2007 et 2009. Elles vont nous permettre de définir les relations entre les auteurs. Soientv et v′ deux auteurs appartenant à V . S’il existe au moins un événe-mente tel que v et v′sont auteurs d’articles publiés danse (même sans être coauteurs), alors(v, v′₎_{∈ E.}

1.4.4.2 Représentation de l’information textuelle comme attributs numériques continus des sommets du graphe

À partir du grapheG = (V, E) précédent, on se propose d’exploiter les articles pu-bliés dans les quatre sessions par les auteurs pour associer à chacun d’eux un vecteur d’attributs textuels. Un document est construit pour chaque auteur. Celui-ci contient le titre et le résumé de chaque article dont il est l’auteur dans ces quatre sessions. Parmi ces données, qualifiées de contextuelles, aucune pondération n’est appliquée entre le titre et le résumé. Pour exemple, la figure 1.2 montre le contenu textuel associé à Gert Rickheit, auteur de A Computational Model for the Alignment of Hierarchical Scene Re-presentations in Human-Robot Interaction.

Ces documents nécessitent un prétraitement aboutissant à l’obtention d’un vecteur caractérisant chaque auteur. La première étape de ce traitement consiste à détermi-ner la liste des mots à considérer dans notre vecteur d’attributs textuels. Il s’agira donc dans un premier temps d’éliminer la ponctuation, unifier la casse, décider du traitement particulier des mots composés.

(31)

A Computational Model for the Alignment of Hierarchical Scene Representa-tions in Human-Robot Interaction

The ultimate goal of human-robot interaction is to enable the robot to seam-lessly communicate with a human in a natural human-like fashion. Most work in this field concentrates on the speech interpretation and gesture recogni-tion side assuming that a proposirecogni-tional scene representarecogni-tion is available. Less work was dedicated to the extraction of relevant scene structures that under-lies these propositions. As a consequence, most approaches are restricted to place recognition or simple table top settings and do not generalize to more complex room setups. In this paper, we propose a hierarchical spatial model that is empirically motivated from psycholinguistic studies. Using this model the robot is able to extract scene structures from a time-of-flight depth sensor and adjust its spatial scene representation by taking verbal statements about partial scene aspects into account. Without assuming any pre-known model of the specific room, we show that the system aligns its sensor-based room representation to a semantically meaningful representation typically used by the human descriptor.

FIGURE1.2 – Exemple de document textuel attaché à un auteur

La classification de documents textuels est d’autant plus facile que le nombre de dimensions est faible (Yang et Pedersen, 1997). On évoque d’ailleurs souvent le phé-nomène dit de "malédiction de la dimensionnalité". Un nombre élevé de dimensions va non seulement rendre la classification plus longue, mais aussi souvent plus imprécise, car les dimensions sont alors moins expressives. Comme chaque mot correspond à une dimension du vecteur, pour éliminer des dimensions sans perdre en expressivité des données, on va éliminer les mots les moins expressifs. Ces mots, servant souvent de connecteurs linguistiques, et donc peu utiles pour décider de la similitude sémantique de deux phrases, sont appelés mots vides. La liste des mots vides que nous utilisons est celle fournie par NLTK12 (Loper et Bird, 2002).

La figure 1.3 montre le texte de l’exemple de la figure 1.2 après élimination des mots vides.

La lemmatisation consiste ensuite à ramener chaque mot à une racine. De cette façon, on peut diminuer la taille du lexique et éventuellement améliorer l’efficacité de traitements comme la classification de documents en considérant les mots de même

(32)

1.4. Réseau bibliographique 31

computational model alignment hierarchical scene representations human robot interaction ultimate goal human robot interaction enable robot seam-lessly communicate human natural human like fashion work field concen-trates speech interpretation gesture recognition side assuming propositional scene representation available less work dedicated extraction relevant scene structures underlies propositions consequence approaches restricted place re-cognition simple table top settings generalize complex room setups paper pro-pose hierarchical spatial model empirically motivated psycholinguistic studies using model robot able extract scene structures time flight depth sensor adjust spatial scene representation taking verbal statements partial scene aspects ac-count without assuming pre known model specific room show system aligns sensor based room representation semantically meaningful representation ty-pically used human descriptor

FIGURE1.3 – Exemple de document textuel attaché à un auteur après élimination des mots vides

famille comme porteurs du même sens.

L’algorithme utilisé est celui de Porter13 (Porter, 2006). Lors de ce traitement, les formes plurielles et conjuguées des mots deviennent confondues. On peut trouver un exemple de l’application de la lemmatisation en comparant les figures 1.3 et 1.4. L’algorithme de Porter est découpé en cinq étapes chacune composée d’un ensemble de règles simples, qui sont exécutées les unes à la suite des autres. Parmi celles-ci on peut trouver des substitutions relatives au pluriel de la langue anglaise telles que :

– SSES→ SS : caresses → caress – S_→ : cats_{→ cat}

L’application de certaines règles est conditionnée à un nombre de syllabes mini-mum dans le mot, avant l’appartition du motif. Pour simplifier le calcul du nombre de syllabes, on compte le nombre de motifs "voyelle suivie d’une consonne". Ce nombre est appelévc. Ainsi Porter dicte-t-il ces règles ayant trait à la grammaire. Ces règles sont de second niveau, ce qui explique que certains exemples ne viennent pas du dictionnaire :

– (vc>0) IZER_{→ IZE : digitizer → digitize}

– (vc>0) OUSLI→ OUS : analogousli → analogous – (vc>0) IZATION→ IZE : vietnamization → vietnamize

L’ensemble des mots retenus après élimination des mots vides et lemmatisation

(33)

comput model align hierarch scene represent human robot interact ultim goal human robot interact enabl robot seamlessli commun hu-man natur huhu-man like fashion work field concentr speech interpret gestur recognit side assum proposit scene represent avail less work dedic extract relev scene structur underli proposit consequ approach restrict place recognit simpl tabl top set gener complex room se-tup paper propos hierarch spatial model empir motiv psycholinguist studi use model robot abl extract scene structur time flight depth sen-sor adjust spatial scene represent take verbal statement partial scene aspect account without assum pre known model specif room show system align sensor base room represent semant meaning represent typic use human descriptor

FIGURE1.4 – Exemple de document textuel attaché à un auteur après lemmatisation

forme l’index T . C’est un ensemble de mots jugés utiles pour décrire la collection des documents considérés. Il faut ensuite représenter chacun des documents de cette collection.

La représentation des informations textuelles a fait l’objet de nombreux travaux. Parmi eux, trois modèles se détachent. Ils ont pour objectif de saisir la sémantique d’une collection de documents dans un objectif de recherche d’information ou de fouille de textes.

Le modèle booléen Dans le modèle booléen, un mot de l’index est considéré comme présent ou absent de chacun des documents du corpus.

Modèles de langues - N-Grammes Les modèles de langues ou N-grammes sont de type probabiliste. Ils assignent une probabilité à toute séquence de mots figurant dans un document. Les séquences de mots sont souvent courtes, deux mots pour le modèle bigram, trois mots pour le modèle trigram. Il est rare de dépasser trois mots. C’est un modèle très utilisé dans les applications liées au langage naturel, comme la reconnaissance de l’écriture manuscrite ou la reconnaissance de la parole, car son intérêt est de pouvoir mesurer la probabilité d’être face à un terme particulier compte tenu de l’historique des termes rencontrés.

(34)

1.4. Réseau bibliographique 33 De plus, ce modèle permet d’appréhender la distribution des mots au sens de la Loi de Zipf. Cette loi empirique dit que le mot le plus courant est utilisé environ dix fois plus souvent que le dixième mot. C’est aussi le modèle le plus utilisé dans les produits commerciaux. Dans ce modèle, on représente un documentdid’une collectionD sous la forme d’un vecteur :

di = (vi,j, j∈ T ) (1.9)

où vi,j représente le poids attribué au terme tj de l’index T dans le document di. Dans sa version la plus simple il s’agit du nombre d’occurrences du termetj dans le document.

Il est à noter que la représentation vectorielle, issue d’un sac de mots, provoque d’abord la perte de l’information de l’ordre des termes dans les documents. De plus, la ponctuation et la proximité de termes sont aussi perdues.

Toutes les collections de documents ont des distributions de mots différentes. La nature scientifique de nos données peut provoquer des changements importants sur la distribution de certains mots par rapport à d’autres collections.

Pour tenir compte de ces spécificités, au lieu de prendre comme poids d’un mot sa fréquence, on préfère utiliser une formule tf-idf dans le modèle vectoriel.

L’idf ou Inverse Document Frequency décrit le pouvoir discriminant d’un termetide l’index. C’est le rapport entre le nombre de documents dans la collection et le nombre de documents où le terme apparaît :

idf (j) = log  |D|  d_i : t_j ∈ d_i    (1.10) où_{|D| est le nombre de documents dans la collection et}

d_i: t_j ∈ d_i 

est le nombre de documents où apparaît le termetj.

La mesure tf (ou Term Frequency) décrit l’importance d’un terme dans un docu-ment. C’est le rapport entre le nombre d’occurrences du terme dans le document et le nombre de mots total du document.

tfi,j = ni,j 

kni,k

(1.11) où ni,j est le nombre d’occurrences du terme tj dans le document di et kni,k est la somme du nombre total d’occurrences des termes formantdi, soit la longueur du document en nombre de mots.

(35)

di = (vi,j, j∈ T ) avec vi,j = tfi,j· idf(j) (1.12) Dans la suite, pour comparer deux documents au moyen de distances entre leurs représentations vectorielles, nous utiliserons la distance euclidienne ou la distance du cosinus.

Rappelons que la distance euclidienne entre deux documentsdi et dk est définie par : d(di, dk) =   j∈T di,j− dk,j 2 (1.13)

On mesure la similarité du cosinus à l’aide de la formule suivante. scos(di, dk) = cos(di, dk) =

di· dk ∥di∥ ∥dk∥

(1.14) On peut en déduire la distance du cosinus entredi etdk, définie par :

dcos(di, dk) = 1−

di· dk ∥di∥ ∥dk∥

(1.15) Si les vecteurs sont identiques ou ont même direction et sens, alors la distance entre les deux documents est nulle. Dans les autres cas, la distance entre les deux éléments est la valeur du cosinus de l’angleθ formé par leurs vecteurs. Cette valeur est toujours positive, les fréquences de termes ou pondération tf-idf, étant elles-mêmes positives.

À l’issue de ce traitement des documents, on dispose d’un réseau d’information sous la forme d’un grapheG = (V, E) composé de 99 sommets reliés par 2 623 arêtes et donc chaque sommet est associé à un vecteur réel ayant 1 040 composantes. Ce jeu de données sera utilisé lors de nos expérimentations.

1.5 Conclusion

Dans ce chapitre, les notions de réseau social et de réseau d’information ont été introduites. Les concepts de la théorie des graphes que nous exploiterons ont aussi été rappelés de même qu’un certain nombre de notions associées comme le degré et les centralités. Les approches de modélisation d’un réseau bibliographique ont également été définies. Celles-ci nous permettent de produire un graphe à partir des propriétés des entités d’un réseau bibliographique ainsi que d’associer à ces entités un contenu textuel.

(36)

1.5. Conclusion 35 exposé les différentes étapes permettant de transformer des données issues de bases bibliographiques et de sites de conférences en un réseau d’information où les attributs sont numériques.

(37)

(38)

C

HAPITRE

2

Classification automatique et

détection de communautés pour

les réseaux d’information

Sommaire

2.1 Introduction . . . . 37 2.2 Classification automatique . . . . 37 2.3 Détection de communautés dans les graphes . . . . 53 2.4 Détection de communautés dans les réseaux d’information . . . . . 66 2.5 Conclusion . . . . 76

2.1 Introduction

Dans ce chapitre, nous décrivons l’état de l’art dans les domaines de la classifi-cation automatique dans la section 2.2 et de la détection de communautés dans un graphe dans la section 2.3. Si ces deux domaines ont connu des évolutions relative-ment indépendantes, nous verrons aussi quels sont leurs points communs. Cette étape nous permettra de mieux comprendre les approches visant à détecter des communau-tés dans les réseaux d’information qui seront présentées dans la section 2.4.

2.2 Classification automatique

2.2.1 Principes et concepts de base

(39)

utilité pour des tâches telles que la visualisation de grandes quantités de données, la détection de cibles pertinentes dans le domaine du marketing, le repérage de groupes d’individus ayant des caractéristiques communes, etc.

Dans la suite nous définissons formellement le problème de la classification auto-matique de la façon suivante.

Étant un ensemble d’éléments V = {v1, . . . , vn} décrits par leur représentation, l’objectif est de déterminer une partition P = _{C1, . . . , Cr} de V en r classes de sorte que les éléments figurant dans une même classe soient proches vis-à-vis de leur représentation et d’un critère préalablement choisi tandis que des éléments différents soient affectés à des classes distinctes.

Les éléments peuvent être décrits par des attributs quantitatifs ou qualitatifs. Nous supposerons qu’ils sont représentés dans un espace vectoriel réel à_{|T | dimensions.}

L’ensemble P =_{C1, . . . , Cr} forme une partition en r classes de V si les axiomes suivants sont vérifiés :

– 

k∈{1,...,r}Ck = V

– Ck∩ Cl=∅, ∀ 1 ≤ k < l ≤ r – Ck̸= ∅, ∀k ∈ {1, . . . , r}

Le premier axiome implique que chaque élément deV est affecté à une classe. Le second que les classes ne se recouvrent pas. Le troisième que chaque classe contient au moins un élément deV .

Dans certains cas, le second axiome n’est pas vérifiée et un élément peut appartenir à plusieurs classes avec un certain degré d’appartenance. On parle alors de classes em-piètantes, ou encore de partitions floues en classification automatique (Banerjee et al., 2005; Ruspini, 1970). De même, en détection de communautés dans les graphes, on peut accepter qu’un sommet appartienne à plusieurs communautés formant ainsi des communautés recouvrantes (Baumes et al., 2005; Lancichinetti et al., 2009; Reichardt et Bornholdt, 2006; Sales-Pardo et al., 2007; Wang, 2012). Dans la suite de ce travail nous considérerons que les classes ou les communautés recherchées forment une par-tition au sens strict du terme.

Le nombre de partitions d’un ensemble de N éléments se calcule comme le N -ième nombre de Bell. Celui-ci peut se calculer comme une somme de nombres dits de Stirling de seconde espèce :

(40)

2.2. Classification automatique 39 =  N k  = 1 k! k  j=1 (₋₁₎k−jk j  jN (2.2)

ou alors par la convergence de la formule de Dobinski :

BN = 1 e ∞  k=0 kn k! (2.3)

Il est intéressant de faire le lien avec le monde des probabilités en soulignant que le N -ième nombre de Bell est aussi le moment d’ordre N d’une loi de Poisson de paramètre N . Une distribution de probabilités peut en effet être vue comme la partition d’un ensemble.

Parmi toutes les partitions constructibles surV , on distinguera la partition discrète P_D _{qui est la partition unique dans laquelle il y a autant de classes que d’éléments et} où chaque classe contient un seul élément. De même on distingue la partition grossière P_G _{qui est la partition unique dans laquelle tous les objets font partie de la même} classe.

Notons que la classification automatique, appelée aussi classement non supervisé, diffère du classement supervisé. Dans ce second cas, on connaît le nombre de classes et on dispose d’un échantillon d’éléments de la populationV appelé échantillon d’ap-prentissage, pour lesquels on connaît à la fois la représentation et la classe d’apparte-nance. On peut alors utiliser cette information pour élaborer une procédure permet-tant de déterminer la classe d’un élément quelconque de la population à partir de sa représentation.

Par contre, dans le cas de la classification non supervisé qui nous intéresse, on ne dispose pas d’un échantillon d’apprentissage et le nombre de classes est le plus souvent inconnu. Néanmoins, certaines méthodes de classification ont besoin de cette dernière information comme paramètre.

2.2.2 Approches méthodologiques

Deux types de résultats peuvent être produits par un algorithme de classification automatique. Le premier est une partition, qui décrit uniquement les groupes d’élé-ments et fournit la classe d’affectation de chacun des éléd’élé-ments. Le second est une hiérarchie comprenant une suite de partitions. Dans ce cas, les différents niveaux de partitionnement, de différentes finesses, sont imbriqués les uns dans les autres. L’inté-rêt de cette approche est qu’elle permet de choisir plusieurs solutions en fonction du degré de finesse voulu.

(41)

telle que P1 est la partition discrète, PN est la partition grossière et pour i = 1, . . . , N − 1 on a Pi est plus fine que Pi+1 au sens de la comparaison des parti-tions.

En fonction du résultat produit, on distingue donc parmi les méthodes de classifi-cation non supervisées les méthodes hiérarchiques des méthodes non hiérarchiques.

Les premières peuvent être ascendantes si à partir de la partition discrète elles aboutissent par agglomérations successives à la partition grossière ou au contraire descendantes si elles consistent à procéder par division de la partition grossière jus-qu’à la partition discrète. La seconde catégorie de méthodes, dites non hiérarchiques, regroupe celles qui peuvent fournir directement une partition. Ces dernières sont souvent itératives et leur exécution demande en général la connaissance a priori du nombre de classes à produire.

Dans la suite nous détaillons uniquement les méthodes auxquelles nous avons eu recours.

2.2.2.1 Classification hiérarchique

La classification hiérarchique ascendante est une méthode de classification qui consiste, à partir de la partition discrète, à regrouper les classes les plus proches, en utilisant une distance entre éléments (voir section 1.4.4.2) et une fonction que l’on appelle mesure d’agrégation permettant de comparer des groupes d’éléments entre eux.

Le principe de la classification hiérarchique ascendante est décrit dans l’algo-rithme 1.

Algorithme 1 : Classification hiérarchique ascendante Entrées : un ensemble d’élémentsV

Sorties : un ensemble de partitions contenant deN à 1 classes on calcule la matrice des distances entre les éléments deV ; 1

P_{← partition discrète ;} 2

tant que|P| ̸= 1 faire 3

P_{← fusionner les deux classes les plus proches de P au sens de la mesure} 4

d’agrégation ;

mettre à jour la matrice des mesures d’agrégation ; 5

(42)

2.2. Classification automatique 41 euclidienne ou dans le cas de documents décrits par des sacs de mots la distance du cosinus.

De plus la méthode requiert le choix d’un critère d’agrégation. Plusieurs critères d’agrégation se sont imposés au fil du temps.

Le lien minimum est une mesure d’agrégation qui associe à deux classesCk etCl le minimum des distances entre paires d’éléments composées d’un élément de chaque classe. Le lien maximum associe à deux classesCketClle maximum de ces distances. La première mesure consiste à agréger les deux classes ayant les deux éléments les plus proches. La seconde mesure agrège les deux classes entre lesquelles les deux éléments les plus éloignés sont les plus proches.

Smin(Ck, Cl) = minv∈Ck,v′∈Cld(v, v

′₎ _(2.4)

Smax(Ck, Cl) = maxv∈Ck,v′∈Cld(v, v

′₎ _(2.5)

Le lien moyen est une mesure d’agrégation qui utilise la moyenne arithmétique des distances (Sokal et Michener, 1958) :

Smoy(Ck, Cl) = 1 |Ck| · |Cl|  v∈Ck  v∈Cl d(v, v′) (2.6)

La mesure de Ward est aussi connue sous le nom de construction hiérarchique du moment d’ordre deux (Ward, 1963). Elle est définie par :

SW ard(Ck, Cl) =

mk· ml

mk+ ml · d(gCk

, gCl) (2.7)

oùmketmlsont les masses des deux classes, c’est-à-dire le nombre d’éléments qu’elles contiennent.

Cette mesure présente l’avantage de pouvoir être interprétée en terme d’optimi-sation d’inertie : elle conduit à maximiser l’inertie interclasses définie dans la sec-tion 2.2.3.1.

Il n’y a pas de critère d’agrégation fondamentalement meilleur que les autres. Le choix sera fait selon la nature des données ou des caractéristiques recherchées dans le résultat.

(43)

2.2.2.2 Partitionnement non-hiérarchique de type nuées dynamiques

Il est possible de classifier des éléments sans se placer dans le paradigme hiérar-chique, notamment en adoptant une approche qui produit directement une partition. C’est le cas de la méthode des centres mobiles et de ses dérivés qui produisent des classes non pas par agrégation ou division, mais en partant d’une séparation initiale arbitraire des éléments enk classes, qui est ensuite raffinée.

Centres mobiles

À partir des centres (souvent appelés centroïdes) de classes, le principe des centres mobiles consiste itérativement à affecter les individus au centre le plus proche puis à recalculer les centres (Forgy, 1965).

L’algorithme commence par sélectionner aléatoirement k centres. Deux étapes sont ensuite répétées jusqu’à convergence :

– l’assignation de chaque élément à la classe ayant le centre le plus proche, – la mise à jour du centre de chacune des classes.

On cherche à minimiser l’inertie intraclasses : arg min P  C∈P mk  v∈C d (v_{− g}C)2 (2.8)

oùmkreprésente la masse de la classeCk.

On note que l’on distingue parfois l’algorithme des centres mobiles dû à Forgy de celui des K-means dû à MacQueen qui en est une variante où un seul élément est inséré à chaque itération et les centres sont recalculés à chaque insertion.

Les centres mobiles ont pour inconvénient le fait qu’il faut connaîtrek, le nombre de classes, à l’avance. De plus, l’algorithme est sensible à son initialisation, à savoir le choix des centres, ce qui le rend de plus non déterministe.

Il existe une variante plus longue, mais donnant souvent de meilleurs résultats de l’algorithme des K-Means intitulée les K-Means bissectifs (Steinbach et al., 2000). Cette adaptation consiste, pour un nombre de classes à produire supérieur à 2, à opérer récursivement la méthode des K-means, de façon à bénéficier des possibilités du modèle hiérarchique. Une classe est alors divisée en deux à chaque opération.