• Aucun résultat trouvé

exploitation et la fouille des données hétérogènes en écologie

1. Généralités, questionnements et hypothèses concernant la ré-exploitation et la fouille des données

1.4 La fouille de données basée sur les graphes

Quelques notions sur les représentations basées sur les graphes

Un graphe est un ensemble de points que l’on appelle des nœuds (sommets en mathématique ou entités en informatique) reliés par des traits (segments en mathématique ou relations en informatique) ou flèches nommées liens (ou arêtes ou arcs). L'ensemble des liens entre les nœuds forme une figure similaire à un réseau (Aggarwal, C. & Wang, H., 2010). La représentation de données sous forme de graphes permet de relier des objets (champs/entité de la base de donnée ou valeurs de ces champs/attributs/relation) ayant des natures différentes (valeurs quantitatives, qualitatives ordonnées ou non ordonnées) ; les

98 Timothy John Berners-Lee est connu comme un des principaux inventeur du World Wide Web en

1984. Il a l'idée de réaliser un partage de document en associant le principe de l’hypertexte à l'utilisation d'Internet. https://home.cern/fr/topics/birth-web

99 https://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide?language=fr 100 « Nous voulons des données brutes, maintenant ! »

attributs contenus dans un second champ décrivant une qualité de l’objet permettent de créer les liens entre ces objets et/ou de les pondérer. Les liens sont matérialisés par des descripteurs, c’est-à-dire des variables ayant plus d’une valeur possible. Les objets ayant le plus de liens en commun sont les plus proches, ceux ayant les liens les plus ténus (c’est à dire le moins de chemins possibles pour les relier entre eux et beaucoup de nœuds intermédiaires) sont les plus éloignés dans la représentation. On peut traiter les champs un à un ou bien en groupe de valeurs pour former - selon la combinaison de leurs valeurs respectives - un motif appelé patron (pattern en anglais). Ces patrons peuvent décrire des objets et/ou des liens et/ou des contextes. Les champs de « contextes », sont ensuite utilisés pour différencier les nœuds entre eux (couleur, forme, grosseur des nœuds). Ils ne participent pas à la topologie du graphe (c’est-à-dire à sa forme et ses propriétés101). Les motifs ainsi

projetés dans le graphe peuvent être (i) dispersés, auquel cas les liens qui organisent le graphe ne sont pas liés aux éléments de contexte ; ou bien (ii) regroupés dans une ou plusieurs parties du graphe auquel cas il existe un lien entre la façon dont les nœuds sont organisés et un ou plusieurs contextes. Dans certains cas, il est possible de pondérer les liens, donnant plus d’importance à certains qu’à d’autres, ce qui agit sur la topologie du graphe. On parle alors de graphe valué102.

Le clustering : Analyser les regroupements de nœuds pour aller un peu plus loin Le clustering (classification non supervisée en français, mais c’est le terme anglais qui est le plus usité à la place de “classification”, “groupe”, ou “regroupement”) consiste à regrouper des éléments. Cette agrégation est un élément-clé pour l’analyse de grands graphes. Une fois les groupes de nœuds obtenus, on peut réappliquer l’opération pour obtenir un clustering hiérarchique (basé sur une autre variable par exemple). Cette décomposition hiérarchique (ou multi-échelle) permet de modifier la complexité des algorithmes de fouille, de faciliter l’exploration des données, et de proposer une visualisation paramétrable : on parle aussi de navigation multi-échelle (Auber et al., 2014 ; Lambert et al., 2013). Les descripteurs quantitatifs sont en général transformés en classes de valeurs. L’analyse des fréquences relatives des “motifs” et des redondances entre “plus proches voisins” par rapport à leur fréquence dans tout ou partie du graphe montre l’importance des corrélations entre certains contextes et des clusters du graphe. La significativité de ces motifs peut ensuite être testée par des méthodes statistiques spécifiques analysant les qualités des clusters de graphes. Dans des graphes plus complexes où le nombre de combinaisons et de liens peut croître

101 Ce terme est utilisé pour décrire la forme d’un graphe, donnée par les propriétés de ses composants

(type de nœuds, nombre de nœuds, type de liens, propriété des liens, etc.).

102 Graphe dont les arêtes sont pondérées (par exemple par une fréquence d’espèce), et dont la

exponentiellement, l’étude de la corrélation entre fréquences de contextes et “clusters” de nœuds peut demander de paralléliser les calculs103 nécessaires à une investigation des

parcours possibles. Selon la question scientifique sous-jacente aux objets représentés par un graphe, certains éléments dans les liens ou les nœuds peuvent être ignorés ou simplifiés.

Utilisation en écologie/environnement :

Les graphes permettent de représenter tout ou partie d’un système observé. Un tel système serait par exemple un ensemble de sites plus ou moins ressemblants en terme de composition d’espèces où les nœuds sont des sites, les liens sont les observations d’un taxon commune à différents sites et les clusters de nœuds correspondent aux sites les plus identiques et donc ayant le plus de liens entre eux. De la même manière, on peut représenter des individus reliés par la fréquence de leurs contacts, des groupes de taxons reliés par des traits, des groupes de personnes reliés par des réponses d’enquêtes sociologiques…) en intégrant des données de contextes de format différents (température, altitude, âges des individus, ensoleillement représentés par la grosseur ou la forme du noeud…). Ils permettent de mélanger des objets (graphes bipartites ou tripartites) ou de représenter de nouveaux objets complexes en combinant les valeurs de différents champs. Ils peuvent aussi être utilisés pour étudier le système d’observation ainsi que les efforts de prospection, ou pour avoir une approche visuelle de la répartition des compétences utilisées dans un projet ou évaluer un système d’information.

L’analyse des contextes liés aux clusters de graphes

L’analyse des fréquences relatives de ces “motifs” et des redondances entre “plus proches voisins” par rapport à leur fréquence dans tout ou partie du graphe montre l’importance des corrélations entre certains contextes et des clusters du graphe. La significativité de ces motifs peut ensuite être testée par des méthodes analysant les qualités des clusters de graphes. Le clustering est un élément-clé pour l’analyse de grands graphes (Figure 38).

103 La parallélisation des calculs permet de raccourcir le temps de calcul en découpant ce calcul et en

le répartissant sur différentes machines. La grille de calcul européenne permet de solliciter plusieurs dizaine de milliers de machines en même temps, ce qui permet par exemple de raccourcir un calcul qui durerait une année entière à quelques heures.

Figure 38 : Les trois grandes étapes de la fouille de graphe et de la comparaison de la significativité des contextes dans chaque cluster

Dans des graphes plus complexes où le nombre de combinaisons et de liens peut croître exponentiellement, l’étude de la corrélation entre fréquence de contextes et “clusters” de nœuds peut demander de paralléliser les calculs nécessaires à une investigation des parcours possibles (Figure 39). Selon la question scientifique sous-jacente aux objets représentés par un graphe, certains éléments dans les liens ou les nœuds peuvent être ignorés ou simplifiés. Au sein d’IndexMEED, cet aspect prospectif dans les graphes est en cours d’élaboration avec la communauté S.T.I.C..

Figure 39 : Principe du clustering de graphes : plus il y a de liens, plus les nœuds sont proches. On peut pondérer les liens selon leurs types si le graphe en contient plusieurs différents. Dans les clusters, on teste ensuite la co-occurrence de toutes les combinaisons de facteurs possibles.

Les graphes permettent d’appréhender tout ou partie du système observé (un ensemble de sites ayant une caractéristique en commun par exemple) en intégrant des données de contextes de formats différents (valeurs numériques ou catégorielles, ordonnées ou non, simples ou multimodales). Ils permettent aussi d’étudier le système d’observation ainsi que les efforts de prospection, ou d’avoir une approche visuelle de la répartition des compétences utilisées.