• Aucun résultat trouvé

Construction d’un prototype d’outil analyse automatique d’interconnexion de sites

3.2 Analyse et visualisation d'information

3.2.9 Construction d’un prototype d’outil analyse automatique d’interconnexion de sites

L'intérêt croissant pour l‟intelligence économique, non seulement en sciences de gestion mais aussi en bibliothéconomie et en sciences de l'information, témoigne de son importance. Le web offre un terrain fertile pour la recherche dans ce domaine et il y existe un nombre croissant de publications au sujet des liens hypertexte, du concept

de réseau qui relie les entreprises, clients, fournisseurs, etc. Elles sont d‟un grand intérêt pour la recherche en l‟espèce (Vaughan et You, 2006).

Dans ce contexte un certain nombre d‟études cherchent à analyser l‟impact des hyperliens sur les réseaux collaboratifs (Lundberg et al., 2006) et notamment par un parallèle avec la bibliométrie. Cette méthode est appelée « page co-link analysis » par son inventeur (Larson, 1996). Le terme co-lien fait référence à deux concepts différents illustrés en Figure 27: le « co-Inlink » : lorsque deux nœuds web vont chacun recevoir des liens d'un autre nœud web (analogue à la notion de co-citation), et « co-Outlink », lorsque deux nœuds sont simultanément Web fournit des liens vers un autre nœud web (analogue à au concept de couplage bibliométrique).

En outre, en termes de visibilité sur Internet, un hyperlien d‟un site web A vers un site web B est vu par les moteurs de recherche tel que A vote pour exprimer une pertinence de B, tout site web étant valorisé proportionnellement à ces « votes » (Boutet et Ben Amor, 2010, Loc. cit.), de plus « le nombre de liens vers le site web [d‟une entreprise] est en corrélation avec ses performances » (Vaughan et You, op. cit.).

Il s‟agit typiquement d‟un système qui rejoint la notion de capital social : « le capital

social est la somme des ressources, réelles ou virtuelles, qui reviennent à un individu ou un groupe par le fait de posséder un réseau durable de relations plus ou moins institutionnalisées de connaissance mutuelle et de reconnaissance »

(Bourdieu et Wacquant, 1992), aussi, avant même d‟étudier la directivité (que la chaîne ci-dessous permet d‟obtenir) - des liens du réseau de sites web du PRIDES « Pôle Sud Image », nous nous penchons sur la structure réticulaire même de cet ensemble à travers une étude de cas basée sur la chaîne de traitement suivante, illustrée en Figure 28 :

Figure 27 Les principes de co-inlink et co-outlink en analyse dite de « co-liens », chaque sphère représente un nœud internet

Notre chaîne de traitement automatisé est composé d‟un crawler, un module d‟agencement des données et un module de visualisation des données.

3.2.9.1 Le crawler ou module d’acquisition des données

Il s‟agit d‟un logiciel qui permet à partir d‟un URL, de parcourir, d‟hyperlien en hyperlien, toutes les pages/URLs figurant sur un site web, page internes ou externes à celui–ci. En l‟espèce, nous avons effectué cette opération pour chacun des sites web des membres de ce PRIDES. Cette opération automatisée sur des données massives permet d‟obtenir un maillage exhaustif du réseau desdits sites web rapidement.

Techniquement, nous avons utilisé une bibliothèque de programmation en langage Python appelée URLNet, bibliothèque qui considère un site web comme un arbre dont l‟URL d‟origine serait la racine, un ensemble de sites web comme une forêt, rendant par cette métaphore visuelle l‟acte programmatique cognitivement plus facile.

La méthode exploratoire utilisée est simple :

On dispose de N URLs de sites web que l‟on numérote de 1 à N. Pour chaque URL, on envoie un agent logiciel récupérer son contenu html, particulièrement les hyperliens. Chaque hyperlien est analysé pour être :

-Stocké dans un tableau d‟URLs parcourus s‟il fait partie de l‟arborescence du site à partir duquel il a été récolté (trivial pour les URLs de départ)

-Expurgé s‟il est exclu des arborescences des n racines/URLs de base (cas d‟un hyperlien vers un site externe au réseau)

-S‟il fait partie de l‟arborescence de la racine/URL où on l‟a récupéré, on le stocke dans un tableau d‟URLs à parcourir si l‟URL en question n‟a pas déjà été parcouru. -S‟il fait partie de l‟arborescence de la racine/URL où on l‟a récupéré, on l‟expurge si

l‟URL en question a déjà été parcouru.

-S‟il fait partie de l‟arborescence d‟une racine du réseau différente de la racine de l‟URL où on l‟a récupéré, c‟est donc un lien d‟un membre du réseau vers un autre membre. Ce lien est stocké dans un tableau à deux entrées : Numéro du site originaire du lien et numéro du site destinataire du lien (dans un graphe à eux dimensions, il s‟agirait de nœuds)

On réitère l‟opération à l‟aide d‟un plus grand nombre d‟agents jusqu‟à ce que le tableau d‟URLs à parcourir soit vide, signe que les N sites web auront été explorés. De là, nous disposons de tous les nœuds pour tracer un graphe représentatif des relations établies entre chacun des sites web du réseau. Les liens/URLs récoltés, en nombre et en profondeur, pourront éventuellement faire office de critères utiles à la symbolisation de l‟importance de l‟interconnexion entre plusieurs membres.

3.2.9.2 Le module d’agencement des données

Une fois les données récoltées, le crawler susmentionné nous permet de générer un fichier interprétable par le logiciel Pajek. Avant d‟être modifié par le module d‟agencement, le fichier de données contient typiquement une liste d‟URLs auxquels est attribué un numéro. Les liens d‟un URL vers un autre sont représentés ligne par ligne par la paire des numéros correspondant.

Par la suite, l‟agencement des données va consister à assigner à chaque URL qui sera un point, des coordonnées en trois dimensions, coordonnées établies selon un algorithme basé sur la force (en l‟espèce, l‟algorithme Früchterman-Rheingold) dont le principe est à la fois de créer un équilibre entre les différents points reliés par des segments en simulant un environnement physique tels que les premiers supporteraient une charge dépendant des seconds qui seraient des ressorts, et aussi

d‟optimiser l‟espace qui est un facteur critique en infovis sur des données massives.Ce module permet d‟obtenir in fine un ensemble réticulé et/ou d‟isolats, prêt à être visualisé grâce au maillon suivant de notre chaîne.

3.2.9.3 Le module de visualisation des données

Une fois les données agencées, nous nous servons de l‟outil de visualisation Javaview. Gratuit, et flexible quant aux options de visualisations, il nous permet de visualiser le réseau obtenu en cinq dimensions : la tridimension spatiale, la couleur (chaque site web du PRIDES est affiché à l‟aide d‟une couleur spécifique à ce groupe tandis que les autres sites web se voient attribuer une deuxième couleur) et l‟interactivité.Nous nous limitons à cinq dimensions conformément à (Bandler et Grinder, 2005), qui eux-mêmes se fondent sur l‟article majeur de (Miller, 1956) « The Magical Number Seven, Plus or Minus Two » : le second a posé les bases de ce que nous nommons de nos jours «empan mnésique » et les premiers d‟affirmer que cette limite de sept plus ou moins deux items s‟applique globalement au système perceptif humain.

« Selon l’approche écologique de la perception due au psychologue J.J. Gibson (1979), la perception est indissociable de l’action : il faut agir pour percevoir et il faut percevoir pour agir » (Hascoët et Beaudoin-Lafon, 2001, op. cit.). « Il apparait donc souhaitable que l’utilisateur puisse interagir avec les données modélisées »

(Quoniam et Boutet, 2009, Loc. cit.).

C‟est pourquoi, malgré une restriction de cinq dimensions qui permettra à la grande majorité des personnes d‟opérer une prévention cognitive, sinon interprétative, nous optons, au-delà de la tridimension, pour la dimension manipulatoire qui nous paraît essentielle tant pour les raisons susdites que pour la possibilité d‟obtenir un ajustement visuel du réseau complexe. Finalement, le module de visualisation des données, entre la faculté de zoom et la rotation, offre la possibilité à l‟utilisateur d‟obtenir le point de vue qu‟il pressent comme idéal.

Figure 28 La chaîne de traitement automatisé, des données à la visualisation