• Aucun résultat trouvé

5.3.2-Analyse de réseaux socio-sémantiques de Flickr

-La base de données Flickr 2006

La base de données à partir de laquelle a été effectuée l'analyse de réseaux sociaux et sémantiques de Flickr est issue du travail de stage de Pascal Pons, informaticien au sein du laboratoire SENSE chez Orange Labs, dans lequel nous avons effectué notre recherche dans le cadre d'un contrat Cifre.

L'extraction des données a consisté à la production d'un programme informatique permettant d'aspirer (à partir de requêtes http) les données de Flickr accessibles à partir des API mises à

disposition par le site185. Les API permettent de recueillir un certain nombre de données publiques, telles que les photos, les identifiants d'utilisateurs, les commentaires, les favoris, les groupes et les tags. Les données privées du site ne sont accessibles qu'en ayant l'autorisation des utilisateurs et n'ont donc pas pu être récupérées.

La base ainsi constituée possède une taille de 6 giga octets de données texte compressées qui se construisent de la manière suivante :

-Liste des photos publiques et des groupes de chaque utilisateur

-Liste des tags, des personnes ayant laissé un commentaire et date d’upload des photos -Liste des photos des groupes publics.

Un premier traitement de cette base a permis de quantifier les données qui la compose : -Photos : 156 840 996

-Comptes d'utilisateurs : 4 788 438 -Groupes thématiques :72 875 -Tags : 4 265 868

C'est à partir de ces données extraites du site que l'analyse de réseaux sociaux et sémantiques a été réalisée, en produisant un graphe biparti des utilisateurs et des tags qu'ils ont indexés.

-Mesures de proximité thématique et qualification des liens relationnels

L'analyse des données a nécessité d'importantes compétences en informatique et n'aurait pas pu être réalisée sans les connaissances et l'investissement important de Christophe Prieur, Maître de conférences en informatique au LIAFA, qui fût l'un de nos collaborateurs, dans le cadre de son détachement au sein du laboratoire SENSE chez Orange Labs. Bien que ce travail trouve son origine à l'époque de notre collaboration au sein du laboratoire SENSE, il faut souligner que la majorité du travail d'analyse des données a été effectuée après son détachement, alors qu'il avait réintégré son laboratoire universitaire d'origine. Nous lui sommes entièrement redevables du travail de traitement des données Flickr qu'il a fournit et ceci de manière totalement volontaire.

Afin de produire le graphe biparti, composé d'utilisateurs et de tags, nécessaire à l'analyse de réseaux, il a fallu produire ce que l'on nomme « l'ombre du graphe », c'est à dire l'ensemble des noeuds et liens observables sur la base, ayant au moins un lien de contact ou de commentaire, soit 2 150 894 noeuds représentant des comptes d'utilisateurs de Flickr et 32 544 610 liens de commentaires ou de contacts entre les noeuds.

Une fois ce graphe obtenu, il a été nécessaire de construire les mesures de proximité et de dissocier les différents types de relations sur le site que nous souhaitions prendre en compte. Avant de procéder à l'analyse de réseaux, il a été nécessaire de construire, à partir de la problématique et des questions de recherche que nous avions déterminées, un ensemble de mesures quantifiables à partir des données disponibles. C'est en s'interrogeant sur la notion de « distance sociale », telle qu'elle est développée dans les travaux sur la navigation sociale, que nous avons voulu déterminer les liens qui existent entre une forme de distance que nous avons appelée « sociale » et une autre « sémantique ». Afin de tenter d'analyser ces liens entre ces deux formes de distance nous avons dans un premier temps déconstruit la notion de relation sur Flickr, en y intégrant plusieurs dimensions de ce qui peut constituer un lien sur le site entre deux utilisateurs, puis dans un second temps, nous avons produit des mesures de proximité sémantique, l'une basée sur les tags et l'autre sur les groupes (les résultats issus de cette approche méthodologique et des traitements détaillés dans cette partie, sont présentés et discutés dans le chapitre 11).

En ce qui concerne les relations « sociales » sur Flickr, le choix a été fait de prendre en compte une multitude de types de liens qui pouvaient exister entre deux utilisateurs en combinant différentes fonctionnalités de mise en relation que le site offre. Il est important de noter que Flickr permet aux utilisateurs de se mettre en contact avec un autre utilisateur sans pour autant que ce dernier accepte la demande de contact, produisant ainsi un réseau de relations non réciproques au sein du réseau de contacts. Nous avons intégré les trois formes de contacts entre utilisateurs :

-les contacts dits « réciproques »

-les contacts « entrants » (sans réciprocité) -les contacts « sortants » (sans réciprocité)

Nous avons également pris en compte les commentaires en intégrant leur orientation et leur fréquence entre deux utilisateurs. Les commentaires ont été qualifiés comme fréquents

lorsqu'il existe au moins deux commentaires entre les utilisateurs. Ce choix peut être discuté, mais il nous a semblé important de distinguer les commentaires émis sur la photo d'un autre membre rencontré par hasard sur le site (via un groupe ou en naviguant) de ceux montrant une certaine redondance, signe d'une relation plus régulière entre deux utilisateurs. Nous avons donc couplé, l'orientation, la fréquence et la réciprocité afin de déterminer six types de liens de commentaires entre utilisateurs :

-les commentaires « réciproques »

-les commentaires « réciproques fréquents » -les commentaires « entrants »

-les commentaires « entrants fréquents » -les commentaires « sortants »

-les commentaires « sortants fréquents »

Ces différentes catégories relationnelles ont été ensuite combinées deux à deux, en associant à chaque type de lien de contact, l'ensemble des types de lien de commentaire, produisant une liste de 35 configurations relationnelles. Ce choix de partir d'une large palette de configurations relationnelles a été motivé par notre volonté de ne pas déterminer, a priori, les formes relationnelles qui semblaient pertinentes pour comprendre le type de liens qui pouvaient expliquer le partage de catégories de description entre les utilisateurs du site, évalué par le recouvrement de leurs tags respectifs.

A la suite des premiers résultats obtenus, nous avons fait le choix de limiter les configurations relationnelles qui nous semblaient non pertinentes en groupant les liens de commentaire et de contact unidirectionnels (entrants et sortants) dans la même catégorie, tout en conservant la variable de réciprocité et de fréquence. Ce travail de réduction à limiter les 35 catégories de départ à une version plus synthétique qui différencie 14 configurations relationnelles distinctes.

Pour les mesures de proximité sémantique, construites à partir des tags et des groupes, nous avons procédé au calcul du recouvrement des tags et des groupes communs entre les utilisateurs sur l'ensemble de la base. Pour les tags, on effectue un calcul du nombre de tags que chaque couple d'utilisateurs a en commun.

Pour éviter les effets d'écrasement du score de proximité par les tags les plus fréquemment utilisés sur le site, un système de pondération des tags a été appliqué. On attribue, pour un tag donné, un coefficient de rareté de l'utilisation du tag sur l'ensemble la base compris entre 1 et

10, de sorte qu'un tag utilisé fréquemment par les utilisateurs vaut 1, alors qu'un tag dont la fréquence d'apparition sera plus faible vaut 10. Le système de pondération prend également en compte la fréquence d'utilisation du tag chez un utilisateur et diminue le poids du tag si celui-ci est assocelui-cié à un nombre important de photos. Cette variable dans l'algorithme permet de considérer le score de proximité entre deux utilisateurs comme étant d'autant plus important que ces derniers partagent des tags qui sont peu utilisés. Deux utilisateurs qui partagent des tags très fréquents sur l'ensemble de la base et qu'ils utilisent eux mêmes fréquemment obtiendront un score de proximité moindre que deux utilisateurs qui en partagent autant mais qui sont moins populaires sur l'ensemble de la base. Cette pondération permet de limiter la surreprésentation de certains tags (chez un utilisateur ou sur la base de données) qui déséquilibrerait le calcul de proximité au profit des utilisateurs qui utilisent des tags très répandus.

Pour les groupes un système équivalent de pondération s'applique également, mais il est basé sur la taille des groupes, c'est à dire le nombre d'utilisateurs qui ont adhéré au groupe. Deux utilisateurs auront un score de proximité par groupe d'autant plus élevé qu'ils appartiennent à des groupes dont la popularité est moindre et qui comptent un nombre de membres limité. Il faut noter que nous avons produit deux scores de proximité, un score moyen et un score maximum de proximité par tags et par groupes. A l'issu des premiers résultats obtenus, nous avons fait le choix de focaliser notre analyse exclusivement sur le score de proximité moyen par tags et par groupes, étant donné que le score maximum de proximité ne permettait pas de déterminer de manière significative les types de configurations relationnelles les plus caractéristiques de partage de catégories communes entre utilisateurs.

-Le traitement du réseau global de Flickr

Le traitement des données sur le réseau global de Flickr a consisté en une analyse statistique des scores de proximité par tags et par groupes pour l'ensemble des configurations relationnelles que nous avons établies.

Le premier traitement a consisté en la production des courbes de distribution des scores moyens de proximité par tags et par groupes pour l'ensemble des configurations relationnelles ainsi que des courbes de distribution des effectifs de chacune des configurations.

Nous avons ensuite produit des tableaux croisés synthétisant les scores de proximité par tags et par groupes et la part de chaque relations « sociales » en effectif et en fréquence. Afin de

produire ces tableaux il a été nécessaire de procéder à l'agrégation des scores de proximité en y appliquant une moyenne pondérée par l'effectif des différentes configurations relationnelles composant chaque catégorie nouvellement constituée. Pour chaque configuration relationnelle, un calcul de coefficient de corrélation a été effectué afin d'observer dans quelle mesure la taille de chaque catégorie pouvait faire varier le score de proximité obtenu et de s'assurer que les variations des scores de proximité moyens n'étaient pas corrélées au nombre de liens existant dans chacune des configurations et donc à leur poids sur l'ensemble de la base.

-Le traitement sur les groupes Flickr

Une seconde approche des réseaux socio-sémantiques de Flickr a concerné les groupes thématiques disponibles sur le site. Afin de comprendre les formes de relations au sein des groupes Flickr et les types de liens sur lesquels reposent ces associations d'utilisateurs, ainsi que le rôle que jouent les tags dans le maintien de ces collectifs, nous avons appliqué le même traitement que sur la base globale de Flickr à un corpus de groupes Flickr disponibles sur la base de données dont nous disposions.

La constitution du corpus de groupes a nécessité plusieurs étapes. C'est d'abord à partir de nos observations des groupes sur le site et des entretiens avec les utilisateurs que nous avons ciblé des groupes qui nous semblaient intéressants d'étudier à partir d'une analyse de réseaux. Nous avons constitué un premier corpus d'une centaine de groupes ayant trois spécificité :

-Les groupes « localisés » : Il s'agit de groupes qui sont liés à une localité, un quartier, une ville, un département, un lieu spécifique (par exemple un arrondissement de Paris ou un monument). Ces groupes sont pour la plupart, en plus de lieux d'échanges de photos, des lieux de discussion entre membres de Flickr ayant des attachements particuliers à un lieu donné. Nous avons voulu étudier s'ils étaient davantage socialement cohésifs, c'est à dire que les liens de commentaires et de contacts étaient plus développés que dans d'autres types de groupes constituant notre corpus.

-Les groupes « thématisés » : Nous parlons de groupes thématisés pour un sous ensemble du corpus rassemblant des groupes qui se centrent sur une thématique de photo en particulier. Ce sont des groupes dans lesquels les utilisateurs vont mettre en ligne des photos qui sont liées à des thématiques spécifiques, comme les animaux, la nature, le streetart ou des

groupes thématisés autour d'un type de photo ou d'une particularité technique, comme lomographie, le noir et blanc. L'objectif est d'observer si ces sites apparaissent comme des groupes moins cohésifs en terme de relations « sociales » (contacts et commentaires) mais ayant des scores de proximité par tags plus importants que dans les groupes « localisés », du fait de l'attachement des membres à un style de photographie en particulier, mobilisant des tags communs liés à la thématique du groupe.

-Les groupes « spécialisés tagging » : Ces groupes sont dit « spécialisés » car ils proposent explicitement dans leur mode de fonctionnement (défini par les administrateurs du groupe) un ensemble de règles reposant sur l'usage des tags. Il peut s'agir de groupes proposant d'opérer un filtrage coopératif de photographies mises en partage dans le groupe, à partir de l'indexation de tags, permettant d'effectuer un vote. Il peut également s'agir de jeux entre utilisateurs qui vont indexer des tags spécifiques aux photos, ou encore des groupes qui vont inciter leurs membres à tagguer les photos à partir de tags spécifiques. Ce sous ensemble de l'échantillon semblait intéressant à analyser du fait du rôle qu'y jouait le tagging dans les modes fonctionnement de ces collectifs.

Dans la constitution du corpus nous avons été confronté à deux difficultés. La première est liée à la date d'extraction de la base qui, du fait de son antériorité à nos observations, ne possédait pas l'ensemble des groupes que nous avions sélectionnés. La seconde difficulté est liée à la taille de certains groupes (nombre insuffisant de membres et de photos) au moment de l'extraction, ce qui nous a obligé à éliminer une partie des groupes sélectionnés. Cependant, à partir des trois catégories qui ont orienté nos choix dans la constitution du corpus, une recherche approfondie sur la base de données Flickr 2006 nous a permis de constituer un corpus de 540 groupes Flickr.

Nous avons effectué un calcul des scores de proximité selon les différentes configurations relationnelles de contacts et de commentaires à l'intérieur des groupes. Cependant, cette analyse de la proximité par tags en fonction des différentes formes relationnelles observables dans le groupe a été effectuée uniquement entre les membres du groupe et non sur l'intégralité de leurs contacts respectifs. Il s'agit donc de circonscrire l'analyse de réseau en la limitant aux utilisateurs identifiés comme membres, afin étudier la spécificité des relations internes à chaque groupe et d'évaluer la cohésion sémantique du groupe à partir du score de proximité par tags.

Cette analyse des groupes Flickr a produit des résultats assez limités. Nous présenterons les résultats obtenus, ainsi que les difficultés que nous avons rencontrées dans le chapitre 11.

-L'approche égocentrée d'un sous échantillon des utilisateurs de Flickr

A partir des comptes Flickr des utilisateurs que nous avons interrogés, nous avons tenté de compléter cette approche par une analyse égocentrée. Cet approche visait à enrichir l'analyse qualitative des entretiens par une analyse de réseaux de leur usage du tagging sur Flickr, et d'autre part, de confronter les résultats obtenus sur le réseau global par une analyse de cas spécifiques d'un échantillon d'utilisateurs dont nous connaissions les usages de manière approfondie.

Etant donné que la base de données a été extraite en 2006 nous avons pu obtenir les données Flickr de seulement seize de nos trente cinq enquêtés, car les autres ne possédaient pas encore de compte sur le site à l'époque de l'extraction. Parmi ce sous échantillon de seize utilisateurs seulement huit d'entre eux avaient suffisamment utilisé le site pour que nous puissions effectuer un traitement sur leurs comptes disponibles sur la base de données Flickr 2006. Cependant comme dans le cas de l'approche par groupe, l'approche égocentrée a rencontré un certain nombre de difficultés qui n'ont pas permis de faire aboutir ce traitement. Dans le chapitre 11 nous présenterons l'approche mise en place, les difficultés rencontrées, ainsi que les pistes de recherches soulevées pour des recherches à venir.

Pour l’ensemble des huit utilisateurs de notre sous échantillon nos avons procédé au même traitement que pour les statistiques sur le réseau global de Flickr, à savoir, une production des courbes de distributions des différents scores de proximité moyens, des tableaux synthétiques en effectif et en fréquence des différentes configurations relationnelles et des scores de proximité par tags moyens, ainsi qu'un calcul des corrélations existantes entre les effectifs des différentes configurations relationnelles et les scores de proximité.

Nous avons ensuite effectué une analyse comparative des résultats entre les différents membres du sous échantillon et avec les résultats obtenus sur l'ensemble de la base de données, par le biais d'une matrice de corrélation entre leurs différents score de proximité, pour tenter d'identifier des types de liens pouvant être corrélés à certains niveau de proximité par tags et par groupes.

Outline

Documents relatifs