• Aucun résultat trouvé

O UTILS INFORMATIQUES D ' ASPIRATION ET D ' ANALYSE DES DONNÉES

TECHNODISCURSIF DE F ACEBOOK )

6.3 O UTILS INFORMATIQUES D ' ASPIRATION ET D ' ANALYSE DES DONNÉES

Il existe aujourd’hui un panel de logiciels aidant à aspirer des données d’Internet, mais souvent les jeunes chercheurs ne découvrent ces outils qu’après être passés par plusieurs manipulations manuelles. L’avantage de ces outils est qu’ils peuvent extraire des contenus des sites Web pour les sauvegarder sous un format plus exploitable, comme des tableurs, pour une analyse de données plus aisée. Néanmoins, le choix de l'outil même n'est pas facile puisqu’une multitude des logiciels existent offrant des possibilités différentes. Pour notre part, nous avons testé deux outils différents pour comparer leurs fonctionnalités : Netvizz et NodeXL. Comme nous n'avons reçu aucune formation en la matière, la prise en main des deux outils a été un peu longue. Après avoir testé les deux outils nous avons décidé de tirer profit des fonctionnalités proposées par les deux logiciels, qui se complètent, et que nous allons présenter dans cette section.

6.3.1 Netvizz

Netvizz23 est une application sur FB. Elle propose d’extraire des données, soit d'une « page » ou d'un Groupe FB, en format gdf ou tab (Figure 25).

23

164

Figure 25: capture d'écran de l'application Netvizz

Les données que Netvizz aspire sont : le contenu des messages, le nombre de like, de partage et de commentaires pour chaque message. L'outil applique les principes de l'anonymat et n'aspire pas les données personnelles des membres d'un Groupe (nom ou pseudonyme, sexe, âge, ville, etc.). Par conséquent, les messages sont aspirés, mais leurs auteurs ne sont pas identifiés par l'outil (Figure 26). De ce fait, nous avons dû entrer manuellement les auteurs de chaque publication.

Netvizz n'offre pas la possibilité de visualiser un graphe de relations ni de calculer des mesures de réseau social, c’est la raison pour laquelle nous avons eu recours à un autre logiciel en complément de celui-ci.

165 6.3.2 NodeXL

NodeXL24 est un plugin qui fonctionne avec la suite Office Microsoft Excel à partir de l’édition 2007. Cet outil, libre de droits et gratuit25, est un logiciel d’analyse de réseaux sociaux, ainsi il permet non seulement d'extraire des données, mais aussi d’établir des relations entre les différents participants par exemple l’outil permet d’identifier quel participant a commenté le message de tel participant dans un Groupe FB. L'interface de l'outil est conviviale26 et similaire à Excel. Cependant, cet outil est en constante évolution ainsi que la politique de confidentialité des réseaux socionumérique comme Facebook pourrait changer en imposant par exemple certaines limites d'accès à ces données27. Une fois NodeXL

téléchargé et lancé, un nouvel onglet apparait lorsqu’Excel est démarré (Figure 27).

Figure 27: capture d'écran de la barre d'outils de NodeXL

En appuyant sur la fonction « import » une liste déroulante apparait où on peut choisir d'importer des données de différentes ressources (Twitter, Facebook, YouTube, etc.) Dans notre cas, nous avons choisi d’importer les données d’un Groupe FB. Pour cela il faut avoir bien entendu un compte sur FB et s’y connecter. Une fois connecté, vous choisissez le Groupe que vous souhaitez analyser et vous pouvez également choisir de différents paramètres des données : comme le nombre de messages à aspirer et la période d’activité. (Figure 28). NodeXL permet aussi d’aspirer des données personnelles des participants comme

24http://nodexl.codeplex.com/

25Récemment, une version payante de l’outil a été lancée, limitant ainsi certaines fonctionnalités de la version

gratuite , par exemple l’aspiration des données d’un Groupe Facebook qui est désormais réservé pour NodeXL pro.

26 Pour nous former à cet outil, nous avons suivi la formation proposée par James Cook, professeur des sciences

sociales à l'Université de Maine aux États-Unis sur YouTube https://www.youtube.com/watch?v=Gs4NPuKIXdo. 27La version NodeXL que nous avons utilisée est 1.0.1.341

166 leurs noms, âges, dates de naissance, etc. Contrairement à Netvizz, les publications sont identifiées par leurs auteurs.

Figure 28: Capture d'écran montrant les différents paramètres de NodeXL

La durée du téléchargement des données peut être plus ou moins longue en fonction de la taille des données à extraire. Une fois les données téléchargées, elles sont présentées en deux temps. Sur la première feuille de calcul, on trouve les relations entre les utilisateurs par exemple A a aimé la publication de B. Sur la deuxième feuille de calcul, on trouve les participants ou les nœuds identifiés par leurs noms ou leurs pseudonymes. L’outil offre également la possibilité de calculer des mesures comme le demi-degré extérieur et intérieur (voir 6.2) ainsi que de générer un graphe représentant les liens entre les membres. Nous illustrons notre propos par un exemple concret.

167

Figure 29: exemple de lien orienté dans le Groupe

Dans la capture d’écran ci-dessus, la première ligne indique que Salha a réagit à Dalal. Dans le graphe ce lien sera illustré par une flèche sortante de Salha et orientée vers Dalal et sera calculé en tant de degré sortant pour Salha et en tant de degré entrant pour Dalal. Autrement dit, le degré sortant indique le nombre de personnes auquel un participant donné a réagi et le degré entrant indique le nombre de personnes qui ont réagi à un participant donné.

Néanmoins, avoir recours à ce type d'outil n'est pas sans difficulté sur le plan méthodologique. En effet, le logiciel garde les traces de toutes les publications, les commentaires et les « j'aime » qui étaeint dans le Groupe, même ceux qui ont été supprimés ultérieurement par les utilisateurs. En comparant notre comptage manuel du corpus et celui fourni par l'outil, on trouve un certain décalage parce que notre comptage manuel était sélectif dans la mesure où nous n'avons pas compté les publications et les commentaires répétés, les publications contenant des hyperliens brisés ou qui ne sont plus accessibles ou encore nos propres publications comme nous l’avons déjà expliqué (voir 6.3). Afin de résoudre ce problème, nous sommes passée par une étape de « nettoyage » des données extraites et nous avons également entré manuellement des centaines des données manquantes.

168 6.3.3 Antconc

Antconc est un logiciel d’analyse textuelle, gratuit et téléchargeable sur Internet. Pour analyser un texte, il doit être converti en format texte brut (txt.). Après avoir lancé le logiciel, il faut importer le(s) document(s) à analyser. En ce qui nous concerne, nous avons préparé deux documents : les publications et les commentaires. Nous avons utilisé notamment la fonction « search term » pour l’analyse sémiolinguistique. Après une lecture flottante du corpus, nous avons repéré quelques formes de néographie que nous avons cherchées par la suite à l’aide de ce logiciel pour savoir leurs fréquences. La capture d’écran ci-dessous montre les résultats de recherche de l’expression « lol ». L’expression est utilisée 31 fois, et la colonne de droite montre le fichier où l’expression est apparue.

Figure 30: capture d'écran des résultats de recherche de l'expression "lol" dans AntConc

En appuyant sur une de ces concordances, on peut voir le contexte général où l’occurrence est employé :

169

Figure 31: capture d’écran montrant le contexte général où l’occurrence est employé