• Aucun résultat trouvé

3.2 Des outils pour analyser

3.2.2 Aspiration des forums

Il est un autre travail que nous devons décrire préalablement : il concerne l’aspiration des forums, ou pour le dire autrement, la construction des corpus.

100

H.-G. Gadamer, Vérité et méthode – Les grandes lignes d’une herméneutique philosophique, Paris, Seuil, 1976 (1ère ed 1960).

101

Chateauraynaud F., (2003), Prospéro : une technologie littéraire pour les sciences humaines, Paris, Ed. du CNRS.

102

Trabal P. et al. , De l’analyse des forums Internet 49 Certes, on pourrait considérer que le passage de la forme consultable via un navigateur sur le Net à celui d’un corpus analysable avec le logiciel Prospéro ne présente pas d’enjeux. Il ne s’agirait que d’un travail informatique d’aspiration de données et de mise à un format spécifique : l’essentiel serait bien dans l’analyse sociologique. Notre travail avec les informaticiens illustre une nouvelle fois un constat connu des chercheurs en socio-informatique : derrière des questions « techniques », figurent des enjeux scientifiques.

Du point de vue du sens commun, un forum – tel ceux que nous souhaitons analyser – se compose de fils de discussion qui se caractérisent par un sujet (on parle de « topic ») et des contributions (ou « posts » des internautes identifiés par un pseudo (et parfois une signature).

Trabal P. et al. , De l’analyse des forums Internet 51 Ainsi, dans l’illustration précédente103, le fil qui s’intitule « l-carnitine.est ou pas dopage? » donne à lire une succession de messages (nous n’avons reproduit que les premiers d’entre eux) qui se caractérisent par un auteur, une date et une heure d’envoi.

* La première question concerne l’ontologie du corpus. Faut-il considérer un message comme un texte ? L’ensemble d’entre eux constitue alors le corpus. Cette solution conduit à créer autant de fichiers « texte » que de messages et dès lors que l’on parvient à isoler l’auteur, la date et quelques caractéristiques importantes, on pourra discriminer l’usage d’une entité, d’une collection ou d’un objet quelconque en fonction des variables renseignées. Cela permet, par exemple, de repérer qui mobilise le plus souvent une configuration discursive qui exprime la crainte des conséquences sanitaires, comment une argumentation donnée se nourrit des contre-discours et évolue dans le temps ou encore comment des dénonciations répondent à des impératifs de justification. Il reste que cette option n’est pas sans poser de problème. D’une part, si les textes sont séparés par un double trait (comme dans l’illustration précédente) il s’agit de repérer la publicité – laquelle ne dit pas toujours son nom. En imposant quelques propriétés formelles pour qu’un message puisse être considéré comme une contribution, on peut surmonter ce problème. Mais que faire de contribution courte qui ne peut être comprise que par la lecture de l’ensemble du fil ?

Le cas est encore plus problématique dans le cas suivant !

L’alternative consiste donc à considérer un fil comme un seul texte qui fait intervenir plusieurs contributeurs, à l’instar des pièces de théâtre qui sont intrinsèquement dialogiques. On peut alors saisir la cohérence d’une discussion mais il sera plus difficile de discriminer certaines classifications selon les auteurs.

103

Il s’agit du début d’un fil tiré du forum « dopage » de Doctissimo, consulté le 1er septembre 2009 : l-carnitine..est ou pas dopage?.

Trabal P. et al. , De l’analyse des forums Internet 52 Faut-il du coup privilégier la cohérence d’une discussion ou au contraire, opter pour une analyse message par message qui permettra de discriminer selon des variables pertinentes ? A cette question, nous avons choisi de ne pas trancher en demandant aux informaticiens de préparer deux corpus par fil : l’un constitué d’un seul texte dans lequel on trouvera toutes les contributions précédées du nom du locuteur, l’autre comprenant autant de textes que de messages, une fois la publicité retirée. Ce faisant, nous nous gardons la possibilité de faire varier les niveaux d’interprétation.

* Une autre question pointe lesdites variables que nous utiliserons pour discriminer. Nous avons ici opté pour des caractéristiques assez classiques en récupérant le nom du pseudo, la date et l’heure de la contribution, le nom du fil et celui du forum ainsi que quelques autres informations qui permettront de repérer où doit reprendre l’aspiration si on décidait de poursuivre l’analyse d’un fil104. On pourrait imaginer coder davantage de variables : la discipline de l’internaute, son niveau de pratique, son sexe… en d’autres termes, les variables classiquement utilisées par la sociologie du sport. Une objection à ce codage tient, bien sûr, à la disponibilité des informations. Parfois certaines d’entre elles sont contenues dans les signatures, parfois non. Doit-on prendre toutes les données disponibles ? Cette question pointe un débat assez ancien en sociologie sur l’importance des qualifications. Notre position revient à considérer que dans ce contexte, les internautes peuvent se qualifier différemment selon le contexte de l’élocution : on peut ainsi se présenter sous un pseudo comme un débutant qui recherche des informations sur un sujet… et sous le même pseudo se prétendre expert dans un autre contexte. D’ailleurs un site comme Doctissimo offre plusieurs possibilités pour se présenter et faire évoluer son avatar, sa signature ou son « monde »105. Dans ces conditions, il nous a semblé que les informations importantes sur l’auto-qualification des locuteurs seront contenues dans le message à l’instar des extraits suivants :

104

Dans cette perspective, il s’agit de repérer le numéro du dernier message, la page à laquelle il figure. Derrière cette opération technique, figurait un enjeu important pour la pérennité de notre dispositif : si le Ministère décidait de suivre après notre étude, certains fils, il serait alors possible d’intégrer une aspiration programmée régulièrement pour récupérer les derniers messages d’une discussion. A titre d’illustration, un fil de discussion que nous avons déjà mentionné, démarrant sur une dénonciation de l’Agence Française de Lutte contre le Dopage (AFLD) semble se retourner vers son auteur qui ne cesse d’être disqualifié (http://forum.doctissimo.fr/forme-sport/dopage/francaise-contre-danger-sujet_622_1.htm). Toutefois, l’institution mériterait d’organiser une veille sur ce fil car rien ne garantit que d’autres témoignages la mettant en cause ne surgiront pas dans l’avenir.

105

Dans un rapport sur les nouvelles technologies, nous évoquions la question des ontologies des internautes. Peut-on certifier qu’une personne n’intervienne que sous un seul pseudo ? Beaucoup de personnes ont plusieurs adresses électroniques, qui correspondent le plus souvent, à la multiplicité de leur vie : professionnelle, personnelle, éventuellement militante… Comment affirmer qu’une personne se retrouve dans un seul pseudo et une seule signature ?

Trabal P. et al. , De l’analyse des forums Internet 53 Dans le message précédent, le locuteur livre son métier et sa région pour asseoir son propos (lequel consiste à discréditer le propos d’un internaute qui prétend que l’on peut accéder à des stéroïdes). Dans le suivant, on a beaucoup d’information – au point même de pouvoir retrouver l’identité de l’internaute :

La propension des internautes à raconter qui ils sont pour expliquer leur problème ou d’où ils parlent pour assurer la pertinence de leurs jugements nous conduit à un codage minimal, comme celui que nous avons décrit précédemment.

* Autre question à laquelle nous avons été confrontés : les citations. Comme dans la tradition académique, les locuteurs n’ont de cesse de citer les propos des internautes soit pour désigner ce sur quoi va porter la contribution - généralement, la partie de la question à laquelle on se propose de rapporter une réponse :

Trabal P. et al. , De l’analyse des forums Internet 54 … soit d’exprimer un accord106 ou un soutien par le rire107. On peut alors parler de fonction phatique au sens de Jakobson108

… une argumentation. On reprend alors le propos d’un autre pour asseoir un jugement ou, le plus souvent construire un contre-discours :

Mais c’est souvent la succession de discours et de contre-discours qui permettent de saisir la dynamique de l’argumentation :

106

Des marques comme « +1 » signifient qu’il faut ajouter une voix supplémentaire si on devait voter – ce qui tend à souligner que le Web fonctionne comme un espace idéal démocratique dans lequel tout le monde pourrait faire entendre sa voix. Des formules comme « + 1000 » soulignent un accord massif car, par extension, elles marquent 1000 soutiens supplémentaires.

107

Cf. infra l’importance des smileys et leur problème d’analyse.

108

Le linguiste la définit ainsi : « Il y a des messages qui servent essentiellement à établir, prolonger, ou interrompre la communication, à vérifier que le circuit fonctionne ("Allô, vous m'entendez ?"), à attirer l'attention de l'interlocuteur ou à s'assurer qu'elle ne se relâche pas... », Jakobson R., (1960), Linguistique et poétique, Essais de linguistique générale, Paris: Ed. de Minuit, 1963, p. 217.

Trabal P. et al. , De l’analyse des forums Internet 55 Dans ce dernier cas, on peut saisir la cohérence du propos en prenant en compte l’enchaînement ; ce qui sera possible avec le corpus « dialogique » (cf. supra). Pour avoir quelques chances de saisir plus localement la construction d’un contre-discours, il faut repérer qui parle. Avec les informaticiens, nous avons donc pris le parti de « marquer » la citation. Le texte final, analysable par le logiciel ressemble du coup à cela :

(LOC saluuuuh) : hey y'a différents produits ! et y'a aussi les anabolisants qui sont beaucoup plus nocif ! forcément si tu te pique et que tu coure 200 kilomètre en sprint c'est normal que ton corps lache , mais pour le bodybuilding c'est différent !!!

(LOC shureido) : <cite locuteur: saluuuuh "> hey y'a différents produits ! et y'a aussi les anabolisants qui sont beaucoup plus nocif ! forcément si tu te pique et que tu coure 200 kilomètre en sprint c'est normal que ton corps lache , mais pour le bodybuilding c'est différent !!! </cite>

Dommages qu'il n'y ait pas de controles dans les salles, par exemple pour l'IGF-1 et 2... Crois tu aussi que prendre des anabos ou des diurétiques à outrance n'est pas dangereux ?

Trabal P. et al. , De l’analyse des forums Internet 56 Grâce à ce système, on peut repérer qui parle – et ainsi ne pas affecter à tort un propos à l’auteur du message, mais surtout on pourra recenser quels sont les passages les plus cités. Derrière ce calcul, figure un levier analytique important : on peut faire l’hypothèse que plus un passage est cité, plus il est discuté et donc problématique. Entrer par les énoncés qui sont largement commentés donne, du coup, un moyen de saisir les éléments décisifs de la discussion. Une difficulté technique, mais surmontée, a consisté à rendre compte des citations dans les citations. Sémantiquement, cela s’apparente à un principe d’économie cognitive qui permet, selon le locuteur, au lecteur de saisir immédiatement la trame argumentative pertinente pour saisir sa contribution. Comme la boucle est théoriquement infinie, il a fallu procéder à des outils récursifs pour restituer cette figure dialogique. La solution technique mise en œuvre permettra de garder ces citations entrelacées. La répétition de la première citation accentuera son poids (d’un point de vue lexicométrique), mais cela rend bien compte l’importance de cet énoncé puisqu’il a suscité de longs débats.

* Autre question dont nous proposons de clarifier les enjeux : que faire des images et autres smileys. Il existe peu de travaux sur l’analyse de ces formes graphiques109 mais les chercheurs s’entendent sur leur importance pour modaliser leurs discours. Contrairement à une discussion ordinaire où le ton de la voix, voire une mimique du visage peut donner des indications à l’interlocuteur sur la façon dont le propos doit être compris (par exemple au second degré), les internautes doivent s’efforcer de signifier le « ton » de leur propos dans un échange électronique. En dehors de la question de l’interprétation de ces outils graphiques, il reste une difficulté technique : faut-il les distinguer des images ? Si oui, comment faire ? Ces dernières peuvent jouer un rôle dans l’argumentation. Le message suivant relancera la discussion, tant sur la qualité du travail de la personne photographiée que sur l’utilité des produits.

109

Voir par exemple l’exposé de Christophe Lejeune, non publié à notre connaissance : Lejeune C., 2001, Présentation d'une communication intitulée " Enonciation des modalités et modalités d'énonciation sur les forums de discussion " (sur les smileys) au Séminaire d'épistémologie du département Costech de l'Université de Compiègne (France), 23 novembre 2001.

Trabal P. et al. , De l’analyse des forums Internet 57 Il nous a semblé décisif de conserver ces données car elles font assurément partie de l’argumentation. Même si un logiciel d’analyse textuelle ne peut les gérer, nous considérons qu’il est nécessaire de garder une trace de ce qui fait débat. Car, les photos font l’objet de discours, de réactions et d’argumentations. Si on peut donc repérer comment dans le texte, on en parle, il nous fallait garder le support. Toutes les images sont donc sauvegardées dans un dossier avec un système de référencement pour savoir à quel message elles correspondent.

Pour les smileys, il nous a semblé important non seulement de les conserver – ce qui a été fait dans un autre répertoire – mais d’en garder la marque graphique pour qu’elle puisse être codée dans le texte même. Ainsi, la succession de caractères « ,-) » correspond-t-elle au graphique : . Il nous a fallu trouver une solution pour les smileys personnels :

Trabal P. et al. , De l’analyse des forums Internet 58 Dans le texte figure la succession de caractères qui en permettra le traitement et leur traduction figure également dans un dossier séparé.

Il reste à distinguer le statut d’une image et d’un smiley d’un point de vue sémantique puis informatique. Nous avons émis quelques critères : le smiley peut se répéter, se retrouver d’une discussion à une autre puisqu’il s’ancre sur des énoncés pour indiquer comment ils doivent être compris – ils sont donc des marqueurs pour la langue. L’image fait généralement objet d’un référencement : on va indiquer d’une façon ou d’une autre la présence d’une photo (sinon dans celui qui la glisse dans son message, au moins dans les réactions). Elle figure moins comme un modalisateur du discours que comme un discours lui-même. D’un point de vue informatique, pour les trois forums que nous avons choisis, nous avons pu trouver un élément de code – parfois assez ténu110 – qui permet de distinguer ces deux types de graphique.

* Le dernier problème réside dans la pérennité de l’outil informatique conçu. Le coût du développement informatique représente une part importante du projet (plus du tiers), il s’agit de se doter d’astuces pour résister à la propension des administrateurs de site Web à changer la présentation graphique du site. La solution retenue consiste à indiquer dans une page XML les endroits où se situent les informations à récupérer, les plages à ignorer (notamment les publicités), les zones qui permettent de naviguer d’une page à l’autre…

Ces précautions ont déjà été utiles. Quelques semaines après la livraison de l’outil, le site Doctissimo a rajouté un message publicitaire. Une fois identifié, nous avons pu changer le paramétrage sans mobiliser les informaticiens.

Cela suffira-t-il ? Nous ne pouvons l’affirmer avec certitude mais nous certifions que toutes les précautions ont été prises pour assurer la plus grande pérennité à cet aspirateur111.

110

Il s’agit le plus souvent d’une balise HTML spécifique, mais parfois d’un enchaînement de balises.

111

Nous souhaitons remercier Abdel Ramdani du Centre de Ressources Informatiques de l’université Paris-Ouest Nanterre et la société Keysnha

Trabal P. et al. , De l’analyse des forums Internet 59