RTBF Info et sa base de données exhaustive

5 Les qualités sociales de la langue des journalistes

2.1 RTBF Info et sa base de données exhaustive

Nous avons obtenu, de la part de la RTBF, une base de données comprenant 98 205 commentaires, soit l’ensemble des commentaires que les internautes ont postés dans la section

145

dédiée sur une période d’un peu plus de trois ans377. Elle contient tous les commentaires postés, y compris ceux qui n’ont pas été publiés. Cette dernière remarque possède toute son importance, dans la mesure où 56,2 % de ces commentaires ont été filtrés par la modératrice. Pour chaque commentaire, nous disposons des informations suivantes : pseudonyme du commentateur, date et heure du commentaire, texte du commentaire, numéro d’identification et titre de l’article, date de l’article, identifiant du modérateur, décision de publication.

À partir de cette base de données, nous avons constitué un corpus de 481 commentaires qui ont un lien avec l’utilisation de la langue par les journalistes. La méthode de constitution de ce corpus s’est articulée en deux étapes : la lecture intégrale d’un échantillon représentatif aléatoire et l’extraction semi-automatisée par mots-clés au moyen du logiciel Unitex. Quelque 17 commentaires ont été trouvés par les deux méthodes, ils n’ont été inclus qu’une fois.

Graphe 4 : Constitution du corpus de RTBF Info

2.1.1 Échantillon aléatoire et évaluations générales

La lecture intégrale d’un corpus représentatif aléatoire de 2 298 commentaires378 a permis de recueillir 36 commentaires pertinents. Cela signifie que la proportion, au sein de notre échantillon, de commentaires qui concernent la langue des journalistes se situe à 1,6 % et que, par extension, notre base de données devrait comporter environ 1 538 commentaires pertinents sur l’ensemble des 98 205 commentaires. Les commentaires collectés nous ont aidé à formuler certaines requêtes pour le second volet méthodologique.

377 Du 9 février 2011, soit la date de lancement d’une nouvelle édition du site internet, au 14 mai 2014, jour où nous avons obtenu cette base de données.

378 Au départ, nous avons travaillé avec un indice de confiance de 95 % et un intervalle de confiance de 5, soit avec un échantillon représentatif aléatoire de 383 commentaires. Étant donné le nombre peu élevé de commentaires recueillis, nous avons répété l’opération à cinq reprises, augmentant ainsi considérablement le niveau de confiance de l’échantillon.

146

Calculer précisément la quantité journalière moyenne de commentaires et de commentaires métalinguistiques se révèle compliqué. En effet, l’ouverture d’un article aux commentaires est opérée au cas par cas par la modératrice, qui travaille uniquement les jours ouvrés379. Le nombre moyen de commentaires par jour écoulé s’élève à 82 alors qu’il atteint 120 si l’on répartit les commentaires uniquement sur les jours ouvrés. Le nombre moyen de commentaires relatifs à la langue des journalistes publiés par les internautes chaque jour, compris entre 1,3 et 1,9, parait assez faible : les internautes de RTBF Info n’utilisent pas massivement le dispositif des commentaires pour parler de la langue des journalistes. Cependant, 1,6 % des messages abordent cette question, ce qui représente une certaine récurrence, alors qu’il ne s’agit pas, à priori, de la vocation première du dispositif. Par ailleurs, la proportion de commentaires qui abordent le travail ou les pratiques des journalistes s’élève à 8 %. Les commentaires sur la langue des journalistes concernent près d’un cinquième (19,6 %) des commentaires au sujet des journalistes.

Notons également qu’il s’agit de commentaires postés dans un module interne géré par le média, qui existait au moment où ce corpus a été constitué. L’avènement d’une nouvelle version du site en juin 2015 a éliminé ce dispositif au profit d’un module de commentaires Facebook, ce qui pourrait évidemment avoir fait évoluer les chiffres présentés ici.

2.1.2 Extraction semi-automatisée par mots-clés

Nous avons utilisé un logiciel de traitement automatique des langues, Unitex, afin d’extraire tous les commentaires contenant un ensemble de mots-clés380 :

1) anglicisme 2) belgicisme

3) conjugaison, conjuguer 4) coquille

5) correcteur, correction, corriger 6) écrire

7) grammaire

8) il manque / qui manque(nt) / manquant 9) je lis 10) langue française 11) orthographe 12) relire 13) subjonctif, indicatif 14) truffé, bourré 15) typographie, typographique 16) vocabulaire

379 Le weekend, les internautes ne commentent que les publications de la semaine.

147

17) cooccurrence de (faute OU erreur) ET (journaliste OU journalisme OU site OU RTBF) dans un espace de 25 mots381.

Les résultats de chaque requête ont été vérifiés afin d’éliminer les commentaires non pertinents382. Les 424 résultats pertinents affichés dans le concordancier ont été récupérés manuellement dans la base de données initiale. Lors de cette étape de récupération, nous avons repéré et ajouté 38 commentaires pertinents qui jouxtaient, dans la base de données, les commentaires recherchés383. Au total, cette méthode a donc permis de recueillir 462 commentaires.

2.1.3 Discussion sur la validité du corpus

La liste de mots-clés a été établie principalement de manière intuitive, de façon à brasser un large spectre de commentaires concernant la langue et l’écriture des journalistes384, mais aussi à respecter un arbitrage cout-bénéfice qui nous paraissait acceptable. Il faut néanmoins rappeler que les 481 commentaires étudiés sont évidemment fonction de ces requêtes.

Analyser les 36 commentaires issus de l’échantillon aléatoire permet de comprendre ce que nos requêtes n’ont pas permis d’extraire. Si l’on retire les 17 commentaires obtenus par les deux méthodes, le sous-corpus issu de l’échantillon aléatoire comporte encore 19 commentaires. Parmi ceux-ci, neuf n’auraient pu être extraits au moyen d’aucune requête ou presque385. En revanche, l’ajout de mots-clés, métalinguistiques ou métajournalistiques aurait permis de retrouver les dix autres et donc, par extension, d’autres commentaires pertinents dans la base de données : écriture, erreur*, faute*, définition*, incorrect, manquer*, mot*, phrase, verbe, style*, terme*, texte*, titre*. Utilisés sans filtre, les termes marqués d’un astérisque auraient engendré un nombre de résultats non pertinents extrêmement important386.

Nous argüons que ces 19 commentaires, dans leur contenu, sont extrêmement proches de ceux des commentaires extraits et qu’ils n’apportent pas d’éléments pertinents absents du corpus constitué387. Ces 19 commentaires, au même titre que les 38 commentaires repérés grâce

381 Cette requête a été lancée dans le logiciel de textométrie TXM.

382 Lorsque des commentaires repérés par une requête avaient déjà été inclus dans notre corpus grâce à une autre requête, ils n’ont pas été ajoutés à nouveau.

383 Il s’agit toujours de commentaires postés sur le même article que le commentaire repéré par le logiciel.

384 Afin de ne pas nous restreindre uniquement aux questions de normes, nous avons notamment inclus relire, écrire ou langue française.

385 En particulier lorsqu’ils ne contiennent aucun terme métalinguistique (exemple : « publicitaires et pas publicistes… »).

386 Des requêtes plus sophistiquées auraient pu résoudre certains problèmes mais, à nouveau, auraient requis un temps supplémentaire considérable.

387 Donnons deux exemples pour illustrer notre propos : 1) le commentaire « "nos engagement fondamentaux" Manque un "s" », inclus uniquement grâce à l’échantillon aléatoire, est proche d’un autre commentaire repéré grâce aux requêtes : « Juste pour l'orthographe... - Les conditions devraient demeurer hivernaleS - Passé minuit, les averses se feront plus rareS » ; 2) l’idée contenue dans le commentaire « ...Il venait d'autoriseR... La RTBF doit retourner à l'école!! » est présente dans d’autres commentaires extraits grâce aux requêtes comme « Quand on voit

148

à leur position dans la base de données (voir supra), représentant au total 11,9 % de notre corpus pour RTBF Info, permettent d’atténuer légèrement l’effet des requêtes sur le corpus analysé.

Il faut encore souligner l’avantage d’avoir eu accès aux commentaires qui n’ont pas été publiés par la rédaction. Majoritaires au sein de notre corpus, ceux-ci constituent des discours et représentations que nous n’aurions pu étudier si nous avions choisi de collecter les commentaires au départ des pages web, alors même qu’ils font partie des réactions du public auxquelles nous nous intéressons. Enfin, notre processus a permis de collecter 481 commentaires parmi un total de commentaires pertinents estimé à 1 538, soit une proportion s’élevant à près d’un tiers (31,3 %), ce que nous estimons considérable.

Dans le document Le français des journalistes en ligne Régulation de la langue par les représentations et les pratiques (Page 144-148)