5. Tirer le fil du lien hypertexte dans les discours métajournalistiques
1.5. Identification des variables : caractéristiques des liens et contexte d'énonciation éditoriale
L'étude des liens dans leur contexte d'énonciation implique de mettre en rapport un certain nombre de variables dépendantes (la présence de liens, le nombre de liens, la destination des liens et la position occupée par les liens dans l'article) avec les variables indépendantes susceptibles d'éclairer leur contexte d'énonciation (site, longueur de l'article, rubrique dans laquelle l'article est publié, position occupée par le lien à l'intérieur de l'article…).
L'identification des différentes caractéristiques propres aux liens a été opérationnalisée de manière à pouvoir être effectuée de manière automatique. Cela se traduit par des procédures d'étiquetage : le parseur attribue, selon certaines règles définies a priori selon les spécificités de chaque site, des étiquettes aux liens qu'il identifie.
Destination des liens : liens internes et liens externes
Les liens qui ont comme cible une URL qui a la même base29
que celle du site dont l'article est issu est étiqueté comme liens internes (étiquette « internal »30
). Tous les autres liens sont étiquetés comme des liens externes (étiquette « external »).
À la suite de Ryfe (2012), nous avons également cherché à identifier un type particulier de liens externes : ceux qui mènent à des sites appartenant au même propriétaire que le site dans lequel le lien est contenu. Le parseur repère donc les liens vers des sites appartenant au même propriétaire que celui du site d'information concerné de la façon suivante : des listes de sites appartenant à chaque groupe concerné ont été dressées sur base des informations reprises sur les sites de ces groupes, un lien dont la destination possède la même base31
que celle d'un site présent dans la liste correspondant au propriétaire du site d'information dont ce lien est issu est étiqueté « same owner ».
29 C'est-‐à-‐dire l'élément "netloc" selon le découpage des URLs réalisé par le module Python urlparse (http://docs.python.org/2/library/urlparse.html). Par exemple, dans l'URL http://www.britneyspears.com/BSNews2.aspx?IconID=1, l'élément "netloc" est "www.britneyspears.com". 30Je mentionne les noms d'étiquettes tels qu'ils sont repris dans le logiciel, qui est principalement écrit en anglais.
31 C'est-‐à-‐dire l'élément "netloc" selon le découpage des URLs réalisé par le module Python urlparse (http://docs.python.org/2/library/urlparse.html)
LISTE DE SITES APPARTENANT AU MÊME PROPRIÉTAIRES Corelio (lavenir)
Liste établie le 4 janvier 2013 sur base du site http://corelio.be
adam.be arco.be citysecrets.be coldsetprintingpartners.be corelioclassifieds.be corelioconnect.be corelioprinting.be detondeldoos.be domaininvest.lu gentenaar.be gezondheid.be humo.be immonot.be inmemoriam.be jobat.be larian.com mifratel.be necrologies.net nieuwsblad.be nostalgie.be notarisblad.be oxynade.com passe-partout.be passionsante.be passionsante.be plusplus.be queromedia.be robtv.be siaffinites.be sportwereld.be standaard.be thebulletin.be travelspotter.be vier.be vijf.be vroom.be wataro.com wematch.be woestijnvis.be xpats.com xpertize.be zimmo.be De Persgroep (7sur7)
liste dressée le 4 janvier 2013 sur base du site http://www.persgroep.be/
regiojobs.be vkbanen.nl vacature.com jobscareer.be werkendichtbij.nl autozone.be echo.be hln.be parool.nl ad.nl
volkskrant.nl demorgen.be tijd.be nina.be goedgevoel.be 11dor.be crossdor.be f1dor.be IPM (dhnet/lalibre)
Liste établie le 4 janvier 2013 sur base du site http://www.saipm.com
essentielle.be tribunedebruxelles.be twizzradio.be cielradio.be cinebel.be tremplinpourlemploi.be betfirst.dhnet.be Rossel (lesoir/sudinfo)
Liste établie le 20 janvier 2013 sur base du site http://www.rossel.be
7dimanche.be belegger.tijd.be belrtl.be cinenews.be clubrtl.be courrier-picard.fr directlille.com enmemoire.be enmemoire.sudinfo.be gezondheid.be groupolitan.be investisseur.be jobscareer.be jobsregions.be journaldemontreuil.fr lacapitale.be lameuse.be lanouvellegazette.be laprovince.be lasemainedansleboulonais.fr lavenirdelartois.fr lavoixannonces.com lavoixauto.com lavoixdessports.com lavoixdunord.fr lavoixeco.com lavoixemploi.com lavoiximmo.com lavoixletudiant.fr lavoixpourlesfemmes.fr lecho.be lechodelalys.fr lejournaldesflandres.fr lepharedunkerquois.fr lereveildeberck.fr lesechosdutouquet.fr memoire.lavoixdunord.fr meura.net
monargent.lecho.be mycontact.fr neptv.com netevents.be nightcode.be nordeclair.be' nordeclair.fr nordlittoral.fr nordstages.com nordwaymagazine.com oeuvres.lesoir.be passiondesmontres.lesoir.be passionsante.be plugtv.be radiocontact.be references.be rendez-vous.be rosseladvertising.be rtl.be rtlinfo.be rtlsport.be sabato.lecho.be sillonbelge.be soirmag.be standard.sudpresse.be starnews.sudpresse.be ticketnet.be tijd.be vlan.be weo.fr
Destinations des liens : repérage de régularités
Au fur et à mesure de l'élaboration des parseurs, nous avons repéré certaines régularités dans les destinations des liens qui pouvaient aisément être identifiées automatiquement, et ainsi ajouter un niveau de qualification plus sophistiqué en ce qui concerne la destination des liens, en plus de la distinction entre liens internes et liens externes.
Liens vers le journal papier
Les sites des quotidiens proposent des liens vers la version en PDF du journal, qui est hébergée sur le site (par exemple pdf.lesoir.be, pdf.lameuse.be, http://pdf-online.dhnet.be) — qui est généralement en accès payant. Ces liens sont étiquetés « pdf newspaper ». 7sur7 n'a pas d'équivalent papier et, par conséquent, pas de version en PDF.
Liens mots-clés vers des pages thématiques
Il s'agit de liens vers des pages thématiques internes au site, à propos d'un mot-clé — qui peut être un nom de personne qui apparait de manière récurrente dans l'actualité, une rubrique ou un sujet spécifique. La page thématique rassemble tous les articles publiés sur le site qui correspondent au mot-clé, il s'agit d'un mode d'organisation des articles qui
figure 6 — Exemple de lien étiqueté « keyword »
Source : http://www.7sur7.be/7s7/fr/1769/Britney-Spears/article/detail/1561609/2013/01/12/Pourquoi-Britney-a-quitte-Jason.dhtml
Dans le cas de 7sur7 les mots-clés sont présentés dans un cadre jouxtant l'article. Par exemple, un article au sujet de la chanteuse Britney Spears sera lié aux mots-clés « Britney Spears » et « Stars internationales » (voir figure 6). La présence de mots-clés est systématique. Dans le cas de lesoir (depuis la nouvelle version du site lancée en octobre 2012) des mots-clés sont parfois présentés sous le titre. La présence de mots-clés n'est pas systématique. Lavenir a également introduit, à partir de mars 2013, de tels liens vers des pages thématiques. De tels liens sont étiquetés « keyword ». Les autres sites ne présentent pas de liens sur des mots-clés vers des pages thématiques.
Liens vers les blogs associés au site
Certains sites contiennent des blogs. Parmi ces blogs, ceux-ci sont soit explicitement présentés comme « les blogs de la rédaction » (qui sont par exemple des blogs thématiques tenus par des journalistes, comme http://tackleonweb.blogs.dhnet.be, un blog consacré au football alimenté par la rédaction de dhnet), soit des blogs externes à la rédaction mais dont les marques sont associées au site. Ceux-ci sont repris dans une liste et étiquetés « jblog ». Lalibre et dhnet proposent également à leurs lecteurs d'ouvrir des blogs qui sont alors hébergés sur lalibre et dhnet, avec une URL qui se termine par blogs.lalibre.be ou blogs.dhnet.be. Ces blogs-là, qui ne sont pas mentionnés dans la liste des « blogs de la rédaction », ne sont pas étiquetés en tant que « jblog ».
Liens dans des modules encastrés
Les articles contiennent parfois des modules multimédia « encastrés ». Ces modules encastrés sont identifiés par le logiciel : ils sont soit contenus dans une balise <iframe>, soit situés dans des endroits spécifiques que nous avons désignés. Ils comportent généralement
un lien vers l'endroit où ils sont hébergés originellement, sont comptabilisés et étiquetés comme « embedded ».
Étudier les liens dans leur contexte : identification des variables indépendantes
Les variables indépendantes, susceptibles d'éclairer le contexte d'énonciation de chaque liens, sont le site auquel appartiennent l'article et le lien, la longueur de l'article (mesurée en signes), la position occupée par le lien dans l'article ainsi que la rubrique dans laquelle l'article est publié.
Position occupée par les liens : dans le texte et hors du texte
Pour chaque site, les zones dans lesquelles se situe le texte des articles sont identifiées manuellement, de même que les zones jouxtant celles-ci qui contiennent des liens. Les liens dans le texte des articles (par opposition aux liens qui apparaissent dans des encarts jouxtant les articles) sont étiquetés « in-text » (voir figure 7). Les autres liens sont considérés comme étant situés hors du texte.
figure 7 — Exemple de liens étiquetés « in text »
Source : http://www.dhnet.be/infos/monde/article/393807/second-tour-des-presidentielles-demandez-le-programme.html
Un type particulier de lien « dans le texte » a été identifié et étiqueté comme tel : on trouve parfois dans le texte des articles des URL écrites en toutes lettres. Celles-ci sont écrites dans
intégralité dans le texte mais n’est pas cliquable (le code HTML ne contient pas de balise
<a>). Cela ne constitue donc pas strictement un lien puisque, pour consulter la page à laquelle l’article fait référence, l’utilisateur doit donc copier l’URL et la coller dans son navigateur. Même si ces URL en toutes lettres sont de véritables non-liens, puisqu’elles ne créent pas de connexion entre deux pages, nous les avons repérées et enregistrées. Le logiciel repère dans le texte des articles les chaînes de caractères qui ressemblent à des URL (c’est-à-dire des chaînes de caractère séparées par de points, comme la chaîne « foo.bar » ou « britneyspears.com » et enregistre comme liens « plain text » celles dont le dernier élément correspond à un TLD (top level domain) valide.
Cette méthode récolte un certain nombre de faux positifs : certaines chaînes de caractères séparées par un point et dont le dernier élément est un TLD valide ne sont pas des URL, mais parfois la signature de l’article (« A.Ca »), un acronyme (« N.VA ») ou le résultat d’une espace manquante entre deux phrases. Tous les liens enregistrés comme liens en toutes lettres dans la base de données (étiquette « plain text ») ont donc également été passés en revue manuellement afin d’éliminer ces occurrences.
figure 8 — Exemple de lien étiqueté « plain text » (1)
Source : http://www.lalibre.be/economie/actualite/article/790382/pas-tres-optimiste-l-ires.html
Rubrique à laquelle appartient l'article
Pour chaque article, la rubrique dans laquelle il a été publié est enregistrée. Les rubriques sont déterminées sur base des rubriques « indigènes » proposées par chaque site, qui sont matérialisées dans l’arborescence des modules (et parfois dans l’URL des articles).
EXEMPLES DE RUBRIQUE INDIGÈNE
Catégorie indigène : 24h Belgique/Bruxelles/Région de Bruxelles-Capitale
Catégorie indigène : La Libre.be/économie/actualité
Le parseur extrait et enregistre ces catégories indigènes. Celles-ci sont trop nombreuses et disparates pour être utilisées telles quelles : elles sont donc ensuite recodées dans des rubriques génériques, définies manuellement sur base de l’examen de toutes les catégories indigènes et de leurs régularités. Au final, chaque article se voit attribuée une des 10 rubriques suivantes :
Rubrique générique assignée Exemples de rubriques indigènes
culture Culture Accueil/Culture La Libre.be/Culture/Musique /Festivals économie Economie DH/Infos/Economie La Libre.be/Economie/Entreprise / Emploi ÉCONOMIE/IMMO international Monde Actu/Monde ACTU/FRANCE national & régions actu/Belgique
24h Belgique La Libre.be/Actu/Belgique actu/Namur Luxembourg Régions/Sambre-‐Meuse/Actualité Accueil/Régions/Blégny politique Actualité/Politique DH/Infos/Elections 2010 La Libre.be/Actu/Crise politique science & technologies Sciences
Planète
actu/Sciences & santé Accueil/Société/Climat 7SUR7/Internet DH/Infos/New-‐Tech La Libre.be/Société/Cyber société/faits divers Accueil/Société/Faits divers
DH/Infos/Faits divers Accueil/Société/Judiciaire DH/Infos/Société
soft news styles
24h Showbiz Fun/Buzz Accueil/Life Accueil/Conso
La Libre.be/Société/Beauté sports sports 24h Sports DH/Sports/Euro 2012 SPORTS/FOOTBALL La Libre.be/Sports/Tennis » autre Brèves actu/Fil info Accueil/Le fil info Opinion Débats Débats/Editos La Libre.be/Débats/Opinions Politique/opinions Autre actu/Quiz Accueil/ActuHP Accueil/En Images Accueil/Diaporamas Actualité/Toute l'actu
Il faut souligner que l’utilisation de la catégorisation indigène (Rebillard, 2012, p. 259) est fondamentalement imparfaite : le classement des articles en rubriques ne reflète que les choix éditoriaux ayant mené à placer un article à un endroit de l’arborescence du site — la rubrique telle qu’entendue ici ne prétend donc pas refléter le contenu « réel » des articles. D’ailleurs, les catégories retenues comme rubriques génériques sont fondamentalement poreuses : des articles rangés dans la rubrique « national » peuvent, par exemple, aborder des sujets qui appartiennent, conceptuellement, aux rubriques « sports » ou « politique ». La grande diversité, le nombre important des catégories indigènes ainsi que l’absence de régularités rubricale à travers les sites m’ont poussée à retenir des rubriques génériques très larges.
1.6. Limites
Les différents choix méthodologiques et techniques exposés ci-dessus impliquent que les résultats obtenus ne se conçoivent pas sans l'explicitation d'un certain nombre de précautions et de limites.
La méthode de collecte en deux étapes, au départ de la page d'accueil puis au sein des articles constitue d'emblée une triple frontière : celle du site, de la page d'accueil et de l'article. D'une part, seuls les articles qui sont mis en avant sur la page d'accueil sont pris en considération, alors que celle-ci ne reflète évidemment pas l'intégralité des contenus publiés par un site. Au fur et à mesure que les sites d'information se rendent compte que la page
les modes d'organisation, de hiérarchisation et de mise en évidence des contenus se multiplient. Certains parlent de faire de chaque page une page d'accueil (Ellis, 2013). Le choix de la page d'accueil comme point de départ ne permet donc pas de prétendre avoir une vue panoramique sur tous les contenus publiés par un site d'information, mais uniquement sur ceux qui sont mis en avant dans cet espace particulier. D'autre part, choisir l'article comme unité d'analyse exclut également de nombreux contenus de l'étude. Ce choix permet de compter sur des régularités formelles dont les outils élaborés ici ont fondamentalement besoin, mais ne permet pas de rendre compte de la diversité des formats utilisés sur les sites d'information : à côté des articles, on y trouve des brèves, des galeries d'images, des éléments multimédia, des billets de blogs32
. De plus, le champ d'action d'un média d'information en ligne est, aujourd'hui, bien plus vaste que les frontières étroites de son site. Il s'exprime aussi sur Twitter et Facebook, dans ses applications mobiles, dans les newsletters envoyées aux abonnés. Certains de ces modes d'expression incluent probablement des liens, qui échappent donc complètement à la portée de l'analyse présentée ci-dessous.
Par ailleurs, les critères déterminant ce qui est comptabilisé comme un lien ou non sont à la fois très restrictifs et larges. Ils sont restrictifs, d'abord, parce qu'ils prennent uniquement en compte les liens associés à l'articles (opérationnalisé de la façon suivante : sont pris en compte les liens inclus dans l'article, jouxtant directement l'article, ou plus éloignés mais comportant une mention claire de la relation entre les liens et l'article). De nombreux autres liens existent dans les pages qui contiennent les articles, et dans les sites d'information en général. Mais les critères de sélection des liens sont également conçus de manière très large : à l'intérieur des frontières délimitées par l'article, tous les liens ont été pris en compte — même ceux qui sont dupliqués d'un endroit à l'autre de la page, ou ceux qui sont le fruit d'une génération automatisée. Des éléments qui ne constituent pas, à strictement parler, des liens ont également été inclus et dénombrés, comme les URL mentionnées en toutes lettres ou les modules multimédia encastrés. Il s'agit donc de rendre compte de la diversité des pratiques autour de l'idée du lien — qu'il s'agisse de liens produits
32
Un site comme lesoir, par exemple, a choisi de collaborer avec de nombreux blogs (qui sont soit créés pour lesoir, soit existent par ailleurs et y sont associés). Les billets publiés sur l'ensemble des blogs de la galaxie lesoir sont régulièrement mis en avant sur la page d'accueil — pour le lecteur, il n'y a donc pas de différence fondamentale entre un article et un billet de blog, tous deux sont mis en avant de la même manière — et constituent des contenus journalistiques au même titre que les articles. Le fait que notre parseur ne prend pas en compte de tels billets de blogs explique entre autres pourquoi, dans les résultats présentés ci-après, il y a beaucoup moins d'articles publiés par lesoir que par les autres sites : ce n'est pas nécessairement parce que lesoir publie moins, mais parce utilise régulièrement d'autres formats. De même, toujours en ce qui concerne lesoir, de nombreuses informations font l'objet d'une brève. Les brèves sont signalées dans le "fil info" et non en titre de la page d'accueil : ils ne sont dès lors pas comptabilisés par le parseur et expliquent également les quantités en apparence moins importantes d'articles publiés par lesoir. Il y a moins d'articles, mais cela ne signifie pas nécessairement qu'il y ait moins de contenus.
par des humains ou par des machines, de liens placés dans l'article ou en dehors de celui-ci, de liens incidemment présents dans des modules multimédia, ou même de non-liens — plutôt que de se limiter au sens strictement technique de ce qu'on trouve entre les balises HTML <a> et </a>.
Enfin, il faut souligner l'imperfection fondamentale des outils élaborés dans le but de figer les sites d'information. Immobiliser les sites d'information dans un état suffisamment stable a constitué le principal défi technique et méthodologique de ce travail, et n'a pu déboucher que sur un ensemble de décisions raisonnables pour obtenir une série d'instantanés. Ceux-ci ne rendent pas compte de la nature parfois très fluide de certains contenus. Si figer les articles dans un état stable constitue un compromis raisonnable, l'incapacité de nos outils à suivre les adaptations constantes des sites d'information est peut-être plus problématique. En effet, si l'architecture et le cadre technique général des sites d'information connaissent assez rarement des mises à jour radicales — comme quand un site déploie une nouvelle version, ce qui a été le cas de lesoir en octobre 2012 — de petits ajustements se produisent plus régulièrement. Ceux-ci ne sont pas nécessairement visibles ni systématiquement annoncés mais peuvent bouleverser notre logiciel, qui est intégralement construit sur l'identification très fine des éléments constituant les pages HTML. Il suffit que de nouvelles balises soient introduites, que d'autres soient supprimées ou que la hiérarchie soit légèrement altérée pour invalider certaines règles. Outre la nouvelle version de lesoir, en octobre 2012, deux sites ont ainsi déployé des changements nécessitant une mise à jour conséquente du parseur : sudinfo en février 2012 (le changement de nom du site — de sudpresse à sudinfo — s'est accompagné de certains changements structurels) et lavenir en mars 2012. Lorsque de tels changements sont repérés, il faut alors adapter le parseur et s'assurer de la rétrocompatibilité avec les anciens contenus. Ces adaptations ont pu être détectées parce qu'elles ont suscité un certain nombre d'erreurs du parseur. Mais il est possible que d'autres changements n'aient simplement jamais été repérés — l'ajout de nouvelles fonctionnalités, par exemple, peut passer inaperçu. Ainsi, au moment de la