1.2.2- Le corpus télévisé - linguistique générale, qu'est-ce qu'un corpus ?

linguistique générale, qu'est-ce qu'un corpus ?

III. 1.2.2- Le corpus télévisé

Après avoir eu différents échanges avec tous les pays membres du projet, il a été décidé de collecter tous les journaux télévisés nationaux sur une période allant du 12 février au 4 avril pour le corpus 2007, et du 09 février au 31 mars pour le corpus 2009. Là encore, ces périodes correspondent aux études menées par les autres groupes du projet IntUne et cela permet de voir si le discours médiatique influence ou non la perception des thèmes traités pour les élites, les experts et les masses. En outre, elles correspondent à la campagne électorale française pour le premier corpus, et à la crise économique internationale ainsi que la campagne pour les élections législatives européennes pour le second corpus comme nous l'avons déjà vu. Seuls les journaux diffusés en semaine ont été transcrits (hors samedi et dimanche). Lors de réunions du groupe média, les journaux du weekend ont ainsi été exclus, d'une part parce que la transcription du corpus oral était longue et couteuse, et d'autre part parce qu'il a été jugé que les informations données lors des weekend contenaient pour la plupart des résultats sportifs et n'étaient pas des plus pertinentes dans le cadre de l'étude menée par le groupe média. Ce manque des journaux du weekend est néanmoins regrettable dans la mesure où l'émergence d'une identité au niveau local se fait souvent via l'identification à telle ou telle équipe de sport. Les journaux télévisés choisis par le groupe média peuvent se présenter comme suit :

Chaîne du JT France Grande

Bretagne

Italie Pologne

Chaîne d'état France 3 BBC TG1 TVP1

Chaîne privée TF1 ITV TG5 TVPolsat

(Figure 2, journaux télévisés choisis par le groupe média)

chaîne publique et d'une chaîne privée, selon le postulat que le fait d'être dépendant ou non de ressources privées pouvait influencer la ligne éditoriale et donc le contenu des informations qui sont diffusées sur ces chaînes. D'autre part, le choix de l'édition du soir est du au fait que c'est l'édition qui a la plus grande audience et qui impacte donc le plus l'opinion publique64. Le choix d'une chaîne publique et d'une chaîne privée peut poser question, en effet, on peut se demander si une chaîne publique est nécessairement indépendante en comparaison d'une chaîne privée qui serait vue comme dépendante. A partir du moment où l'audience augmente, une chaîne, privée ou publique, pourra vendre plus cher ses espaces publicitaires, hors si le public estime qu'une information manque trop d'indépendance, il peut bouder la chaîne, une chaîne privée semble donc avoir tout intérêt à conserver une indépendance maximum. D'autre part, au niveau politique, le fait de dépendre de l'État peut inclure pour une chaîne publique une dépendance plus ou moins importante vis à vis de la mouvance politique dirigeante. En France, les journaux télévisés collectés ont été ceux de TF1 et de France 3. Tous les journaux du corpus 2007 ont été enregistrés sur support DVD, après que ce choix ait été fait par le groupe média car il semblait le plus satisfaisant d'un point de vue technique. En 2009, les journaux ont été acquis à partir d'une ligne de commande sous un environnement linux à partir du site internet des chaînes télévisées, puis stockés sur un simple disque dur externe, ce qui semblait à la fois plus fiable et moins coûteux en terme de temps et d'argent.

Un premier visionnage permettait de récupérer les informations nécessaires dans le corpus pour les différents locuteurs intervenant dans le journal, leurs noms, sexes, degré d'expertise sur le sujet abordé, métier, etc. Ces informations étaient prises en note, ainsi que les conditions de tournage du reportage (voix off, journaliste parlant face à la caméra) pour pouvoir être par la suite transcrites suivant une série de codes, entrés à l'aide de balises conformes aux normes de la TEI, harmonisées parmi les quatre pays de constitution du corpus. Nous reviendrons dans la sous-partie suivante sur les différentes balises utilisées dans ce corpus. A l'aide du logiciel libre de droit, audacity65,le son de ces journaux a pu être capturé, puis la transcription s’effectuait avec le logiciel Transcriber66.

64 Http://www.mediametrie.fr/ le journal télévisé rencontre une plus forte audience le soir que le midi, ce phénomène est d'autant plus accentué sur TF1 où l'on peut noter une différence de treize point entre l'audience moyenne de la journée, et celle du JT du soir, très regardé.

65 http://audacity.sourceforge.net/ logiciel fonctionnant comme une sorte de magnétophone pour ordinateur. 66 http://trans.sourceforge.net/en/presentation.php

Ce logiciel a été une aide précieuse pour la transcription du matériau oral du corpus puisqu’il permet une saisie plus facile du texte, mais également de structurer le texte en trois divisions (sur lesquelles nous reviendrons plus bas), et enfin d’intégrer différentes informations concernant les différents locuteurs. Ce logiciel se présente sous la forme d'un traitement de texte qui peut se faire en temps réel avec le défilement d'une bande son (cf. annexe 5a). La saisie du texte oral défilant peut se faire beaucoup plus rapidement, notamment au moyen de différents raccourcis claviers permettant de mettre le fichier son en pause, ou de créer un tour de parole. Ce logiciel permet aussi d'attribuer des locuteurs aux tours de paroles créés (cf. annexe 5b) et de renseigner diverses informations sur ces locuteurs. La division du texte oral transcrit en différentes parties, respectant les différents moments pouvant être présents dans un journal télévisé, était également rendue plus aisée par ce logiciel qui permet comme nous l'avons déjà dit de structurer le texte en trois parties, les introductions de reportages, reportages et interviews pouvaient ainsi être créés dans la structure du fichier écrit dès sa transcription.

Une feuille de style de type xslt a permis de rendre les fichiers xml obtenus après transcription totalement compatibles avec les normes de la TEI (cf. annexe 6). Une relecture a permis d'ajouter aux textes .xml ainsi obtenus différentes balises afin de les structurer au mieux et d'avoir une plus grande harmonie entre les quatre corpus du groupe média. Les erreurs subsistant ont ainsi pu également être corrigées.

III.1.2.3- Structuration du corpus IntUne.

Le corpus est parfois décrit métaphoriquement selon l'image d'un « sac de mots » (Rastier 2005a), montrant qu'il s'agit certes d'une collection textuelle importante, mais dont la structure peut échapper au premier abord. Une des premières préconisations de Sinclair (1991) dans sa définition du corpus était d'en faire une entité structurée. C'est également le cas chez Rastier (Enjeux épistémologiques de la linguistique de corpus, 2005) :

« Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages et rassemblés : 1) de manière théorique réflexive en tenant compte des discours et des genres et 2) de manière pratique en vue d'une gamme d'applications. » (Rastier, 2005a : 32)

Le corpus IntUne 2007 a donc une structure lui permettant d'être interrogé et analysé de façon fine. Cette structure est basée sur un format .xml et suit les normes mises en places par la TEI (Tex Encoding Initiative). La TEI est une réflexion née d'un besoin de numériser des textes sous un format qui soit le plus accessible possible, et qui donne une représentation riche d'un texte. Le balisage permet en effet de prendre en compte des informations quant à la source du texte, par exemple, ces méta-données permettent un meilleur archivage ainsi qu'un meilleur accès au texte, elles sont généralement stockées dans son en-tête. Des informations quant à la structure interne du texte peuvent être présentes dans le corps de ce texte à travers l'usage de balises entre symboles <> (début de l'action de la balise) et </> (fin de l'action de la balise). Le choix de la TEI rencontre plusieurs avantages. D'une part, ce format est totalement gratuit, de plus, il est déjà utilisé par une nombreuse communauté, notamment dans le domaine de la linguistique de corpus (le BNC dont nous avons parlé plus haut a été annoté selon des normes conformes à la TEI), et son usage dans le monde de la recherche est très répandu. Le groupe média IntUne a donc choisi d'utiliser cette norme pour coder et baliser les textes collectés au mieux, en s'efforçant de retranscrire avec le plus de précision possible les structures telles qu'elle existent dans ces différents textes. La TEI est par ailleurs un ensemble de normes fonctionnant au format .xml (Xtensible Markup Language) largement répandu67.

Un exemple issu du corpus presse et du corpus télévisé est fourni dans les annexes 3 et 4. On y voit comment les différentes balises fonctionnent. Pour le corpus presse, il y a tout d'abord un en-tête, ou « tei header », dans cet en-tête, on retrouve diverses informations sur le texte, son titre, sa provenance, l'entité qui a réalisé sa transcription (Lorient IntUne Media Group), le corpus dans lequel se texte se situe (ici, le corpus IntUne pilote), on peut également y relever la date de publication du texte transcrit et des informations concernant sa diffusion, son orientation politique, etc. Toutes ces informations permettent non seulement de correctement archiver un texte, mais aussi de pouvoir l'interroger de façon plus efficace lorsque l'on mène une étude sur l'ensemble du corpus : le fait d'avoir dans cet en-tête les informations de diffusion ou d'orientation politique, notamment, permettent de n'interroger que les textes ayant telles ou telles orientations une fois le corpus constitué. La deuxième partie concerne le texte, elle se situe entre les balises <text> et </text>, les différentes

67 Pour plus d'information sur cet ensemble de normes pour le codage de textes numériques, consulter le site : http://www.tei-c.org

divisions de ce texte permettent de situer le texte transcrit dans l'organisation du journal, par exemple, la div2 permet ici de savoir que l'on se situe dans la une du journal Le Figaro, la division div3 permet de savoir que la rubrique retranscrite est ici l'éditorial du journal, les titres et sous titres sont également présentés en étant encadrés de balises, le corps du texte est encadré de balises <p>. Ce système de balises permet ainsi non seulement d'enregistrer les méta-données du texte transcrit, mais également de rendre sa structure, son organisation intelligibles pour ses lecteurs qu'ils soient informatiques ou humains.

Le corpus télévisé fonctionne selon le même type de principe (annexe 4). Il comporte tout d'abord un en-tête doté des même types de méta-données, s'ajoute dans ces méta-données une liste des locuteurs intervenant dans ce texte, ainsi que leurs qualités. Le corps de texte se sépare lui aussi en trois divisions, la première division (div1) correspond à une édition de journal télévisé, la deuxième division (div2) correspond à un sujet traité dans le journal, et la troisième division (div3) correspond aux différents temps qui peuvent être présents dans un journal télévisé : titres, introduction d'un reportage par le présentateur, reportage, interview, reprise des titres à la fin du journal. L'extrait présenté ici est issu d'une des premières versions du corpus 2007, qui a par la suite été enrichi d'autres balises. Les balises dont ce corpus s'est enrichi à la suite de rencontres du groupe média sont notamment une balise <voiceover> ou <camera> permettant de savoir si le texte est produit en voix off ou en face de la caméra. Une balise <s> a également été ajoutée, permettant de découper le texte en phrases, ces choix réalisés à la suite de choix du groupe média ont permis un enrichissement des annotations et une plus grande harmonisation du corpus.

L'annexe 6 présente une des feuilles de style utilisées pour passer du fichier obtenu après une transcription sur transcriber au fichier xml conforme aux normes TEI et semblable dans sa structure aux autres corpus télévisés du groupe média. Son fonctionnement peut être explicité à travers les deux lignes de codes surlignées en jaune dans l'annexe. Ces deux lignes signifient que si dans le texte issu de transcriber, le programme mis en place dans cette fiche xslt trouvait une balise « male », alors, il fallait lui donner l'attribut sex=1, ce qui était conforme aux choix réalisés par l'ensemble du groupe média. La feuille xslt fonctionne selon ce principe de correspondances et a permis de réaliser l'essentiel des transformations nécessaires à l'harmonisation de façon automatique. Néanmoins, il a fallu par la suite relire le corpus manuellement pour amener les dernières corrections.

Cette structuration et les révisions, corrections multiples ont consumé une grande quantité de temps, mais cela s'est avéré nécessaire pour pouvoir mener des études et analyses fines du corpus à l'aide de logiciels d'extraction de texte compatibles avec les normes de la TEI, notamment XAIRA que nous avons déjà mentionné. D'autre part, ce travail a permis d'aboutir à un corpus se composant de textes de quatre langues, structuré de façon homogène, et dans la mesure où il permet de réaliser des études comparatives via Xaira, nous pouvons le qualifier de corpus comparable. Un autre logiciel d'extraction de texte est également employé au sein du groupe média, il s'agit de Wordsmith, ce logiciel édité par Mike Scott permet d'éditer des listes de fréquences issues du corpus, des concordances, et de rechercher les mots clefs de certains textes. Il ne requiert d'autre part aucune indexation du corpus utilisé, contrairement à Xaira. Cela rend son utilisation plus facile pour le novice, mais peut demander davantage de temps lors de recherches de concordances ou de collocations.

Xaira est un logiciel élaboré au sein de l'université d'Oxford afin de fonctionner avec le BNC (Burnard 2007). Il offre, outre les fonctions habituelles d'un concordancier, la possibilité de faire une recherche sur une partie seulement du corpus, puisqu'il prend en compte la structure TEI. Par exemple, il est possible de faire une recherche sur un phénomène linguistique au sein des lignes de titres des journaux télévisés uniquement. De cette façon, outre l'analyse quantitative habituellement menée dans le cadre de la linguistique de corpus, il est possible de procéder également à des études qualitatives, prenant appui sur des requêtes plus fines au sein du corpus. Ce logiciel permet également d'avoir des données purement statistiques, dont nous allons donner quelques exemples dans la section suivante.

Dans le document Représentation et construction d'une identité européenne à travers la presse française. Une étude en linguistique de corpus au sein d'un projet de l'Union Européenne. (Page 111-116)