• Aucun résultat trouvé

linguistique générale, qu'est-ce qu'un corpus ?

III. 1.2.1- Le corpus de presse écrite

Ce corpus se compose de deux ensembles, un premier corpus collecté en 2007, et un second collecté en 2009 selon les mêmes modes opératoires.

Journal retenu France BretagneGrande- Italie Pologne

National

conservateur Le Figaro

The Telegraph (The Sun*)

Il Corriere della

Serra Nasz Dziennik National

Libéral Libération

The Guardian

(The Mirror*) La Republica Gazeta Wiborcza Régional

conservateur Sud Ouest* The Western Mail Il Giornale di Brescia Szczecinski*Kurier Régional

Libéral Ouest France* The Scotsman

La gazetta del

sud Kurier Lubleski*

(Figure 1, journaux choisis par le groupe média pour le corpus presse.)

Les journaux entre parenthèse pour la colonne Grande Bretagne avaient été retenus lors du corpus pilote, puis retirés du corpus car n'ayant pas leur équivalent dans les autres pays de collecte du groupe média. Les journaux régionaux français n'ont pas d'orientation politique clairement spécifiée dans le corpus, puisque comme nous allons le voir ces journaux ont été choisis davantage en fonction de critères de coûts qu'en fonction de leur

orientation politique. Les journaux régionaux polonais présentent également une absence d'orientation politique clairement définie.

Ce corpus se veut un corpus comparable à travers la sélection de textes selon des critères précis, décidés lors de réunions entre les différents membres du groupe média IntUne. Néanmoins, tout corpus comparable pose le problème de savoir ce qui est réellement comparable. Dans la mesure, par exemple, où le statut de l'Écosse et celui du Sud Ouest sont sensiblement différents au sein de leurs États respectifs (Royaume-Uni et France), peut-on dire qu'un journal diffusé en Écosse (The Scotsman) est un journal régional, au même titre qu'un journal diffusé dans le Sud Ouest (Sud Ouest) ? L'Écosse est-elle une simple région, alors que le Royaume-Uni lui reconnaît le statut de nation constituante, ainsi que l'ONU, qu'elle dispose d'un parlement et d'un premier ministre (Alex Salmond). Peut-elle être considérée au même titre que le Sud Ouest en France, qui certes dispose d'une identité forte avec le pays basque, mais sans que celle-ci soit reconnue de façon institutionnelle ? Ces questions posent la question de la comparativité réelle du corpus.

D'autre part, l'établissement de critères permettant d'obtenir un corpus avec une structure la plus proche possible d'un pays à l'autre conduit à exclure certains médias des textes sélectionnés et donc certaines particularités nationales pourtant très signifiantes. C'est le cas notamment des tabloïds en Grande Bretagne. A titre d'exemple, le Mirror tire à environ 1 700 000 exemplaires, le Sun tire à environ 3 200 000 exemplaires, tandis que le Figaro en France tire à 360 000 exemplaires et Ouest France culmine avec 800 000 tirages61). Bien que très lus et traitant de sujets extrêmement divers au Royaume Uni, ce type de presse n'a pas pu entrer dans le corpus IntUne puisque cela n'existe ni en Italie, ni en France, ni en Pologne. Il est regrettable de se priver de l'analyse de ce type de journaux, mais pour une meilleure comparabilité du corpus, ce type de choix est nécessaire. De même, si en France, en Pologne et au Royaume Uni, il existe des journaux de spécialité financière largement consultés par les élites comme The Financial Time, Puls Biznesu ou Les Échos, ceux-ci n'ont pas leur équivalent en Italie par conséquent, le corpus IntUne a rejeté l'utilisation de ce type de journal. L'équipe de Lorient a néanmoins collecté les articles issus des Échos sur la période concernée et a ainsi constitué un corpus satellite afin de mener certaines études comparatives entre les quatre journaux faisant partie du corpus et les Échos pour étudier les différences de

traitement de certains thèmes selon le lectorat principal de ces journaux.

Les articles des journaux choisis pour faire partie du corpus ont ensuite été collectés grâce à une base de données sur Internet, factiva62 sous un format .txt. Lors de la réalisation du corpus pilote, la base de données utilisée était Lexis Nexis, mais l'Université de Bretagne Sud a préféré les services de factiva pour une raison de coûts, ce qui a conduit au remplacement du régional « Le Télégramme » par « Ouest France ». Cela a posé certains problèmes, notamment quant à l'orientation politique de ces deux régionaux, sensiblement différente, alors que Le Télégramme avait été préalablement choisi notamment en fonction de son orientation politique conservatrice. Cette modification du support a aussi demandé au chercheur s'occupant de la conception du corpus presse de revoir toutes les procédures de travail mises au point lors de la création du corpus pilote. Ensuite, il s'est agi de vérifier à l'aide de la version papier du quotidien (qui est celle qui est la plus diffusée auprès des lecteurs, donc celle sur laquelle le corpus se basait, puisque, étant davantage lue, elle impacte davantage l'opinion publique) qu'aucun article n'était présent deux fois ou bien absent. Le texte était alors transformé d'un format .txt en un .xml requis pour pouvoir travailler avec une architecture de base TEI. Enfin, des modifications successives et répétées aux en-têtes et à certaines balises, concertées avec les quatre pays du groupe média ont été apportées afin de parvenir à un corpus comparable avec les autres pays du groupe média (Dugalès 2008).

Le corpus français a été de plus lemmatisé à l'aide de treetagger63. La lemmatisation présente de nombreux avantages dans les études et analyses menées sur le corpus (Leech 2004). Ainsi, il est plus facile d'effectuer des recherches d'un même lemme (le lemme correspond à une entrée de dictionnaire), par exemple du mot Europe, quelque soit les formes graphiques prises par ce mot dans le corpus. Une fois le corpus lemmatisé, il devient possible de trouver toutes les occurrences du mot « Europe » en une seule requête, alors qu'auparavant, il était nécessaire d'effectuer des recherches supplémentaires telles que « d'Europe », « L'Europe ». Il est également plus aisé de mener des recherches affinées en fonction des catégories de mots, la lemmatisation permet par exemple de rechercher tous les adjectifs suivant le mot Europe dans le corpus.

62 Site recueillant différents ensembles d'information et le revendant dans des formats txt : http://www.factiva.fr/fr

63 Treetagger est un étiqueteur probabiliste qui n'est pas dédié à une langue particulière. Il se compose en effet d'un programme principal (fixe) et de fichiers de paramètres qui dépendent de la langue à tagger.

Le corpus 2009 a été construit selon le même mode opératoire. Les deux corpus ont été collectés du 05/02/2007 au 06/05/2007 pour le premier et du 02/02/2009 au 02/05/2009 pour le second. Ces deux périodes correspondent à des événements dont la présence est très marquée dans la presse française : la campagne pour l'élection présidentielle en 2007 et la crise économique internationale, ainsi que la campagne pour les élections législatives européennes en 2009.