• Aucun résultat trouvé

1. CORPUS ET CONCORDANCES

1.7. C ORPUS EN LANGUE ALLEMANDE

1.7.2. Corpus en langue allemande

Les corpus allemands ont une histoire plus jeune que les corpus anglais. Les outils de création et d'interrogation des corpus, conçus dans un premier temps pour l'anglais, ne sont pas tous utilisables tels quels pour l'allemand. Des outils spécifiques à l'allemand ont été élaborés par exemple par l'IDS (Institut für Deutsche Sprache) de Mannheim ou par l'IMS (Institut für Maschinelle Sprachverarbeitung) de Stuttgart, mais ces outils ne conviennent pas forcément dans un contexte d'enseignement/apprentissage d'une langue étrangère, et encore moins au collège. Dans ce qui suit, je propose un aperçu général de corpus allemands que j'ai répertoriés en 2008 et 2009. Ne figurent pas dans le tableau ci-dessous les corpus que je considère comme marginaux en raison de leur petite taille ou de leur spécificité trop grande, ni les corpus oraux. De tels corpus sont répertoriés sur le site Bookmarks for Corpus-based

44 Linguists de Lee et chez Lemnitzer et Zinsmeister (2006 : 107-125). Je termine l'aperçu par la présentation de deux portails terminologiques, basés sur des corpus. À l'intérieur d'une rubrique, les corpus sont présentés du plus petit corpus au plus grand. Le tableau est suivi d'une description plus détaillée d'un portail terminologique et la description de deux corpus qui sont actuellement considérés comme les plus grands en langue allemande. Les informations que je présente ci-dessous ont été trouvées chez Duffner et Näf (2006b), sur le site Schlobi's Linguistic Corner de Schlobinski (nd), le site de l'Institut für Kommunikationswissenschaften [Institut d'Information et Communication] de Bonn, le site Bookmarks for Corpus-based Linguists de Lee (nd), déjà évoqué ci-dessus, et le site Compleat lexical tutor de Cobb (nd).

1.7.2.1. Corpus parallèles

1.7.2.2. Corpus unilingues 1.7.2.2.1. Corpus d'apprenants

FALKO Ce corpus est mis à disposition en ligne sur le site de l'Institut für Deutsche Sprache und Linguistik [institut de philologie et linguistique allemande] de l'université Humboldt à Berlin. Il contient des sous-corpus rassemblant des résumés de textes, des essais et des données récoltées lors d'un projet longitudinal. Il existe aussi des sous-corpus contenant des résumés et essais de locuteurs natifs. Les données du corpus sont Chemnitz

German-English translation Corpus

Ce corpus parallèle contient environ un million de mots anglais et un million de mots allemands. Quatre domaines sont représentés : discours et articles publics, anglais et allemand académiques, le tourisme et documents de l'union européenne. On peut faire des requêtes par mot clé simple ou par mots clés combinés en sélectionnant un ou plusieurs des quatre corpus.

OPUS Un regroupement de corpus parallèles en vingt-quatre langues, libres d'accès, géré par Tiedemann (2009). Les données ont été trouvées sur Internet. Elles englobent plusieurs langues de spécialité : la presse, le sous-titrage de films, les manuels en ligne, etc. Tout n'a pas encore été traduit.

45 annotées selon des hypothèses formulées au sujet de types d'erreur recensés dans les textes des apprenants. La consultation du corpus est gratuite.

1.7.2.2.2. Portails terminologiques, basés sur des corpus Das Digitale

Wörterbuch der Deutschen

Sprache (DWDS)

Ce portail dont le nom peut être traduit par "dictionnaire digital de la langue allemande" est basé sur deux corpus oraux et des corpus écrits.

Le site est conçu dans un souci d'équilibre entre plusieurs domaines. La consultation est gratuite.

Wortschatz-Portal Ce portail dont le nom peut être traduit par "portail terminologique" est spécialisé dans le recensement de la langue allemande très récente. Les corpus sur lequel s'appuie ce portail sont créés à partir de données trouvées sur Internet (par web-crawling), sans classement particulier. La consultation est gratuite.

Le portail DWDS contient des corpus qui représentent des genres de textes variés. Ses données reflètent l'allemand de façon diachronique. Nous y trouvons deux corpus de référence, quatre corpus du domaine de la presse, deux corpus dans lesquels on a transcrit la langue orale et deux corpus spécialisés (revues juives et langue de la République Démocratique d'Allemagne). Il est possible d'interroger ces corpus séparément. Les deux corpus de référence cherchent à respecter la répartition suivante : belles lettres (26%) ; presse (27%), langue de spécialité (22%) ; textes utilitaires (ca. 20%) et transcriptions de la langue orale (5%). Le Julliand-"D"-Corpus est composé de la même façon, mais il ne contient que des textes qui ont été écrits entre 1920 et 1939.

1.7.2.2.3. Autres corpus unilingues Dortmunder

Chat-Korpus

Un corpus de textes de type clavardage, contenant 0,6 millions de mots.

Ce corpus a été créé sous la direction d'Angelika Storrer et de Michal Beißwenger de l'université de Dortmund. Certaines parties du corpus sont gratuitement disponibles en ligne.

NEGRA Korpus Version 2

NEGRA Korpus Version 2 est un corpus de l'université de Saarbrücken.

Il comporte 354 096 mots (20 602 phrases) qui proviennent du quotidien

46 Frankfurter Rundschau, rassemblés dans le cédérom Multilingual Corpus 1 der European Corpus Initiative. Les phrases sont indexées par l'IMS (Institut für maschinelle Sprachverarbeitung) de Stuttgart. Il est possible d'utiliser le corpus à des fins non commerciales. L'utilisation de ce corpus demande un temps important de prise en main de l'outil.

TigerCorpus 900 000 mots. Allemand de la presse. Frankfurter Rundschau. Projet de l'Institut für Phonetik/Phonologie, Universität des Saarlandes, de l'Institut für Germanistik, Potsdam et de l'Institut für Maschinelle Sprachverarbeitung, Stuttgart, terminé en 2007.

Braun Corpus Le Braun Corpus a été mis en place en 2006/2007 par Divsic, ceci en collaboration avec Rott et Horst (Concordia University de Montréal). Il suit le modèle du Brown Corpus, et il contient environ un million de mots non annotés. Plusieurs types de textes y sont représentés.1 Ce corpus est consultable en ligne à l'aide du concordancier Konkordanzer Corpus Deutsch, proposé par Cobb sur le site Compleat lexical tutor.

LIMAS LIMAS (Linguistik und Maschinelle Sprachbearbeitung) est un corpus proposé par l'université de Bonn. Il contient environ un million de mots.

Ses cinq cent documents écrits représentent plusieurs genres (textes pleins ou extraits). Le corpus est clos depuis 1970. La consultation est gratuite. Il fait partie des corpus que l'on peut interroger à l'aide de Cosmas II (IDS, Mannheim).

DeWac Le corpus DeWac (Baroni, 2006) a été développé pour Sketch Engine dans un souci d'équilibre concernant les types de textes représentés. Il contient environ 1,7 milliards de mots allemands qui ont été collectés sur Internet et annotés à l'aide de l'outil TreeTagger. L'accès au corpus est payant, mais il y a la possibilité d'essayer gratuitement le corpus pendant trente jours. Il est également possible d'interroger DeWac à partir du site waCky (Web-as-Corpus kool ynitiative).

1 Informations obtenues grâce à un échange de courriel avec Marlise Horst.

47 DeReKo Ce corpus de l'IDS (Institut für Deutsche Sprache) de Mannheim représente l'allemand parlé et écrit (synchronie, diachronie des dernières décennies). Il regroupe des textes du domaine des belles lettres, des articles de journaux, et il contient 65 corpus (3,6 milliards de mots en février 2009). En raison du copyright, certaines données ne sont pas accessibles au public. 2,2 milliards de mots sont gratuitement interrogeables en ligne à l'aide de Cosmas II. Certaines parties du corpus peuvent être achetées.

Le groupement de corpus DeReKo est le plus grand ensemble attestant l'allemand actuellement disponible. Il contient au-delà de 3,6 milliards de mots (en février 2009).

Figure 13 – L'évolution de la taille des corpus de langue allemande écrite dans DeReKo.

Une grande partie des données du DeReKo peut être consultée à l'aide de l'outil de recherche COSMAS II (Corpus Search, Management and Analysis System). Il est possible d'interroger certains corpus séparément ou de créer des sous-corpus. L'utilisation de DeReKo peut paraître difficile à des non-spécialistes en linguistique de corpus. Toutefois, les possibilités d'exploration et d'exportation des données qu'offre Cosmas II, le système d'exploration de DeReKo, sont actuellement inégalées par les autres corpus allemands. Le corpus DeWac a été développé par Baroni pour Sketch Engine (Baroni et Kilgarriff, 2006). Ce corpus peut être assez facilement exploré par des non-spécialistes en matière de linguistique de corpus.

Toutefois, quand j'ai essayé d'utiliser des commandes booléennes pour l'exploration du corpus allemand DeWac, je n'ai pas obtenu de résultats. Pourtant, je n'ai pas eu de difficultés avec les

48 commandes booléennes des corpus anglais et français proposés par Sketch Engine (Kilgarriff et al., nd). J'ai signalé ces difficultés aux gérants de Sketch Engine qui m'ont répondu qu'ils cherchent à rendre l'outil plus facile à utiliser. En effet, le corpus allemand DeWac ne propose pas autant d'options que les corpus faits pour d'autres langues (le chinois, le japonais, l'anglais, l'italien, le français, l'espagnol, le portugais, le grec et le slovène). Il manque les options Thesaurus et Sketch Difference. Nous pouvons constater les mêmes limitations pour le corpus russe et perse qui sont aussi présents sur le portail de Sketch Engine. La capture d'écran suivante présente les options d'interrogation qui s'affichent pour le corpus français French Web Corpus (Sharoff, nd).

Figure 14 - Options d'exploration pour French Web Corpus et pour DeWac.