• Aucun résultat trouvé

TCOF – des interactions verbales authentiques

Chapitre 2 : Des données à analyser, des corpus à constituer

2.2. TCOF – des interactions verbales authentiques

Le corpus TCOF (Traitement de Corpus Oraux en Français) est constitué d’interactions verbales authentiques de différentes natures. Il se présente en deux parties, une première composée d’interactions entre adultes et enfants et une seconde d’interactions entre adultes. C’est cette seconde partie que je coordonne et c’est à celle-ci uniquement que je vais m’intéresser ici. Le corpus TCOF est librement accessible dans la partie corpus du CNRTL22 et dans la partie corpus oraux de la plateforme ORTOLANG23. La partie adultes du corpus compte actuellement de 221 enregistrements d’une durée totale de 55 heures et évalué à 700 000 mots transcrits (109 enregistrements sont en cours de traitement).

Ce projet est né de la mise en commun de corpus recueillis par des chercheuses désireuses de partager leurs données (André, Canut 2010). Depuis sa naissance, le corpus

22http://cnrtl.fr/corpus/tcof/

TCOF est donc alimenté par les données de certains membres du projet et par des chercheurs du laboratoire ATILF. Les étudiants en Licence et en Master de Sciences du langage de l’Université de Lorraine, sur le site de Nancy, participent également à l’enrichissement du corpus. Depuis quelques années, les étudiants en Master de Sociologie déposent également les corpus qu’ils constituent dans le cadre de leur recherche. Les données orales sont enregistrées dans des contextes variés. Elles se répartissent en deux catégories et présentent des genres de discours différents :

1. Des interactions naturelles authentiques : conversations (à bâtons rompus, autour d’un repas, d’un café, entre étudiants, en famille, entre amis, etc.), réunions de travail (au sein de différentes entreprises privées, de laboratoires de recherche, et d’associations), débats publiques (assemblées générales, réunions publiques). Ces interactions auraient eu lieu même si elles n’avaient pas été enregistrées.

2. Des interactions sollicitées : entretiens (enquêtes sociologiques, pédagogiques, sur différentes pratiques sociales et culturelles), récits de vie ou d’expériences (narrations de faits marquants, de maladies, de guerres, de mariages, de naissances, de migrations, de voyages, etc.), explications professionnelles (pompiers, serveurs, enseignants, éducateurs, formateurs, ouvriers, etc.), explications techniques ou passions (escalade, cinéma, jeux de rôle, moto, boxe, etc.). Ces interactions sont déclenchées à l’initiative du chercheur ou de l’étudiant qui enregistre.

Au fur et à mesure de l’enrichissement du corpus, l’échantillonnage est affiné. Le corpus TCOF compte actuellement 330 enregistrements, de quinze minutes environ chacun, transcrits (dont 109 en cours de traitement). Chaque enregistrement est transcrit et aligné texte-son avec le logiciel libre Transcriber24. Chaque enregistrement est également traité par deux réviseurs. Ces derniers sont des étudiants ou des ingénieurs d’études, recrutés au sein du projet. J’effectue moi-même une dernière vérification avant la diffusion des données.

Ce corpus est constitué afin d’accueillir des analyses de différentes natures. Tout d’abord, l’objectif de départ, lié aux intérêts scientifiques des membres du projet, était de

24 Transcriber est disponible à l’adresse suivante : http://trans.sourceforge.net/ et une version pour mac a été créée par Matthieu Quignard, disponible à l’adresse suivante : http://perso.ens-lyon.fr/matthieu.quignard/Transcriber/ (cette version permet également de prendre en compte un nombre non limité de locuteurs qui parlent en même temps). Transcriber a été choisi parce qu’il est libre, gratuit et simple d’utilisation.

Faire une étude syntaxique et/ou interactionnelle des productions orales à partir d’un grand nombre de corpus, en particulier :

1. la description linguistique (aspects lexicaux, syntaxiques) et pragmatique des pratiques langagières ;

2. la comparaison (du point de vue de leurs caractéristiques linguistiques) entre des verbalisations d’adultes dans des situations de communication ordinaire avec d’autres adultes (récits, conversation, explication, etc.) et des verbalisations d’adultes s’adressant à de jeunes enfants (moins de 7 ans) ;

3. la comparaison entre les productions linguistiques des adultes et celles des jeunes enfants (mise en lien entre diversité du répertoire linguistique proposé et développement langagier) ; 4. la possibilité de faire des recherches transversales sur la langue, s’appuyant à la fois sur des corpus écrits et sur des corpus oraux. (André, Canut 2010 : 39).

Le corpus TCOF est conçu pour accueillir un grand nombre d’analyses. Les transcriptions sont assez « nues » (voir les conventions listées et expliquées sur le site mentionné en note 22), et respectent l’orthographe standard, sans trucage, selon les recommandations de Blanche-Benveniste et Jeanjean (1987), mais peuvent être enrichies selon les besoins. Les métadonnées sont riches, ce qui facilite les analyses sociolinguistiques. Les formats sont partageables, les fiches de métadonnées ainsi que les transcriptions sont normalisées selon la norme internationale Text Encoding Initiative (TEI). En résumé, ce projet a mené des réflexions importantes en ce qui concerne les aspects méthodologiques, éthiques, juridiques, informatiques (liés à la pérennité recherchée des données et aux traitements des données) et aux modalités de partage des données. Ce projet est également intégré et participe à d’autres projets :

- des projets institutionnels et structurant plus larges ou plus englobants, tels que : o l’ANR Corpus ORFEO coordonnée par Jeanne-Marie Debaisieux25

o la plateforme ORTOLANG

- des projets de recherche centrés sur des aspects spécifiques, tels que :

o l’alignement semi-automatique de corpus - le logiciel Jtrans a été réalisé en collaboration avec le LORIA (Cerisara, Mella, Fohr, 2009)

o l’interrogation du corpus avec un concordancier aligné texte-son (le logiciel Jconc a été réalisé en collaboration avec le LORIA)

o l’annotation automatique en macrosyntaxe (Benzitoun, Fort, Sagot 2012) o l’étude des émotions dans les interactions (Quignard et al. 2016)

o l’exploitation didactique de corpus (André 2018a)

De plus, le corpus TCOF est utilisé dans le cadre d’études dont j’ignore l’existence mais que j’espère nombreuses. L’objectif de ce corpus est de permettre une description documentée et plus fine de la langue et de ses usages26.

Ce corpus tente de respecter les critères consensuels qui définissent généralement les corpus et qui sont exposés dans le point précédent. Ainsi :

- il tente d’être représentatif du français parlé en interaction,

- il s’enrichit régulièrement et fréquemment afin d’augmenter sa taille,

- il est composé d’enregistrements réalisés dans des situations de communications authentiques,

- ces enregistrements sont sélectionnés pour qu’ils puissent accueillir différents types d’analyse,

- il est traité informatiquement,

- il est documenté par des métadonnées.

Grace à ces éléments, le corpus TCOF peut être utilisé pour une analyse sociolinguistique des interactions verbales ainsi que pour une exploitation à des fins didactiques.