Description du corpus - Constitution et présentation du corpus

Chapitre VII. Constitution et présentation du corpus

3. Description du corpus

Le fait de construire un corpus exige la nécessité de prendre en compte les niveaux d’analyse dont nous avons besoin afin de mener à bien notre recherche en vue d’apporter des réponses à notre problématique. Pour Llisterri (1999) :

« Un corpus peut être conçu comme un ensemble structuré de matériaux linguistiques au sein duquel on distingue différents niveaux de représentation correspondant à différents degrés d’élaboration des données qui le constituent. L’établissement de ces niveaux est l’une des tâches qui sont menées au cours de la phase de définition du corpus et répond, logiquement, aux objectifs de ce dernier. Les niveaux de représentation seraient alors la transcription, celui-ci étant un processus de transposition vers une forme écrite d’une production orale, et l’étiquetage, processus au cours duquel le signal sonore est aligné avec la transcription phonétique (1999, 55) »

En tout cas, un corpus doit garantir la neutralité, de manière à ce que la transcription ne soit pas interprétative, et la globalité, au moment de regrouper la totalité des phénomènes qui apparaissent au sein du discours oral.

3.1. Recueil et transcription

Les enregistrements ont été effectués à l’aide de « baladeurs » minidisques qui ont permis une qualité sonore correcte. Les discussions recueillies durant cette recherche ont été ensuite transcrites en employant les indications de la Convention ICOR ¹⁸ (2007).

3.1.1. La fiche signalétique

Chaque transcription est accompagnée d’une fiche signalétique, basée sur la Convention ICOR (2007), qui présente les informations suivantes :

1 Identification de l’enregistrement et de la problématique : Ce point porte un code d’identification de l’enregistrement ainsi que sa durée en minutes et secondes. Le chiffre indique la séquence de l’interview réalisée. Ensuite ce point présente la problématique discutée.

2 Présentation du niveau scolaire et l’appartenance ethnique de la personne interviewée.

18 Pour des informations plus détaillées, consulter le site CORINTE: http: //icar.univ-lyon2.fr/projects/corinte

143

3 Un sigle est attribué au participant afin de le rendre anonyme. Le groupe auquel appartient celui-ci est alors présenté. Un code d’identification est associé au participant, basé sur les trois premières lettres de son prénom, et entre parenthèses on ajoute son âge, prenant comme unité de mesure l’âge du participant au moment de l’interview.

Exemple :

Code: ETNIQ2_00: 00_18: 10

Scénario : Exploitation du pétrole

Participants : Universitaires ayant conscience d’une appartenance ethnique HUB(19)/ABE(21)/ROB(22)/LEY(18)

3.1.2. La transcription.

Pour la collecte des phénomènes verbaux et vocaux nous avons employé comme système de base la Convention ICOR, développée par le collectif Groupe ICOR pour la base de données de la plateforme CLAPI :

1 Identifiant en début de paragraphe du tour. Identifiant de séquence d’enregistrement. L’identifiant est composé de trois caractères. Il est suivi d’une tabulation. Si un tour s’étend sur plusieurs lignes, le début de chaque ligne doit être aligné à l'aide d'une indentation (paragraphe en retrait). L'usage du retour forcé à la ligne (avec ¶) suivi d'une tabulation est interdit.

2 Si un tour doit être interrompu (chevauchement par un autre interlocuteur ou par un commentaire), il faut insérer le symbole "&" à la fin du tour interrompu (sans espace avant) et au début de la reprise du tour (sans espace après).

3 Enchaînement immédiat (latching) : Insertion du symbole "=" à la fin du premier tour (sans espace avant) et au début du suivant (sans espace après).

4 Chevauchement : Insertion de crochets "[" et " ]", encadrant le chevauchement dans chaque tour. Les crochets ouvrant "[" (début du chevauchement) sont obligatoires (sans espace après) ; les crochets fermants "]" (fin du chevauchement) en revanche sont facultatifs. Les crochets sont alignés verticalement au moyen d’espaces (attention : ne pas utiliser tabulation).

5 Silence à valeur de tour : Les silences sont chronométrés à l’aide d’un logiciel au 10^ième de seconde près, sauf pour les silences d’une durée inférieure à 0,2 secondes qui sont notés par (.).

144

7 St.S. inaudibles, nombre de syllabes non identifiables : Les structures segmentales complètement inaudibles sont représentées par « (inaud.) ».

8 St.S. alternatives : Les segments entre lesquels hésite le transcripteur sont séparés par un point-virgule et notés entre parenthèses. Les segments incertains sont notés entre parenthèses simples.

9 Production vocale : La description d’une production vocale est notée entre doubles parenthèses et précède la transcription, l’ensemble est compris entre chevrons pour en indiquer la portée: < ((DESCRIPTION)) TRANSCRIPTION> ; La notation d'un enchaînement direct (2b), ou celle d'un chevauchement (2c), précède la description de la production vocale.

10 Montée et chute intonative : Les montées et chutes intonatives sont notées par « / » et « \ » sans espace avant. Les montées et chutes fortes sont notées « // » et « \\ ».

11 Commentaires : Les commentaires sont notés dans un paragraphe propre sans identifiant de tour (voir 1), avec tabulation, entre doubles parenthèses et précédé de « COM: ».

3.1.3. Les outils informatiques pour l’analyse.

Nous avons utilisé le logiciel Transana 2.51 afin de transcrire les enregistrements des discussions avec les étudiants. Transana est un outil d’aide à la transcription manuelle des paroles. Il fournit une interface pour la segmentation d’enregistrements vocaux de longue durée, pour leur transcription et pour l’étiquetage des tours de parole. Afin de convertir les enregistrements vers un format compatible avec différents dispositifs digitaux, nous avons utilisé le logiciel Free Video Converter v. 3.1.0.0. développé par Koyote Soft (Open Source).

Concernant les données statistiques, nous avons employé le software SPSS v. 21.00 développé par IBM. Ceci pour la pertinence et l’utilité des outils proposés par ce logiciel et pour la disponibilité de ses manuels et des guides d’utilisation en espagnol, langue maternelle des auteurs de cette thèse.

3.2. La segmentation du discours oral.

Llisterri a annoncé que de manière générale au sein des transcriptions d’enregistrements, des conventions formelles telles que des points ou des virgules ne sont pas employées, du fait que ces symboles ne font pas partie de l’oralité. La transcription CLAPI est un exemple de ceci, puisque sont employés des intervalles de temps là où seraient notées des virgules habituellement. C’est la raison pour laquelle la segmentation du discours oral ne

145

présente pas un rôle fondamental lors de transcription même, mais bien plus au moment d’aborder les analyses du corpus fondé sur les transcriptions de l’enregistrement. Lorsque l’on travaille sur le discours oral il est important de définir une unité syntaxique de base pour l’analyse. Le concept de « phrase » comme unité d’analyse empirique est un des concepts les plus communs en psycholinguistique et en argumentation (Gutiérrez & Correa, 2009). Toutefois, à la manière de Gayraud (2000), l’unité classique employée à l’écrit, la phrase, n’est évidemment pas opérationnelle à l’oral.

Plusieurs unités syntactiques peuvent alors être retrouvées au sein des recherches portant sur l’argumentation, la psychologie et l’éducation. En effet, dans la recherche portant sur le discours chez les enfants, on peut retrouver une grande variabilité dans les unités d’analyse empiriques. Par exemple dans Kuhn et collaborateurs, on a parlé de « déclarations » (Kuhn, Amsel, et O’Loughlin, 1988 ; Kuhn, 1991) ou de « phrases » (Kuhn, Cheney et Weinstock, 2000 ; Felton et Kuhn, 2001) et des composantes toujours présentes du modèle de Toulmin. À certains moments l’analyse textuelle menée n’est pas présentée, décidant de parler de « niveaux de compréhension dans les réponses » sans approfondir dans la segmentation du discours (Kuhn, 2008).

Nous faisons référence dans cette thèse à des énoncés et non pas à des phrases. Un énoncé est un segment de parole compris entre deux pauses ou délimité par un échange dans le tour de parole, qui peut inclure en plus des informations portant sur la superposition (overlap) de tours lorsqu’intervient de manière simultanée plus d’un locuteur (Llisterri, 1999). Face aux questionnements autour de la segmentation des énoncés, Ducrot propose que, s’il existe deux segments successifs S1 et S2, ceux-ci constituent un seul énoncé si S1 a du sens uniquement à partir de S2. C’est-à-dire que si S1 fait allusion à S2 alors nous sommes face à un seul énoncé composé par deux éléments. Tel que Culioli l’a dit : (Culioli, 1984 ; cité par Bouquet, 1998, p. 112) :

« Un énoncé n’est pas une phrase plus du discursif, ou une phrase agrémentée de subjectivité ; le paragraphe n’est pas une variété d’énoncé transphrastique ; l’énoncé (ou le paragraphe) n’est pas une unité plus haute (ou plus basse, si l’on conçoit l’énoncé comme la descente dans l’empirique) à laquelle on accèderait tel que l’on gravit une échelle. »

Dans le document L'argumentation sur des questions socio-scientifiques : l'influence des contextes culturels dans la prise de décisions (Page 149-152)