• Aucun résultat trouvé

Méthode de transcription

Dans le document The DART-Europe E-theses Portal (Page 175-186)

La constitution du corpus : du recueil à la diffusion des données

3.4 Transcription et annotation des données

3.4.2 Méthode de transcription

Lorsque l’on travaille sur des interactions orales, la transcription est une étape incontournable, c’est une « préparation indispensable du corpus » (Traverso, 1999 : 23) nécessaire à son exploitation.

« Toute analyse linguistique de productions orales est impossible à partir de la seule source sonore. En effet, le chercheur aura beau écouter et réécouter encore les enregistrements, il ne peut les appréhender uniquement par le biais du son. Ceux-ci ne pourront devenir objets d’étude à part entière qu’à partir de leur mise en/par écrit. » (Dister & Simon, 2007 : § 1).

Le travail de transcription des données (réparti entre les deux doctorantes travaillant sur le projet Corpus-Philo) a consisté, d’une part, à reprendre les transcriptions des données enregistrées au primaire (phase 1). Ces enregistrements avaient fait l’objet d’une première transcription au format texte par des étudiants de Master, en dehors de tout cadre théorique et méthodologique. Ces transcriptions ont été reprises sous Elan et harmonisées en fonction des conventions de transcriptions communes adoptées dans le cadre du projet Corpus-Philo.

D’autre part, nous (les doctorantes du projet Corpus-Philo) avons transcrit l’ensemble des données retenues suite aux phases 2 et 3 du recueil (cf. Tableau 4 et Tableau 5). Comme nous l’avons mentionné, le travail de transcription est coûteux ; selon B. Habert (2000 : § 25), la transcription d’une minute d’oral équivaut à trente minutes de travail. Par ailleurs, la qualité des enregistrements (cf. 3.2.1) et le nombre important de locuteurs lors d’un enregistrement

119 Le langage XML (Extensible Markup Language) est un « langage général de balisage des documents électroniques qui permet de publier, conserver, annoter et transformer des textes selon un protocole indépendant des formats propriétaires » (Daoust & Marcoux, 2006 : 327-328). Pour plus de précisions concernant les formats libres versus propriétaires, nous renvoyons à la section 3.5.2.1.

175

constituent des facteurs qui impliquent de nombreuses écoutes de la part du transcripteur et qui augmentent, de fait, considérablement le temps de transcription.

3.4.2.1 Les paradoxes de la transcription

Le fait de devoir passer par l’écrit pour étudier l’oral soulève un paradoxe souligné par de nombreux chercheurs (Blanche-Benveniste, 1997 ; Traverso, 1999 ; Dister & Simon, 2007).

« L’opération [de transcription] est en un sens paradoxale, puisque, cherchant à donner de l’oral un reflet fidèle, elle ne peut éviter de le figer, et de le transformer en un objet matériel que le chercheur peut arpenter à souhait, alors que l’échange oral est par définition fugitif. » (Traverso, 1999 : 23).

Ainsi, la transcription est une activité en partie subjective du fait qu’elle dépend des choix du transcripteur puisqu’au vu des propriétés des échanges oraux, une « transcription “totale” est irréalisable » (Traverso, 1999 : 23). De ce fait, la transcription est une première annotation des données primaires et constitue une donnée secondaire puisque, bien qu’elle tente de représenter le plus fidèlement possible les données primaires, elle comporte nécessairement une part de transformation et varie en fonction du transcripteur et des objectifs de recherche (Traverso, 1999 : 23 ; Mondada, 2002 : § 1).

Cela constitue une première difficulté dans le cadre d’un travail collaboratif interdisciplinaire. En effet, bien que nous (les membres du projet Corpus-Philo) ayons fixé des conventions de transcription stables (cf. Tableau 9 et Annexe 7), le résultat de transcription varie nécessairement d’un transcripteur à l’autre ; chacun disposant d’une oreille sensible à différents phénomènes en fonction de son expérience et de ses objectifs de recherche propres. C’est pourquoi il s’avère nécessaire de multiplier les vérifications des transcriptions. Toutefois, au vu du nombre important de données et du manque de ressources humaines pour les traiter, nous (les membres du projet Corpus-Philo) n’avons pas pu procéder à une vérification complète systématique. Chaque transcription a bénéficié de deux vérifications successives par des personnes autres que le transcripteur120. Pour les raisons mentionnées précédemment, les vérifications ne prenaient pas en compte les données primaires et portaient donc principalement sur l’orthographe, le respect des conventions de transcription et la cohérence des propos transcrits.

120 Chaque transcription a été réalisée par l’une des deux doctorantes du projet Corpus-Philo (G. Fiema ou A. Auriel) ; chaque doctorante a ensuite vérifié les transcriptions effectuées par l’autre ; puis, une deuxième vérification a été opérée par L. Lebas-Fraczak ou M. Blasco.

176

Le choix des conventions de transcription s’est également révélé difficile car il devait se faire, d’une part, en fonction de nos objectifs de recherche et, d’autre part, en fonction de l’objectif plus général du projet Corpus-Philo de constituer un corpus représentatif du genre discussion à visée philosophique engageant des travaux pluridisciplinaires autour des données. Nous (les membres du projet Corpus-Philo) avons donc pris connaissance des diverses conventions de transcription existantes en essayant de percevoir des régularités dans les pratiques. Nous nous sommes notamment appuyées sur les conventions de transcription du Gars (groupe aixois de recherche en syntaxe) établies par l’équipe Delic (DEscription Linguistique Informatisée sur Corpus) présentées par C. Blanche-Benveniste et ses collaborateurs (1990/2005 : 228), sur celles définies au sein du centre de recherche Valibel - Discours et variation (Bachy et al., 2004) et sur l’adaptation de ces dernières réalisée dans le cadre du projet ANR Multimodalité (cf. Colletta et al., s.d.).

3.4.2.2 Préservation des traces de l’oral

Nous (les membres du projet Corpus-Philo) avons opté pour une transcription orthographique bien que nous ayons choisi de signaler les phonèmes ou syllabes élidé(e)s afin d’avoir une représentation fidèle de l’oral (i(l) ; j(e) suis ; (en)fin) ; cela du fait de notre objectif de constituer un corpus oral représentatif. Finalement, au cours du traitement du corpus, ce choix nous a semblé inadéquat. En effet, la prise en compte des élisions lors de la transcription augmente le temps de transcription ; de plus, nous remarquons, au sein du corpus, que la transcription des élisions varie d’un transcripteur à l’autre. A. Dister et A.-C. Simon résument les inconvénients liés à ce type d’aménagements concernant les variantes de prononciation comme suit :

« 1) il est difficile de les systématiser ; 2) il est parfois difficile de distinguer des variantes de prononciation à la seule écoute du signal sonore ; 3) ces déformations perturbent nos habitudes de lecture en compliquant le système graphique, et obligent le lecteur à oraliser pour décoder ; 4) ce mode de transcription complique la tâche du transcripteur, surchargeant son travail par l’attention qu’il doit porter à ces phénomènes, dont la fréquence est souvent très élevée. » (Dister & Simon, 2007 : § 16).121

Ainsi, compte tenu de ces inconvénients et au vu du fait que ce degré de précision n’est pas nécessaire pour nos analyses, nous aurions pu en faire l’économie. Par ailleurs, il est apparu

121 Le troisième inconvénient cité nous a d’ailleurs conduite(s) à simplifier les conventions de transcription au sein de nos publications scientifiques afin de faciliter la lecture des données présentées. Au sein de notre thèse, nous avons choisi de présenter les extraits de corpus sans adaptation des conventions de transcription, de façon à ce que le lecteur soit confronté aux données telles qu’elles ont été mises en forme, traitées et diffusées.

177

que la transcription de ces variantes de prononciation gênait les analyses automatiques du corpus. En effet, cela entrave les analyses lexicales puisqu’une même forme lexicale peut être représentée par plusieurs graphies, comme il/i(l) ou parce que/pa(r)ce que/parc(e) que/

pa(r)c(e) que. Cela montre les incidences du choix des conventions de transcription, et du degré de détail apporté à la transcription, sur la constitution du corpus et l’analyse des données. Il est important d’y réfléchir en amont de la constitution du corpus et d’en mesurer l’impact sur son traitement. Bien que cela ne soit pas toujours évident, tel que nous le faisons apparaître, le développement des corpus oraux dans une optique d’interopérabilité tend de plus en plus à mettre en avant ce genre de problématique et à uniformiser les pratiques.

En lien avec notre ambition de rester au plus près de l’oral, nous (les membres du projet Corpus-Philo) avons choisi de ne pas restituer les morphèmes absents, comme le ne de négation ; puis, de transcrire l’intégralité des propos des locuteurs y compris les traces de l’élaboration du discours, les « disfluences » (Dister & Simon, 2007 : § 23), telles que les hésitations (euh, ben, etc.), les répétitions (moi moi je trouve moi je trouve), les amorces de mots (les an/ ; elle conti/ elle continuerait ; que les hu/ que les humains), les allongements vocaliques (ben:: ; enfin::). Nous avons également conservé les prononciations non-standards en les signalant à l’aide d’un astérisque lorsqu’il s’agit d’une modification de prononciation (je sais *po) et par un commentaire de type {sic} lorsqu’il s’agit d’un accord déviant (ben ils comprennent et ils le fassent {sic}). De même, les mots étrangers et les mots d’argot sont conservés et suivis d’une indication en commentaire précisant la langue utilisée (poukave {lang = argot} ; et finito {lang = italien}). Toutefois, nous précisons qu’au vu de la difficulté de repérer ces disfluences, la transcription ne prétend pas en rendre compte de manière exhaustive ; cela nécessitant de nombreuses vérifications des transcriptions réalisées par plusieurs oreilles. Comme le remarquent A. Dister et A.-C. Simon :

« Ce travail nécessite une grande attention de la part du transcripteur, pour noter des phénomènes qui sont habituellement gommés dans une écoute ordinaire. En effet, notre oreille semble ignorer totalement ces marques qui passent donc la plupart du temps inaperçues tant elles sont communes dans l’oral spontané. » (Dister & Simon, 2007 : 24).

Pour préserver les aspects de l’oral, nous (les membres du projet Corpus-Philo) avons également choisi d’ajouter des marques de ponctuation permettant de rendre compte de la modalité d’un énoncé interrogatif (?) ou exclamatif (!) lorsque celle-ci est seulement marquée par l’intonation à l’oral et de ce fait rendue imperceptible à la lecture de la transcription. Dans le corpus, la ponctuation n’a donc pas un objectif de découpage d’unités mais un caractère informatif signalant une prosodie particulière.

178

Enfin, lorsque les propos sont inaudibles, la présence d’un segment impossible à identifier est indiquée en précisant sa longueur de la façon suivante : un x indique une syllabe inaudible ; deux x (xx) signalent un groupe de syllabes inaudibles ; trois x (xxx) correspondent à un passage inaudible plus long. De même, lorsque les propos sont incertains, la présence d’une hésitation est explicitée ([sait ; ses] ; [i(l) trouve ; i(l)s trouvent]).

Il ressort que la transcription est effectivement « une démarche digne d’être théorisée » puisque « transcrire, ce n’est pas simplement écouter et mettre sur le papier ce qu’on entend » (Dister & Simon, 2007 : § 62). Nos choix de transcription (des membres du projet Corpus-Philo) témoignent de notre volonté de rendre compte de l’oral tel qu’il est effectivement prononcé bien que nous ayons remarqué que le rendu n’est pas homogène dans l’ensemble des transcriptions au vu des difficultés pour « maintenir une pratique cohérente entre différents transcripteurs » (Dister & Simon, 2007 : § 40) lorsque l’on transcrit avec un tel degré de précision.

Le Tableau 9 synthétise les conventions de transcription retenues dans le cadre du projet Corpus-Philo ; une présentation détaillée est disponible en Annexe 7.

* la *sèvre précède un phonème ou une syllabe qui ne correspond pas à la forme standard

/ le mout/ signale les mots inachevés

( ) pa(r)ce que signale les phonèmes ou syllabes élidés

[ ] [sait ; ses]

[n’ ; 0]

signale les hésitations du transcripteur entre deux termes signale une hésitation entre quelque chose ou rien (0)

x x xx

xxx

note les termes ou segments impossibles à identifier une syllabe inaudible

lorsque l’orthographe est incertaine (mot inconnu) faire suivre le mot de la mention {approx}

pour les mots étrangers ajouter une indication en commentaire du type {lang = ...}

pour les formes grammaticales déviantes, ne pas corriger mais ajouter l’indication {sic}

< > L1 : tu es <prêt>

L2 : <non> indique les chevauchements de parole

Maj. Denis la majuscule est utilisée pour marquer les noms propres ou les noms à référent unique

# signale les pauses entre les groupes de souffle

? ! signale une question ou une exclamation non évidentes à la lecture

:: je:: signale un allongement vocalique

je viens pas les morphèmes absents ne sont pas restitués deux cent les numéros cardinaux sont écrits en toutes lettres SNCF les sigles sont transcrits en capitales sans points

Segpa les acronymes sont transcrits avec une majuscule au début et le reste en bas de casse Tableau 9 : tableau synthétique des conventions de transcription du corpus Philosophèmes.

179

3.4.2.3 Méthodologie de transcription sous Elan

Les différentes couches d’annotation, nommées tiers, peuvent fonctionner indépendamment les unes des autres ou être interconnectées, les relations qui les unissent sont définies par le transcripteur. La première étape du processus de transcription/annotation consiste donc à définir les différents tiers et la hiérarchisation de ces derniers afin d’obtenir un modèle de transcription/annotation pertinent pour l’analyse des données. Ce schéma constitue un modèle (template), applicable à l’ensemble des données que l’on souhaite analyser. Ainsi, une fois ce template élaboré, il est utilisé pour l’ensemble des transcriptions du corpus.

! Alignement de la transcription

Notre premier tier (c’est-à-dire la première ligne d’annotation) correspond à la transcription des paroles alignée temporellement à la source vidéo. Ainsi, la transcription des paroles s’effectue sur une seule ligne nommée « Paroles ». Le fait de nommer un tier revient à définir un « acteur ». Comme on peut le voir dans la Figure 17, chaque segment de transcription sur la ligne « Paroles » (apparaissant en rouge) est aligné avec le son matérialisé par l’oscillogramme et avec la vidéo qui se déroule en haut à gauche. L’espace à droite de la vidéo permet de visualiser les annotations sous différentes formes. Ici, nous avons choisi de représenter les annotations correspondant à l’acteur « Paroles » sous forme de « grille » donnant un affichage vertical des annotations effectuées avec la précision du temps de début et de fin de l’annotation et de la durée de celle-ci (en haut, à droite) exprimés selon le format hh:mm:ss.ms (soit heures:minutes:secondes.millisecondes). Lorsque nous sélectionnons une annotation dans la grille, la sélection apparaît au niveau de la zone de transcription et de l’oscillogramme (comme illustré dans la Figure 17) et permet ainsi de réécouter et revoir l’annotation sélectionnée.

180

Figure 17 : fenêtre d’édition du logiciel Elan illustrant la transcription synchronisée.

Nous (les membres du projet Corpus-Philo) avons choisi de transcrire toutes les paroles sur une seule ligne du fait du grand nombre de locuteurs (il y a en moyenne 24 élèves par classe). Ainsi, une transcription avec une ligne pour chaque locuteur engendrerait un nombre de lignes trop important et serait, de ce fait, illisible.

! Identification des locuteurs

À chaque annotation sur la ligne « Paroles » est lié un locuteur sur une ligne

« Locuteurs » dépendante de la ligne « Paroles ». Cette dépendance est marquée par la couleur jaune du trait symbolisant l’annotation, et par la hiérarchie entre les acteurs représentée à gauche (cette hiérarchie est davantage visible sur la Figure 21, lorsqu’un nombre plus important d’acteurs est affiché).

Figure 18 : illustration de l’attribution d’un locuteur à une annotation « Paroles » sous Elan.

181

Les locuteurs sont définis par un vocabulaire contrôlé constitué des pseudonymes (cf. 3.2.2) de chaque élève de la classe122 ainsi que d’un ou deux item(s) permettant de désigner le/les animateur(s) de la séance123. Ainsi, le transcripteur doit identifier le locuteur et sélectionner son pseudonyme au sein du menu déroulant associé à l’acteur « Locuteurs », tel qu’illustré avec la Figure 19.

Figure 19 : illustration du vocabulaire contrôlé permettant de définir un locuteur sous Elan.

Lorsque le locuteur n’est pas identifiable, il est noté « …?... » ; lorsque le locuteur n’est pas identifiable mais que le transcripteur repère qu’il s’agit d’un élève, il est noté « élève » ; lorsque plusieurs élèves parlent d’une seule voix, une annotation est créée sur la ligne

« Paroles » (par exemple {rires}) à laquelle est associée un locuteur noté « élèves ».

Un acteur « Destinataires » dépend également du tier « Paroles » afin que le transcripteur puisse préciser l’adresse du message. Cette précision n’est pas systématique mais elle est préconisée lorsque l’adresse du message est équivoque. Dans la Figure 20 ci-dessous, par exemple, l’Animatrice 1 interrompt son échange avec Paméla pour demander à Nora, la présidente de séance, si elle a noté l’élève qui lève le doigt. On note donc ce brusque changement de destinataire pour clarifier la transcription.

122 Ainsi, nous avons mis en place un vocabulaire contrôlé propre à chaque classe.

123 Dans le vocabulaire contrôlé, l’animateur est tantôt désigné par « Enseignant », « Enseignante », tantôt par

« Animatrice ». Afin d’obtenir une uniformité dans les extraits de corpus présentés dans la thèse et en lien avec les remarques concernant le changement de rôle de l’enseignant-animateur, présentées en 3.3.2.3, nous nommerons systématiquement l’animateur « Animatrice » (ce rôle étant tenu par des femmes dans toutes les DVP du corpus Philosophèmes). Lorsqu’il y a deux animatrices dans une séance, nous les distinguons comme suit : « Animatrice 1 » versus « Animatrice 2 ».

182

Figure 20 : illustration de l’attribution d’un destinataire à une annotation « Paroles » sous Elan.

! Chevauchement de parole

Le choix de créer une ligne pour transcrire l’ensemble des paroles pose la question de la restitution des chevauchements de parole. Pour répondre à ce besoin, nous (les membres du projet Corpus-Philo) avons créé un nouveau tier « Paroles chevauchées » nous permettant de prendre en compte les moments où deux locuteurs parlent en même temps, comme illustré dans la Figure 21.124 De la même manière que pour le tier « Paroles », deux acteurs sont dépendants du tier « Paroles chevauchées », nommés « Locuteurs seconds » et « Destinataires seconds ».

124 Nous ne mentionnons pas les cas où plus de deux locuteurs parlent en même temps car dans ce cas il est impossible d’identifier les propos émis par chacun. Ces moments sont signalés par un commentaire du transcripteur de type {brouhaha}.

183 Figure 21 : illustration de la transcription des chevauchements de parole sous Elan. 125

Le logiciel permet ainsi de visualiser facilement les paroles superposées.

Toutefois, la question demeure quant à la restitution des chevauchements de parole dans la version texte de la transcription (principalement destinée à la lecture des transcriptions, cf. 3.5.2.1). Nous (les membres du projet Corpus-Philo) avons choisi d’indiquer les chevauchements de parole à l’aide de chevrons :

TP 634 : Animatrice : ah il faut réfléchir Isabelle <j(e) suis bien d’accord>

TP 635 : Patricia : <d(e) (tou)te façon on est obligés> on peut pas changer d(e) question TP 636 : Animatrice : non Patricia

Extrait de corpus 13 : illustration d’un chevauchement de parole.

Lorsque le locuteur qui avait la parole la conserve après le chevauchement, le moment de chevauchement des paroles apparaît aisément sous Elan à travers la superposition des deux lignes dédiées. Dans la transcription textuelle, il est plus difficile de rendre compte de ce cas de figure et les pratiques liées à cette question ne sont pas uniformes (voir Dister & Simon,

125 Ici, dans l’espace à droite de la vidéo nous avons choisi la forme de présentation « sous-titres » permettant de visualiser les annotations correspondant à plusieurs acteurs. Nous avons, ainsi, sélectionné les acteurs

« Paroles », « Paroles chevauchées », « Locuteurs » et « Locuteurs seconds ».

184

2007 : § 27-33). Nous (les membres du projet Corpus-Philo) avons choisi de ne pas insérer le tour de parole du locuteur second dans celui du locuteur premier afin de séparer visuellement les tours de parole. Ainsi, si nous reprenons l’exemple cité par A. Dister et A.-C. Simon (2007 : § 30) :

« Transcription du GARS L1 ces choses-là j’en L2 plus ou moins

L1 parle –je ne raconte pas une je vais pas raconter tout ça comme ça tu vois Transcription VALIBEL

L1 ces |- choses-là j’en <L2> plus ou moins -| parle / je ne raconte pas une je vais pas raconter tout ça comme ça tu vois ».

Et si nous appliquons les conventions de transcription Philosophèmes à cet exemple, nous obtenons :

L1 : ces <choses-là j’en> parle # je ne raconte pas une je vais pas raconter tout ça comme ça tu vois

L2 : <plus ou moins>

La disposition des tours de parole est laissée à l’intuition du transcripteur. Ainsi, parfois les paroles chevauchées séparent le tour de parole du locuteur 1 en deux tours de parole, lorsque cela est justifié d’un point de vue sémantique et pragmatique, comme dans l’exemple extrait du corpus Philosophèmes, ci-dessous.

TP 29 : Animatrice : c’est c(e) que t(u) as entendu dire en général ou <tu::>

TP 30 : Laure : <ben oui>

TP 31 : Animatrice : qu’est-ce qui f/ qu’est-ce qui fait qu’est-ce qui t(e) fait dire à toi qu’i(l)s sont intelligents

Extrait de corpus 14 : seconde illustration d’un chevauchement de parole.

Dans cet exemple, le fait que les paroles chevauchées de Laure répondent à la question de l’animatrice nous amène à couper le tour de parole de l’animatrice en deux au moment où celle-ci marque une pause puisque la suite de ses propos est élaborée en réaction au tour de

Dans cet exemple, le fait que les paroles chevauchées de Laure répondent à la question de l’animatrice nous amène à couper le tour de parole de l’animatrice en deux au moment où celle-ci marque une pause puisque la suite de ses propos est élaborée en réaction au tour de

Dans le document The DART-Europe E-theses Portal (Page 175-186)