• Aucun résultat trouvé

Méthode d’annotation

Dans le document The DART-Europe E-theses Portal (Page 186-191)

La constitution du corpus : du recueil à la diffusion des données

3.4 Transcription et annotation des données

3.4.3 Méthode d’annotation

Lors de l’annotation à l’aide du logiciel Elan, nous avons systématiquement réécouté les segments annotés. Ainsi, l’alignement de la vidéo (et de l’audio) et de la transcription dans le logiciel Elan permet de pallier la subjectivité inhérente à l’activité de transcription et le manque de moyen permettant plusieurs vérification complètes des transcriptions. En effet, nos codages s’appuient sur une analyse fine des paroles qui nécessite une transcription minutieuse, l’oreille du transcripteur doit être sensibilisée à la présence de différentes formes du sujet. C’est pourquoi il est nécessaire de pouvoir réécouter plusieurs fois le propos d’un locuteur afin de percevoir et de confirmer, par exemple, la forme du sujet utilisée ; la différence entre un sujet simple (les animaux) et un sujet disloqué (les animaux ils) n’étant

186

pas toujours évidente à saisir dans le flot des paroles. Comme le souligne V. Traverso (1999 : 23) :

« il faut rappeler que l’existence de la transcription ne dispense pas du retour à l’écoute effective des enregistrements. C’est l’oral qu’il convient d’analyser et non sa transcription ».

Dans l’optique de nos analyses linguistiques (Chapitre 5), nous avons annoté les différentes formes du sujet de 3e personne employées par les discutants, d’une part, et par les animatrices, d’autre part. Pour cela, nous avons progressivement élaboré un schéma d’annotation (template). Ce dernier a fortement évolué parallèlement à nos objectifs de recherche qui se sont précisés.

Dans un premier temps, nous avons souhaité étudier, au sein des propos des discutants, les correspondances entre la variation au niveau de la forme linguistique du sujet et la variation au niveau communicatif (Lebas-Fraczak & Auriel, 2013). Pour cela, nous avons défini un schéma d’annotation détaillé afin de distinguer les différentes formes du sujet de 3e personne employées par les discutants. Nous avons créé un premier tier nommé « forme du sujet 3e pers. (discutants) » afin de coder les sujets grammaticaux en leur assignant une étiquette de type « Pronom », « Nom », « Dislocation », « Sujet non-exprimé » ou

« Ambiguïté ». La dernière étiquette nous permet de laisser de côté les cas où l’assignation d’une étiquette est délicate, comme c’est le cas dans l’énoncé représenté dans la Figure 22.

Figure 22 : illustration du premier niveau de codage de la forme du sujet dans les propos des discutants.126

126 Le logiciel Elan offre la possibilité d’afficher ou de cacher les tiers que l’on souhaite pour faciliter les annotations ; ainsi, nous n’affichons pas les tiers correspondant aux acteurs « destinataires » et « destinataires seconds » pour alléger nos figures illustratives. Nous précisons que les annotations peuvent aussi bien porter sur les « paroles » que sur les « paroles chevauchées ».

187

À partir de ce premier tier, nous avons ajouté des tiers dépendants afin de préciser la forme du pronom et la forme de la dislocation. En ce qui concerne le pronom, nous avons défini une liste de huit étiquettes possibles : « impersonnel » ; « indéfini » ; « interrogatif » ;

« démonstratif » ; « personnel indéfini » ; « personnel atone » ; « personnel tonique » ;

« relatif ». Pour la dislocation, nous avons créé deux tiers pour affiner sa description ; le premier afin de préciser s’il s’agit d’une dislocation à droite (« DD ») ou à gauche (« DG »).

Puis, le second niveau de description informe sur la nature de l’élément disloqué et du pronom de reprise à travers un jeu de sept étiquettes : « il y a N + pronom personnel atone » (il y a des animaux ils sont / il y en a ils sont) ; « N + PRO démonstratif » (les animaux c’est) ; « N + PRO personnel atone » (les animaux ils sont) ; « N + PRO personnel tonique + PRO personnel atone » (les animaux eux ils sont) ; « PRO démonstratif + PRO démonstratif » (ça c’est) ; « PRO personnel tonique + PRO personnel atone » (eux ils sont) ; « V + PRO démonstratif » (partager c’est). Nous obtenons, ainsi, le schéma d’annotation présenté dans la Figure 23.

Figure 23 : illustration des niveaux de codage du sujet au sein de l’énoncé d’un discutant.

L’étiquetage de l’énoncé sur la Figure 23 révèle qu’il contient un sujet « Pronom » du type « personnel atone » (elle dit que), un sujet « Nom » (les animaux sont pas intelligents) et

188

un sujet codé « Dislocation » de type « DD » et de forme « N + PRO personnel atone » (ils savent manger les animaux aussi).127

Dans un second temps, nous avons concentré nos analyses sur la comparaison de deux formes du sujet et de leur statut communicatif : la forme nominale et la forme disloquée.

Parmi les formes disloquées, nous nous sommes restreinte aux dislocations où l’élément disloqué est un nom et est repris par un pronom personnel atone128. De ce fait, nous avons par la suite utilisé un schéma d’annotation simplifié pour coder les formes du sujet, nominal et disloqué, comprenant trois étiquettes principales « Nom », « Nom + PRO personnel atone »,

« PRO personnel atone + Nom », auxquelles nous avons ajouté deux étiquettes supplémentaires « Nom + PRO démonstratif » et « PRO démonstratif + Nom »129. Nous avons appliqué ce système de codage aux paroles des discutants et des animatrices comme illustré dans la Figure 24.

Figure 24 : illustration du codage du sujet dans les paroles des discutants et des animatrices.

3.4.4 Bilan

Dans cette section, nous avons exposé les choix opérés pour transcrire les données, dans le cadre du projet Corpus-Philo. Il ressort que cela constitue un travail coûteux et que le manque de moyens humains pour réécouter et vérifier les transcriptions entraîne nécessairement une dysharmonie des transcriptions au niveau de la dénomination de l’animateur, de l’application des conventions de transcription, de l’attention portée à certains phénomènes. Nous avons ensuite présenté les choix et la méthode adoptés pour coder les données, dans le cadre de cette thèse. Nous avons vu que le recours à l’écoute systématique de

127 Nous avons choisi d’aligner nos annotations avec la proposition qu’elle concerne (c’est-à-dire le moment où la proposition, contenant la forme du sujet codée, est prononcée).

128 Les raisons motivant ce choix sont précisées dans le Chapitre 5 (cf. 5.2.1.4).

129 Nous n’étudions pas les cas de dislocation à droite (PRO + Nom) et de dislocation avec reprise par un pronom démonstratif dans cette thèse mais nous avons choisi de tout de même les coder en vue d’éventuelles perspectives de recherche (cf. Conclusion générale).

189

la source primaire (grâce à l’alignement de la transcription et de l’enregistrement), lors de la phase d’annotation, nous a permis de remédier aux éventuelles erreurs liées à la dysharmonie des transcriptions.

190

Dans le document The DART-Europe E-theses Portal (Page 186-191)