• Aucun résultat trouvé

PARTIE II : ÉTUDE EMPIRIQUE

Chapitre 6 : Compilation de corpus

6.2 Corpus oral

La totalité du recueil de productions orales est en wolof. Ce qui est recherché

dans ce corpus oral, c’est un complément à des supports écrits. Notre travail étant

d’abord terminologique, il est important de rester au fait de la dynamique de la langue afin de mieux conceptualiser les réalités linguistiques nouvelles et de proposer des termes qui ne suscitent pas de réticences ou de rejets. Nous attendons donc des corpus oraux, qu’ils nous livrent la langue wolof telle qu’elle est utilisée par les professionnels de la santé, telle que les utilisateurs de la langue médicale se l’approprient.

Le corpus constitué est un ensemble d’enregistrements sonores qui proviennent des journaux parlés de différentes stations radios au Sénégal. Vers la fin d’une édition de journal, il y a une rubrique consacrée à la santé et qui aborde des questions diverses liées aux problèmes de santé publique, de maladies spécifiques, de préventions, etc. Cette rubrique a une durée qui est assez courte. Elle va de deux à sept minutes. La rubrique peut solliciter soit l’analyse des professionnels de la santé pour des questions précises, soit l’avis d’un locuteur sur le thème. Les enregistrements sont au nombre de vingt, tous proviennent des éditions diffusées sur

la chaîne nationale, RTS (Radiodiffusion Télévision Sénégalaise) et d’autres radios

privées (cf. annexe 9, pour les références des vingt enregistrements sonores). Ce corpus compte plus de vingt mille occurrences (20 000).

Ces enregistrements sonores constituent des données primaires. Ils ont été exploitées, couchées sur du support écrit en vue d’être analysées. Blanche Benveniste souligne cette nécessité de transcription :

On ne peut pas étudier l’oral par l’oral, en se fiant à la mémoire qu’on en garde. On ne peut pas, sans le secours de la représentation visuelle, parcourir l’oral en tous sens et en comparer les morceaux. (Blanche-Benveniste, 2000).

C’est ainsi qu’un exercice de transcription a été mené à l’aide du logiciel Transcriber ; celui-ci présente l’avantage, du point de vue formel, de faciliter le traitement des enregistrements sonores, avec la possibilité d’avoir en parallèle fichier audio et fichier transcrit ci-dessous illustré par la capture d’écran suivante.

EXTRAIT.6.3 :CORPUS ORAL TRANSCRIT À LAIDE DE TRANSCRIBER

Le travail de transcription s’est révélé fastidieux, d’autant plus que nous n’avons pas eu à notre disposition de nomenclature dédiée aux règles de

transcription et qui soit spécifique au wolof. VALIBEL25 a été un cadre de référence

pour ce travail. Le centre l’est d’ailleurs en matière de transcription de corpus oraux

en espace francophone. Il réunit une banque de données de plus quatre millions de mots. Quatre principes majeurs de transcription sont avancés par ce centre : l’adoption d’une orthographe standard lors de la transcription, le non recours à la ponctuation de l’écrit, la valorisation de l’oralité des corpus, et enfin la nécessité de s’assurer de la compatibilité avec un traitement informatisé. Ces quatre principes ne sauraient être adoptés entièrement dans le cas de notre travail.

Ce sont des principes qui cherchent à garder l’identité de l’oral, son caractère fluide, notamment pour le principe d’absence de ponctuation. L’interprétation des

144

pauses qu’elles soient courtes ou longues comme étant des signes de ponctuation, relèverait d’une certaine sensibilité auditive du transcripteur ? Cela inclut donc une certaine subjectivité quant au choix de ponctuation. Cette dernière peut être forte ou ne pas l’être. Mais il se trouve que l’absence de signes de ponctuation ne permettrait pas d’avoir un confort de lecture. L’analyse linguistique sur la base d’écrits ne saurait donc se faire de manière commode. La valeur des signes de ponctuations utilisés est donc fondamentalement prosodique, en modulant la cadence discursive du locuteur. Par conséquent, la transcription que nous avons proposée représente un ensemble de données secondaires, base de notre travail d’analyse et qui reste adaptée aux besoins spécifiques à cette thèse. Certaines précisions relatives à la manière dont s’est effectuée la transcription sont détaillées en annexes (cf. annexe 4).

Le logiciel n’inclut pas le wolof dans la liste de langues qu’il comporte. Cependant puisque la transcription latine de l’alphabet wolof a été adoptée, la seule lettre qui n’est pas prise en compte par le logiciel est le (ŋ) qui apparaît alors comme inconnue ( ?) après export du fichier au format texte brut. Ce qui, somme toute, n’est pas un grand écueil, puisque des modifications sont opérées sur le fichier final, comme cela a été le cas avec les logiciels Monoconc et Anteconc.

Les données regroupées abordent des questions médicales, mais dans un registre journalistique. La formulation discursive ressemble beaucoup à celle de la vulgarisation scientifique avec un journaliste qui fait office de troisième homme. Les locuteurs sont, en majorité, des journalistes formés aux métiers de la

communication, même si nous relevons trois autres profils de locuteur. On n’est pas

en présence de spontané produit par un locuteur tout à fait libre, mais en face d’un

professionnel de la communication. Ce langage en situation particulière présente des atouts pour l’expression qui est très claire, un débit qui a une bonne qualité de fluence. On inclut dans cette typologie de locuteurs, les reporters qui sont les correspondants des radios.

Un autre type de locuteur apparaît dans le corpus et ce sont les professionnels de la santé : docteur, infirmiers, sages-femmes, etc. Ils ont un profil de locuteur bilingue et l’on ne peut manquer de souligner la forte influence du français dans leurs différentes interventions.

Le troisième type de locuteur est un locuteur à qui est posé un certain nombre de questions relatives à des problèmes de santé et qui apporte des réponses sous forme d’opinion. Ce profil, comme celui du professionnel, est dans une situation de discours libre dans la formulation même si le thème de la santé est bien campé.

Le dernier profil est celui du locuteur qui associe à la fois discours politique et sanitaire. Les enregistrements provenant de la radio nationale, les interventions des autorités administratives se sont révélées être une communication semi-libre ancrée dans l’explication de politiques et stratégies déclinées dans le cadre du développement et de l’amélioration du système sanitaire national.

À la dichotomie de forme corpus écrit, corpus oral, nous ajoutons une distinction de fond : la nature et la portée des textes compilés qui sont des articles de recherches scientifiques et de vulgarisation.