• Aucun résultat trouvé

Extraction des codages : DOLMEN

5 Méthodologie : Le projet Phonologie de l’Anglais Contemporain (PAC)

5.2 Le projet PAC

5.2.5 Extraction des codages : DOLMEN

Dolmen est un logiciel gratuit et « open-source » développé par Julien Eychenne. Ce logiciel est disponible pour tous les principaux systèmes d’exploitation (Microsoft Windows, Mac S, Linux). Il s’agit d’une boîte à outils pour la linguistique de corpus, qui permet notamment:

- d’organiser les fichiers d’un corpus en projets ;

- d’annoter les fichiers avec des métadonnées ;

- d’interagir directement avec PRAAT (lecture des textgrids, et visualisation des fichiers dans une fenêtre PRAAT) ;

- de concevoir et sauvegarder des recherches sur les bases de données.

L’installation de Dolmen se fait aisément depuis le site http://julieneychenne.info/dolmen, où l’on choisit la version du programme correspondant à son système d’exploitation.

Au lancement de Dolmen, la fenêtre d’accueil (9) apparaît :

(9) Fenêtre d’accueil Dolmen

187 Avant de commencer à explorer des corpus PAC avec Dolmen, il est préférable de s’assurer que ce dernier est bien en mode PAC. Pour ce faire il faut aller dans le menu Edit >

Preferences > onglet Advanced > et choisir Application mode : PAC.

Pour commencer à charger des fichiers pour les inspecter avec Dolmen, il existe plusieurs solutions :

1- Charger les fichiers individuellement : File > Add file(s) to project (Ctrl + Shift + A)

2- Charger le dossier d’un locuteur, un dossier contenant une ou plusieurs enquêtes : File > Add content of folder to project

3- Si un projet a déjà été sauvegardé : File > Open project (Ctrl + O)

Les fichiers ouverts apparaissent dans la colonne de gauche. Si une ou plusieurs enquêtes ont été chargées, des dossiers nommés par des identifiants PAC sont visibles, et une arborescence permet de visualiser les fichiers audio et texgrids contenus dans ces dossiers.

Un clic droit sur un des fichiers textgrids donne accès à différentes fonctions :

1- Le fichier peut par exemple être visualisé sous Dolmen.

2- Le fichier peut être ouvert directement dans PRAAT. N.B. : cette dernière action nécessite que PRAAT ait été lancé au préalable.

3- Les métadonnées des fichiers peuvent être modifiées (Speaker, Survey, Task), et de nouvelles métadonnées peuvent être ajoutées.

4- La fonction Export > To plain text file permet de convertir une transcription en fichier texte, ce qui peut s’avérer très pratique pour préparer des publications, des exercices, ou simplement pour une meilleure lisibilité.

Si les fichiers audio et textgrids chargés dans Dolmen ne suivent pas les conventions de nommage des fichiers PAC, il se peut que ces derniers ne soient pas associés. Dans ce cas, il faudra maintenir la touche Ctrl enfoncée et cliquer sur le fichier audio et le textgrid à associer

188 puis faire un clic droit et choisir Bind annotation to sound file et sauvegarder le projet pour que les deux fichiers restent associés.

Recherche

Une fois les fichiers chargés dans Dolmen, il suffit de cliquer sur le bouton Search pour commencer à utiliser les fonctions de recherche de Dolmen. Sur la capture d’écran ci-dessous (10), deux onglets sont visibles : Main et R sandhi. L’onglet R sandhi sera présent après installation d’un plug-in spécifique (voir plus bas). L’onglet Main dispose de plusieurs options pour affiner la recherche que l’on veut lancer.

Onglet Main

- Les fichiers d’annotation (textgrids) apparaissent individuellement à gauche de l’écran. Ils peuvent être sélectionnés directement depuis cette liste.

- En bas de l’onglet Main, des espaces Speaker, Survey et Task permettent de sélectionner les locuteurs, les enquêtes ainsi que les tâches sur lesquelles vont porter la recherche.

- En haut à droite, l’espace Search permet de taper une séquence orthographique et/ou alphanumérique à rechercher dans l’ensemble des textgrids correspondant aux critères sélectionnés grâce aux espaces Speaker, Survey et Task.

- Les boutons + et – permettent d’effectuer une recherche multi-tires. Par exemple, si un découpage en constituants et sous-constituants est opéré sur plusieurs tires (syntagmes, mots, catégories), il sera possible de chercher les SN qui contiennent un nom propre. La première ligne sert de filtre sur la tire 1, et les suivantes servent à affiner la recherche.

189 (10) Fenêtre de recherche Dolmen

Onglet R sandhi

Cet onglet nécessite l’installation d’un « plug-in » spécifique. Dolmen permet la création de grammaires de recherche écrites dans le format déclaratif JSON, qui convertissent les « clics » en expressions régulières. Il s’agit donc en réalité d’une surcouche » de l’onglet de recherche Main, qui comporte des options de recherche consacrées au ‘r’ de sandhi.

- La partie haute de l’onglet propose des cases à cocher correspondant aux différents champs de codage : Liaison (Absent (0), Realized (1), Uncertain (2), Unexpected (3)),

Linking word, Linked word, Pause/hesitation (voir (11) ci-dessous). Une option de

recherche supplémentaire est proposée : Consonant permet de séparer les occurrences étymologiques (linking r) des occurrences non étymologiques (intrusive r).

190 (11) nglet de recherche spécifique pour l’extraction des codages du ‘r’ de sandhi sous Dolmen

Exemple d’extraction de codage

Si nous recherchons toutes les occurrences de linking r réalisées dans la tâche de lecture du corpus Lancashire, nous pouvons, après avoir sélectionné Read text dans l’espace Task, taper l’expression régulière r(e)1** » (où r(e) » filtre les ‘r’ étymologiques grâce à la graphie, « 1 » renvoie toutes les liaisons réalisées, et « ** » signifie que la mono ou polysyllabicité des

191 mots M1 et M2 est indifférente) dans l’espace Search de l’onglet Main, en choisissant la tire 2. L’autre possibilité, plus ergonomique, consiste à utiliser l’onglet R sandhi pour y cocher les cases r dans Consonant, Realized dans Liaison, et All values dans Linking word et

Linked word (l’espace Pause/hesitation ne nous concernant pas pour cette requête

particulière).

Les résultats apparaissent dans un onglet nommé Query n (où n correspond au nombre de requêtes effectuées, ici 1 puisqu’il s’agit de notre première requête). Le nombre d’occurrences de codage correspondant aux critères de recherche se situe au sommet de la page, ici 98. C’est avec des valeurs numériques de ce type que nous pouvons commencer le travail statistique.

(12) nglet de résultat d’une requête sous Dolmen

Les résultats extraits laissent apparaître la transcription qui entoure le site de sandhi. Plusieurs options sont dès lors disponibles :

192 - Un double clic déclenche une lecture audio de l’intervalle qui contient le codage

- Un clic droit permet notamment :

o de lire l’intervalle

o d’ouvrir une fenêtre d’annotation sous Dolmen

o d’ouvrir l’intervalle sous PRAAT

o d’éditer la transcription

N.B. : Les modifications apportées à la transcription ou aux codages ne seront visibles qu’au redémarrage de Dolmen.

Onglets au bas de la page :

Queries : les requêtes effectuées pendant une session sont stockées dans cet onglet. Pour relancer une requête déjà effectuée, il suffit de double-cliquer sur le numéro correspondant.

Output : fournit des informations sur le traitement de la requête. Par exemple, si nous lançons une recherche de liaison sur l’ensemble des tâches, un message d’information explique que la tire 2 n’a pas été trouvée pour les textgrids correspondants aux listes de mots, et que ces dernières ont été ignorées.

Il est très important de signaler que l’ordre dans lequel les tires apparaissent dans les fichiers textgrid doit être scrupuleusement respecté. En effet, Dolmen, lorsqu’il est en mode PAC, est programmé pour rechercher des codages pour le ‘r’ de sandhi sur la tire 2. Si cette dernière ne contient aucun codage (ou un autre type de codage), les résultats de la recherche ne seront pas ceux escomptés. Ainsi, la tire de transcription orthographique est toujours en première position (tire 1), la tire de codage du ‘r’ de sandhi en deuxième position (tire2), et les tires propres à chaque travail de recherche (par exemple dans cette thèse, le codage de la rhoticité) doivent être situées en dessous (tires 3 à 8). Dans le cas précis de la présente étude, nous avons expliqué que les locuteurs dont la rhoticité est variable ne peuvent pas être codés pour

193 le ‘r’ de sandhi. Nous avons donc veillé à positionner la tire de codage de la rhoticité en troisième position, en laissant la tire 2 vide.

5.3 Résumé

Dans ce chapitre, nous avons rappelé que les corpus occupent aujourd’hui une place centrale dans de nombreux domaines de la linguistique. La nature même de l’objet d’étude de la phonologie place cette dernière du côté de la parole (ou performance en termes chomskyens) et en fait une science du datum (Laks 2008, 2011) qui non seulement peut, mais doit fonder ses analyses sur des ensembles de données recueillies de manière systématique et selon des critères bien établis. Comme nous espérons l’avoir montré, le projet PAC se nourrit de travaux sociolinguistiques novateurs comme ceux de Labov, Trudgill ou Milroy et défend une approche de la linguistique dans laquelle la collecte et le traitement des données occupent une place fondamentale. L’idée n’est pas de refuser tout recours à l’intuition en tant que processus permettant d’obtenir des indices aidant à valider une théorie, mais nous pensons qu’un retour à l’empirie, à travers la construction de corpus permettant d’analyser des données de manière multidimensionnelle (statistique, acoustique, etc.), est une étape incontournable pour la sociophonologie. L’expérience du projet PFC a d’ailleurs montré, à travers de nombreuses publications, que cette stratégie est productive et qu’elle constitue une belle avancée pour la linguistique descriptive et théorique.

Concernant l’étude de l’anglais oral, les corpus existants sont très nombreux, mais leur nature, leur type d’annotations et leur disponibilité sont très variables. On trouve des corpus consacrés à l’étude de phénomènes particuliers ou des corpus dialectologiques visant à une grande diversité géographique, mais pour lesquels les informations concernant les locuteurs sont malheureusement limitées. De plus, de nombreux corpus ne fournissent qu’un seul registre stylistique (tâches de lecture ou conversations) pour chaque locuteur et ne permettent pas de mettre en perspective la variation intra-locuteur. Signalons également que l’alignement des transcriptions sur le signal audio n’est pas systématique, ce qui rend très contraignante l’exploration des données. Le projet PAC (comme avant lui le projet PFC) a conçu un protocole, applicable de manière uniforme à tous les points d’enquête, ce qui fournit une image globale des variétés étudiées. Les principes qui président au recrutement des informateurs ainsi que l’établissement de leurs portraits sociolinguistiques individuels

194 permettent une immersion profonde au sein des variétés de l’anglais, et la diversité des tâches proposées (lectures de listes de mots, lecture d’un texte, conversations guidée et libre) donne accès à de précieuses informations concernant le contrôle des locuteurs sur leur production orale ou encore leur maîtrise du système orthographique. Le premier niveau de transcription orthographique standard rend les données accessibles à des spécialistes d’autres domaines linguistiques (voire d’autres domaines scientifiques), et facilite à la fois la navigation au sein du corpus, et l’indexation des données. Enfin, les systèmes de codage systématique et les outils d’extraction associés offrent un aperçu global des variables observées, sans pour autant engager l’utilisateur dans une voie théorique prédéfinie. Dans les chapitres qui suivent, nous allons considérer la mise en œuvre de ces codages, et voir ce qu’ils peuvent nous apprendre sur le ‘r’ de sandhi dans la variété du Lancashire, et sur la rhoticité variable observable dans la variété de Boston.

195