Plateforme Dolmen - Protocole d’enquête - Le corpus PFC/LVTI Toulouse et Marseille

Le corpus PFC/LVTI Toulouse et Marseille

4.2.2 Protocole d’enquête

4.2.3.3 Plateforme Dolmen

Dolmen est un logiciel gratuit et « open-source » qui peut être utilisé comme une boîte à outils pour la linguistique de corpus. Nous ne développerons pas, dans cette section, toutes les procédures d’installation et d’utilisation de ce logiciel puisque ceci a été largement détaillé dans Navarro (2013). Nous présenterons ici les principales fonctionnalités du logiciel et l’usage que nous en avons fait dans notre travail.

Dans un premier temps, il est possible d’organiser les fichiers d’un corpus pour créer des « projets ». Ces projets constituent une première base de travail sur la base de laquelle des requêtes pourront être effectuées. Il est notamment possible d’importer des fichiers son ainsi que des textgrids. Les tires établies dans l’environ-nement Praat sont enregistrées sous forme de fichiers (textgrids) et peuvent donc être directement implémentées dans Dolmen. Nous fournissons dans la Figure 4.9 un aperçu de ce type de projet. Un projet comporte pour chaque locuteur quatre fichiers son correspondant aux quatre tâches enregistrées lors de l’entretien, ainsi que quatre fichiers textgrids qui contiennent les informations de chaque tire pour chacune des tâches.

Lorsque les fichiers importés sont au format PFC (voir Figure 4.10 et (4) pour deux exemples), il est directement possible d’effectuer des requêtes en spécifiant l’enquête, les locuteurs ou encore la tâche. C’est-à-dire qu’il est possible d’effec-tuer une recherche au sein du projet importé sur uniquement, par exemple, les conversations.

(4) a. 31cmd1mw.wav : enregistrement effectué en Haute-Garonne (31), dans la banlieue de Toulouse (c) du témoin Marie Dubois (md1) qui lit la liste de mots (m). Il s’git ici du fichier sonore (w).

b. sgabg1lg.TextGrid : enregistrement effectué en Suisse (s), à Genève (g) au point d’enquête (a) du témoin Blanche Garou (bg1) dans une conversation libre (l). Il s’agit ici du fichier textgrid (g).

Dolmen prévoit également l’ajout d’autres métadonnées pour chaque fichier. Dans le cadre de notre travail de thèse, nous avons spécifié le sexe et l’âge de chaque locuteur, de sorte qu’il soit possible d’effectuer des requêtes portant sur les fichiers, par exemple, des femmes uniquement18. Nous fournissons, dans la Figure 17. Dolmen (Eychenne et Paternostro, 2016) est disponible au téléchargement à l’adresse sui-vante : <http://julieneychenne.info/dolmen>.

Figure 4.9 – Fenêtre d’accueil du logiciel Dolmen.

Figure 4.10 – Nomination des fichiers selon le protocole PFC.

— Position 1 et 2 : pour la France, le département, pour les autres pays, l’initiale du pays suivie de l’initiale de la ville ou de la région.

— Position 3 : l’indice du point d’enquête, la lettre « a » s’il n’y a qu’une enquête, de « b » à « z » pour les autres enquêtes.

— Position 4, 5 et 6 : initiales du prénom et du nom suivies d’un chiffre, 1 pour le premier locuteur à porter ces initiales.

— Position 7 : « m » pour la liste de mots, « t » pour le texte, « g » pour la conversation guidée et « l » pour la conversation libre.

— Position 8 : « w » pour les fichiers wave (extension .wav), « g » pour les fichiers textgrids (extension .TextGrid).

4.2. Les programmes PFC et LVTI

4.11, un aperçu de la principale fenêtre de dialogue où les requêtes peuvent être effectuées, accessible depuis la page d’accueil par l’onglet « Find ». On retrouve

Figure 4.11 – Boîte de dialogue de Dolmen.

les métadonnées accessibles dans un projet pour spécifier une requête sous forme de cases à cocher. Les requêtes peuvent être effectuées dans la boîte « Search ». Notons qu’il est possible d’utiliser des expressions régulières dans cette boîte pour préciser les recherches. L’efficacité des codages prend ici tout son sens. En effet, grâce aux codages appliqués à l’ensemble des corpus, il est possible d’interroger ra-pidement un phénomène. Pour illustrer nos propos, nous proposons dans la Figure 4.11 un exemple de requête. Dans cette Figure, nous interrogeons le projet PFC chargé spécifiquement dans la tire 3, à savoir la strate d’annotation où le codage liaison présenté précédemment a été appliqué. En inscrivant « 10 » dans la barre de recherche, on souhaite retrouver tous les codages 10 de cette troisième tire. Ce codage implique que l’on cherche tous les cas de sites de liaison potentielles où la liaison n’a pas été effectuée après un monosyllabe. Nous spécifions également que

la recherche doit être uniquement effectuée dans les conversations. Nous donnons dans la Figure 4.12 les résultats de cette recherche.

Figure 4.12 – Exemple de présentation de résultats issus d’une requête Dolmen.

Dans cette fenêtre, on peut noter que le nombre total de résultats est de 488. En d’autres termes, le logiciel dénombre, dans les conversations du corpus interrogé, 488 cas où une liaison aurait pu être effectuée après un monosyllabe mais elles ne sont pas attestées. De plus, on trouve, dans cette fenêtre, un extrait des textgrids dont les résultats sont issus. Un avantage de l’utilisation de Dolmen est qu’il est possible d’interagir directement avec Praat. En effet, les résultats affichés dans Dolmen peuvent également être visualisés sous Praat grâce à un simple double clic. Enfin, il est possible de sauvegarder des recherches (requêtes et/ou résultats). Ceci est un point important puisque cela peut permettre de créer de nouvelles bases de données interrogeables par d’autres logiciels comme R19. Nous détaillerons plus particulièrement ce point dans l’explication de l’annotation de notre propre corpus, puisque nous avons tiré parti de cette fonctionnalité offerte par Dolmen.

4.3. Constitution des enquêtes Toulouse et Marseille

Ces fonctionnalités constituent un argument en faveur de l’emploi des codages et des outils disponibles au sein des programmes PFC et LVTI.

4.3 Constitution des enquêtes Toulouse et

Mar-seille

À présent que nous avons exposé les principes de base des protocoles PFC et LVTI, nous souhaitons nous concentrer sur la présentation du corpus constitué dans le cadre de ce travail de thèse. Nous commencerons (§ 4.3.1) par exposer les raisons qui nous ont conduite à mener une étude à Toulouse et à Marseille. Dans un deuxième temps (§ 4.3.2), nous souhaitons revenir sur l’activation des réseaux pour trouver des locuteurs et sur le déroulement des enquêtes que nous avons menées. Pour finir (§ 4.3.3), nous présenterons les locuteurs qui composent notre corpus.

Dans le document Nivellement et sociophonologie de deux grands centres urbains : le système vocalique de Toulouse et de Marseille (Page 140-144)