• Aucun résultat trouvé

De l’italien vers le français : étude comparative des vocalismes, appuyée

II.2 Étude des espaces acoustiques vocaliques de l’italien chez les participants

II.2.2 Matériel et méthode de recueil des données

II.2.2.1 Constitution de la base de données

Suite aux résultats d’une étude préliminaire conduite en 2008 (Cornaz, 2008), nous avons opté pour un protocole de lecture de phrases. Les paradigmes de répétition ou de dénomination d’image ont été écartés. En effet, un paradigme de répétition à haute voix de stimuli entendus au casque binaural s’apparente à une tâche d’imitation (cf. à ce sujet la discussion par Tran, 2011 de ses études de production). La répétition facilite le stockage mnémotechnique d’une forme sonore et renforce la compétence de reconnaissance du son. Cependant, la répétition fonctionne selon des processus de récupération de la cible sonore et d’activation immédiate des commandes neuro-motrices utilisées a priori pour la production d’un signal correspondant à cette image sonore

(Lhote, 1988). Il n’y a dans ce cas pas forcément d’interprétation phonologique, les données étant prioritairement

analysées aux niveaux acoustique et phonétique. Concernant la tâche de dénomination d’images, les possibilités de divergence dans les choix de vocabulaire (cf. Manco, 2006) dues à l’existence de synonymes, d’hyperonymes et de l’impact dialectal (Beccaria, 1992 ; Telmon, 1993) nous sont apparues trop élevées pour notre objectif expérimental en phonétique.

Un diaporama comprenant trois tâches de lecture a été conçu. Les phrases-porteuses étaient orthographiées en alphabet latin selon les normes de transcription italiennes.

Quatre phrases plus ou moins complexes au niveau syntaxique ont constitué la première tâche (Tâche 1).

Elles contenaient toutes les voyelles de l’italien standard dont des paires minimales pour les voyelles mi- ouvertes et mi-fermées :

« Bene, Iris e Ugo, ora mangio una bella pesca in oro. » (« Bien, Iris et Hugo, maintenant je mange une belle pêche en or. »)

« Ho trovato, Iris e Ugo, una bella pesca in oro. » (« J’ai trouvé, Iris et Hugo, une belle pêche en or. ») « Bene, Iris e Ugo, ora vado a pesca. » (« Bien, Iris et Hugo, maintenant je vais pêcher. »)

« Ho fatto una bella pesca, ho trovato un bel pesce in oro. ». (« J’ai fait une belle pêche, j’ai trouvé un beau poisson en or. »)

Le corpus de phrases contenait 15 occurrences pour chacun des mots suivants : /peska/, /pɛska/, /ɔro/ et /ora/, de manière à recueillir des données sur le statut des voyelles mi-ouvertes et des voyelles mi-fermées chez les sujets. Dans la réalité des parlers, rappelons que les variations sont fréquentes et certains locuteurs utilisent un système à cinq, six ou sept voyelles, neutralisant une ou plusieurs oppositions phonologiques (cf. Section II.1). Le mot « pesca » (<la pêche>) a été notamment retenu pour l’opposition phonologique /e/~/ɛ/, la distinction sémantique existant en italien standard selon que la voyelle est prononcée mi-ouverte (<le fruit>) ou mi-fermée (<l’activité>). Dans certains systèmes de l’italien, l’archiphonème /O/ dans /ora/ et /oro/ est une variante libre entre les allophones [o] et [ɔ]. Les phrases ont été répétées sept fois dans un ordre aléatoire, totalisant près de 450 réalisations de voyelles (dans notre étude, entre 430 et 499 voyelles selon la phonotactique des locuteurs enregistrés).

La deuxième tâche contenait le texte Il vento di tramontana e il sole46(Tâche 2). Les quatre phrases qui

la composaient équivalaient à environ 250 réalisations vocaliques (entre 218 et 263 réalisations selon les sujets). Comme dans la tâche précédente, selon le parler du locuteur, étaient attendues des systèmes possédant de 5 à 7 qualités vocaliques. L’intérêt de cette tâche, par rapport à la précédente, était d’attirer l’attention des locuteurs sur la sémantique, de sorte que celle portée à la production phonétique soit diminuée d’autant.

La dernière tâche consistait en la lecture de phrases-porteuses du type « V1, hai detto V1, V1 come in

CV1 », avec la consigne d’allonger légèrement la voyelle tonique V, avec V1 = /i e ɛ a ɔ o u/ (Tâche 3).

La diversité des parlers en Italie fait qu’il est difficile de prédire le nombre de voyelles qui compose le

46La Bise et le Soleil dans sa version italienne : Si bisticciavano un giorno il vento di tramontana e il sole, l’uno pretendendo d’esser più forte dell’altro, quando videro un viaggiatore, che veniva innanzi avvolto nel mantello. I due litiganti convennero allora che si sarebbe ritenuto più forte chi fosse riuscito a far sì che il viaggiatore si togliesse il mantello di dosso. Il vento di tramontana cominciò a soffiare con violenza; ma più soffiava, più il viaggiatore si stringeva nel mantello; tanto che alla fine il povero vento dovette desistere dal suo proposito. Il sole allora si mostrò nel cielo; e poco dopo il viaggiatore, che sentiva caldo, si tolse il mantello. E la tramontana fu costretta così a riconoscere che il sole era più forte di lei.

système tonique de chaque locuteur. Dans un système à 5 voyelles toniques, le système peut être entre autres /i e a o u/ ou /i ɛ a ɔ u/. Chaque phrase était répétée dix fois en ordre aléatoire. Au final, étaient attendues à travers cette lecture de phrases environ 550 réalisations vocaliques (dans notre étude, entre 537 et 619) et plus précisément 215 réalisations de voyelles isolées (V1) et 100 en contexte co-articulé

(CV1), le nombre restant correspondant aux voyelles coarticulées non cibles dans [ajdɛt:o]. Les réalisations

des voyelles atones de ce groupe de phonèmes non cibles ont été observées mais non analysées, afin de différencier globalement et visuellement la différence de répartition des voyelles atones et toniques dans l’espace acoustique des sujets pour cette tâche de lecture.

Au total, l’espace acoustique vocalique de chaque locuteur a été évalué à partir de la mesure de plus de 1 000 réalisations vocaliques.

II.2.2.2 Contexte d’investigation et dispositif de recueil des données

L’étude a été menée dans le Piémont italien à l’Université de lettres, de langue et de droit de la ville de Turin, où les sujets étudiaient. 13 locuteurs natifs de l’italien ont participé : 10 femmes et 3 hommes (moyenne d’âge = 23 ± 8 ans, entre19 et 51 ans). Les locuteurs étaient volontaires et n’ont reçu aucune gratification.

Âge et niveau de français des locuteurs italophones.

Les participants étaient assis face à un écran d’ordinateur placé à distance d’environ 40cm de leur visage. En début de test, la consigne était donnée oralement par l’expérimentateur en langue maternelle (italien) et réapparaissait à l’écran avant chaque tâche de production. La consigne était de « lire à voix haute, lente et distincte » les phrases présentées. À la fin de chaque tâche, une pause était proposée. Avant chaque tâche, les locuteurs étaient entraînés. Les phrases contenaient des consonnes différentes de celles utilisées dans

l’expérience. Il s’agissait de consonnes fricatives ou nasales existant dans les systèmes phonologiques des deux langues en présence. Concernant les voyelles, ont été retenues les voyelles ouvertes et mi-ouvertes existant ou non dans le système vocalique de la langue maternelle du participant (puisqu’il existe des systèmes vocaliques sans voyelles mi-ouvertes dans les variantes régionales de l’italien). La durée totale du test (qui comprenait les réponses à un questionnaire socio-linguistique47) était au maximum d’une heure.

Les productions ont été enregistrées avec un microphone sur pied AKGC1000S à directivité cardioïde, relié à un enregistreur numérique portable Marantz PMD670, PMD 671, TASCAM D1-P1 ou DR 10048 (Figure

II.15). La parole était enregistrée à une fréquence d’échantillonnage de 44.1kHz et sauvegardée au format WAV. Les enregistrements étaient effectués dans un lieu calme : salle de réunion, chambre sourde, salle de classe ou laboratoire de langue multimédia. Le corpus est disponible dans la base de données SLDR49 (numéro 000894).

Figure II.15Enregistrement d’un sujet au LFSAG à Turin, Italie.

II.2.2.3 Traitement des données

Les signaux de parole ont été segmentés et étiquetés semi-automatiquement sous SPPAS 1.4 50 (Bigi,

2010 ; 2012 ; 2010-2014 ; Bigi et Hirst, 2012). Les frontières entre unités sonores de parole sont placées

automatiquement à partir de la détection des pauses (segmentées et étiquetées manuellement), du nombre d’unités à découper (fournies sous forme de TextGrid avant le lancement de la procédure automatique) (Figure II.16). 51

47Le questionnaire sociolinguistique présenté aux candidats à l’expérience est semblable à celui annexé au manuscrit de thèse et correspondant à l’étude en perception (Annexe VII).

48 Plusieurs types d’enregistreurs ont été utilisés en raison de contraintes de modalités d’utilisation des locaux. Plusieurs

locuteurs étaient enregistrés en parallèle.

49Speech and Language Data Repository, http://www.sldr.org 50 Acronymede SPeech Phonetization Alignment and Syllabification.

51 SPPAS a permis de découper et d’étiqueter environ 20 000 voyelles, car il a pris en compte les voyelles extérieures aux

phrases porteuses, par exemple celles contenues dans les tâches d’entraînement et dans les numéros de phrases. Seules les voyelles testées ont été analysées (et ce, même si, pour la tâche 3, les voyelles atones sont représentées sur les figures ci- après).

Pour segmenter les phonèmes, SPPAS exploite la phonétisation du dictionnaire, permettant la proposition de variantes pour chaque entrée considérée plutôt qu’une proposition normative. L’alignement automatique a été vérifié manuellement pour les phrases à voyelles tenues (tâche 3), soit sur 25 % des données, et Cornaz, Bigi et

Granjon (soumis) ont montré que les valeurs moyennes de formants ne diffèrent pas selon que le découpage des

voyelles dans le texte lu (tâche 1) a été manuel ou automatique. Les voyelles ont ensuite été annotées manuellement comme étant toniques ou atones.

Figure II.16Alignement et étiquetage du groupe nominal [idwelitigandi] (<i due litiganti>) obtenu avec le logiciel SPPAS, et édité sous Praat 5.3.14.

Les mesures automatiques des quatre premières fréquences de résonance F1, F2, F3, F4 des voyelles /i e a o

u/ sur les signaux audio rééchantillonés à 11kHz ont été effectuées avec les logiciels Praat 5.3.14 (Boersma et

Weenink, 2009) et MATLAB 8.0 à partir de la moyenne des valeurs de formants relevées sur cinq points de la

partie segmentée et étiquetée, 12 %, 25 %, 50 %, 75 %, 88 % (en raison de l’évolution temporelle des zones formantiques pour la distinction des voyelles, cf. Fox, 1989 ; Sawusch, 1996 ; pour plus d’explications sur ce choix, cf. Harst, 2011). L’analyse formantique automatique est basée sur la technique de prédiction linéaire par auto-corrélation (Linear Predictive Coding, LPC)52. Les valeurs de formants ont été vérifiées manuellement pour

la majorité des données. Les voyelles /i/ et /u/ coarticulées aux approximantes [j] et [w] ont été exclues des observations en raison de valeurs de formants très différentes de celles trouvées habituellement pour ces voyelles, résultant notamment d’un contraste non-saillant pour l’analyse automatique dû à une assimilation progressive de degré d’aperture (pour plus d’informations sur le sujet, se référer à Babini, 1997). De plus, pour ces voyelles, la réduction de leur durée complique l’analyse automatique des valeurs formantiques, la zone de stabilité formantique à mesurer étant difficile à repérer (voir par exemple Lindblom (1963, 1990b), Harmegnies et Poch-

Olivé (1992), Van Son (1993), Savy et Cutugno (1997), Gendrot et Adda-Decker (2005, 2007, 2010 pour le

phénomène de réduction vocalique).

52 L’algorithme LPC fonctionne sur une estimation des valeurs de formants dans le cadre de la théorie source-filtre linéaire

(Atal et Schroeder, 1974). Le nombre de pôles a été défini pour un premier filtre à 9, 11 et 13 en fonction des voyelles. Un

Pour observer les systèmes vocaliques des 13 sujets italophones, les valeurs moyennes et les écarts types des quatre premiers formants F1, F2, F3, F4 ont été calculées pour chaque réalisation de voyelles, puis projetées

sur deux espaces à deux dimensions F1/F2 et F2/F3 selon une échelle linéaire exprimée en Hertz. Les projections

dans le plan F1/F2 et F2/F3 sont présentées Annexe IV. Les réalisations sont représentées avec un contour d’aires

tracé à 75 % pour chaque ensemble de valeurs pour une voyelle et sous forme d’ellipses équiprobables de dispersion, sous l’hypothèse d’une distribution gaussienne des données53. Pour chaque nuage de dispersion, 95 %

des réalisations sont représentées. Les valeurs moyennes de F1, F2, F3, F4 ont été mesurées pour les trois tâches

de production. Les voyelles atones et voyelles toniques sont observées séparément afin de mieux caractériser l’effet de l’accent sur les valeurs formantiques (cf. Section II.2.3).

Pour chaque réalisation phonétique des voyelles, une mesure d’écarts de valeurs entre formants successifs F1 et F2, F2 et F3, F3 et F4 a été calculée. Les distances ont été mesurées en Hz afin de comparer aux données de

la littérature, ainsi qu’en Bark afin de vérifier le seuil de 3.5 Bark pour les voyelles observées focales dans la littérature. Pour ce faire, pour chaque réalisation vocalique, la moyenne de la distance a été convertie en Bark sous Excel à partir des Hertz, selon la formule fbark = 7 ASINH (FHz / 650). Cette formule a été proposée par

Schroeder (1977), Schroeder, Atal et Hall (1979).54 Une mesure d’écarts de valeurs entre formants a suivi.

Les résultats sont présentés dans la section suivante. Nous nous intéressons d’une part, aux systèmes vocaliques de l’italien langue maternelle chez les participants et d’autre part, à la convergence formantique dans les réalisations vocaliques de certaines voyelles.

II.3 Résultats

Documents relatifs