• Aucun résultat trouvé

Caractéristiques segmentales fréquentielles 1 Fréquences formantiques

Annexe V. Code de procédure de l’International Association for Forensic Phonetics (IAFP)

IV. A PPROCHE AUDITIVE

4.4. Procédure de reconnaissance par des experts

4.4.2. L’approche phonétique acoustique

4.4.2.1. Caractéristiques segmentales fréquentielles 1 Fréquences formantiques

La production des voyelles orales est caractérisée par une excitation des cordes vocales, sans point d’articulation ni couplage nasal. Elle peut être modélisée par l’excitation d’un tube non uniforme par une pulsation quasi périodique. La réponse impulsionnelle du tube est caractérisée par ses fréquences de résonance et leurs harmoniques. Comme le tractus vocal n’est pas uniforme, les fréquences propres sont inégalement espacées en fréquence. Ces zones, où l’intensité des harmoniques est plus importante, sont appelées formants ou fréquences formantiques. La perception des voyelles est largement déterminée par leurs trois premiers formants, abrégés F1, F2

et F3 [DODDINGTON, 1970 ; FANT, 1973]. Si la fréquence fondamentale d’un locuteur augmente, alors

qu’il conserve la même articulation, les indices d’harmoniques diminuent, alors que les formants ne changent pas [ORMEZZANO ET ROCH, 1991]. La mesure de la largeur de bande des formants, qui

reste une opération difficile, a été réalisée notamment par [FURUI, 1989] : F1 de 30 à 120Hz

Voyelles françaises 1er formant (F1) [Hz] 2ème formant (F2) [Hz] 3ème formant (F3) [Hz] [i] 280 2300 2950 [e] 350 1950 2550 [E] 450 1800 2470 [7] 660 1350 2380 [a] 620 1150 2250 [O] 480 1050 2250 [o] 360 780 2230 [u] 290 850 2270 [y] 290 1800 2140 [÷] 360 1450 2290 [>] 490 1380 2270 [{] 480 1400 2200

Tableau IV.11. Valeurs formantiques des voyelles orales du français [GROSJEAN, 1995]

Il existe une relation entre la forme du tractus vocal et l’enveloppe spectrale des voyelles

[PERKELL ET AL.,1986]. Les consonnes n’ont à l’origine pas de phase stationnaire, elles sont classées

en voisées et non voisées et leurs caractéristiques dépendent largement des voyelles adjacentes, à cause du phénomène de coarticulation [FURUI, 1989]. Toutefois une dépendance certaine existe entre la forme du résonateur formé par les fosses nasales et les caractéristiques des consonnes nasales /n/ et /m/ [MELLA, 1992].

L’étude physiologique et acoustique de la valeur des trois premiers formants chez les hommes et les femmes montre que la longueur individuelle des cavités, et donc les valeurs des formants, peut changer de façon importante pour une catégorie d’âge et de sexe. Comme le larynx est placé plus bas chez les hommes, le pharynx est plus long. Ceci se traduit par des coefficients d’écart différents entre les formants, selon les voyelles et leur degré d’affiliation avec la partie pharyngale du conduit vocal. Chez les femmes, les valeurs des trois premiers formants sont, en moyenne, 18% plus élevées que chez les hommes. Pour une voyelle neutre, la variation de taille de la cavité est proportionnelle à la variation de fréquence des formants [FANT, 1973]. Pour les voyelles arrières, F2 est corrélé à F1, par contre, il est corrélé à F3 pour les voyelles avant [PERKELL ET

AL.,1986].

Même si une dépendance au locuteur dans des voyelles isolées a été montrée pour les deux premiers formants, leur rôle est essentiellement phonétique car ils conditionnent la compréhension des voyelles [CALINSKI ET AL., 1970]. Ce sont les formants d’ordre plus élevé qui conditionnent le

plus la qualité de la voix du locuteur. Cependant, ils ont une étendue plus grande et une intensité plus faible que les deux premiers et, dans la qualité de parole téléphonique, ces formants d’ordre élevé manquent ou sont faiblement représentés [DODDINGTON, 1970, BALDWIN ET FRENCH, 1990].

La fiabilité des formants dépend de la localisation syntaxique et sémantique de la voyelle dans la phrase. En français, la meilleure fiabilité se retrouve dans les réalisations qui portent

PARTIE II: RECHERCHE BIBLIOGRAPHIQUE CHAPITRE IV : APPROCHE AUDITIVE 79

l’accentuation linguistique. Cette constatation, aussi valable pour l’anglais, peut probablement être généralisée.

Les règles d’accentuation sont très différentes d’une langue à l’autre. En français l’accentuation est définie au niveau du syntagme et le rythme est celui du comptage. Chaque fois que la syntaxe s'arrête, la syllabe est accentuée ; le japonais est l'une des rares langues à partager ce trait avec le français. En anglais, l’accentuation est définie au niveau du mot. Elle se situe généralement sur la première syllabe des mots polysyllabiques. Les mots à étymologie latine suivent l’accentuation latine, qui se trouve sur l’avant-dernière syllabe si elle est longue ou sur l’antépénultième si l’avant-dernière est courte ; les autres mots suivent l’accentuation germanique et les mots très longs se comportent comme autant de mots courts [DELATTRE, 1965].

Par contre, les réalisations non accentuées et celles situées dans des mots grammaticaux, comme les auxiliaires ou les mots de liaison, sont moins robustes. Selon MELLA, les éléments les plus informatifs et les plus robustes sont, en français, les voyelles /e/, /. / et /O/, et plus précisément F3 pour les voyelles arrondies, F2 pour les voyelles avant et F1 pour les voyelles ouvertes et centrales [MELLA, 1994]. De plus, la comparaison de phonèmes situés dans le même contexte phonémique, syntaxique et sémantique permet de minimiser l’influence de la coarticulation [MELLA, 1994 ; INGRAM ET AL.,1996].

PTACEK observe qu’avec l’âge la valeur maximale du premier formant s’abaisse et SUZUKI

remarque que la valeur moyenne de F3 et F4 diminue légèrement ; SUZUKI constate aussi que le vieillissement n’amène aucune modification extrême [PTACEK ET AL.,1966 ; SUZUKI ET AL.,1994]. Par contre l’émotion affecte la position des formants, particulièrement dans la première syllabe des mots [KRAUSE, 1976].

4.4.2.1.2. Trajectoire des formants

La trajectoire des formants englobe des aspects statiques et dynamiques de la parole. Elle contient des informations sur des caractéristiques dépendantes du locuteur, comme la taille du tractus vocal et la forme des résonateurs, la stratégie d’articulation et les effets de la coarticulation et de la diphtongaison, le dialecte et l’accent ou la manière de parler [SAMBUR, 1975 ; INGRAM, 1995]. De plus, la trajectoire des deux ou trois premiers formants est relativement robuste aux différents bruits [JANKOWSKI ET AL.,1994].

4.4.2.1.3. Mesure d’énergie

Les habitudes et les pratiques d’articulation des consonnes et des voyelles d’un locuteur peuvent être évaluées par la distribution de l’énergie de certains segments dans le domaine spectral [HIRSON ET DUCKWORTH, 1993]. Dans l’ensemble des consonnes par exemple, la variabilité interlocuteur du /s/ semble supérieure à sa variabilité intralocuteur [FRENCH, 1994].

4.4.2.2. Caractéristiques segmentales temporelles