• Aucun résultat trouvé

Article pp.163-171 du Vol.43 n°1 (2002)

N/A
N/A
Protected

Academic year: 2022

Partager "Article pp.163-171 du Vol.43 n°1 (2002)"

Copied!
9
0
0

Texte intégral

(1)

Rubrique préparée par Denis Maurel

LI (Laboratoire d’informatique de l’Université de Tours) maurel@univ-tours.fr

Merle Horme, (ed.) Prosody ; theory and experiment, Studies presented to Gösta Bruce, Kluwer Academic Press 2000

par René Joseph Lavie

MODYCO (Modèles, Dynamiques, Corpus), UMR 7174, Paris 10-CNRS rlavie@waika9.com

COMMENTAIRE DENSEMBLE. Ce livre est un ouvrage collectif qui comporte onze articles. Il constitue un panorama de la recherche en prosodie en 2000, divers, sérieux, offrant une bonne couverture. Il est évidemment d’une lecture fort utile pour les spécialistes du domaine. Il peut aussi intéresser tout linguiste, d’abord parce que ce compartiment bouge très vite sous la pression de la demande industrielle, ensuite parce qu’il pose des questions théoriques stimulantes et que son caractère frontalier, en communication avec des compartiments mieux étudiés : phonologie et syntaxe, en fait un des points vifs où un taux élevé de novation est à attendre, avec réactions possibles sur les alentours, via notamment par la question de la représentation. Cette question est d’ailleurs touchée par plusieurs des articles de l’ouvrage.

On aurait pu rêver que le livre comporte un article de synthèse qui fasse à bon niveau le tour des acquis et des problématiques. Peut-être les « éditeurs » ont-ils jugé le champ trop divers et instable et que sa vitesse d’évolution rendrait une telle synthèse trop vite caduque : on ne trouve pas cet article.

Chaque article va maintenant être traité individuellement. Dans les caractères droits, les locuteurs sont les auteurs que l’on cite ou résume. Les opinions du

(2)

1. Tonal Elements and Their Alignment ; J. Pierrehumbert

L’analyse du suédois par Bruce a donné lieu à une méthode qui se caractérise par a) un répertoire tonal limité (deux hauteurs tonales, en dehors des tons lexicaux des langues à ton), b) l’attribution de propriétés tonales à des niveaux identifiés de la structure prosodique et c) des principes explicites de réalisation phonétique.

Les contrastes et leur manifestation phonétique sont examinés en discours continu. Les formes isolées ne peuvent être considérées comme basiques : en effet, elles présentent simultanément les complexités des positions initiale, finale et nucléaire.

Dans une langue donnée, il faut mettre en évidence les dimensions particulières qu’y prend le contraste, étudier expérimentalement les régularités temporelles, étudier F0 et différencier les effets gradients des effets de seuil. Le paramètre le plus intéressant à étudier est F0 car il est monodimensionnel, facile à acquérir et facile à utiliser notamment pour la construction de stimuli dans des expériences de perception.

Nous devons à Bruce d’avoir fait de l’intonation le domaine qui a le plus progressé dans l’étude du discours continu.

2. Bruce, Pierrehumbert, and the Elements of Intonational Phonology ; D. Robert Ladd

Pour l’approche autosegmentale et métrique, qui est celle de l’article précédent et qui est l’approche dominante actuellement dans le domaine de la description de l’intonation, un contour intonationnel est représenté phonologiquement comme une suite de tons liés au squelette segmental. Cet article met en question les présupposés empiriques et théoriques de cette approche ; la définition-même des tons et celle de leur association avec la chaîne segmentale. L’article pose trois questions :

1) qu’est-ce qu’un ton ; l’équation simple ton = point d’inflexion tonale est trop restrictive comme principe universel de réalisation tonale, mais l’abandonner nous prive d’une vérification empirique simple de nos théories,

2) qu’est-ce qu’un ton ancré (starred tone) ; l’étoile marque en même temps la syllabe accentuée et le ton qui lui est associé ; en étoilant l’accent de hauteur tonal, on peut l’opposer à l’accent de phrase ; l’étoile suppose la coincidence entre ton métriquement fort et syllabe accentuée ; or cela ne se vérifie pas toujours, p.ex. en grec moderne,

3) qu’entendons-nous par association ; la proposition est de distinguer (chose que ne fait pas l’approche autosegmentale standard) a) association, et donc ancrage, qui est une co-appartenance phonologique abstraite, sans incidence sur la

(3)

coordination temporelle de b) l’alignement, qui est une dimension phonétique variable indépendante de l’identité de la chaîne tonale.

Un progrès sur ces questions ne devrait pas mettre en danger l’approche métrique-autosegmentale mais au contraire la renforcer.

3. Levels of Representation and Levels of Analysis for the Description of Intonation Systems ; D. Hirst et al.

L’introduction de l’article le positionne à la charnière entre description (pour recueil sytématique et massif de données) et théorie linguistique. On passe en revue différents « block-diagrams » qui disposent diversement une représentation sémantique, une représentation syntaxique, une représentation phonologique et l’énoncé vis à vis d’elles. C’est un florilège des variantes sur lesquelles les théories chomskyennes se sont arrêtées, parfois brièvement.

L’apport original de cet article est une boîte dénommée « représentation phonologique de surface ». Elle intéresse des « catégories discrètes mais trans- linguistiques », s’opposant ainsi doublement d’une part à une représentation phonologique sous-jacente (intéressant les phonèmes, particuliers donc à la langue) jointe à une « forme prosodique sous-jacente », et d’autre part à une représentation phonétique, domaine du continu.

Cette boîte a le même statut épistémique que l’alphabet de l’IPA, soit celui d’un outil pour la description, exempt donc de prétention théorique.

En distinguant représentation phonologique de surface et représentation phonologique profonde, nous faisons l’hypothèse d’un niveau de description où peuvent être décrites les prosodies de différentes langues, trans-linguistiquement, en employant un ensemble restreint de symboles à la manière dont l’alphabet de l’IPA permet de décrire les voyelles et les consonnes des différentes langues (p. 69).

Ce composant est un outil de description, mais on pourrait en extraire à la fois la représentation phonologique sous-jacente et la représentation prosodique sous- jacente (suggéré par le diagramme 4, p. 57) ce qui serait sa valeur distinctive.

4. The Perception of Prosodic Prominence ; J. Terken, D. Hermes

La proéminence est-elle un continuum monodimensionnel ou au contraire est- elle un complexe de catégories et lesquelles ? Il faut distinguer quatre types de syllabes : a) syllabes contenant des voyelles réduites, b) syllabes contenant des voyelles pleines, c) syllabes à accent d’intensité , d) syllabes à accent de hauteur. La suite se focalise sur les syllabes à accent d’intensité.

Aspects psycho-acoustiques de la perception de l’accent d’intensité.

(4)

Comment la hauteur affecte-t-elle la proéminence perçue des syllabes à accent d’intensité ?

Traitement théorique de la proéminence et pratique de la transcription des différences de proéminence dans les corpus oraux.

L’ensemble constitue un cadre théorique pour définir des conventions de transcription linguistiquement motivées.

5. The Lexical Tone Contrast of Roermond Dutch in Optimality Theory ; C. Gussenhoven

A Roermund dans le Limbourg (comme plus généralement en Rhénanie, au Luxembourg et en Belgique néerlandophone), le contraste tonal (ton lexical) a différentes réalisations dans différentes conditions d’intonation (ton intonationnel).

Pour en rendre compte, un modèle génératif n’est pas satisfaisant car les deux généralisations les plus importantes : l’assimilation de H à L après L* (H- ASSIMILATION) et l’infixation des tons frontières de l’unité d’intonation (METATHESE), relèveraient de règles qui, pour donner le résultat voulu, devraient s’appliquer à différentes formes dans des ordres différents. Ce paradoxe d’ordonnancement n’est pas compatible avec la prémisse qui dispose que les règles du modèle génératif s’appliquent dans le même ordre à toutes les formes.

Une description selon la Théorie de l’Optimalité (OT) donne en revanche les résultats attendus. Une contrainte de fidélité est postulée sensible à des donnée locales ; elle est plus forte dans les positions phonologiquement privilégiées, avec un système de privilèges qui est universel. La propagation est caractérisée comme la satisfaction simultanée de deux contraintes d’alignement jouant dans des directions opposées. La distinction entre ton frontière qui subit la propagation à gauche vers la syllabe focale et ton frontière qui ne la subit pas a pu être reliée à d’autres contraintes : *RISE quand L* figure dans une syllabe dont la seconde more est vide et *CROWD quand aucune more libre n’est disponible dans la syllabe focale.

On reproduit la différence de représentation mise en évidence par Pierrehumbert et Beeckman (1988) entre association au nœud constituant prosodique et association à une unité porteuse de ton, en supposant qu’une contrainte d’alignement puisse exercer une demande d’alignement d’un ton sur la chaîne qui ne soit que positionnelle et en faisant en sorte que l’association à une unité porteuse de ton soit exercée par une contrainte d’association distincte. Ceci a permis d’expliquer la généralisation METATHESE.

Cette analyse est « naturelle » : deux contraintes d’alignement cherchent à placer leurs tons aux mêmes endroits, un seul des deux finissant par l’emporter. Ce système de contraintes concurrentes fait de l’infixation une conséquence très directe

(5)

de l’organisation de la grammaire. En somme, non seulement OT fournit une description, mais de plus et en un sens, elle fournit une explication.

6. Modeling the Articulatory Dynamics of two Levels of Stress Contrast ; M.E. Beckman, K.B. Cohen

Le contrôle de l’organisation temporelle du discours est une des questions les plus difficiles de la prosodie. En décomposant la mélodie en trois contributions indépendantes : accent lexical, accent de phrase et marquages des frontière, Bruce a montré comment le contraste entre Accent I et Accent II se relie à une différence dans la disposition temporelle d’événement tonaux partagés par les deux types d’accent. Ceci l’a conduit à un modèle phonologique des contours intonationnels du suédois comportant des prédictions précises, quantifiées et vérifiables. Le travail de Bruce a inspiré des modèles implémentables de systèmes intonationnels pour plusieurs autres langues.

Cet article traite d’un autre aspect important du contrôle de l’organisation temporelle du discours : modéliser comment les locuteurs produisent les événement rythmiques critiques du texte dans lequel ils alignent les événement tonaux. Nous examinons la disposition temporelle des consonnes et voyelles dans trois types de syllabes de l’anglais. Dans un mot trochaïque, nous comparons la première syllabe forte avec la seconde syllabe faible. Puis nous comparons la première syllabe forte quand le mot est accentué, à cette même syllabe quand l’accent frappe ailleurs dans la phrase. Ce second, plus fort, contraste de proéminence est marqué par des éléments tonaux analogues à l’accent de phrase suédois. Ainsi, la hiérarchie des proéminences rythmiques à ces deux niveaux est semblable à celle de Bruce 1977 qui rend compte des proéminences relatives entre accent de phrase et accent lexical en suédois. Pour reprendre des termes qui avaient cours en 1977, nous nous intéressons à la maîtrise des durées segmentales comme fonction du contraste accentuel (accent d’intensité) entre accent de mot et accent de phrase, soit les deux niveaux de [+/- heavy] et [+/- intonation] dans la typologie de Vanderlisce et Ladefogel 1972.

Nos données actuelles et notre modèle actuel suggèrent que l’allongement pour accentuation est plus subtil que l’allongement observé dans le contraste [a de pâte]

plein / [schwa] réduit. Les deux niveaux de contraste de proéminence peuvent être vus comme une « hyperarticulation localisée » qui accroît la clarté de la spécificaion lexicale en rendant plus périphérique une voyelle accentuée et en réduisant le recouvrement articulatoire entre elle et les consonnes voisines. Des tests sont poursuivis pour donner à ce modèle une validation plus étendue.

Les données soutiennent aussi l’idée que tout les allongements ne sont pas les mêmes. Pour les deux niveaux d’accent, le cycle de la mâchoire pour la voyelle est plus long dans la syllabe accentuée même quand les mouvements d’entrée dans la

(6)

accentuées. Nous avons montré que la syllabe la plus accentuée présente ausi la plus grande amplitude entre le minimum dans la voyelle et le maximum dans les deux plosives voisines. Toutefois, ceci fait de l’incidence sur la durée de la proéminence rythmique une chose nettement différente de l’allongement final de phrase.

7. Phrase-Level Phonology in Speech Production Planning: Evidence for the Role of Prosodic Structure ; S. Shattuck-Hufnagel

Un énoncé de plusieurs mots n’est pas la concaténation des formes de ces mots qui viendraient, brutes, d’une mémoire long terme. Deux phénomènes s’y opposent : la prosodie de phrase (intonation et phénomènes temporels) et la modification phonétique des mots en contexte (assimilation de trait, réduction segmentale). Ces phénomènes engagent la forme phonétique du mot mais aussi des structures de plus haut niveau. On a soutenu (Mohanan, Lehiste, Price, Klatt, Bresnan) que la syntaxe conditionnait la phonologie au niveau du syntnagme. C’est vrai en partie mais d’autres données soutiennent deux autres propositions :

D’abord, la structure syntaxique n’est qu’un des facteurs.

Ensuite, ces phénomènes dans leur ensemble se comprennent mieux en postulant des structures complémentaires : la hiérarchie des constituants prosodiques et des proéminences. Les constituants proposés sont : unité d’intonation, expression phonologique, expression accentuelle, groupe clitique, mot prosodique, pied rythmique, syllabe, more, etc. Les niveaux proposés de proéminence sont : accent de hauteur nucléaire, accent de hauteur prénucléaire, voyelle pleine non accentuée, voyelle réduite.

L’avantage des théories prosodiques, et des modèles de traitement qui en découlent, est qu’elles rendent compte de certains aspects des énoncés oraux mieux que les structures morphosyntaxiques classiques. Le cadre prosodique intègre plusieurs des facteurs qui déterminent la forme phonologique et phonétique d’un énoncé, et la structure morphosyntaxique d’une phrase n’en est qu’un parmi d’autres.

Cet article très équilibré, dense et accessible, est un panorama des questions posées par la prosodie et de ses acquis actuels. Il se termine en prédisant que les dix prochaines année nous donneront une théorie complète de la structure prosodique et il liste des questions actuellement ouvertes :

– Pour les modifications phonétiques, il faudrait pouvoir comparer les prédictions faites par la structure syntaxique de surface avec celles de la structure prosodique, dans les cas où ces prédictions sont les plus différentes. Dit plus simplement : il faudrait mieux comprendre le lien entre la structure prosodique et les autres facteurs.

(7)

– Les études montrent des différences frappantes entre locuteurs tant dans les structures prosodiques qu’ils emploient que dans les liens qu’ils font entre elles. Ces différences devraient être étudiées.

– Un autre champ d’étude serait les différences entre langues, dans leurs structures prosodiques et leurs mécanismes de traitement.

– Il faudrait enfin mieux comprendre la relation entre les différents facteurs de la structure prosodique elle-même : rythme, intonation, constituants qui influent sur les processus phonologiques.

8. The Interaction of Constraints on Prosodic Phrasing ; E. Selkirk

On s’accorde à penser que la structure prosodique d’une phrase influe grandement sur sa représentation phonologique et donc sur sa réalisation phonétique. Mais on n’est pas d’accord sur les relations entre la structure prosodique et les autres composants de la structure grammaticale. Certains (Selkirk, Nestor & Vogel, Chen, Inkelas & Zec) font prévaloir les contraintes syntaxiques sur les structures prosodiques, d’autres (Bruce, Beckman, Pierrehumbert) des contraintes procédant de structures informationnelles. Une bonne théorie doit reconnaître la variété des contraintes agissant sur la prosodie et rendre explicites leurs modes d’action.

Cet article réenvisage les contraintes jouant sur la prosodie dans les lignes de la théorie de l’optimalité et en montre le bénéfice. D’abord, avec des données sur la phonologie en contexte dans plusieurs langues bantoues il montre comment des patterns prosodiques différents de l’une à l’autre de ces langues s’analysent comme différentes hiérarchisations d’un même ensemble de contraintes qui sont postulées universelles. Ensuite, l’article avance une hypothèse sur une hiérarchie de contraintes prosodiques pour l’anglais.

9. Prosodic Boundary Detection ; M. Ostendorf

Dans toutes les langues, la constituance prosodique joue un rôle dans la perception : contribution au sens, désambiguation, etc. Elle est ce qui explique le mieux les « corrélats acoustiques » (pauses, patterns F0, allongements, etc.) par les suites de mots (structure syntaxique, structure sémantique, structure discursive).

Dans la synthèse de discours, il est avantageux d’intégrer la structure prosodique pour communiquer du sens. Il se peut même que le faire dans les traitements automatisés soit encore plus important que pour les hommes : en effet les ordinateurs ont une représentation sémantique et un modèle du monde qui sont moindres que ceux des hommes ce qui est une raison pour ne pas accroître l’ambiguïté des énoncés en les apauvrissant.

(8)

Dans la traduction automatique aussi, il y a des raisons d’inclure la prosodie. Par exemple, une langue peut coder l’emphase par un choix lexical quand une autre la code par une marque prosodique.

Cet article examine quelques méthodes pour identifier les groupes prosodiques et pour utiliser cette information dans des applications de traitement de la parole.

Si l’on accepte la hiérarchie de constituants, on distingue deux modèles computationnels. Pour les modèles de superposition (Hirose, Fujisaki, Kawai) la structure d’intonation résulte de la somme des contributions de différents niveaux.

Alors, reconnaître les limites d’unités intonationnelles demande la représentation de ces unités et envisage les patterns intonationnels à l’exclusion d’autres indices comme la durée. Pour les théories de type suite linéaire (Bruce, Pierrehumbertn Beckman) au contraire, une expression est vue comme une suite d’événements, assortis d’indices acoustiques, et situés dans le temps. Ces deux classes de modèles fixent les deux grandes classes de méthodes pour la détection d’unités intonationnelles. Le choix d’un algorithme dépend de l’application cible et de la ressource de calcul consentie.

Questions ouvertes. Pour augmenter son utilité, la détection d’unités prosodique doit gagner le discours spontané (jusqu’ici on ne traite que le texte lu), ce qui demandera au moins un aménagement des algorithmes. De plus, il faut étudier les réactions mutuelles entre structure prosodique et structure discursive.

10. Timing in Speech: A Multi-Level Process ; N. Campbell

Cet article montre comment utiliser les régularités temporelles pour la compréhension et pour la production de discours par les ordinateurs. La variation temporelle fournit des indices qui contribuent à l’interprétation du sens en marquant dans un énoncé des frontières et des proéminences. Ils définissent des éléments de discours et montrent les relations de focus entre eux.

Le point clé de cet article est une vision statistique : plus que la durée d’un segment, ce qui est intéressant est son allongement : écart entre sa durée observée et la durée moyenne de segments similaires. Les durées brutes seules ne sont pas significatives. L’article envisage les types de facteurs qui affectent les durées segmentales. Il montre comment éliminer par filtrage les effets prévisibles pour laisser paraître les effets de second ordre qu’ils masquaient. La base théorique est un modèle du temps discursif à plusieurs palliers, qui intègre les caractéristiques de durée « inhérentes », physiologiquement motivées, en une structure prosodique au niveau de la syllabe, cognitivement motivée.

Les données portent sur l’anglais et le japonais. Le modèle proposé contient un

« backstep » qui permet à des différences de composition segmentale d’exercer une influence « bottom-up » tout en restreignant le nombre des facteurs de prédiction qui agissent sur la syllabe. Le même modèle est opérant en synthèse et en analyse.

(9)

Les différences sont plus importantes entre différents styles de discours qu’entre différents locuteurs. Est rencontré un dilemme souplesse-régularité : on n’atteint de bonnes corrélations qu’avec des données contraintes ; pour traiter divers styles et divers locuteurs, il faut relâcher certaines variables préserver la régularité sur d’autres.

11. A Corpus-Based Approach to the Study of Speaking Style ; J. Hirschberg Etudier les styles oraux au moyen de corpus c’est, à partir de l’observation de différences selon les conditions ou situations d’énonciation, inférer des différences de « style » perceptuellement saillantes. On s’efforce de caractériser les traits qui distinguent des styles tels que « spontané », « planifié », « de conversation »,

« formel ». Pour cela, on recherche dans des corpus les différences systématiques de choix lexicaux, de constructions syntaxiques, de phénomènes acoustiques ou prosodiques.

La notion de style oral a été reconnue nébuleuse et on a proposé (Eskanazi, Barry) de caractériser les styles de discours selon de multiples dimensions, sans toutefois parvenir à définir un ensemble idéal de variables. Dans cette étude, les dimensions retenues sont : locuteur, receveur, dimensions situationnelles. De même les variables conséquentes, acoustiques et linguistiques, sont un sujet de débat. Les suivantes ont été étudiées : qualité de voix, production segmentale (réduction ou hyper-articulation), présence ou non de disfluences discursives, timing, proéminence accentuelle, contour intonationnel, intervalles de hauteur.

Cet article porte sur les disfluences discursives, la densité discursive (speech rate), les durées de pause, le contour intonationnel et l’intervalle de hauteur comme prédicteurs du type de discours .

Extrait des conclusions. Le discours lu est plus rapide que le discours spontané.

Entre discours lu et discours spontané, les contours intonationnels sont différents, au moins pour certains types de phrases. L’idée qu’à un certain type de phrase est associé un certain contour intonationnel est contredite par une étude portant sur les questions oui-non. De même, pour des phrases déclaratives, l’intonation finale baisse systématiquement (93 %) quand elles sont lues mais peut monter (30 %) dans le discours spontané.

Références

Documents relatifs

Les res- sources que détient une SCR et qui intéres- sent ses partenaires sont, d’une part, les informations privées concernant les start- up dont elle a financé le premier tour

H1 : Si la réduction des coûts et l’améliora- tion du service au consommateur sont consi- dérées comme ayant joué un rôle détermi- nant pour le management de la chaîne logis-

Le regain d’intérêt pour l’utilisation des corpus et des statistiques en linguistique a lieu dans un contexte où l’on observe de nouvelles formes d’interaction entre

– Hektoen (« Probabilistic parse selection based on semantic cooccurrences ») présente une méthode (Semco) qui introduit des informations sémantiques dans le parsing (fréquences

Cette thèse s’insère dans le projet Prolex, mené au Laboratoire d’informatique de l’Université de Tours, de création de ressources et de traitement automatique des noms

Un dialogue entre êtres humains peut faire intervenir des processus plus ou moins complexes suivant le nombre de participants qu’il implique et la relation de pouvoir qui les

(Dans le cas de CFG avec des poids associés aux règles, on peut obtenir un AEF pondéré équivalent.) La grammaire obtenue contient au moins un nouveau non-terminal pour tout

Une distinction de sens se distingue d’une relation d’hyperonymie qui relie un terme générique à un terme plus spécifique dans la mesure le mot ou l’expression polysémique