DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO-TRAITS ET TRAITS

(1)

HAL Id: jpa-00230395

https://hal.archives-ouvertes.fr/jpa-00230395

Submitted on 1 Jan 1990

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO-TRAITS ET TRAITS

H. Tattegrain, J. Caelen

To cite this version:

H. Tattegrain, J. Caelen. DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO- TRAITS ET TRAITS. Journal de Physique Colloques, 1990, 51 (C2), pp.C2-487-C2-490.

�10.1051/jphyscol:19902114�. �jpa-00230395�

(2)

COLLOQUE DE PHYSIQUE

Colloque C2, supplément au n°2, Tome 51, Février 1990 C2-f87 1er Congrès Français d'Acoustique 1990

DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO-TRAITS ET TRAITS H. TATTEGRAIN et J. CAELEN

Institut de la Communication Parlée,

INP-ENSERG.

Université Stendhal, Vnité Associée au CNRS n° 368, 46 Avenue Félix Viallet, F-38031

Grenoble Cedex, France RESUME:

Ce papier décrit l'avancement de notre système de DAP (Décodage Acoustico-Phonétique) et l'évaluation des résultats acquis depuis les articles déjà présentés [1][2]. Ce module est inclus dans un projet plus vaste de reconnaissance multi-expeit DIRA (Dialogue Intégré et Reconnaissance Automatique) - où chaque expert (expert lexical, expert syntaxico-sémantique, expert de compréhension, expert de décodage acoustico-phonétique) est piloté par un superviseur général - et il est composé de deux parties : ascendante et descendante.

Cet article présente rapidement la paramétrisation du signal (fondamental, énergie, modèle d'oreille, indices acoustiques dérivés de ce modèle ...) et la segmentation du signal employée, puis plus en détail l'architecture générale du DAP ainsi que le formalisme et le type de connaissances utilisées. Les résultats après la phase de filtrage des résultats de localisation, nous montre les avantages de ce formalisme et les erreurs qu'il reste à corriger à l'issue de cette phase, ce qui indique le rôle prépondérant de la partie descendante du DAP et le type de règles la composant (phonologiques, contextuelle...).

ABSTRACT

This paper describes the progress of our APD (Acoustic Phonetic Decoding) module as well as the evaluation of the results obtained since the presentation of the articles [1] and [2]. This module is incorporated in the continuous speech recognition multi-expert system DIRA (Integrated Dialogue and Automatic Recognition), in which each expert module (lexical analyzer, syntactic/semantic analyzer, comprehensive analyzer and acoustic phonetic decoder) is guided by a general supervisor. Furthermore, it is composed of two distinctive steps: a bottom-up and a top-down steps.

The following text briefly describes (a) the signal parametrization (pitch, energy, ear-model, acoustic cues, etc..) as well the signal segmentation applied and (b) in more details the system architecture of the APD module and (c) the formalisms and (d) knowledge types used. The results obtained after filtering (correction of erroneous localizations) phase will be used to demonstrate the advantages of those formalisms and type of localization errors that rest to be resolved. They will also demonstrate the importance of the top-down APD module.

INTRODUCTION

L1CP développe depuis deux ans vin système multi-experts de reconnaissance de la Parole, DIRA, Dialogue Intégré et Reconnaissance Automatique. Nous décrivons dans le présent article, le module décodage acoustico-phonétique (DAP) et son implémentation. Nous ne nous intéresserons pas ici aux rapports du DAP avec les autres experts, rappelons seulement que dans DIRA les différents modules communiquent entre eux via un blackboard et qu'ils sont activés par le superviseur qui gère les modes d'appel en fonction des résultats acquis par les différents experts. Nous décrivons essentiellement ici l'organisation des connaissances dans notre système de DAP et des résultats obtenus.

Nous avons préféré une approche de système-expert aux approches de réseaux Markoviens qui demandent un apprentissage bien plus important et qui ne permettent pas d'expliquer les résultats obtenus en termes de connaissances phonétiques. Nous espérons obtenir au moins les 70% de taux de reconnaissance qui semblent indispensables [3] pour la viabilité des niveaux linguistiques.

T. DESCRIPTION DU SYSTEME 1.1 Paramétrisation du signal de parole

Le volume des informations traitées est réduit en paramétrisant le signal de parole, le problème étant de ne pas enlever trop d'informations pertinentes dans cette opération, ce qui pourrait nous conduire à mal reconnaître ce qui a été prononcé.

Nous calculons d'abords, trame par trame, les paramètres suivants:

- l'énergie

- la fréquence fondamentale obtenue par méthode AMDF améliorée par un suivi dynamique [4]

- les énergies sur 24 canaux obtenus par un modèle d'oreille [5]

Ce modèle d'oreille peut se résumer de la façon suivante : le signal est préaccentué puis passe dans un banc de filtres couplés (bandes critiques de Zwicker), chaque filtre étant couplé sur les entrées de ses deux filtres voisins. Ils couvrent la bande de fréquences de 50 à 6000 Hz.

Ils sont centrés sur les 24 fréquences suivantes : 180,215,260,320,380,450,540,650,760,880,1000,1130,1340,1550,1790,2060,2350,2700, 3100,3550,4000,4500,5000, 5600 Hz. Ce modèle permet de fournir un spectre robuste grâce à un effet de masque temporel et fréquentiel.

-les trois premiers formants et le premier formant nasal obtenus par la méthode des chaînes deMarkov [6]

- 6 indices calculés à partir des 24 canaux du modèle d'oreille calculés sur la trame courante.[7]

Aigu /Grave, Fermé/Ouvert, Doux/Strident, Bémolisé/Diésé, Ecarté/Compact, Continu/Discontinu. Ces indices sont des combinaisons linéaires des 24 canaux. Ils sont codés sur cinq valeurs 0 + ++, ces valeurs sont comprises entre des bornes qui peuvent varier selon le locuteur.

- la densité de passage par zéro du signal et de la dérivée du signal sur la trame.

Une segmentation en phones homogènes est alors obtenue en concaténant des trames comprises entre deux discontinuités d'une fonction calculée sur les six indices et l'énergie [8], et nous calculons sur les phones deux nouvelles séries de paramètres :

- la moyenne des indices sur le phone.

- des Delta indices, créés en faisant la différence entre les moyennes de l'indice correspondant entre deux phones successifs. Les Delta indices sont codés de la même façon que les indices.

Ces choix n'empêchent pas de créer d'autres paramètres si la nécessité s'en fait sentir. En effet, le signal est stocké et nous pouvons le

Article published online by EDP Sciences and available at http://dx.doi.org/10.1051/jphyscol:19902114

(3)

CZ-488 COLLOQUE DE PHYSIQUE

rechercher quand nous le désirons pour faire des mesures complémentaires. Par exemple, nous mesurons sur le signal le VOT (Voice Onset T i e ) , durée comprise entre l'explosion d'une occlusive et le début du phonème suivant. Ce genre de paramètre n'est utile que dans très peu de cas, seulement lorsque le réseau des occlusives a pu être "mapfl sur le signal d'entrée. C'est pour cela que nous ne le calculons pas systématiquement.

L2 Stratéeie de decodaee

Le module de reconnaissance que nous allons décrue ici est implanté sur Micro VAX en Prolog II 11 est composé de deux grandes parries : l'une ascendante, l'autre descendante.

La partie ascendante est elle-même dhmposée en trois phases:

- h localisation des phonèmes sans contexte, qui positionne sur le signal cinq types de sons différents ( fricatifs, occlusifs sourds.

consonnes voisées, voyelles et pauses) à l'aide de connaissances acoustiques et phonétiques. formalisées dans des réseaux ATN (Augmented Transition Network) dont chaque noeud décrit une phase awustique.

- le filtrage des solutions trouvées lors de la phase précédente, qui utilise les contraintes phonotactiques et supprime les erreurs systématiques.

- l'étiquetage en traits fins sur les phases acoustiques significatives des solutions retenues. Cet étiquetage de naits peut être réalisé par diverses méthodes (quantification vectorielle, bayésienne. sous-réseaux markoviens ...). Dans un premier temps, une méthode de quantification vectorielle a été utilisée.

La partie descendante est décomposée en trois phases:

- l'interprétation des requêtes provenant du superviseur de DJXA qui choisit le type de règles à utiliser soit qu'iI s'agisse d'une vérification de traits soit qu'il s'agisse d'une vérification de localisation de macro-classe sur le signal.

-

le module qui vérife la présence de traits f i sur une partie de signal déjà d é f ~ e à l'aide de règles contextueIles et pouvant faire a w l des méthodes de toute nature.

- le module qui vérifie la localisation, guidé par des connaissances incluses dans les réseaux phonétiques et dkrites par des règles acoustiques.

. . . ^,

\ 4 Parlieexteme au DAI' macro-classes

\..h

+

mouvement de donnk et informations

+

Bchanges de messages (mmmandes. confirmations. etc)

Fig. 1 Schéma général de la shucture du décodeur acoustico-phonétique.

Nous allons, dans la suite de cet d c l e , décrie en détail la partie ascendante.

L2.1 Localisation sans contexte

Cetle première étape utilise des réseaux phonétiques comme l'exemple suivant le montre.

Il

décrit toutes les combinaisons possibles d'enchaînements de phases acoustiques permettant d'inferer que le signal analysé correspond par exemple à une occlusive. Chaque noeud représente une phase acoustique. Cene dernière est identifiée au moyen d'un ensemble de conditions portant sur les paramètres et sur les différentes phases pouvant la précéder et celles pouvant lui succéder. Nous avons ici six phases possibles: implosion pst-vocalique (descente d'énergie de la voyelle avant l'occlusive), implosion pst-fricative (descente d'énergie de la fricative avant l'occlusive), occlusion totale (silence caractérisant les occlusives), occlusion parrielle (occlusion totale mal réalisée), burst (explosion d'énergie à la fur de l'occlusion) et détente (saut d'énergie correspondant au début de la voyelle suivante si elle existe).

Nous voyons donc que le nombre de possibilités différentes de prononcer une occlusive est très important et que le fait de pouvoir formuler les connaissances sous forme de réseau est très efficace pour l'expert. En fait, il lui suffit dc spécifier la syntaxe des phases acoustiques selon laquelle un phonème se réalise. Notons aussi que ce formalisme est bien adapté un apprentissage automatique à partir d'une base de données.

Ii existe 5 réseaux de ce type : -

Q

= occlusives sourdes - F = fricatives sourdes et sonores - C = consonnes (occlusives voisées, fricatives voisées, nasales, liquides, semi-voyelles) - V = voyelles et semi-voyelles

-

P =pauses

(4)

Chaque réseau est donc associé à une macro-classe, avec des recoupements possibles (une fricative voisée peut ainsi être localisée indifféremment dans le réseau "fricative" ou dans le réseau "consonne". une semi-voyelle dans le réseau "consonne" ou "voyelle"). En résumé, le réseau "consonnes" décrit les consonnes liquides et nasales, les occlusives voisées, les fricatives sonores et les semi-voyelles. Celui des

"voyelles" décrit les voyelles et les semi-voyelles. La localisation se fait sans contexte, c'est à dire que nous examinons les règles en mettant dans les variables "contexte suivant" et "contexte précédent" la valeur "inconnue". Toutes les conditions sur ces deux variables seront donc toujours réalisées.

0 1

Fig.2 Réseau phonétique des occlusives sourdes

Les conditions permettant d'accédèr à un noeud sont formées de conditions sur les paramètres décrits plus haut et de conditions de durée.

Elles sont formalisées par des règles de production. Prolog est particulièrement bien adapté pour parcourir un réseau. En effet le moteur d'inférence de Prolog gère lui-même les retours anières en cas d'échec d'une règle, donc il explore tous les chemins possibles dans les réseaux.

Si les conditions décrites ci-dessus ne sont pas vkifiées, il retourne au noeud précédent de manière rkinsive et évennieiiement jusqu'au noeud de départ éven~eiiement

Les résultats de cette phase sont mis sous forme de règles Prolog et écrits dans un monde "résultats". On écrit le code de la macro-classe détectée Q,F,C.V.P, sa localisation, la liste des différentes phases parcourues pour obtenir cette solution, l'état des contextes correspondants et la note obtenue. Dans ce cas, Prolog nous permet de créer une base de données contenant tous les résultats. ce qui produit une base de travail pour la phase de fdtrage des solutions.

1.2.2 Filtraee des solutions w u urobables

La deuxième phase de la stratégie ascendante consiste à filtrer les résultats obtenus par la précédente, c'est-à-dire la localisation sans wntexte. ii existe deux types de règles de filtrage:

-

^Lesrègles de vérification de la cohérence entre les résultats et les listes de contextes.

-Les règles de suppression des solutions doubles ou aberrantes.

Vérification de la cohérence entre les résultats et les listes de contextes

Comme nous l'avons décrit plus hauf le processus de localisation considère que toutes les conditions sur les contextes précédents et sur les suivants sont toujours vérifiées.

Dans ce filtrage nous devons donc commencer par vérifier la cohérence des résultats à ce niveau : nous avons deux listes, qui correspondent aux macro-classes qui ont été IeCOMUes de part et d'autres de la solution que nous allons vérifier. Il nous suffit donc de mettre en correspondance les listes et les résultats pour éliminer les plus improbables.

S u ~ ~ r i m e r les solutions doubles ou aberrantes.

Il

arrive que certains réseaux se concurrencent systématiquement dans certains cas. Par exemple, le réseau "pause" obtient toujours un bon score lorsque le réseau "occlusive" est possible. Nous pouvons donc écrire une règle qui aurait l'action suivante:

Si l'association du réseau "pause" avec la portion de signal étudiée. est réussie mais que la phase de silence "SI" dans ce réseau est trop courte et que le réseau "occlusive" est associé au même endroit alors supprimer le réseau "pause".

Une fois que l'ensemble de ces règles est écrit, Prolog examine

tous

les résultats de la phase de localisation grâce à son moteur d'inférence, en cherchant à réduire, par filtrage ou uniîïcati~n, le nombre de résultat produits.

1.2.3 Etiauetaee de traits acoustiaues :

Cette étape peut être faite soit à l'aide de méthodes statistiques, soit à l'aide des indices acoustiques. Elle utilise des méthodes de reconnaissance de forme classiques en idenacation (distance, décision bayésienne, etc...). Pour Siinstant, nous avons posé des traits à l'aide d'une quantification vectorielle des 20 coefficients cepsiraux sur un locuteur.

II. RESULTATS

p.1

Matrice derobustesse de la ~rem*e phase de localisation sans wntexte

Nous avons obtenu pour la phase de localisation sans contese, les résultats suivants sur les phrases phonétiquement équilibrées de deux locuteurs, un homme (50 phrases) et une femme (40 phrases).

(5)

C2-490 COLLOQUE DE PHYSIQUE

Tableau 1 : Pourcentage de b m e détection (détections avec recouvrement superieur à 50%) et coefficient de robustesse: somme des phonèmes détectés par le ton réseau ou appmenant à un trou de

ocalisation (endroit où le ohonème étiaueté n'a uas ou êlre associé à un des ~ésuliars'du DAP avec'un

couvrem ment

supke;rà 50% cc qui

mettra

d'appliquer des kgles du,DAP drscenQnt).

taux de recaivremcnt est calcule de la façon suivante:

Occlusivessourdes Occlusivessonores Fricativessouides Fricatives Sonores Consonnesliquides Consonnernades Semi-voyelles Voyelles Pauses

Z* localisari& de la sohtion trouvée Z localisation du phonème &que16 Si il n' a pas de recou-ment enw le honeme étiqueté ei le résultat alon

Si Ic irnilrat est inclus dans phoneme etiquele taux=100%.

Femme

Ces résultats montrent que la phase de localisation donne de très bons résultats car dans la plupart des cas, soit la macro-classe est reconnue, soit il n'y a pas d'autres réseau que celui attendu, associé au phonème étudie. Les p ~ c i p a l e s erreurs viennent des cawnnes liquides car elle sont très déformées par leurs contextes, de plus les nasales induisent aussi beaucoup d'erreurs car elles sont pour certains locuteurs très énergétiques.

Homme

II.2 Comparaison entre les matrices de recouvrement des phases de localisation et de filtraae

De manière plus détaillée, et en appliquant le critère suivant. on peut dresser une matrice de confusion systématique pour chaque phone à reconnaître. Le premier critère permet de savoir si une solution correcte fait partie des hypothèses émises à l'endroit où nous l'attendons, même si cette solution correspond à un segment trop court. Par contre le critère suivant, plus contraignant, examine si la durée de ce segment est suffisante. Nous avons cherché, pour chaque phonème étiqueté. si le (ou les) réseau(x) correspondant(s) a bien été "mappé" au même endroit avec un taux de recouvrement supérieur à 50%.

Le taux de recouvrement est calculé de la façon suivante: _Z,localisation de la solution nouvée

Coeff. iob.

95% 98%

94%

96% 55%

90% 100%

97% 100%

DCtsçtti

95% 94%

94%

%% 47%

85% 94%

96%

99%

Détecl&

92%

97% 98%

93% 65%

86%

924 90%

100%

I

^Z* ^Zlocalisation du phonàne étiqueté

Z

I

= longueur(Z Z*) Si il n'y a pas de recouvrement ^entrele phonème étiqueté et

)

^{Z ~ Z *} longueur@) ^lerésuitat alors taux=O%. Si le résultat est inclus dans le phonème étiqueté raux=100%.

Non dé<

0% 4%

0%

0% 8%

5%

6% 1%

1%

APRES LA LOCALISATION SANS CONEXTE APRES LE FILTRAGE

Non d&

1% 0%

0%

2% 7%

1% 5%

2% 0%

Tableau 2 : Matrice de recouvrement sur le locuteur masculin sur les 50 phrases phonétiquement équilibrées de la base de données BDSON, après laphare & localisafion et après celle defiltrage.

Nous voyons que la phase de filtrage des solutions trouvées par la localisation, remplit bien son rôle car elle supprime la plupart des solutions non correctes lorsque l'on a plusieurs solutions pour une même portion de signal. Par exemple, lors du passage des réseaux "pause"

et "occlusives sourdes", nous gardons les bonnes solutions.

Coeff. rob.

93% 97%

984 95%

7 2 5 87% 97%

929~

100%

CONCLUSION

Nous avons présenté la partie ascendante du décodage acoustico-phonétique. et les résultats de la première phase de localisation sans contexte et celle de filtrage. Ce système donne des résultats très prometteurs pour la suite de ce travail. La structure a été modifiée en cours de réalisation pour arriver à la smcture générale présentée. En effet, nous avons fait un compromis entre localisation sans contexte lors d'un premier passage pour remonter des informations robustes et filtrage des solutions grâce aux contextes et grâce à une connaissance des erreurs les plus fréquentes et des choix à faire lors de multiples solutions.

Dans un souci d'optimisation de temps de calcul, nous avons jugé préférable de séparer les phases de traitement de "localisation" et de

"reconnaissance des traits", en réalisant une bonne localisation des macro-classes avec des règles multi-locuteurs dont seuls quelques seuils changent. avant de poser des traits discriminant les sons d'une même macro-classe entre eux. En effet cette pose de traits sera variable d'un locuteur à l'autre et il ne sert à rien de poser des traits sur des solutions que nous ne retiendrons pas. Les principales sources d'erreur viennent des consonnes liquides, ce qui n'est pas très étonnant vu leur variabilité en fonction du contexte. Les consonnes nasales ont un score relativement bas car le /ml est souvent pris pour une voyelle, par contre lem/ est bien détecté comme consonne. Ces résultats montrent que le comporiernent de nos réseaux est assez bon, étant donné les connaissances priori que nous avons sur le signal. De plus. l'étude des résultats nous montre que les phases acoustiques trouvées par le système de reconnaissance sont bien localisées sur le signal. Ce genre d'erreur sera [l]"Le décodeur acoustico-phonétique DIRA-DAP J. Caelen, pris

-

en compte dans la partie descendante de DAP car elles dépendent énormément des contextes. H. Tanegrain, 1988, Actes 17ième EP,Nancy. pp115-121

[2]"Phonetic UN1 Localization in a Multi-Expert Recognition System" H. Tattegrain, J. Caelen. 1989 Actes du Congrés lirospeech 89. Paris [3ImReview of ihe ARPA Speech understanding Project" KLATP D H, 1977,J. AcousL Soc. Am. yo1.62, N06, pp. 1345-1366

[4]"Détection du fondamental par traitement AMDF et programmation dynamique" BAILLY G 15lemes JEP, SFA. pp. 213-216

[51"Un modèle d ' d e : Analyse de la pamle continue. Reconnaissance phonémique" CAELEN J. 1979, 7hése de docteur d'état, Université Paul Sabatier de Touiouse, tome 1

[6]"Détection d'indices par quantification vectorielle et réseaux Markoviens" BAILLY G. 1986. 16iemes JEP, SFA, pp. 60-63

[7]"Indices et propriétés dans le projet ARIAL II" CAELEN J et CAELEN-HAUMONT G.1981. Séminaire "Processus d'encodage et de décodage phonétique" GALF-CNRS. à Toulouse, pp. 128 -143

[81"Segmentation en vue de l'organisation d'une base de données acoustiques et phonétiques' VIGOUROUX N et CAELEN J 1985. ldèmes JEP, SFA, pp. 152-155

DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO-TRAITS ET TRAITS

HAL Id: jpa-00230395

https://hal.archives-ouvertes.fr/jpa-00230395

Submitted on 1 Jan 1990

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO-TRAITS ET TRAITS

H. Tattegrain, J. Caelen

To cite this version:

H. Tattegrain, J. Caelen. DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO- TRAITS ET TRAITS. Journal de Physique Colloques, 1990, 51 (C2), pp.C2-487-C2-490.

�10.1051/jphyscol:19902114�. �jpa-00230395�

COLLOQUE DE PHYSIQUE

Colloque C2, supplément au n°2, Tome 51, Février 1990 C2-f87 1er Congrès Français d'Acoustique 1990

DÉCODAGE ACOUSTICO-PHONÉTIQUE EN MACRO-TRAITS ET TRAITS H. TATTEGRAIN et J. CAELEN

Institut de la Communication Parlée,

Université Stendhal, Vnité Associée au CNRS n° 368, 46 Avenue Félix Viallet, F-38031

Grenoble Cedex, France RESUME:

-

. . . ,

+

+

Il

Q

-

-

Il

tous

p.1

couvrem ment

mettra

I

I

)

CONCLUSION

-

. . . ^,