• Aucun résultat trouvé

2.7 Autres paramètres acoustiques

Beaucoup d’autres paramètres acoustiques ont été développés afin, le plus souvent, de compléter les paramètres existants. La plupart d’entre eux ne sont pas suffisant, lorsqu’ils sont utilisés seuls, pour créer des modèles acoustiques performants. Ainsi, dans Vaseghi et al. (1997), l’utilisation de caractéristiques modélisant les segments phonétiques de la parole avec des paramètres spectro-temporels multi-résolution est proposée. Ces paramètres de corrélation dé-crivent la trajectoire de la parole sur la durée d’une unité phonétique.

L’ajout de paramètres apportant de l’information différente a été considéré.

Une caractéristique prosodique (le voisement) utilisée conjointement aux para-mètres LPCC fournie une amélioration significative des résultats (Thomson et Chengalvarayan,1998). Le paramètre de voisement est dérivé du signal tempo-rel sous deux formes différentes : la périodicité (structure périodique du signal) et le jitter (petites fluctuations des cycles de la glotte). Des paramètres acous-tiques représentant le voisement ont également été proposés dansZolnay et al.

(2002). Ces paramètres sont fondés sur l’analyse de la largeur et de la longueur des pics du spectre harmonique du signal de parole.

DansKamal Omar et Hasegawa-Jonhson(2002), plusieurs aspects du signal de parole sont considérés afin d’être sélectionnés pour former un nouveau vec-teur d’observations. Ces caractéristiques comprennent : le voisement (voisé, non voisé, silence), la manière d’articulation (voyelle, nasale, fricative, stop, glide, si-lence), la position d’articulation (avant, latérale, basse, haute, arrière, ...) et la du-rée (tendue/strident, relachée/non strident, réduite/agitée). Elles sont toutes issues des traits distinctifs donnés parStevens(1998). Ces traits phonologiques Xsont sélectionnés selon un critère d’information mutuelle maximum avec les paramètres acoustiquesY(MFCC ou PLP) défini comme suit :

I(X,Y) = Z N

i

=1

P(y|xi)logP(y|xi)

P(y) dy (2.15)

oùNcorrespond à la taille du vecteur de traits phonologiques,xià laièmevaleur de ce vecteur.P(xi)est calculée en utilisant le corpus d’entraînement etP(y|xi) est modélisée par une fonction de densité de probabilité dans un GMM.

D’autres techniques modifient le protocole de calcul de paramètres stan-dards afin d’améliorer les paramètres. Dans Pujol et al. (2005), une technique de filtrage de fréquences a été employée pour décorréler les paramètres MFCC.

Ce jeu de paramètres a montré de bonnes performances, seul ou en combi-naison dans un système multi-flux avec les paramètres J-RASTAPLP, pour di-verses tâches de reconnaissance plus ou moins bruitées. DansHariharan et al.

(2001), une approche multi-résolution et multi-bandes permet d’obtenir des pa-ramètres acoustiques plus robustes au bruit.

Comme on peut le constater, ces autres paramètres prennent en compte des caractéristiques du signal de parole issues non pas du traitement du signal, mais surtout de contextes articulatoires ou prosodiques.

2.8 Conclusion

Dans ce chapitre, différentes manières d’extraire des paramètres acoustiques pertinents pour la reconnaissance de la parole ont été décrites. Ces techniques sont fondées sur des analyses du signal différentes comme l’analyse en onde-lettes, l’analyse spectrale où la transformation des probabilitésa posterioriissues d’un réseau de neurones. Le traitement RASTA peut être intégré à une analyse (le plus souvent PLP) pour augmenter la robustesse des paramètres au bruit.

Ces paramètres peuvent être complétés par d’autres traits caractéristiques qui capturent une information différente (tel que le voisement).

Le fait que les paramètres acoustiques soient calculés de manières très dif-férentes ne nous assure pas de la complémentarité des hypothèses que le dé-codeur permet de générer. Aussi, il est nécessaire d’analyser les forces et les faiblesses de chacun des jeux de paramètres et de comparer leurs performances en terme de reconnaissance. L’objectif de ces analyses est d’identifier les points forts de chacun pour les exploiter lorsqu’ils seront combinés (voir chapitre3).

Deuxième partie

Combinaison de systèmes de RAP

Chapitre 3

Contexte d’étude et état de l’art

Sommaire

3.1 Combinaison de paramètres acoustiques . . . 57 3.1.1 Utilisation des dérivées premières et secondes . . . 58 3.1.2 Augmentation du vecteur de paramètres . . . 58 3.1.3 Concaténation de jeux de paramètres . . . 59 3.1.4 Réduction du nombre de paramètres. . . 60 3.2 Combinaison de probabilités . . . 62 3.2.1 Synchronisme des observations acoustiques . . . 62 3.2.2 Estimation des probabilités . . . 64 3.2.3 Génération de modèles différents. . . 66 3.2.4 Stratégies de combinaison . . . 67 3.3 Systèmes multi-bandes . . . 70 3.4 Combinaison d’hypothèses de reconnaissance . . . 72 3.4.1 Vote majoritaire pondéré : ROVER . . . 73 3.4.2 Les réseaux de confusion : CNC . . . 74 3.4.3 Combinaison bayésienne : BAYCOM. . . 74 3.4.4 Autres méthodes . . . 75 3.5 Mesures de confiance . . . 76 3.6 Conclusion . . . 78

Les systèmes de reconnaissance automatique de la parole commettent des erreurs qui limitent le potentiel de leurs applications (Sarikaya et al., 2005).

Les causes de ces erreurs sont multiples. D’une part, les modèles acoustiques sont construits de manière à minimiser globalement le WER sur tout l’espace acoustique. De ce fait, ils ne modélisent pas parfaitement la totalité de l’espace acoustique. En effet, certains paramètres peuvent souffrir du manque de don-nées et être mal estimés. Ces imperfections présentes dans certaines zones mal modélisées peuvent aboutir à l’échec de la reconnaissance. D’autre part, les pa-ramètres acoustiques obtenus par une analyse du signal de parole sont extraits de manière à mettre l’accent sur certaines caractéristiques du signal de parole.

Il en résulte une perte d’information due au fait que les paramètres sont limités quant à l’extraction de l’information contenue dans le signal.

Dans le but d’accroître la robustesse des systèmes, il a été proposé de com-biner plusieurs systèmes de reconnaissance différents afin de profiter de leur éventuelle complémentarité. En observant les différents constituants d’un sys-tème de reconnaissance, il apparaît 3 niveaux principaux dans lesquels on peut combiner différents systèmes.

En premier lieu, on peut travailler au niveau des paramètres acoustiques et effectuer une fusion précoce. L’hypothèse que certaines caractéristiques du signal de parole sont accentuées par certains jeux de paramètres et ignorées par d’autres motive l’idée de vouloir combiner ces flux d’observations acoustiques.

Ces méthodes sont passées en revue dans la section3.1.

Une autre manière de procéder consiste à combiner les probabilités obtenues avec des modèles acoustiques différents, comme décrit dans la section 3.2, on parlera alors de fusion intermédiaire.

L’ensemble des approches consistant à combiner plusieurs jeux de para-mètres ou plusieurs distributions de probabilité issues de modèles utilisant des paramètres acoustiques différents est regroupé sous le nom d’approche multi-flux (multi-stream). Un exemple particulier de système multi-multi-flux est le système multi-bandes (voir section3.3).

La combinaison peut aussi se faire après le décodage (fusion tardive), on parlera alors de combinaison post-décodage. Des méthodes utilisant le graphe d’hypothèses entier ou les N-meilleures hypothèses issues de différents sys-tèmes sont présentées en section3.4.

Mais la combinaison de systèmes ne s’arrête pas là. À chaque niveau, de nombreuses stratégies peuvent être mises en œuvre lors de la combinaison. On peut notamment envisager l’introduction de mesures de confiance afin d’ex-ploiter au mieux les performances locales de chaque système. Un aperçu des différents moyens pour estimer la confiance des hypothèses d’un reconnaisseur