Combinaison d’hypothèses de reconnaissance

La combinaison d’hypothèses de reconnaissance est faite sur le treillis de mots ou les N-meilleures hypothèses obtenues après le décodage du système de reconnaissance automatique de la parole. Le principe de la combinaison

Extracteur

FIG.3.6:La combinaison d’hypothèses de reconnaissance.

2L’harmonicité est une mesure indiquant que les harmoniques (fréquences de résonance) sont rigoureusement des multiples entiers de la fréquence fondamentale.

3.4. Combinaison d’hypothèses de reconnaissance

post-décodage est de considérer et comparer les différentes hypothèses géné-rées par plusieurs systèmes de reconnaissance afin de constituer une nouvelle hypothèse. De nombreuses techniques peuvent être employées pour combiner, comme la comparaison des probabilitésa posteriorides mots ou l’utilisation de mesures de confiance. Un ensemble non exhaustif est présenté dans les sous-sections suivantes.

3.4.1 Vote majoritaire pondéré : ROVER

DansFiscus(1997), un système de combinaison d’hypothèses de phrase est présenté : Recognizer Output Voting Error Reduction(ROVER). Les hypothèses

Système 1

Système 2

Système I

Module d'alignement

Module de vote

Hypothèse Finale

FIG.3.7:Combinaison par vote majoritaire pondéré : ROVER (Fiscus,1997)

sont d’abord alignées par programmation dynamique afin d’obtenir un réseau qui sera ensuite soumis au vote majoritaire pondéré. Pour ce faire, les sorties de plusieurs systèmes de reconnaissance sont combinées en un seul réseau de mots de coût minimal (voir equation3.19) en appliquant itérativement des ali-gnements par programmation dynamique. Le réseau obtenu est parcouru par un processus de vote majoritaire pondéré qui sélectionne la séquence de sortie de coût minimal.

Les scores d’évaluation sont divers mais tous basés sur une même formule générale :

Score(w) = α(N(w,i)/Ns) + (1−α)C(w,i) (3.19) avecN(w,i)le nombre d’occurrences du motwdans l’ensemblei, Nsle nombre de systèmes, C(w,i) le score de confiance associé au motw, etαun poids permet-tant de faire le compromis entre la fréquence du mot et le score de confiance.

Fiscus(1997) propose trois schémas de combinaison :

– La fréquence d’apparition : c’est le vote majoritaire pur. Dans ce cas, le paramètreαest égal à 1.0.

– Le score de confiance moyen : le nombre d’occurrences et les scores as-sociés à chaque hypothèse de mot par les différents systèmes permettent de sélectionner les meilleures hypothèses. α est estimé sur des données différentes du corpus de test.

– Le score de confiance maximum : l’hypothèse ayant le score maximum parmi les hypothèses proposées sera sélectionnée.αest également estimé sur un corpus.

Comme expliqué dansHoffmeister et al.(2006), l’alignement est dépendant de l’ordre des permutations effectuées par le système. Le résultat est donc dé-pendant de l’ordre de combinaison des hypothèses de phrase de chaque tème. Il a été montré que les meilleurs résultats sont obtenus lorsque les sys-tèmes sont ordonnés par ordre croissant de taux d’erreur mot.

Cependant, les résultats de Schwenk et Gauvain (2000) montrent que la combinaison d’un grand nombre de systèmes peut affecter les performances globales du système, surtout à cause des systèmes ayant des performances moindres. Les auteurs montrent aussi l’apport bénéfique du modèle de langage, notamment pour départager les ex-æquo.

3.4.2 Les réseaux de confusion : CNC

Une autre manière de combiner les systèmes après le décodage est de modi-fier le graphe de mots de telle sorte que tous les arcs partant d’un noeud aient le même noeud de destination (Mangu et al.,1999). On obtient alors un réseau de confusion (voir figure3.8) dont tous les arcs sont pondérés par une probabilité calculées à partir des probabilités des mots du graphe initial. Grâce à ce réseau de confusion, on peut maximiser les probabilitésa posteriorilocales des mots de la phrase, ce qui donne de meilleurs résultats que de maximiser la probabilitéa posterioriglobale de la phrase étant donné que la mesure utilisée pour calculer les performances d’un système est le taux d’erreur mot.

3.4.3 Combinaison bayésienne : BAYCOM

Dans Sankar (2005), une combinaison bayésienne des sorties de systèmes de RAP utilisant des modèles différents est proposée. La vraisemblance des phrases et un ensemble de scores de confiance permettent de garantir l’opti-malité sous certaines hypothèses. L’indépendance entre les systèmes est sup-posée et les probabilités dépendent des performances du système global sans considérer les hypothèses de phonèmes locales, proposées par chaque système.

3.4. Combinaison d’hypothèses de reconnaissance

FIG.3.8:Du treillis au réseau de confusion (Mangu et al.,1999)

BAYCOM permet, par une approche basée sur la théorie de la décision, de dé-terminer les poids optimaux pour la combinaison de plusieurs systèmes.

3.4.4 Autres méthodes

L’utilisation de réseaux de neurones, d’arbres de décision et d’autres tech-niques d’apprentissage automatique ont été utilisées pour combiner les résul-tats de plusieurs systèmes de RAP afin de réduire le WER.

Utsuro et al. (2003) utilisent des classifieurs à base de machines à support vectoriel (Support Vector Machine- SVM) pour sélectionner l’hypothèse la plus fiable parmi l’ensemble des hypothèses données par 26 systèmes de reconnais-sance large vocabulaire. Les différences entre les systèmes résident dans leurs modèles acoustiques et linguistique. Les modèles acoustiques possèdent des to-pologies différentes, modélisent des unités différentes (phonèmes et syllabes) et sont dépendant du genre. Une diminution du taux d’erreur mot d’environ 36%

par rapport à une combinaison par vote majoritaire pondéré ROVER a été ob-servée.

Conclusion sur la combinaison post-décodage

Les techniques de combinaison de systèmes après le décodage produisent une amélioration conséquente des performances des systèmes de RAP. Cepen-dant, elles possèdent certaines faiblesses qui nuisent à la pleine exploitation de ce genre de technique. La première d’entre elle est que la structure du graphe de mots est généralement perdue, tout comme les bornes de ces mots. Il y a donc perte de synchronisme entre les différents systèmes, ce qui peut provoquer la mise en confrontation de mots qui, au niveau temporel, ne seraient pas du tout en concurrence. De plus, les meilleures hypothèses proposées par les systèmes ne sont pas remises en cause. L’algorithme tente de sélectionner l’hypothèse correcte si elle a été produite par au moins l’un des systèmes.

Dans Hoffmeister et al. (2006), les résultats des combinaison par ROVER et CNC sont comparées à une approche basée sur la trame. Les résultats ne montrent pas d’amélioration significative des performances sur les corpus uti-lisés.

Dans le document Diagnostic pour la Combinaison de Systèmes de Reconnaissance Automatique de la Parole ~ Association Francophone de la Communication Parlée (Page 72-76)