Pournotre étude, nousavons besoin d'unsystème de reonnaissane de laparole. Plusieurs
andidatssont possibles:Julius, ISIP,HTK,et. Nousavonshoisilemoteurdereonnaissane
grandvoabulaireJulius arelui-iprésenteplusieursavantages:
il intègre les dernières méthodes de reonnaissane ommunément utilisées et reonnues
dansledomaine(algorithmedereherhedesolution,modélisationsaoustiqueset
linguis-tiques),
ilpermetlagestionde grandsvoabulaires,
ilest entièrementériten C, leshierssouressont disponiblesgratuitement,
ilgère lesmodélisations aoustiques monoettriphonesgénérées ave HTK,
ilest diretement ompatibleave lesmodèles linguistiques issusdu CMUToolkit,
ilutiliseun graphed'explorationinterne detype graphede mots,
ilest hautement paramétrable.
En outre, Rotovnik et al. [Rotovnik02℄ ont mené une étude omparative entre plusieurs
moteurs de reonnaissane grand voabulaire en parole ontinue (HTK, ISIP et Julius) et ont
montré que Julius était le meilleur système que e soit d'un point de vue vitesse d'exéution,
onsommationmémoireetpréision de lareonnaissane.
Juliusaétédéveloppépardesherheursdel'universitédeKyotoeteetuelareonnaissane
endeuxpasses[Lee 01℄.Nousallonsdérirelaonstitutiondeesdeuxpasses,legraphedemots
interneetl'introdution desfateursd'éhelledanslealulde lavraisemblanedesmots d'une
phrase.
4.2.1 La première passe de Julius
La premièrephasede reonnaissanede Juliusonsiste àonstruireungraphed'exploration
de façon trame-synhrone, orrespondant au déodage de la phrase onsidérée. Cette première
passe,quis'eetuedanslesensnormalde leture,adopteplusieursapproximationsan
d'aé-lérerleproessusde déodage:
un modèlede langage bigrammeestutiliséau lieu dumodèle trigramme,
diérentestehniquesd'élagagedesfontionsde densitégaussienne peuvent être
séletion-nées,
une limitationde lalargeurdufaiseau dereherhe àun nombremaximal d'hypothèses,
une approximationde ladépendaneau ontextedu motsuivant.
Ledéodagereposesurl'algorithmede Viterbidéritsetion1.6.1 p.13.Le moteurde
reon-naissaneproède tramepartrame.D'une trameà une autre,lesystème onstruit de nouvelles
transitionsentrelesétatsatifsdelatramepréédenteeteuxpossiblespourlatrameourante,
toutenrespetantlatopologiedesmodèlesaoustiques.Siunétatatifn'estpasunétatterminal
d'unmot, les transitions sont simplement elles d'un hangement d'étatintra-mot.Par ontre,
si l'état atif est terminal, dans e as les transitions vont vers le premier état de n'importe
quel mot, en intégrant la probabilité du modèle de langage. L'introdution d'une fatorisation
unigrammeainsique l'implantation du lexiquesous forme d'arbre permet de réduirefortement
le nombre de es transitions vers tous les mots possibles. Les transitions ne se font plus que
vers les premiers états partagés parles modèles des mots. Un élagage du faiseau de reherhe
estappliqué an de ne retenir au maximumqu'une partierestreinte deshypothèses valides, de
vraisemblane maximale.Un premier ouple de fateursd'éhelleest utiliséau ours de la
pre-mièrepasse an d'équilibrer les ontributionsdes probabilités aoustiques etlinguistiques dans
lealulde lavraisemblane deshypothèses :une pondérationdu modèlede langage (
δ
) etunepénalitéd'insertion (
γ
).L'équationdénissantlavraisemblaned'unmot estlasuivante:γ.P (o t τ |w n ).P (w n |w n−1 ) δ
(4.1)La première passe génère un graphe de mots ontenant un ensemble restreint d'hypothèses
parmilesquelless'eetueralareherhe de lasolutiondu systèmede reonnaissane.
4.2.2 La deuxième passe de Julius
La deuxième passe de Juliusest ladernièreétapede la reonnaissaneetdélivre la solution
dusystèmeàl'utilisateur. Laseonde passea lapartiularitédesedéroulerdanslesensinverse
deleture:delandelaphraseversledébut.Lareonnaissanesefaitàpartird'unalgorithme
àpile de type
A ∗
(voir setion1.6.2 p.16).La phasede reherhedu meilleurhemin estfondéesurlegraphede mots interne généréau oursde lapremière passe.
Les vraisemblanes alulées pendant la première phase ne servent que pour la fontion
heuristique de l'algorithme
A ∗
.L'information sur le prédéesseur au sens de Viterbi de haquemot est ignorée. Pendant la deuxième passe, les probabilités aoustiques et linguistiques sont
realulées ave desmodèles plusns, sans approximations (modèletrigramme, dépendane au
ontexteinter-mottotale).Unseondjeu defateursd'éhelleestutilisé,propreà etteseonde
passe.Netravaillerquesurlegraphedemots permetungaindetempsonsidérablemalgréune
omplexité supérieuredue àl'augmentation de lapréision.
Toutefois, une des ontraintes d'appliation de l'algorithme
A ∗
n'est pas ontinuellement vériée.Eneet,lafontionheuristiquepeutfournir uneestimationaussibiensupérieurequ'in-férieureà lavraisemblane réelle.
Lareherhen'estalorsplus
A ∗
-admissible.Ainsilaphraseandidatetrouvéepeutnepasêtre lameilleure. La méthode employée dans lesystème de reonnaissaneJulius onsiste à alulerplusieurssolutionsandidatesenontinuantlareherhed'hypothèsesdephrase,puisdelestrier
an d'obtenir lasolution optimale. Le nombre de solutionsexplorées estlimité dansle système
à unevaleur xe, donnéepardéfautmaisparamétrable.
Une fois la séquene solution déterminée, un dernier réalignement de ette séquene est
ef-fetué.
4.2.3 Options de ompilation
LesystèmedereonnaissaneJuliusdisposedetroismodesdeompilationdiérents
permet-tant une reonnaissane plus ou moins préise par laséletion d'algorithmes d'élagage
d'hypo-thèsesetdesimpliationdesaluls.Lestroismodesdeompilationpossiblessontlessuivants:
standard:lealuldestriphonesinter-motsestativépourladeuxièmepasse,augmentant
ainsi lapréision des aluls et don desrésultats. Toutefois, il est possible d'utiliser des
algorithmes d'élagagepourle aluldesprobabilités d'émissionsdesGMM.
fast : dans e mode, les algorithmes d'élagage sont ativés par défaut à tous les niveaux
(graphe de mots interne, gaussiennes). La préision estmoindre maisei permetau
sys-tème dereonnaissane d'atteindreuntempsd'exéution prohedu tempsréel.
v2.1 : toutes les options d'aélération sont désativées. Les aluls tiennent ompte des
liaisons inter-mots, font le moins d'hypothèses simpliatries possibles et ne pratiquent
auunélagagedesgaussiennes.Cetteaugmentationde lapréisiona uneontrepartie :un
tempsd'exéutionbienplus important.
Dans nos expérimentations, nous avons utilisé deux versions de ompilation de Julius. La
majeure partie d'entre elles ont été faitesave le mode v2.1,de préision, ave une largeur du
faiseaude reherheimportante:8 000 hypothèsesmaximumàhaque trame.Le mode fast a,
quantàlui,étéutilisédanslesexpérienesd'intégrationd'unemesuredeonaneauseinmême
dumoteurdereonnaissaneetpourl'appliationonernantlesélèvesmalentendants.Lataille
du faiseaude reherhe aété xéeà une valeur de1 500 pourpermettreune exéution prohe
du tempsréel.
4.2.4 Le graphe de mots
Legraphedemotsinternedumoteurdereonnaissaneestgénérédemanièretrame-synhrone.
Pourhaquetrame
t
,legrapheontientl'ensembledesmotsdu lexiquequi peuvent niràettetrameaprès élagage.Pourhaunde esmots, plusieursinformationssont aessibles :
lesinstants dedébutetde n dumot
[w, τ, t]
,laprobabilitéaoustiquedu mot,
unlien vers lemot
[w p , τ p , τ − 1]
prédéesseurausens de Viterbidew
,laprobabilité bigramme
P(w|w p )
,lesore umulédepuis ledébutde laphrasedu meilleurhemin menant à
w
.Ave laonguration que nousavons utiliséepourle systèmede reonnaissane Julius etle
modede ompilationpréis(v2.1),legraphede motsontienten moyenne470 motshypothèses
partrameaveunmaximumde2523motslorsdelareonnaissaneduorpusdedéveloppement.