• Aucun résultat trouvé

Pournotre étude, nousavons besoin d'unsystème de reonnaissane de laparole. Plusieurs andidatssont possibles:Julius, ISIP,HTK,et. Nousavonshoisilemoteurdereonnaissane grandvoabulaireJulius arelui-iprésenteplusieursavantages:

il intègre les dernières méthodes de reonnaissane ommunément utilisées et reonnues dansledomaine(algorithmedereherhedesolution,modélisationsaoustiqueset linguis-tiques),

ilpermetlagestionde grandsvoabulaires,

ilest entièrementériten C, leshierssouressont disponiblesgratuitement, ilgère lesmodélisations aoustiques monoettriphonesgénérées ave HTK,

ilest diretement ompatibleave lesmodèles linguistiques issusdu CMUToolkit, ilutiliseun graphed'explorationinterne detype graphede mots,

ilest hautement paramétrable.

En outre, Rotovnik et al. [Rotovnik02℄ ont mené une étude omparative entre plusieurs moteurs de reonnaissane grand voabulaire en parole ontinue (HTK, ISIP et Julius) et ont

montré que Julius était le meilleur système que e soit d'un point de vue vitesse d'exéution, onsommationmémoireetpréision de lareonnaissane.

Juliusaétédéveloppépardesherheursdel'universitédeKyotoeteetuelareonnaissane endeuxpasses[Lee 01℄.Nousallonsdérirelaonstitutiondeesdeuxpasses,legraphedemots interneetl'introdution desfateursd'éhelledanslealulde lavraisemblanedesmots d'une phrase.

4.2.1 La première passe de Julius

La premièrephasede reonnaissanede Juliusonsiste àonstruireungraphed'exploration de façon trame-synhrone, orrespondant au déodage de la phrase onsidérée. Cette première passe,quis'eetuedanslesensnormalde leture,adopteplusieursapproximationsan d'aé-lérerleproessusde déodage:

un modèlede langage bigrammeestutiliséau lieu dumodèle trigramme,

diérentestehniquesd'élagagedesfontionsde densitégaussienne peuvent être séletion-nées,

une limitationde lalargeurdufaiseau dereherhe àun nombremaximal d'hypothèses, une approximationde ladépendaneau ontextedu motsuivant.

Ledéodagereposesurl'algorithmede Viterbidéritsetion1.6.1 p.13.Le moteurde reon-naissaneproède tramepartrame.D'une trameà une autre,lesystème onstruit de nouvelles transitionsentrelesétatsatifsdelatramepréédenteeteuxpossiblespourlatrameourante, toutenrespetantlatopologiedesmodèlesaoustiques.Siunétatatifn'estpasunétatterminal d'unmot, les transitions sont simplement elles d'un hangement d'étatintra-mot.Par ontre, si l'état atif est terminal, dans e as les transitions vont vers le premier état de n'importe quel mot, en intégrant la probabilité du modèle de langage. L'introdution d'une fatorisation unigrammeainsique l'implantation du lexiquesous forme d'arbre permet de réduirefortement le nombre de es transitions vers tous les mots possibles. Les transitions ne se font plus que vers les premiers états partagés parles modèles des mots. Un élagage du faiseau de reherhe estappliqué an de ne retenir au maximumqu'une partierestreinte deshypothèses valides, de vraisemblane maximale.Un premier ouple de fateursd'éhelleest utiliséau ours de la pre-mièrepasse an d'équilibrer les ontributionsdes probabilités aoustiques etlinguistiques dans lealulde lavraisemblane deshypothèses :une pondérationdu modèlede langage (

δ

) etune pénalitéd'insertion (

γ

).L'équationdénissantlavraisemblaned'unmot estlasuivante:

γ.P(o

tτ

|w

n

).P(w

n

|w

n−1

)

δ (4.1) La première passe génère un graphe de mots ontenant un ensemble restreint d'hypothèses parmilesquelless'eetueralareherhe de lasolutiondu systèmede reonnaissane.

4.2.2 La deuxième passe de Julius

La deuxième passe de Juliusest ladernièreétapede la reonnaissaneetdélivre la solution dusystèmeàl'utilisateur. Laseonde passea lapartiularitédesedéroulerdanslesensinverse deleture:delandelaphraseversledébut.Lareonnaissanesefaitàpartird'unalgorithme àpile de type

A

(voir setion1.6.2 p.16).La phasede reherhedu meilleurhemin estfondée surlegraphede mots interne généréau oursde lapremière passe.

Les vraisemblanes alulées pendant la première phase ne servent que pour la fontion heuristique de l'algorithme

A

.L'information sur le prédéesseur au sens de Viterbi de haque

mot est ignorée. Pendant la deuxième passe, les probabilités aoustiques et linguistiques sont realulées ave desmodèles plusns, sans approximations (modèletrigramme, dépendane au ontexteinter-mottotale).Unseondjeu defateursd'éhelleestutilisé,propreà etteseonde passe.Netravaillerquesurlegraphedemots permetungaindetempsonsidérablemalgréune omplexité supérieuredue àl'augmentation de lapréision.

Toutefois, une des ontraintes d'appliation de l'algorithme

A

n'est pas ontinuellement vériée.Eneet,lafontionheuristiquepeutfournir uneestimationaussibiensupérieure qu'in-férieureà lavraisemblane réelle.

Lareherhen'estalorsplus

A

-admissible.Ainsilaphraseandidatetrouvéepeutnepasêtre lameilleure. La méthode employée dans lesystème de reonnaissaneJulius onsiste à aluler plusieurssolutionsandidatesenontinuantlareherhed'hypothèsesdephrase,puisdelestrier an d'obtenir lasolution optimale. Le nombre de solutionsexplorées estlimité dansle système à unevaleur xe, donnéepardéfautmaisparamétrable.

Une fois la séquene solution déterminée, un dernier réalignement de ette séquene est ef-fetué.

4.2.3 Options de ompilation

LesystèmedereonnaissaneJuliusdisposedetroismodesdeompilationdiérents permet-tant une reonnaissane plus ou moins préise par laséletion d'algorithmes d'élagage d'hypo-thèsesetdesimpliationdesaluls.Lestroismodesdeompilationpossiblessontlessuivants: standard:lealuldestriphonesinter-motsestativépourladeuxièmepasse,augmentant ainsi lapréision des aluls et don desrésultats. Toutefois, il est possible d'utiliser des algorithmes d'élagagepourle aluldesprobabilités d'émissionsdesGMM.

fast : dans e mode, les algorithmes d'élagage sont ativés par défaut à tous les niveaux (graphe de mots interne, gaussiennes). La préision estmoindre maisei permetau sys-tème dereonnaissane d'atteindreuntempsd'exéution prohedu tempsréel.

v2.1 : toutes les options d'aélération sont désativées. Les aluls tiennent ompte des liaisons inter-mots, font le moins d'hypothèses simpliatries possibles et ne pratiquent auunélagagedesgaussiennes.Cetteaugmentationde lapréisiona uneontrepartie :un tempsd'exéutionbienplus important.

Dans nos expérimentations, nous avons utilisé deux versions de ompilation de Julius. La majeure partie d'entre elles ont été faitesave le mode v2.1,de préision, ave une largeur du faiseaude reherheimportante:8 000 hypothèsesmaximumàhaque trame.Le mode fast a, quantàlui,étéutilisédanslesexpérienesd'intégrationd'unemesuredeonaneauseinmême dumoteurdereonnaissaneetpourl'appliationonernantlesélèvesmalentendants.Lataille du faiseaude reherhe aété xéeà une valeur de1 500 pourpermettreune exéution prohe du tempsréel.

4.2.4 Le graphe de mots

Legraphedemotsinternedumoteurdereonnaissaneestgénérédemanièretrame-synhrone. Pourhaquetrame

t

,legrapheontientl'ensembledesmotsdu lexiquequi peuvent niràette trameaprès élagage.Pourhaunde esmots, plusieursinformationssont aessibles :

lesinstants dedébutetde n dumot

[w, τ, t]

, laprobabilitéaoustiquedu mot,

laprobabilité bigramme

P(w|w

p

)

,

lesore umulédepuis ledébutde laphrasedu meilleurhemin menant à

w

.

Ave laonguration que nousavons utiliséepourle systèmede reonnaissane Julius etle modede ompilationpréis(v2.1),legraphede motsontienten moyenne470 motshypothèses partrameaveunmaximumde2523motslorsdelareonnaissaneduorpusdedéveloppement.

Documents relatifs