Conclusion : - : Le lieu du stage, la problématique et les objectifs

Chapitre I : Le lieu du stage, la problématique et les objectifs

6. Conclusion :

O projecto Sphinx começou a ser desenvolvido pela CMU, com o financiamento da DARPA. Ao longo dos últimos anos, foram desenvolvidas v árias vers ões deste software tendo em vista aplicaç ões diferentes. O Sphinx-2 é apropriado para reconhecimento em tempo real, ou para m áquinas com pouca capacidade de processamento, contudo, a sua taxa de sucesso no reconhe- cimento é inferior à da Sphinx-3 e da Sphinx-4. Os Sphinx-3 e Sphinx-4 t êm capacidade de efectuar reconhecimento em grandes vocabul ários com taxas de sucesso compar áveis. O Sphinx-3 é escrito em C, enquanto que o Sphinx-4 é escrito em Java e devido à sua arquitectura modular (figura 4.21), é bastante vers átil e flex´ıvel.

Figura 4.21:Arquitectura do Sphinx-4 [41].

desenvolvida numa parceria entre a CMU, os Sun Microsystems Laboratories (SML), os Mitsubishi Electric Research Laboratories (MERL) e a Hewlett Packard (HP) com contribuic¸ ˜oes da University of California at Santa Cruz (UCSC) e do Massachusetts Institute of Technology (MIT) [42].

Tal como no caso do HTK, é necess ário analisar esta ferramenta. As caracter´ısticas sujeitas a an álise s ão as mesmas, assim como os prop ósitos a que esta se destina.

Acesso ao c ´odigo fonte

O c ´odigo fonte do Sphinx-4 est ´a dispon´ıvel, pelo que pode ser alterado conforme as necessida- des espec´ıficas de cada projecto.

Portabilidade

Esta ferramenta é inteiramente desenvolvida na plataforma JavaT M_{, é altamente port ável e} flex´ıvel. Depois de compilado, o c ódigo pode ser executado em qualquer sistema que suporte a plataformaJavaT M_[43].

Independ ˆencia do orador

Com o Sphinx-4 ´e poss´ıvel realizar reconhecimento independente do orador, de palavras isoladas ou discurso cont´ınuo. O reconhecimento pode ser feito sobre pequenos, m ´edios ou

grandes vocabul ´arios em tempo real ou diferido, com taxas de sucesso que podem chegar aos 95%.

Flexibilidade na escolha do modelo de linguagem

Esta ferramenta permite a utilizaç ão de v ários tipos de modelos de linguagem, tais como, statistical N-grams, context free grammar e finite state grammar . Isto é poss´ıvel porque a Sphinx-4 tem um m ódulo, o Graph construction, que traduz os v ários modelos num modelo interno ao descodificador [43].

Possibilidade de introduzir regras lingu´ısticas

N ão foi poss´ıvel obter informaç ão àcerca deste assunto. Contudo, tal como no HTK, deve ser poss´ıvel introduzir algum tipo de regras lingu´ısticas nos modelos.

Possibilidade de treinar o reconhecedor ao longo do tempo

Neste ponto é necess ário considerar duas situaç ões distintas. Na primeira, sup õe-se que o reconhecedor est á a correr numa m áquina Unix (Linux). Neste caso é poss´ıvel treinar o reconhecedor sempre que seja necess ário. O mesmo n ão acontece, pelo menos com a mesma facilidade, quando o reconhecedor est á instalado numa m áquina Windows. Isto acontece porque o Sphinx-4 tem que utilizar a ferramenta SphinxTrain para treinar o reconhecedor. Esta foi constru´ıda para correr em sistemas Unix (Linux).

Exist ência de modelos ac ústicos para o Portugu ês ou forma de os criar

A data da realizaç ão deste trabalho, n ão existem modelos ac ústicos para o Portugu ês. Con- tudo, e tendo em conta que a ferramenta Sphinx-4 pode utilizar v ários tipos de modelos, estes podem ser criados e treinados com outra ferramenta e posteriormente introduzidos na Sphinx-4. Uma ferramenta que se pode utilizar, em m áquinas Unix, é a SphinxTrain.

Tipo de licenc¸a

O software Sphinx é distribu´ıdo gratuitamente e sem restriç ões na sua utilizaç ão e distribuiç ão tanto para uso particular como comercial. Ter ão apenas que ser cumpridas as exig ências que constam no ficheiro LICENSE, (distribu´ıdo com o software).

Informac¸ ˜ao dispon´ıvel

Existe bastante informaç ão dispon´ıvel no site de apoio ao projecto, assim como tamb ém nas p áginas pessoais das pessoas envolvidas no desenvolvimento. Contudo, a informaç ão existente é do tipo Javadoc, isto é, gerada automaticamente pela plataforma JavaT M_{; o que difi-} culta a sua compreens ão. Outro factor que tamb ém dificulta de forma significativa a consulta da documentaç ão é o facto desta estar dispersa e pouco estruturada.

Resumo

A ferramenta Sphinx-4 apresenta boas caracter´ısticas. Os seus pontos fortes s ão a modulari- dade, portabilidade e flexibilidade ao n´ıvel dos modelos que podem ser utilizados. Contudo, a sua utilizaç ão é mais ao n´ıvel da investigaç ão acad émica e principalmente em sistemas Unix. Tendo em conta que a maior parte dos computadores existentes no mercado s ão m áquinas Windows, a utilizaç ão da Sphinx-4 em software comercial n ão é imediata. Esta utiliza aplicaç ões constru´ıdas para serem usadas em m áquinas Unix (Linux), por exemplo, a aplicaç ão utilizada para criar e treinar os modelos ac ústicos, o SphinxTrain. Um outro ponto fraco é a documentaç ão. Est á es- crita de forma pouco amig ável, isto é, dificulta a leitura a utilizadores n ão especializados no assunto, o que tamb ém é um entrave à utilizaç ão da Sphinx-4.

4.5.3 Conclus ˜ao

Ap ós analisar as ferramentas HTK e Sphinx-4, é necess ário decidir qual das duas se vai utilizar para construir o reconhecedor.

Tendo em conta tudo o que foi dito nos pontos anteriores, o mais sensato é utilizar o HTK. Esta escolha n ão elimina a possibilidade de no futuro se optar por outra ferramenta. Os factores que levam a esta escolha s ão v ários:

É uma solução única — O HTK fornece todas as aplicaç ões necess árias para construir o reco-

nhecedor, sem ser necess ´ario recorrer a software externo.

Taxa de sucesso no reconhecimento — O HTK apresenta taxas de sucesso bastante boas, em

muitos casos acima de95%.

Boa documentaç ão — O livro HTK Book é um excelente elemento de estudo, aborda praticamente

todos os aspectos da construc¸ ˜ao de um reconhecedor.

A licença é mais restritiva do que a do Sphinx-4. Contudo, como j á foi dito anteriormente, n ão pro´ıbe o desenvolvimento de software comercial com base no HTK, proibindo apenas a distribuiç ão.

4.6 Reconhecedor de fala dependente do orador, baseado em HTK

Dans le document Projet de fin d’études application Web qui gère les inscriptions et les groupes de formation – Projet de fin d'etudes (Page 11-0)