• Aucun résultat trouvé

Chapitre I : Le lieu du stage, la problématique et les objectifs

6. Conclusion :

O projecto Sphinx comec¸ou a ser desenvolvido pela CMU, com o financiamento da DARPA. Ao longo dos ´ultimos anos, foram desenvolvidas v ´arias vers ˜oes deste software tendo em vista aplicac¸ ˜oes diferentes. O Sphinx-2 ´e apropriado para reconhecimento em tempo real, ou para m ´aquinas com pouca capacidade de processamento, contudo, a sua taxa de sucesso no reconhe- cimento ´e inferior `a da Sphinx-3 e da Sphinx-4. Os Sphinx-3 e Sphinx-4 t ˆem capacidade de efectuar reconhecimento em grandes vocabul ´arios com taxas de sucesso compar ´aveis. O Sphinx-3 ´e escrito em C, enquanto que o Sphinx-4 ´e escrito em Java e devido `a sua arquitectura modular (figura 4.21), ´e bastante vers ´atil e flex´ıvel.

Figura 4.21:Arquitectura do Sphinx-4 [41].

desenvolvida numa parceria entre a CMU, os Sun Microsystems Laboratories (SML), os Mitsubishi Electric Research Laboratories (MERL) e a Hewlett Packard (HP) com contribuic¸ ˜oes da University of California at Santa Cruz (UCSC) e do Massachusetts Institute of Technology (MIT) [42].

Tal como no caso do HTK, ´e necess ´ario analisar esta ferramenta. As caracter´ısticas sujeitas a an ´alise s ˜ao as mesmas, assim como os prop ´ositos a que esta se destina.

Acesso ao c ´odigo fonte

O c ´odigo fonte do Sphinx-4 est ´a dispon´ıvel, pelo que pode ser alterado conforme as necessida- des espec´ıficas de cada projecto.

Portabilidade

Esta ferramenta ´e inteiramente desenvolvida na plataforma JavaT M, ´e altamente port ´avel e flex´ıvel. Depois de compilado, o c ´odigo pode ser executado em qualquer sistema que suporte a plataformaJavaT M[43].

Independ ˆencia do orador

Com o Sphinx-4 ´e poss´ıvel realizar reconhecimento independente do orador, de palavras isoladas ou discurso cont´ınuo. O reconhecimento pode ser feito sobre pequenos, m ´edios ou

grandes vocabul ´arios em tempo real ou diferido, com taxas de sucesso que podem chegar aos 95%.

Flexibilidade na escolha do modelo de linguagem

Esta ferramenta permite a utilizac¸ ˜ao de v ´arios tipos de modelos de linguagem, tais como, statistical N-grams, context free grammar e finite state grammar . Isto ´e poss´ıvel porque a Sphinx-4 tem um m ´odulo, o Graph construction, que traduz os v ´arios modelos num modelo interno ao descodificador [43].

Possibilidade de introduzir regras lingu´ısticas

N ˜ao foi poss´ıvel obter informac¸ ˜ao `acerca deste assunto. Contudo, tal como no HTK, deve ser poss´ıvel introduzir algum tipo de regras lingu´ısticas nos modelos.

Possibilidade de treinar o reconhecedor ao longo do tempo

Neste ponto ´e necess ´ario considerar duas situac¸ ˜oes distintas. Na primeira, sup ˜oe-se que o reco- nhecedor est ´a a correr numa m ´aquina Unix (Linux). Neste caso ´e poss´ıvel treinar o reconhecedor sempre que seja necess ´ario. O mesmo n ˜ao acontece, pelo menos com a mesma facilidade, quando o reconhecedor est ´a instalado numa m ´aquina Windows. Isto acontece porque o Sphinx-4 tem que utilizar a ferramenta SphinxTrain para treinar o reconhecedor. Esta foi constru´ıda para correr em sistemas Unix (Linux).

Exist ˆencia de modelos ac ´usticos para o Portugu ˆes ou forma de os criar

`

A data da realizac¸ ˜ao deste trabalho, n ˜ao existem modelos ac ´usticos para o Portugu ˆes. Con- tudo, e tendo em conta que a ferramenta Sphinx-4 pode utilizar v ´arios tipos de modelos, estes podem ser criados e treinados com outra ferramenta e posteriormente introduzidos na Sphinx-4. Uma ferramenta que se pode utilizar, em m ´aquinas Unix, ´e a SphinxTrain.

Tipo de licenc¸a

O software Sphinx ´e distribu´ıdo gratuitamente e sem restric¸ ˜oes na sua utilizac¸ ˜ao e distribuic¸ ˜ao tanto para uso particular como comercial. Ter ˜ao apenas que ser cumpridas as exig ˆencias que constam no ficheiro LICENSE, (distribu´ıdo com o software).

Informac¸ ˜ao dispon´ıvel

Existe bastante informac¸ ˜ao dispon´ıvel no site de apoio ao projecto, assim como tamb ´em nas p ´aginas pessoais das pessoas envolvidas no desenvolvimento. Contudo, a informac¸ ˜ao existente ´e do tipo Javadoc, isto ´e, gerada automaticamente pela plataforma JavaT M; o que difi- culta a sua compreens ˜ao. Outro factor que tamb ´em dificulta de forma significativa a consulta da documentac¸ ˜ao ´e o facto desta estar dispersa e pouco estruturada.

Resumo

A ferramenta Sphinx-4 apresenta boas caracter´ısticas. Os seus pontos fortes s ˜ao a modulari- dade, portabilidade e flexibilidade ao n´ıvel dos modelos que podem ser utilizados. Contudo, a sua utilizac¸ ˜ao ´e mais ao n´ıvel da investigac¸ ˜ao acad ´emica e principalmente em sistemas Unix. Tendo em conta que a maior parte dos computadores existentes no mercado s ˜ao m ´aquinas Windows, a utilizac¸ ˜ao da Sphinx-4 em software comercial n ˜ao ´e imediata. Esta utiliza aplicac¸ ˜oes constru´ıdas para serem usadas em m ´aquinas Unix (Linux), por exemplo, a aplicac¸ ˜ao utilizada para criar e treinar os modelos ac ´usticos, o SphinxTrain. Um outro ponto fraco ´e a documentac¸ ˜ao. Est ´a es- crita de forma pouco amig ´avel, isto ´e, dificulta a leitura a utilizadores n ˜ao especializados no assunto, o que tamb ´em ´e um entrave `a utilizac¸ ˜ao da Sphinx-4.

4.5.3 Conclus ˜ao

Ap ´os analisar as ferramentas HTK e Sphinx-4, ´e necess ´ario decidir qual das duas se vai utilizar para construir o reconhecedor.

Tendo em conta tudo o que foi dito nos pontos anteriores, o mais sensato ´e utilizar o HTK. Esta escolha n ˜ao elimina a possibilidade de no futuro se optar por outra ferramenta. Os factores que levam a esta escolha s ˜ao v ´arios:

´E uma soluc¸˜ao ´unica — O HTK fornece todas as aplicac¸ ˜oes necess ´arias para construir o reco-

nhecedor, sem ser necess ´ario recorrer a software externo.

Taxa de sucesso no reconhecimento — O HTK apresenta taxas de sucesso bastante boas, em

muitos casos acima de95%.

Boa documentac¸ ˜ao — O livro HTK Book ´e um excelente elemento de estudo, aborda praticamente

todos os aspectos da construc¸ ˜ao de um reconhecedor.

A licenc¸a ´e mais restritiva do que a do Sphinx-4. Contudo, como j ´a foi dito anteriormente, n ˜ao pro´ıbe o desenvolvimento de software comercial com base no HTK, proibindo apenas a distribuic¸ ˜ao.

4.6 Reconhecedor de fala dependente do orador, baseado em HTK

Documents relatifs