Chapitre I : Le lieu du stage, la problématique et les objectifs
6. Conclusion :
O projecto Sphinx comec¸ou a ser desenvolvido pela CMU, com o financiamento da DARPA. Ao longo dos ´ultimos anos, foram desenvolvidas v ´arias vers ˜oes deste software tendo em vista aplicac¸ ˜oes diferentes. O Sphinx-2 ´e apropriado para reconhecimento em tempo real, ou para m ´aquinas com pouca capacidade de processamento, contudo, a sua taxa de sucesso no reconhe- cimento ´e inferior `a da Sphinx-3 e da Sphinx-4. Os Sphinx-3 e Sphinx-4 t ˆem capacidade de efectuar reconhecimento em grandes vocabul ´arios com taxas de sucesso compar ´aveis. O Sphinx-3 ´e escrito em C, enquanto que o Sphinx-4 ´e escrito em Java e devido `a sua arquitectura modular (figura 4.21), ´e bastante vers ´atil e flex´ıvel.
Figura 4.21:Arquitectura do Sphinx-4 [41].
desenvolvida numa parceria entre a CMU, os Sun Microsystems Laboratories (SML), os Mitsubishi Electric Research Laboratories (MERL) e a Hewlett Packard (HP) com contribuic¸ ˜oes da University of California at Santa Cruz (UCSC) e do Massachusetts Institute of Technology (MIT) [42].
Tal como no caso do HTK, ´e necess ´ario analisar esta ferramenta. As caracter´ısticas sujeitas a an ´alise s ˜ao as mesmas, assim como os prop ´ositos a que esta se destina.
Acesso ao c ´odigo fonte
O c ´odigo fonte do Sphinx-4 est ´a dispon´ıvel, pelo que pode ser alterado conforme as necessida- des espec´ıficas de cada projecto.
Portabilidade
Esta ferramenta ´e inteiramente desenvolvida na plataforma JavaT M, ´e altamente port ´avel e flex´ıvel. Depois de compilado, o c ´odigo pode ser executado em qualquer sistema que suporte a plataformaJavaT M[43].
Independ ˆencia do orador
Com o Sphinx-4 ´e poss´ıvel realizar reconhecimento independente do orador, de palavras isoladas ou discurso cont´ınuo. O reconhecimento pode ser feito sobre pequenos, m ´edios ou
grandes vocabul ´arios em tempo real ou diferido, com taxas de sucesso que podem chegar aos 95%.
Flexibilidade na escolha do modelo de linguagem
Esta ferramenta permite a utilizac¸ ˜ao de v ´arios tipos de modelos de linguagem, tais como, statistical N-grams, context free grammar e finite state grammar . Isto ´e poss´ıvel porque a Sphinx-4 tem um m ´odulo, o Graph construction, que traduz os v ´arios modelos num modelo interno ao descodificador [43].
Possibilidade de introduzir regras lingu´ısticas
N ˜ao foi poss´ıvel obter informac¸ ˜ao `acerca deste assunto. Contudo, tal como no HTK, deve ser poss´ıvel introduzir algum tipo de regras lingu´ısticas nos modelos.
Possibilidade de treinar o reconhecedor ao longo do tempo
Neste ponto ´e necess ´ario considerar duas situac¸ ˜oes distintas. Na primeira, sup ˜oe-se que o reco- nhecedor est ´a a correr numa m ´aquina Unix (Linux). Neste caso ´e poss´ıvel treinar o reconhecedor sempre que seja necess ´ario. O mesmo n ˜ao acontece, pelo menos com a mesma facilidade, quando o reconhecedor est ´a instalado numa m ´aquina Windows. Isto acontece porque o Sphinx-4 tem que utilizar a ferramenta SphinxTrain para treinar o reconhecedor. Esta foi constru´ıda para correr em sistemas Unix (Linux).
Exist ˆencia de modelos ac ´usticos para o Portugu ˆes ou forma de os criar
`
A data da realizac¸ ˜ao deste trabalho, n ˜ao existem modelos ac ´usticos para o Portugu ˆes. Con- tudo, e tendo em conta que a ferramenta Sphinx-4 pode utilizar v ´arios tipos de modelos, estes podem ser criados e treinados com outra ferramenta e posteriormente introduzidos na Sphinx-4. Uma ferramenta que se pode utilizar, em m ´aquinas Unix, ´e a SphinxTrain.
Tipo de licenc¸a
O software Sphinx ´e distribu´ıdo gratuitamente e sem restric¸ ˜oes na sua utilizac¸ ˜ao e distribuic¸ ˜ao tanto para uso particular como comercial. Ter ˜ao apenas que ser cumpridas as exig ˆencias que constam no ficheiro LICENSE, (distribu´ıdo com o software).
Informac¸ ˜ao dispon´ıvel
Existe bastante informac¸ ˜ao dispon´ıvel no site de apoio ao projecto, assim como tamb ´em nas p ´aginas pessoais das pessoas envolvidas no desenvolvimento. Contudo, a informac¸ ˜ao existente ´e do tipo Javadoc, isto ´e, gerada automaticamente pela plataforma JavaT M; o que difi- culta a sua compreens ˜ao. Outro factor que tamb ´em dificulta de forma significativa a consulta da documentac¸ ˜ao ´e o facto desta estar dispersa e pouco estruturada.
Resumo
A ferramenta Sphinx-4 apresenta boas caracter´ısticas. Os seus pontos fortes s ˜ao a modulari- dade, portabilidade e flexibilidade ao n´ıvel dos modelos que podem ser utilizados. Contudo, a sua utilizac¸ ˜ao ´e mais ao n´ıvel da investigac¸ ˜ao acad ´emica e principalmente em sistemas Unix. Tendo em conta que a maior parte dos computadores existentes no mercado s ˜ao m ´aquinas Windows, a utilizac¸ ˜ao da Sphinx-4 em software comercial n ˜ao ´e imediata. Esta utiliza aplicac¸ ˜oes constru´ıdas para serem usadas em m ´aquinas Unix (Linux), por exemplo, a aplicac¸ ˜ao utilizada para criar e treinar os modelos ac ´usticos, o SphinxTrain. Um outro ponto fraco ´e a documentac¸ ˜ao. Est ´a es- crita de forma pouco amig ´avel, isto ´e, dificulta a leitura a utilizadores n ˜ao especializados no assunto, o que tamb ´em ´e um entrave `a utilizac¸ ˜ao da Sphinx-4.
4.5.3 Conclus ˜ao
Ap ´os analisar as ferramentas HTK e Sphinx-4, ´e necess ´ario decidir qual das duas se vai utilizar para construir o reconhecedor.
Tendo em conta tudo o que foi dito nos pontos anteriores, o mais sensato ´e utilizar o HTK. Esta escolha n ˜ao elimina a possibilidade de no futuro se optar por outra ferramenta. Os factores que levam a esta escolha s ˜ao v ´arios:
´E uma soluc¸˜ao ´unica — O HTK fornece todas as aplicac¸ ˜oes necess ´arias para construir o reco-
nhecedor, sem ser necess ´ario recorrer a software externo.
Taxa de sucesso no reconhecimento — O HTK apresenta taxas de sucesso bastante boas, em
muitos casos acima de95%.
Boa documentac¸ ˜ao — O livro HTK Book ´e um excelente elemento de estudo, aborda praticamente
todos os aspectos da construc¸ ˜ao de um reconhecedor.
A licenc¸a ´e mais restritiva do que a do Sphinx-4. Contudo, como j ´a foi dito anteriormente, n ˜ao pro´ıbe o desenvolvimento de software comercial com base no HTK, proibindo apenas a distribuic¸ ˜ao.