• Aucun résultat trouvé

Dans ce chapitre, nous avons présenté une nouvelle approche qui permet d'uti- liser les SVM pour la vérication du locuteur en mode dépendant du texte. Cette approche est basé sur une reconnaissance de la parole utilisant des modèles géné- riques HMM des phones pour construire les vecteurs d'entrée pour les SVM. Nous avons expérimenté cette approche dans le cadre du projet Européen PICASSO

dans une application utilisant des mots de passe publics. Les résultats obtenus peuvent être considérés comme très encourageants compte tenu des problèmes d'enregistrement sur la première version de la base de données POLYVAR sur la- quelle nous avons expérimenté notre approche. Suite aux engagements de l'ENST dans le cadre du projet PICASSO, nous n'avons pas eu la possibilité de refaire ces expériences pour pouvoir valider notre approche. Dernièrement, dans le cadre d'un autre projet nommé MAJORDOME, nous avons repris ces expériences, mais malheureusement nous n'avons pas encore les résultats pour pouvoir les présenter dans ce rapport de thèse.

Chapitre 5

SVM pour la vérication du

locuteur en mode indépendant du

texte

Dans ce chapitre nous allons décrire notre approche concernant l'utilisation des SVM en vérication du locuteur en mode indépendant du texte. Mais avant d'aborder cette partie qui constitue le travail principal de cette thèse, nous com- mençons par un historique sur l'utilisation des SVM en reconnaissance automa- tique des locuteurs.

5.1 Historique

Depuis que les SVM ont vu le jour en 1995 [91], plusieurs chercheurs du domaine de la reconnaissance de formes ont commencé à s'y intéresser. Princi- palement, en traitement d'image, on peut citer les brillants travaux réalisés sur la reconnaissance de lettres et de chires manuscrits [29][66] et sur la détection du visage [67], ainsi que le travail de B. Schôlkopf en reconnaissance d'objet en 3D [84]. S. Benyacob s'est intéressé aux SVM pour faire de la fusion des données de diérents experts pour l'identication biométrique [8]. Les résultats intéres- sants obtenus par ces applications ont incité les chercheurs d'autres disciplines comme la reconnaissance de locuteur à s'intéresser aux SVM. Sachant que les SVM exigent des vecteurs d'entrée de taille xe, leur adaptation au RAL est moins évidente que dans le cas du traitement d'image. Si une image peut être facilement représentée par un vecteur xe que ce soit en 2D et 3D, le signal de

Fig. 5.1  La structure du premier système utilisant les SVM pour IAL proposé par M.Schmidt et H. Gish

parole est dicilement représentable par un vecteur xe puisqu'il est non déli- mité dans le temps. La durée d'un signal de parole varie de quelques secondes à plusieurs minutes. Ainsi pour adapter les SVM à toute application utilisant le signal de parole, il faudrait trouver une nouvelle représentation de données qui permette de fournir un vecteur de taille xe quelle que soit la longueur du signal de parole à traiter. La première idée qu'on peut avoir est d'utiliser les trames obtenues suite à la paramétrisation du signal. Cette idée a été mise en place par M. Schmidt et H. Gish du laboratoire de BBN Systems and Technologies en 1996 pour une application d'identication du locuteur en mode indépendant du texte [82][83]. La gure 5.1 représente le système proposé dans cette application dans les deux phases apprentissage et test. Dans le système proposé par M. Schmidt et H. Gish un modèle SVM est construit pour chaque client λ de la base de données en utilisant toutes les trames calculées à partir des segments de signal de parole destinés pour l'apprentissage contre toutes les trames des segments de signal de parole d'apprentissage de tous les autres locuteurs de la base de données. Dans la

phase de test et pour chaque client λ, un score Sλ est calculé grâce à l'équation suivante : SX λ = X t∈X fλ(t)

où X est le segment de test, t une trame du segment X, λ est le client et fλ

est le classieur SVM du client λ. Ainsi le locuteur qui maximise les scores SX λ

est retenu comme le bon locuteur. Tenant en compte que c'était la première tentative d'adapter la technique SVM pour la reconnaissance du locuteur, les résultats obtenus par ce système s'avèrent être intéressants puisqu'ils égalent les performances obtenues par un système classique basé sur les techniques GMM pour la modélisation et LLR pour la décision. Pour plus de détails, consulter les références [82][83]. Suite à ce travail, d'autres groupes de recherche travaillant sur la reconnaissance de locuteur dont l'ENST fait partie se sont intéressés à ces techniques. Récemment et en parallèle à notre travail, l'équipe d'IBM a publié à Eurospeech2001 un travail intéressant sur l'adaptation des SVM en identication du locuteur [29]. Le système qu'ils ont proposé utilise les SVM comme système supplémentaire d'aide à la decision qui entre en action seulement quand le score obtenu par le système de base utilisant les GMM et LLR n'est pas able. Dans ce système, IBM a utilisé un nouveau noyau nommé le noyau de Fisher. Pour plus de détails sur cet intéressant travail, vous pouvez consulter la référence [30]. Dans le reste de ce chapitre nous allons décrire notre travail sur l'adaptation de la technique SVM pour la vérication de locuteur en mode indépendant du texte.

Documents relatifs