• Aucun résultat trouvé

8.4 Comparaison et similarité de voix

8.4.2 Réseaux de neurones siamois

Voix source Voix cible Architecture neuronale Représentation en entrée Architecture neuronale Architectures identiques

et partage des paramètres

Mesure de distance

Cible / Non cible

Figure 8.4 – Schéma du réseau siamois utilisé pour déterminer si deux voix appartiennent (cible) ou n’appartiennent pas (non cible) au même personnage.

Les réseaux de neurones siamois [Bromley et al.,1994] peuvent être vus comme une archi-tecture capable d’apprendre une mesure de similarité au moyen de deux entrées indépendantes, chacune de ces entrées partageant cependant une relation abstraite de similarité. Ces deux en-trées sont projetées dans deux réseaux de neurones identiques, partageant les mêmes paramètres, et se rejoignant au moyen d’une fonction de pénalité. Cette fonction s’appuie sur une métrique calculée à partir des dernières couches de chacun des réseaux. Une description précise de l’archi-tecture et de son application dans le cadre de ce travail est disponible dans [Gresse, 2020]. En particulier, dans les expériences présentées ensuite, le réseau de neurones siamois s’appuie sur deux perceptrons multicouches avec deux couches cachées de 256 neurones et fonction d’activa-tion tangente hyperbolique.

utilisé. L’objectif est ici de partir d’une représentation de chaque voix (source, pour la voix originale ; cible, pour la voix du doubleur) en entrée de chaque réseau de neurones. Comme ex-pliqué, une distance est ensuite utilisée pour déterminer si les deux voix en entrée correspondent au même personnage (cible) ou non (non cible). L’apport des réseaux de neurones siamois a été démontré dans [Gresse, 2020], en comparaison avec l’utilisation d’un réseau de neurones classique avec pour entrées les deux représentations directes. Dans les expériences présentées dans la partie suivante, il s’agit de présenter l’apport à la tâche de similarité de voix au moyen de l’architecture par réseaux de neurones siamois sur la représentation p-vecteur, conçue pour représenter des voix jouées, par rapport à des représentations classiques en reconnaissance du locuteur.

8.4.3 Expériences Protocole expérimental

Nous décrivons une partie des expériences que nous avons menées sur le doublage vocal. Nous comparons ici l’utilisation des représentations p-vecteurs, avec les représentations classiques en locuteurs (i-vecteur et x-vecteur). L’évaluation présentée se focalise sur la tâche d’appariement des voix de doublage au moyen de l’architecture par réseaux de neurones siamois. Pour rappel, il s’agit de retrouver les paires de segments appartenant au même personnage (cible), et donc ceux appartenant à des personnages différents (non cible), en donnant en entrée un segment en anglais (VO) et un segment en français (VF), comme décrit dans la partie 8.2.4.

Comparaison des représentations

Les résultats obtenus sur les données de test (taux de réussite) avec les 3 représentations de voix considérées (i-vecteur, x-vecteur et p-vecteur) sur la tâche d’appariement des voix de doublage sont présentés dans le tableau 8.1.

Les résultats obtenus dans cette expérience sont relativement contrastés. Même si une amélio-ration semble visible avec les p-vecteurs, en comparaison des représentations locuteur classiques, la seule performance sur la tâche d’appariement de voix n’apparaît pas suffisante pour démon-trer clairement que cette représentation intègre une information supplémentaire au locuteur et permet de mieux appairer des voix de doublage VO-VF. Suspectant une limite au niveau de nos données, de nouvelles approches, en particulier sur l’apport de nouvelles données par distillation des connaissances, ont montré des améliorations quant aux résultats [Gresse et al.,2020b].

8.5. Conclusion

Représentation Sous-ensemble Taux de réussite

A 0,60 B 0,52 i-vecteur C 0,54 D 0,49 moyenne 0,54 A 0,60 B 0,54 x-vecteur C 0,52 D 0,49 moyenne 0,54 A 0,58 B 0,54 p-vecteur C 0,57 D 0,54 moyenne 0,55

Tableau 8.1 – Comparaison des performances (taux de réussite) obtenues sur la tâche d’appa-riement de voix par la représentation p-vecteur, orientée personnage, et les deux représentations classiques du locuteur (i-vecteur et x-vecteur).

8.5 Conclusion

Ce chapitre conclut les travaux que nous avons menés autour du thème de l’interdisciplinarité et du traitement du langage. J’ai introduit une partie des travaux entrepris dans le contexte du doublage vocal et de la recommandation de voix. Ces travaux prennent leur origine dans ceux que j’ai pu mener dans le cadre de la campagne d’évaluation MediaEval 2013 sur la tâche MusiClef

tracks et publiés dans la conférence ISMIR [Morchid et al.,2014g], ainsi que le stage de Master d’A. Gresse (voir partie 10.2.3). Une grande majorité des travaux exposés ici sont également issus de sa thèse. Cette problématique de recherche étant nouvelle, et quasiment inexplorée, une partie des travaux s’est concentrée à proposer un cadre expérimental permettant d’évaluer les approches proposées pour la similarité de voix de doublage, qui était alors inexistant. De ce cadre, nous avons pu proposer différentes approches originales, avec tout d’abord une représentation des voix de doublage multilingues, à savoir ici la représentation p-vecteur, permettant de dépasser les représentations actuelles orientées locuteur (i-vecteur et x-vecteur) pour représenter le niveau personnage/rôle de la voix jouée. Nous avons également mis en avant l’architecture des réseaux de neurones siamois, mieux adaptée ici pour la tâche d’appariement des voix de doublage (VO-VF) que des architectures neuronales classiques. Ces travaux préliminaires ont permis de mettre en avant le fait que des caractéristiques liées aux personnages/rôles sont présentes dans les voix de doublage, alors même que le processus de sélection de ces voix apparaît fortement subjectif.

Bien entendu, ce travail est une amorce vers une meilleure compréhension de la voix jouée, et en particulier sur ce problème de définition de la palette vocale. Mathias Quillot poursuit actuel-lement ce travail, en se focalisant sur l’extraction de caractéristiques dans la voix et la mise en avant d’informations autres que liées au locuteur. Les perspectives sont très nombreuses et l’in-terdisciplinarité indispensable pour permettre des avancées dans cette problématique. Il s’agira notamment de travailler sur la réception et la perception humaine, en menant, par exemple, des tests perceptifs, que ce soit sur les choix initiaux manuels faits par les directeurs artistiques ou par les systèmes automatiques proposés, ce que s’emploient à faire les chercheurs en sciences humaines impliqués dans le projet ANR The Voice.

Ce chapitre conclut mon investissement ces dernières années dans des travaux consacrés au traitement du langage, à la frontière d’autres domaines de recherche. Cela nécessite un inves-tissement différent, et il apparaît clairement, en conclusion de cette partie, que des avancées significatives ne pourront se faire sans l’apport d’autres domaines de recherche : la conception d’un système automatique ne peut s’appuyer uniquement sur des approches statistiques. Le bi-lan global des différents travaux menés, mais également les perspectives de recherche envisagées, sont exposés dans le chapitre V. Juste avant, je présente, dans la partie IV, un résumé de mes activités d’encadrement et d’administration de la recherche.

Quatrième partie

Administration de la recherche et

encadrement

Chapitre 9

T

HÉMATIQUES DÉVELOPPÉES ET

P

ROJETS DE RECHERCHE

Sommaire

9.1 Reconnaissance automatique de la parole et extraction d’information145

9.1.1 Participation au projet ANR EPAC (2007-2010) . . . 146