• Aucun résultat trouvé

Stage de Licence 2 et Licence 3 de Mathias Quillot (2014)

10.2 Stages et Alternance

10.2.1 Stage de Licence 2 et Licence 3 de Mathias Quillot (2014)

10.2.3 Stage de Master Recherche d’Adrien Gresse (2015) . . . 156 10.2.4 Stage de Master Recherche de Noé Cecillon (2019) . . . 156

10.3 Conclusion . . . 157

Dans ce chapitre, je détaille mes contributions et mon implication dans l’encadrement de jeunes chercheurs. Dans un premier temps, je présente les thèses que j’ai eu l’opportunité de co-encadrer ainsi que celles que je co-encadre actuellement, puis je m’intéresse aux stages de Master Recherche pour lesquels j’ai participé à l’encadrement, ainsi qu’au suivi d’un étudiant en alternance à vocation recherche.

10.1 Thèses

10.1.1 Thèse de Mohamed Morchid (2012-2014)

La thèse de Mohamed Morchid, financée sur le projet ANR SuMACC (voir partie 9.2.1), a débuté en octobre 2011 avant mon arrivée au LIA. Initialement dirigée par Georges Linarès seul, j’ai rejoint l’encadrement à mon arrivée en tant que maître de conférences. Les travaux de thèse de M. Morchid se sont principalement concentrés sur la classification automatique de messages textuels bruités, que l’on retrouve dans des documents de différentes natures (transcriptions automatiques, messages courts sur les réseaux sociaux...), les bruits apparaissant sous différentes

formes (erreurs de transcription, agrammaticalité, fautes d’orthographe, vocabulaire spécifique et non standard...). Ces travaux font echo à ce que j’ai pu rencontrer lors de ma thèse concernant la transcription automatique de la parole spontanée. M. Morchid a alors proposé des approches originales pour la représentation de ces messages bruités, pour en compenser ou en atténuer le bruit, en proposant de dépasser le simple niveau mot au travers de représentations abstraites. Parmi les approches proposées, nous pouvons par exemple citer l’application de la représentation par espace de thèmes author-topic [Morchid et al.,2015d], ou l’approche multi-vue, s’appuyant sur des représentations par espace de thèmes multiples et leur fusion au moyen de l’analyse factorielle [Morchid et al., 2014a]. La qualité de ces représentations a pu être évaluée sur des tâches de classification de documents textuels et audio.

M. Morchid a soutenu sa thèse intitulée Représentations robustes de documents bruités dans

des espaces homogènes le 25 novembre 2014. Pendant sa thèse, il a effectué 4 mois à Microsoft

Research Cambridge. Après une année en tant qu’ATER, il exerce maintenant en tant que maître de conférences au LIA depuis septembre 2015. Les travaux menés pendant sa thèse ont donné lieu à de très nombreuses publications nationales et internationales (23 au total) de premier plan, dont les principales sont :

— revue internationale Computer Speech & Language [Morchid et al.,2016b] ;

— revue internationale IEEE/ACM Transactions on Audio, Speech, and Language Proces-sing [Morchid et al.,2015a] ;

— article dans la conférence internationale EMNLP [Morchid et al.,2014a] ;

— articles dans la conférence internationale ISCA Interspeech [Morchid et al., 2014d,b, 2015c,2016a] ;

— article dans la conférence internationale IEEE ICASSP [Morchid et al.,2014e] ; — article dans la conférence internationale IEEE ASRU [Morchid et al.,2015b] ; — article dans la conférence internationale IEEE SLT [Morchid et al.,2014c] ; — article dans la conférence internationale ISMIR [Morchid et al.,2014g].

10.1.2 Thèse de Killian Janod (2013-2017)

Killian Janod a effectué sa thèse sous la direction de G. Linarès, ainsi que mon co-encadrement et celui de M. Morchid. La thèse a été financée par une bourse CIFRE, en collaboration avec l’entreprise Orkis. Les travaux menés par Kilian pendant sa thèse ont concerné la thématique de la compréhension de la parole. En considérant toujours le fait que les documents que nous avions à traiter étaient bruités, nous avons poursuivi avec K. Janod les travaux sur la robustesse de documents textuels. Ces travaux interviennent au début des avancées majeures que nous connaissons actuellement en apprentissage automatique, et il a notamment contribué à proposer des méthodes d’abstraction et de débruitage de documents textuels s’appuyant sur les réseaux de neurones, ici des approches de type auto-encodeurs débruitants, permettant d’améliorer les

10.1. Thèses

performances de systèmes de compréhension de la parole.

K. Janod a soutenu sa thèse, intitulée La représentation des documents par réseaux de

neu-rones pour la compréhension de documents parlés le 27 novembre 2017. Suite à sa thèse, il a

travaillé plusieurs années comme expert en science des données, et est actuellement embauché à ce titre dans l’entreprise Alten. Des publications nationales et internationales ont été publiées dans le cadre de sa thèse :

— revue internationale IEEE/ACM Transactions on Audio, Speech, and Language Proces-sing [Janod et al.,2017] ;

— article dans la conférence internationale IEEE SLT [Janod et al.,2016b] ;

— article dans la conférence internationale ISCA Interspeech [Janod et al.,2016d] ; — article dans la conférence nationale TALN [Janod et al.,2015] ;

— article dans la conférence nationale JEP [Janod et al.,2016c] ; — article dans la conférence nationale CORIA [Janod et al.,2016a].

10.1.3 Thèse de Mohamed Bouaziz (2014-2017)

Débutée en janvier 2014, j’ai co-encadré la thèse de Mohamed Bouaziz avec M. Morchid, sous la direction de G. Linarès. Cette thèse CIFRE a constitué le point de départ de la collabo-ration avec l’entreprise EDD. Ce travail s’inscrit dans la volonté de l’entreprise de proposer des services innovants sur l’audio, l’entreprise collectant et analysant des centaines de flux audio en continu et en parallèle provenant de différentes sources d’information (chaînes télévisées, radios, plateformes de partage de vidéos sur Internet...). L’originalité du travail de M. Bouaziz s’est alors située sur la combinaison de deux problématiques, à savoir la prise en considération de la séquentialité de flux audiovisuels dans leur traitement, mais également le fait de pouvoir tirer profit de flux se déroulant en parallèle (dans notre contexte d’étude, la diffusion de programmes de plusieurs chaînes de télévision). Nous pouvons par exemple citer une partie de ses travaux, où il a proposé une approche neuronale, nommée PLSTM (Parallel Long-Short Term Memory), étendant le concept des LSTM, traitant tout d’abord chaque séquence dans une couche ré-currente indépendante, puis en sommant ces différentes sorties, permettant d’obtenir la sortie finale [Bouaziz et al.,2016d]. Cette représentation multi-flux a montré une amélioration sur une tâche de classification, en comparaison de l’utilisation de flux séparés.

M. Bouaziz a soutenu sa thèse le 6 décembre 2017, avec pour titre Réseaux de neurones

récurrents pour la classification de séquences dans des flux audiovisuels parallèles. Après une

année passée dans l’entreprise Airbus Defence and Space suite à sa thèse en tant que chercheur R&D, il est actuellement chercheur R&D spécialisé en traitement du langage pour l’entreprise Aquila Data Enabler et consultant pour Engie. Nous avons pu publier plusieurs de ses travaux de thèse dans des conférences nationales et internationales :

— articles dans la conférence nationale JEP [Bouaziz et al.,2016a,c].

10.1.4 Thèse d’Adrien Gresse (2015-2020)

Adrien Gresse a débuté sa thèse en octobre 2015 sous la direction de Jean-François Bonastre, mon co-encadrement, ainsi que celui de Vincent Labatut. Au regard du sujet particulier, à la coloration multidisciplinaire, la thèse a été financée par la Fondation Pierre Bergé d’Avignon Université, sensible à ces sujets. Comme expliqué dans les projets de recherche auxquels j’ai pu participer (voir par exemple la partie 9.3.2), les travaux menés dans le cadre de cette thèse constituent une partie de l’orientation de mon projet scientifique, avec une évolution vers des collaborations interdisciplinaires. Au cours de sa thèse, A. Gresse a travaillé sur la problématique du doublage vocal dans les productions audiovisuelles. Plus particulièrement, il s’est intéressé à la représentation des voix de personnages, dépassant largement le cadre classique d’une simple comparaison acoustique entre deux voix. Il a proposé un protocole et un cadre expérimental totalement nouveaux, lui permettant de mener ses expériences, prenant en considération les différents biais pouvant exister dans ce problème de doublage (contenu linguistique, genre...). Il a ensuite cherché à appliquer des méthodes classiques de reconnaissance du locuteur, qui ont rapidement montré leurs limites. La proposition d’une représentation abstraite des personnages, au moyen d’approches neuronales, a constitué ici un premier pas sur ce problème difficile de représentation de voix.

La thèse d’A. Gresse a été soutenue le 6 février 2020 sous le titre L’art de la voix : caractériser

l’information vocale dans un choix artistique. Au cours de sa thèse, et malgré les difficultés

rencontrées sur un sujet qui trouve difficilement sa place dans les problématiques habituelles de nos conférences, nous avons pu publier ses travaux dans plusieurs conférences :

— articles dans la conférence internationale ISCA Interspeech [Gresse et al.,2017,2020b] ; — article dans la conférence internationale IEEE ICASSP [Gresse et al.,2019] ;

— articles dans la conférence nationale JEP [Gresse et al.,2018,2020a].

10.1.5 Thèse de Mathias Quillot (2018-_)

Depuis janvier 2018, Mathias Quillot a débuté sa thèse sous la direction de J.-F. Bonastre, mon co-encadrement ainsi que celle de Nicolas Obin (maître de conférences à l’IRCAM). La direction réunit donc deux laboratoires, s’expliquant par le fait que M. Quillot soit financé par le projet ANR The Voice (voir partie 9.3.2). Finalement, les travaux de M. Quillot sont dans la continuité de ceux initiés par A. Gresse sur le doublage vocal, et plus précisément la représentation de la voix. Sans aller jusqu’à un niveau de définition et d’explicabilité qui pourrait conduire à une représentation précise de la palette vocale d’un acteur, ses travaux de thèse cherchent à fournir une information quant à la description d’une voix de personnage, avec des caractéristiques fines. Il s’agit aussi de montrer clairement si l’on retrouve des informations

10.2. Stages et Alternance

dans ces représentations qui rendent compte de la dimension personnage, et non simplement d’éléments constitutifs au locuteur.

M. Quillot devrait soutenir sa thèse en 2021. Ses travaux actuels ont été soumis dans des conférences internationales, et il a participé à deux articles acceptés par A. Gresse à ICASSP [Gresse et al.,2019] et Interspeech [Gresse et al.,2020b]. Il a également publié un article dans la confé-rence nationale JEP [Quillot et al.,2020].

10.1.6 Thèse de Noé Cécillon (2019-_)

Dirigée par G. Linarès, co-encadrée par V. Labatut et moi-même, la thèse de Noé Cécillon a débuté en octobre 2019. La thèse est financée par une bourse ministérielle, et est en lien avec le stage de Master 2 effectué par N. Cécillon (voir partie 10.2.4). Elle fait suite à des premiers travaux de recherche entrepris avec V. Labatut sur une problématique à la frontière entre le domaine du traitement du langage, dans lequel j’ai apporté mon expertise, et le domaine des réseaux complexes, dans lequel V. Labatut effectue sa recherche. Nous avons ainsi eu des pre-miers résultats très encourageants sur la détection des messages abusifs dans des conversations en modélisant les interactions entre les participants, au moyen de graphes d’interaction [ Pape-gnies et al., 2019]. Il s’agit dans cette thèse de tirer profit de sources d’informations multiples liées au document, qui peuvent prendre la forme de contenus linguistiques, acoustiques, structu-rels. . . L’intérêt étant de ne plus considérer indépendamment chacune de ces sources, mais de les combiner en une représentation unique pouvant prendre la forme de plongements (embeddings), intégrant au plus tôt toutes ces informations. Cela suit les dernières avancées dans le domaine des graphes, avec les graphes embeddings, dont de nombreux pans sont encore à étudier.

Les travaux de N. Cécillon ont déjà bien débuté, avec un article accepté pendant son stage de Master, dans le workshop international Soc2net [Cecillon et al.,2019], un article accepté à la conférence internationale LREC [Cecillon et al., 2020b], où il a proposé un nouveau corpus diffusé librement de messages abusifs dans les conversations Wikipedia, et un résumé étendu avec présentation orale dans la conférence nationale MARAMI [Cecillon et al.,2020a].

10.2 Stages et Alternance

10.2.1 Stage de Licence 2 et Licence 3 de Mathias Quillot (2014)

Les stages de quelques semaines de Mathias Quillot en Licence 2 et Licence 3 ont été orientés sur le développement d’une application dans le cadre du projet ANR ContNomina (voir par-tie 9.2.2) pour valoriser le projet. Il s’agissait ici d’être capable de visualiser des transcriptions automatiques pendant la diffusion d’une vidéo, en mettant en lumière les avancées scientifiques réalisées pendant le projet, à savoir la récupération et la correction de noms propres apparaissant de façon diachronique.