• Aucun résultat trouvé

perspectives

Dans cette thèse, nous nous sommes intéressée à l’utilisation de l’échographie linguale pour proposer un retour visuel en temps-réel dans le cadre de la rééducation orthophonique des troubles de l’articulation.

Un état de l’art des techniques de retour visuel lingual et d’illustration linguale nous a permis de mettre en avant les liens entre production et perception de la parole, et d’appuyer notre volonté d’exploiter une information visuelle sur la langue d’un patient pour améliorer son articulation. L’échographie fournit une image en temps-réel de la véritable articulation du patient sans en entraver le mouvement. Cependant, l’image est souvent rendue difficilement lisible par plusieurs contraintes. En plus d’un bruit de

speckle, cette image ne fournit qu’une information sur le contour supérieur de la langue,

parfois incomplet, et dans un plan 2D, sans aucune information sur les limites de la cavité orale et les autres articulateurs.

Ce travail de thèse s’est donc articulé autour de deux principaux objectifs. D’une part, nous avons développé des méthodes d’échographie linguale augmentée afin d’améliorer la lisibilité des images échographiques pour le patient et praticien. D’autre part, nous avons évalué le bénéfice du retour visuel et de l’illustration dans le cadre d’une étude clinique sur la prise en charge orthophonique des patients glossectomisés.

Suivi du contour de langue

Nous avons développé une méthode de segmentation des images échographiques visant à rendre plus visible le contour de la surface supérieure de la langue, parfois très mal imagé. Nous avons mis en place une méthode qui minimise l’intervention humaine, tout en étant aussi robuste qu’une méthode de l’état de l’art. Nous avons fait l’hypothèse qu’une partie manquante du contour pouvait être estimée non seulement à partir de la connaissance des autres parties de ce contour, mais également sur la base des autres structures présentes dans l’image. Pour cela, nous avons proposé une méthode s’appuyant sur un encodage compact d’une région d’intérêt (approche EigenTongues) et sur une modélisation des relations pixels-contours par réseau de neurones artificiels. Nous avons notamment proposé une approche multi-locuteur afin d’évaluer la capacité de généralisation de notre méthode à un locuteur inconnu.

Animation d’un modèle de langue

La deuxième méthode d’échographie linguale augmentée développée nous amène plus loin dans l’idée d’ajouter des informations. Nous animons le modèle de langue d’une tête parlante articulatoire développée au Gipsa-lab. Toujours pour faciliter son application clinique, nous cherchons pour cela une méthode permettant un bon compromis entre performance et quantité de données d’enrôlement acquises sur un nouveau locuteur. De plus, nous avons souhaité concevoir un système capable de s’adapter aux progrès d’un patient notamment en généralisant correctement à des configurations articulatoires non vues pendant la l’apprentissage. Nous proposons une méthode d’adaptation à partir d’un modèle de référence en utilisant l’algorithme Cascaded Gaussian Mixture Regression, dont la version Integrated combine dans un même modèle graphique deux régressions de type GMR. Cette approche réalise un bon compromis entre performance d’une part, avec une plus grande précision des mouvements linguaux estimés dans l’espace articulatoire de la tête parlante, quantité de données d’enrôlement et capacité de généralisation d’autre part. Les résultats obtenus démontrent l’intérêt d’exploiter des informations a priori sur un locuteur de référence pour pallier le manque de connaissances sur l’utilisateur.

Application clinique de l’échographie linguale

Nous avons mis en place un protocole pour la rééducation orthophonique par retour visuel chez des personnes ayant subi une ablation d’une partie de la langue (glossectomie) ou du plancher de la bouche. Ce protocole vise à comparer les progrès d’un patient lors de séances de rééducation avec une illustration visuelle et avec un retour visuel. L’illustration visuelle consistant en une visualisation des mouvements cibles, enregistrés sur un autre locuteur à l’articulation non-pathologique. Pour le retour visuel, nous avons utilisé une version simplifiée des approches décrites en chapitre 2 et 3, non finalisées pour le début de l’essai clinique. Ce protocole a pour objectif de déterminer si la visualisation de sa propre langue a un impact important pour l’acquisition d’une nouvelle articulation, ou si visualiser le geste correct suffit. Nous avons fait l’hypothèse que le retour visuel serait plus efficace que l’illustration dans notre cas. Nous avons présenté cinq études de cas sur des patients pour lesquels nous avons alterné, dans des ordres différents, dix séances de rééducation avec illustration et dix séances avec retour visuel. Pour trois des cinq patients, nous avons observé des progrès significatifs après vingt séances de rééducation, quel que soit l’ordre choisi. Les erreurs concernant la position de la langue, que ce soit en termes d’élévation ou de lieu d’articulation, ont été corrigées à la fin des deux sessions de rééducation pour tous les patients. Nous avons cependant remarqué une tendance à des progrès plus rapides avec l’utilisation du retour visuel.

Perspectives

Parmi les deux méthodes d’échographie augmentée, celle basée sur la tête parlante (Chapitre 3) nous apparaît comme la plus prometteuse. Elle permet une visualisation intuitive de l’ensemble des structures du conduit vocal. Sa mise en œuvre dans le cas d’une étude clinique reste une perspective majeure de ce travail, notamment en comparaison avec une approche basée sur l’image échographique brute. Par ailleurs, les deux méthodes d’échographie augmentée proposées dans ce travail ne modélisent pas explicitement la structure temporelle des mouvements linguaux. L’utilisation de réseaux récurrents (dont les architectures de type Long Short-Term Memory) permettrait cette prise en compte explicite dans le cas de la méthode de segmentation décrite au Chapitre 2.

Dans le cas de l’approche basée sur l’animation de la tête parlante (Chapitre 3), une extension de la méthode C-GMR basée sur une architecture de type HMM pourrait être envisagée. Enfin, dans les deux cas, l’extraction automatique de descripteurs robustes à partir des images pourrait s’effectuer à l’aide de réseaux à convolution, ou CNN (LeCun, Bengio et al. (2015)) qui sont aujourd’hui une méthode privilégiée pour la classification de gestes à partir de séquences d’images naturelles (Karpathy, Toderici et al. (2014) ; Simonyan & Zisserman (2014) ; Noda, Yamaguchi et al. (2014)).

Pour l’aspect applicatif en situation clinique, les premiers résultats obtenus sur cinq patients sont encourageants pour la poursuite de l’étude, pour laquelle nous prévoyons d’en inclure une trentaine. En plus des bilans orthophoniques, nous évaluerons l’intelligibilité des patients à l’aide de jurys d’écoute. De plus, à ce stade de l’étude, nous n’avons pas analysé l’ensemble des résultats des bilans et d’autres informations sur les erreurs phonétiques peuvent en être extraites. Nous pourrions aussi regarder plus en détail le travail réalisé par les orthophonistes, et déterminer s’il existe un lien entre le mode de visualisation choisi et le type de retour fourni par l’orthophoniste. Nous pourrions aussi nous intéresser à la façon dont le patient interagit avec les différents outils, afin d’évaluer de manière plus pratique le protocole le plus adapté aux patients, en fonction de leur aisance à comprendre l’image qui leur est fournie, ainsi qu’en fonction des troubles qu’ils présentent.

Comme nous l’avons indiqué dans ce manuscrit, la littérature met en évidence plusieurs manques constatés dans différentes études. Ainsi, Eriksson et al. (2005) souligne dans son article l’importance de proposer des outils simples, facilement modulables et utilisables en dehors des séances de rééducation. L’utilisation d’un logiciel comme Ultraspeech-player au quotidien en complément d’un retour visuel par échographie adapté au locuteur au cours des séances de rééducation avec un orthophoniste pourrait parfaitement répondre à ces exigences. Engwall (2012) utilise un retour en utilisant une tête parlante articulatoire dans

le cadre de l’inversion acoustico-articulatoire pour l’apprentissage d’une nouvelle langue. Il souligne l’importance de trouver une méthode permettant l’adaptation à tout nouveau locuteur à partir de données acquises sur ce dernier. Notre adaptation de la tête parlante à partir de données articulatoires acquises par échographie pourrait être intéressante dans ce cas de figure pour résoudre ce problème d’affichage de l’articulation. En poursuivant ces travaux, nous pourrions ainsi essayer de confirmer l’hypothèse émise par Cleland et al.

(2013) et Roxburgh et al. (2015) qu’un retour visuel basé sur l’animation d’une tête parlante pourrait être bénéfique pour la rééducation orthophonique, étant plus complet et plus facile à interpréter.

Contributions

Revues

D. Fabre, T. Hueber, L. Girin, X. Alameda-Pineda, P. Badin, "Automatic Animation of an Articulatory Tongue Model from Ultrasound Images of the Vocal Tract", Speech

Communication (soumis)