Détection des disfluences - T RANSCRIPTION ENRICHIE DE SIGNAUX DE PAROLE

CHAPITRE 2. ETAT DE L’ART

2.1. T RANSCRIPTION ENRICHIE DE SIGNAUX DE PAROLE

2.1.1. Détection des disfluences

Les disfluences (les pauses verbalisées, les répétitions, les réparations, les hésitations, les ruptures) sont répandues dans le discours normal et spontané. Le besoin de détecter et de corriger des disfluences est vraiment important pour une compréhension rapide du discours naturel.

En effet, les disfluences ont été étudiées en utilisant une variété d'approches. Une grande partie des linguistes et des psychologues ont considéré des disfluences d'un point de vue de production et de perception. Parallèlement, les chercheurs du domaine du traitement automatique de la parole se sont plus intéressés à identifier les disfluences dans le but d’améliorer le taux de reconnaissance automatique du discours spontané par la machine [Liu, 2004a ; Liu, 2006]. Nous allons discuter brièvement quelques études faites en psychologie et linguistique sur la théorie fondamentale de la production de disfluences et de leurs effets sur la compréhension des auditeurs. Ensuite nous allons analyser les modèles de détection automatique des disfluences.

Sur le plan de la production, les disfluences sont très communes dans le discours spontané.

Quand les locuteurs ne peuvent pas immédiatement formuler une expression complète ou quand ils changent d'avis au sujet de ce qu'ils disent, ils peuvent suspendre leur discours et présenter une pause verbalisée avant de continuer, ou ajouter, supprimer, ou remplacer des mots qu'ils ont déjà produits. Les erreurs et les disfluences de la parole produites par les locuteurs normaux ont été étudiées pendant des décennies pour comprendre la production linguistique et les processus cognitifs de la planification de la parole. E. Shriberg [Shriberg, 1994] a prouvé que, dans différents types de conversations adaptées à la tâche, les longues expressions ont normalement un taux plus élevé de disfluence que les courtes. Cet effet peut être lié à la charge de

planification de l'expression, c’est-à-dire, les locuteurs ont plus de difficulté pour planifier de plus longues expressions. Une autre observation est que les disfluences se produisent plus fréquemment au début d'une expression quand celle-ci est encore dans l’étape préliminaire de préparation, fournissant l'évidence de l'impact de la planification d'expression sur les disfluences.

Sur le plan de la perception, dans une conversation, les disfluences fournissent aux personnes les moyens d'améliorer l'interaction et de contrôler le tour de parole. Les psycholinguistes croient que les disfluences jouent des rôles spécifiques dans la communication, pour envoyer des signaux à l'auditeur dans de nombreux buts tels que : attirer l'attention, aider le locuteur à trouver un mot, ou faire patienter quand le locuteur reconstitue ses pensées. Les études réalisées par Lickley [Lickley, 1995], ont prouvé que les auditeurs ont tendance à ne pas remarquer les disfluences ou rendent inexactement compte de l'occurrence des disfluences, suggérant que des disfluences aient pu avoir été filtrées afin d’assurer la compréhension de l'expression du locuteur. Cependant, les disfluences dans le discours posent des problèmes pour le traitement automatique et pour la lisibilité humaine des transcriptions de la parole. Les études récentes ont examiné l'effet des disfluences sur la lisibilité des transcriptions de la parole. Ces résultats suggèrent que le « nettoyage » du texte, en enlevant les disfluences, peut augmenter considérablement la vitesse de traitement du texte par les lecteurs [Jones, 2003].

Shriberg [Shriberg, 1994], dans sa thèse, a proposé une définition et une division des disfluences en trois composants principaux : reparandum (les mots qui sont réparés), interregnum (mots de remplissage ou pauses verbalisées) et reprise (le nouvel ensemble de mots qui répare le reparandum). D’une autre manière, les trois types de disfluences suivants sont les plus répandus et sont largement étudiés : répétitions (reparandum édité avec le même ordre des mots), réparations (reparandum édité avec un ordre différent des mots) et pauses verbalisées (mots dans la région d'interregnum). Les exemples dans le Tableau 1 illustrent ces trois types de disfluences :

Répétition Je voudrais trois verres

* trois verres de thé

Réparation Je voudrais trois verres

* non cinq tasses de thé

Pauses remplies

Je voudrais trois verres

*uhm quatre verres s’il vous plaît Tableau 1 : Exemples de disfluences

Des pauses verbalisées sont placées au point d'interruption du tour de parole du locuteur qui incluent des pauses telles que ‘um’, ‘uh’, ‘bon’… des marqueurs de discours tels que ‘bon’,

Chapitre 2 : Etat de l’art 19

‘puis’, ‘vous savez’. Les pauses verbalisées peuvent servir à signaler l'hésitation ou la confusion du locuteur ou pour signifier le changement du sujet de conversation (selon le type de pause remplie qu'un locuteur emploie : par exemple ‘uh’ pour l’hésitation, ‘ah’ pour le changement du sujet de conversation…). Dans le Tableau 1, le ‘umm’ est une pause verbalisée placée au point d'interruption ‘*’.

Les répétitions sont l'un des types les plus communs de disfluences. Dans l'exemple du Tableau 1, ‘trois verres’ est une répétition. Des telles occurrences de répétition d'une partie d'une expression parlée sont des répétitions.

Les réparations peuvent signifier la confusion du locuteur. Dans l'exemple ci-dessus, le locuteur est confus(e) s’il/elle veut passer commande de ‘trois verres’ ou de ‘cinq tasses’ de thé.

L'expression ‘trois verres’ est le reparandum, qui est réparé avec ‘cinq tasses’ après le point d'interruption. Les réparations peuvent également signifier l'hésitation du locuteur.

Il y a eu une quantité significative de travaux dans la détection automatique de disfluences [Liu, 2003 ; Liu, 2004b ; Nakatani, 1994]. La plupart des systèmes de détection de disfluence proposés utilisent une combinaison des paramètres prosodiques et des paramètres lexicaux, bien que quelques systèmes utilisent uniquement l’indice lexical et n’utilisent aucun paramètre acoustique. Par exemple, [Snover, 2004] se fonde exclusivement sur l'information lexicale des mots et il est montré dans ses travaux qu'une performance raisonnable peut être obtenue sans employer les paramètres acoustiques. En effet, les paramètres lexicaux comme les mots issus de la transcription manuelle ou du résultat de reconnaissance automatique constituent une source d’informations principales pour le traitement de disfluences. Certains mots clés sont de bons indicateurs pour les événements, par exemple « uh », « umh », « uhhuh »… [Johnson, 2004 ; Heeman, 1996].

Parallèlement, Nakatani et Hirschberg ont montré les avantages d'employer les paramètres acoustiques/prosodiques [Nakatani, 1994]. Ils ont détecté avec succès les points d'interruption (IP – interruption points) en établissant un arbre de décision avec les paramètres acoustiques.

[Shriberg, 1997] a aussi proposé une méthode de détection des points d’interruption en utilisant un modèle d'arbre de décision basé seulement sur les paramètres prosodiques. [Stolcke, 1998a] a amélioré ce système en y ajoutant un modèle de langage pour modéliser et détecter les frontières et les divers types de disfluences.

L'ajout des paramètres prosodiques aux paramètres lexicaux présente quelques avantages certains. Par exemple, habituellement, l'intonation d'un locuteur est perturbée au point d'interruption qui pourrait indiquer une certaine forme de répétition. Une telle information est utile et s'est avérée significative [Shriberg, 1994]. Un avantage de l’emploi de la prosodie est aussi le suivant : même pour les langues qui manquent d’outils de traitement de langage écrit naturel, il est possible de concevoir des systèmes de détection de disfluences qui sont basés sur la prosodie et qui ne nécessitent pas une transcription automatique.

Il convient cependant de noter que les paramètres prosodiques ne sont pas toujours facilement disponibles pour quelques applications spécifiques. Les retards supplémentaires dans le traitement de son pour obtenir de divers paramètres acoustiques peuvent dégrader la performance globale du système, en particulier pour les systèmes interactifs tels que la traduction spontanée de parole qui nécessite une réponse quasi temps-réel. Par conséquent, [Maskey, 2006], dans leur étude récente, ont préféré utiliser seulement les paramètres lexicaux et non les paramètres prosodiques supplémentaires. Ils considèrent le problème de suppression des disfluences comme un processus de transformation de la transcription « bruitée » en une transcription « propre » qui pourrait être décrite en utilisant un modèle statistique de traduction.

Dans le document Exploitation de la prosodie pour la segmentation et l'analyse automatique de signaux de parole ~ Association Francophone de la Communication Parlée (Page 33-36)