Qualité de la reconnaissance vocale - Reconnaissance vocale et amélioration de la prononciation

6. Expérience

7.1. Qualité de la reconnaissance vocale

Afin d’évaluer la qualité de la reconnaissance vocale, nous allons observer combien de phrases correctement énoncées ont été bien reconnues par CALL-SLT. À la fin de l’expérience, un rapport d’activité contenant tous les fichiers audio enregistrés par tous les participants a été extrait. Ce document, qui se présente sous forme de tableau, contient de nombreux renseignements relatifs aux enregistrements : l’identifiant de l’utilisateur, la date et l’heure de la production orale, la glose, le résultat de la reconnaissance vocale, si l’utilisateur a eu recours à l’aide et si l’énoncé a été considéré comme juste ou faux. C’est grâce à cette dernière indication que nous déterminerons si la reconnaissance vocale est satisfaisante.

Nous pourrons également observer quelles leçons ont le mieux fonctionné et vérifier si la sélection des phrases effectuée après le prétest (cf. chapitre 5.3. Résultats) était judicieuse.

Nous avons commencé par écarter tous les enregistrements non pertinents, notamment ceux qui sont vides ou incomplets, car le participant a relâché le bouton d’enregistrement avant d’avoir terminé de parler, les énoncés qui sont formulés d’une manière non reconnue par le logiciel, qui ne correspondent pas aux gloses ou dont la prononciation de mots ne faisant pas partie des paires minimales est trop éloignée, mais aussi les fichiers dont la qualité sonore n’est pas satisfaisante.

En fin de compte, sur les 2 559 fichiers audio enregistrés au cours de l’expérience, nous n’en avons gardé que 821, soit 32,1 %. La raison principale de cette

importante sélection est la mauvaise qualité sonore des enregistrements. En effet, nous avons choisi d’écarter toutes les productions des participants PRON1194 (0 enregistrement reconnu comme correct sur 11), PRON3574 (16 sur 90), PRON5356 (112 sur 654) et PRON9022 (27 sur 331), car le volume était insuffisant ou, car d’importants grésillements étaient audibles. Notons que seul le premier élève s’est adressé à nous pour signaler un problème, alors que tous avaient reçu pour consigne d’écouter leurs propres enregistrements au départ pour s’assurer de leur qualité et que le faible nombre de phrases correctement reconnues auraient pu les inciter à s’interroger et à prendre contact avec nous.

Nous avons également dû éliminer les contributions des étudiants PRON5490 (0 sur 15) et PRON7378 (0 sur 249), car, selon toute vraisemblance, ces deux utilisateurs n’ont pas compris comment fonctionne le bouton d’enregistrement.

Étant donné que CALL-SLT a toujours affiché « nothing recognized » et que le contenu des fichiers est inintelligible, car très court, il semble que ces deux utilisateurs aient cliqué sur le bouton d’enregistrement sans le maintenir enfoncé.

Là encore, force est de constater qu’aucun de ces deux participants ne s’est adressé à nous. D’ailleurs, l’utilisation du bouton d’enregistrement est un problème récurrent : au total, 8 participants sur 13 n’ont pas tout de suite saisi son fonctionnement et tous, certains plus fréquemment que d’autres, ont tendance à relâcher le bouton trop tôt. Il s’agit là d’un inconvénient non négligeable du logiciel qu’il faudra repenser.

Quelques participants ont parfois été troublés par les gloses (utilisation de la deuxième personne du singulier au lieu de la première, par exemple), mais ils s’en sont rapidement rendu compte. En outre, le participant PRON4568 ne s’est pas tout de suite servi de l’aide et a, au départ, utilisé beaucoup de mots et quelques formulations non reconnus par le logiciel.

Le tableau 7.1 montre, pour chacun des sept participants retenus, le nombre d’enregistrements totaux, le nombre d’enregistrements qui auraient dû être reconnus, le nombre d’enregistrements correctement reconnus parmi ces derniers

Total Pertinents Reconnus Taux de reconnaissance

PRON2341 116 68 38 55,9

PRON3321 390 317 131 41,3

PRON4568 105 32 20 62,5

PRON4836 126 79 34 43

PRON8011 43 27 6 22,2

PRON8332 166 110 55 50

PRON8484 263 188 41 21,8

TOTAL 1 209 821 325 39,6

Tableau 7.1 : Nombre d’enregistrements correctement reconnus par participant

Avec seulement 325 énoncés correctement reconnus sur 821, soit 39,6 %, nous devons nous rendre à l’évidence que la qualité de la reconnaissance vocale n’est pas vraiment satisfaisante, du moins pour le niveau de ces participants, et ce en particulier pour les étudiants PRON8011 et PRON8484, dont le taux de reconnaissance dépasse à peine les 20 %. Ces résultats ne montrent d’ailleurs pas de corrélation entre l’utilisation du logiciel (exprimée par le nombre d’énoncés produits) et le taux de reconnaissance.

Avant de tirer d’autres conclusions de ces résultats, observons le tableau 7.2 qui illustre, pour chaque leçon, le nombre total d’enregistrements produits, le nombre d’enregistrements correctement reconnus et le taux de reconnaissance.

Total Reconnus Taux de reconnaissance

I think I am sinking. 283 146 51,6

I climb hills in heels. 406 128 31,5

The bear eats a pear. 94 33 35,1

Her hair floats in the air. 38 18 47,4

Total 821 325 39,6

Tableau 7.2 : Nombre d’enregistrements correctement reconnus par leçon

Bien que le nombre d’énoncés produits pour chaque groupe varie passablement, nous constatons qu’aucune leçon n’atteint un taux de reconnaissance véritablement bon.

Il existe trois explications principales possibles à ces résultats peu concluants.

Premièrement, certains problèmes de prononciation choisis, comme le montre le tableau 7.2, fonctionnent mieux que d’autres. En effet, le logiciel semble avoir moins de difficultés à reconnaître les sons [Θ – [δ que les sons [ɪ , et [iː . Ces différences sont difficiles à prévoir et à évaluer. Le choix des sons traités dans les exercices s’est effectué surtout en fonction de leur pertinence pour un apprenant francophone et il est vrai que nous n’avons pas effectué de comparaisons avec d’autres phonèmes pour identifier ceux qui étaient les mieux reconnus.

Deuxièmement, comme l’illustre le tableau 7.1, le niveau de prononciation des participants varie et il apparaît que nous avons sous-estimé la difficulté des leçons.

En effet, bien que possédant des capacités inégales en anglais, les personnes ayant effectué le prétest bénéficiaient toutes de plus d’années de pratique et la plupart est fréquemment en contact avec cette langue, que ce soit dans leur vie professionnelle ou dans le milieu académique. Nous n’avons pas pris en considération ce facteur lorsque nous avons procédé à la sélection des phrases à inclure dans les leçons. Troisièmement, c’est précisément les choix effectués suite au prétest qui constituent certainement la cause principale du faible taux de reconnaissance. Les résultats et les impressions des participants laissent à croire que nous nous sommes montré trop optimiste et aurions dû opérer un tri plus sélectif lorsque nous avons décidé des phrases à conserver. Les leçons, qui ont été jugées trop longues par les étudiants, auraient ainsi été plus courtes et moins décourageantes.

Dans le document Reconnaissance vocale et amélioration de la prononciation : élaboration et évaluation de leçons avec le logiciel CALL-SLT (Page 67-70)