Résultats - PARTIE EXPÉRIMENTALE - Évaluation de la prononciation par reconnaissance vocale : é

II. PARTIE EXPÉRIMENTALE

5.3 Expérience

5.3.5 Résultats

Les résultats de l’évaluation automatique et ceux de l’évaluation humaine ont été rassemblés dans le même document Excel. Avec un tableau pour chaque candidat, nous sommes en

mesure d’observer, pour chaque prompt, quelle évaluation a été rendue à la fois par CALL-SLT et par le coach (cf. Annexe 1). Ce sont donc les données de 17 candidats ayant chacun répondu à 26 prompts, soit un total de 442 données, que nous allons étudier.

La comparaison des résultats de ces deux types d’évaluation devrait nous permettre de répondre aux questions de recherche que nous nous sommes posées à la section 5.3.1. Pour ce faire, l’analyse des données s’effectuera selon deux angles : quantitatif et qualitatif. Ces deux approches devraient nous permettre de nous faire une idée sur la fiabilité de la reconnaissance vocale et de l’évaluation sur CALL-SLT. Au vu des résultats de ces deux analyses, nous tenterons ensuite de répondre à la troisième question de recherche, soit la possibilité d’attribuer automatiquement un niveau de compétence.

Analyse quantitative des données

Comme mentionné précédemment, une analyse quantitative des résultats nous permet d’observer si CALL-SLT prend en compte dans son évaluation autant de réponses qu’un coach humain.

À la configuration de CALL-SLT, nous avons défini un confidence threshold, c’est-à-dire un seuil de confiance à partir duquel le système rejettera systématiquement les réponses dont il n’est pas certain. Lors de la récupération des données, ces réponses apparaissent avec le statut

« nothing recognized » et sont donc des réponses nulles. De la même manière, nous avons demandé au coach d’attribuer le statut de « nul » à toutes les réponses dont l’appréciation est jugée difficile voire impossible.

L’analyse quantitative des données vise donc à comparer le nombre de réponses jugées nulles par CALL-SLT et par le coach. L’histogramme de la Figure 26 ci-après représente la répartition des statuts attribués aux 442 prompts par nos deux types d’évaluateur.

Figure 26. Comparaison des statuts attribués aux 442 prompts par CALL-SLT et par le coach.

Comme le révèle la Figure 26, CALL-SLT a tendance à considérer comme « nul » un nombre beaucoup plus important de réponses qu’un coach humain : 126 pour CALL-SLT contre seulement 3 pour le coach. En d’autres termes, sur 442 réponses analysées, 28 % d’entre elles ont été jugées « nulles » par CALL-SLT, contre moins de 1 % par le coach. Cette différence se répercute presque essentiellement sur le nombre de réponses acceptées : 120 de moins pour CALL-SLT. Le nombre de réponses refusées est quant à lui sensiblement identique chez les deux types d’évaluation.

En observant la répartition de ces statuts par exercice, nous pouvons constater que le test de discrimination obtient le meilleur taux de réussite avec 71 % de réponses jugées « acceptées » par CALL-SLT. Viennent ensuite les tests de répétition et de lecture avec un taux de réussite respectivement de 54 % et 57 %. Du côté du coach, les résultats sont semblables. La phase de discrimination est celle qui obtient le meilleur taux de réussite : 96 %. Les tests de répétition et de lecture atteignent également des scores comparables respectivement de 84 % et 82 %. Le taux élevé du test de discrimination s’explique probablement du fait que, dans cet exercice, la l’évaluation est très tolérante. Les candidats ne sont jugés que sur leur perception, les erreurs de prononciation n’entrant ici pas en ligne de compte. Les raisons des problèmes rencontrés dans les tests de répétition et de lecture peuvent être multiples. D’un côté, elles peuvent être attribuées aux difficultés auxquelles les participants sont confrontés, par exemple : complexité des tâches demandées, absence de contexte (pour le test de répétition), nécessité d’enregistrer

266 386 50 53 126 3

des réponses plus longues (pour le test de lecture), etc. D’un autre côté, elles peuvent également découler du système : mauvaise qualité des dispositifs d’écoute et d’enregistrement, ou reconnaissance vocale trop sévère, par exemple.

Au vu de ces premiers résultats, nous sommes tenté de penser que la reconnaissance vocale est très restrictive puisque CALL-SLT invalide plus d’un tiers des réponses. Cette conclusion serait toutefois hâtive. En effet, avec le nombre de 126 réponses nulles, nous ne faisons pas la distinction entre les réponses issues d’une mauvaise reconnaissance vocale et celles découlant de l’utilisation du confidence threshold. Les données rejetées par ce dernier ne sont pas qualifiées de « refusées » mais bien de « nulles ». Ainsi, parmi les 126 données « nulles » de CALL-SLT, certaines correspondent peut-être à des « refusées » chez le coach, ce qui représente un autre étiquetage et non un problème de reconnaissance vocale.

La seule analyse quantitative des résultats ne permet donc pas de juger de la fiabilité de CALL-SLT. L’essentiel n’est pas de savoir si les deux modes d’évaluation produisent le même nombre d’acceptation ou de refus, mais plutôt d’en vérifier la qualité : les réponses acceptées par CALL-SLT le sont-elles également par le coach, de même que les réponses refusées ou nulles ?

Analyse qualitative des données

En raison du nombre relativement important de réponses nulles chez CALL-SLT, une comparaison plus détaillée des deux types d’évaluations s’impose. En effet, nous ne nous contenterons pas ici de comparer le nombre de réponses acceptées, refusées ou considérées comme nulles par nos deux types d’évaluateurs. Nous allons comparer pour chaque prompt l’évaluation rendue par CALL-SLT avec celle rendue par le coach. De cette manière, nous serons en mesure d’observer précisément si le jugement rendu par CALL-SLT coïncide avec celui du coach.

Pour ce faire, nous avons compté combien de réponses étaient considérées comme acceptées/refusées/nulles à la fois par CALL-SLT et par le coach. Nous avons également recensé le nombre de réponses qui étaient acceptées par l’un mais refusées ou invalidées par l’autre, et inversement. Toutes ces données sont regroupées dans le tableau de la Figure 27 ci-dessous.

COACH

CALL-SLT Accepté Refusé Nul

Accepté 261 4 1

Refusé 29 21 0

Nul 96 28 2

Figure 27. Analyse des réponses selon le statut attribué par CALL-SLT et le coach.

Ce tableau (Fig. 27) nous permet dans un premier temps d’éclaircir quelque peu la zone d’ombre qui planait sur les 126 réponses nulles révélées lors de l’analyse quantitative. En effet, nous sommes maintenant en mesure de constater que parmi les 126 réponses invalidées par CALL-SLT, 2 sont également nulles et 28 sont refusées chez le coach (cf. nombres entourés de la Figure 27). Ceci signifie que 30 des réponses nulles de CALL-SLT correspondent effectivement à des réponses qui doivent être rejetées. Les réponses nulles issues de la configuration trop stricte du confidence threshold ou d’un problème de reconnaissance vocale s’élèvent désormais à 96.

Dans un second temps, la Figure 27 nous permet d’observer si l’évaluation de CALL-SLT est fiable, c’est-à-dire si elle correspond à l’évaluation rendue par le coach.

Nous jugerons donc fiables toutes les réponses auxquelles le même statut a été attribué par CALL-SLT et par le coach (cf. cases jaune foncé de la Figure 27). Comme les réponses nulles sont des réponses rejetées, nous considérons que l’évaluation est également fiable pour les réponses au double statut refusé-nul (cf. cases jaune clair de la Figure 27). Sur 442 réponses, 312 ont été évaluées de manière similaire par CALL-SLT et par le coach.

Les réponses acceptées par CALL-SLT mais refusées ou invalidées par le coach sont au nombre de 5 (cf. cases vertes de la Figure 27). Il s’agit de cas pour lesquels l’évaluation automatique s’est montrée trop tolérante : elle a accepté des réponses qu’un évaluateur humain aurait refusées.

Au contraire, les réponses refusées ou invalidées par CALL-SLT mais acceptées par le coach s’élèvent au nombre de 125 (cf. cases rouges de la Figure 27). Ces cas témoignent d’une évaluation automatique trop sévère : elle a refusé des réponses qu’un évaluateur humain aurait acceptées.

Au vu de ces résultats, nous pouvons donc conclure que l’évaluation automatique s’est révélée bonne, c’est-à-dire identique à celle du coach, dans 312 cas et mauvaise dans 130 cas.

La qualité de l’évaluation automatique est synthétisée dans la Figure 28 ci-après.

Figure 28. Qualité de l’évaluation de CALL-SLT exprimée en pourcentage.

D’un point de vue qualitatif, nous pouvons constater que dans l’état actuel, le système fournit une évaluation fiable dans près de trois cas sur quatre et que, lorsque l’évaluation est mauvaise, elle est dans presque tous les cas trop sévère.

Gardons toutefois à l’esprit que notre notion de « fiabilité » a été définie comme la correspondance entre l’évaluation de CALL-SLT et celle d’un coach humain. Elle dépend donc de l’avis du coach en question et serait, de ce fait, susceptible de varier d’un évaluateur à l’autre. Comme annoncé à la section 5.3.4 précédente, un candidat a été soumis à une double évaluation humaine : ses données ont été analysées par deux coaches différents. Ceci nous permet d’établir une modeste comparaison entre les évaluations des deux coaches et d’observer s’il existe entre eux une forme d’inter-accord. Avec le coach principal, qui a fourni les évaluations de tous les candidats, le participant en question obtient un total de 21 réponses acceptées et 5 réponses rejetées. Avec le second coach, qui nous sert de point de comparaison dans ce cas précis, le même participant comptabilise 18 réponses acceptées et 8 réponses rejetées. Aucun des deux coaches n’a attribué de réponse nulle à ce candidat. De plus, les deux coaches ont rendu une évaluation différente pour 6 prompts sur 26, ce qui correspond à

Bonne 71%

Tolérante 1%

Sévère 28%

Mauvaise 29%

Qualité de l'évaluation CALL-SLT

un taux de désaccord de 23 %. De cette confrontation nous pouvons donc conclure que les coaches ne sont pas unanimes. Sur ce cas précis, nous constatons que le coach principal s’est montré plus tolérant que le coach secondaire. Ceci suscite l’éventualité que les cas de non-correspondance entre évaluation automatique et humaine ne proviennent pas uniquement d’un CALL-SLT trop sévère, mais peut-être également d’un coach trop permissif. Il serait intéressant de creuser cette piste car, si tel est le cas, le taux de fiabilité de CALL-SLT serait alors supérieur.

Attribution automatique des niveaux de compétence

Dans le cadre de notre troisième question de recherche, nous avons demandé au coach d’attribuer un niveau de compétence pour chaque candidat. L’objectif de cette démarche est de découvrir s’il est possible d’établir une corrélation entre le score obtenu par le participant, c’est-à-dire le nombre de réponses acceptées par CALL-SLT, et un niveau de compétence du CECRL.

Pour les 17 candidats, le coach a attribué des niveaux allant de A2 à C1. Aucun candidat n’a été évalué de niveau A1 ou C2 par le coach. Nous nous concentrerons donc sur l’analyse des niveaux A2 à C1. Le tableau de la Figure 29 ci-dessous met en rapport les différents niveaux de compétence avec le nombre de réponses acceptées que les candidats ont respectivement obtenu. Il précise également dans quel(s) exercice(s) chaque candidat a comptabilisé le maximum de réponses acceptées.

Niveau Candidat et nombre de réponses

acceptées (sur 26)

Moyenne

A2 Candidat 1 : 11

11,3 Candidat 11 : 10

Candidat 17 : 13

B1 Candidat 2 : 18

15,6 Candidat 7 : 17

Candidat 9 : 14 Candidat 10 : 15 Candidat 12 : 17 Candidat 14 : 13

B2 Candidat 3 : 12

15 Candidat 4 : 16

Candidat 5 : 11 Candidat 8 : 14 Candidat 13 : 18 Candidat 15 : 19

C1 Candidat 6 : 23

23,5 Candidat 16 : 24

Figure 29. Niveaux de compétence et nombre de réponses acceptées par CALL-SLT.

Compte tenu du nombre important de réponses considérées comme nulles par CALL-SLT, la mise en corrélation des niveaux et des scores ne peut être optimale. Toutefois, la Figure 29 permet de remarquer une tendance. Le niveau A2 oscillerait généralement autour de 11 bonnes réponses et le niveau C1 autour de 23. Pour les niveaux intermédiaires, soit B1 et B2, les résultats sont difficilement analysables. En effet, la moyenne des scores obtenus pour le niveau B2 est inférieure à celle obtenue pour le niveau B1 (15 contre 15,6). Au sein du niveau B1, nous constatons par exemple que CALL-SLT est particulièrement tolérant avec les candidats 2, 7 et 12 (cases vertes de la Figure 29). Ceux-ci obtiennent un score élevé, semblable à certains candidats de niveau B2, mais sont considérés plus sévèrement par le coach. À l’inverse, certains candidats du niveau B2 sont jugés sévèrement par CALL-SLT et obtiennent des scores qui, avec l’évaluation automatique, les rattacheraient plutôt au niveau

B1 voire même A2. Il s’agit par exemple des candidats 3, 5 et 8 (cases rouges de la Figure 29).

Ces résultats ne signifient toutefois pas que la corrélation entre niveau et score est impossible.

En effet, chez ces derniers candidats, nous pouvons observer un taux élevé de réponses jugées nulles par CALL-SLT, soit respectivement 9, 10 et 12 réponses nulles sur 26. Pour le candidat 3, toutes les réponses jugées nulles par CALL-SLT sont acceptées par le coach. Pour le candidat 5, 8 réponses nulles sur 10 sont acceptées par le coach et pour le candidat 8, 6 réponses nulles sur 12. Ceci prouve donc que, dans la grande majorité de ces cas, l’incohérence ne provient pas d’une impossibilité d’attribution des niveaux de compétence, mais bien de l’évaluation fournie par CALL-SLT, effectivement trop sévère.

Dans le document Évaluation de la prononciation par reconnaissance vocale : élaboration d'un test de prononciation sur la plateforme CALL-SLT (Page 73-81)