• Aucun résultat trouvé

Le prétest est une étape indispensable à toute démarche expérimentale. Une fois les tests lancés, il est en effet trop tard pour effectuer des modifications et tout dysfonctionnement fait non seulement perdre un temps précieux, mais nuit également à la qualité des données recueillies.

Dans ce chapitre, nous examinerons les objectifs de ce prétest, nous détaillerons son déroulement et nous analyserons les résultats obtenus.

5.1. Objectifs

Le prétest avait deux objectifs principaux : déterminer pour quelle phrase la reconnaissance vocale fonctionne bien et établir un classement par ordre de difficulté. Il nous a également permis de détecter et réparer les derniers problèmes et erreurs.

5.2. Déroulement

Huit personnes, de niveau assez variable en anglais, ont testé deux leçons chacune.

Les consignes (qui constituent l’annexe III), identiques à la procédure suivie pour choisir un niveau de difficulté (cf. section 4.5), étaient de faire une première fois les deux leçons en entier en répétant trois fois chaque phrase de façon normale. Il fallait ensuite refaire les deux leçons en répétant à nouveau trois fois chaque phrase, mais en substituant le mot appartenant à une paire minimale par son correspondant au sein de la paire.

Une fois toutes les données récoltées, comme les participants ont la plupart du temps répété la phrase plus de trois fois, nous avons gardé, quand c’était possible, les trois derniers enregistrements interprétables pour chaque phrase. Ceci signifie que nous n’avons pas pris en compte les enregistrements de mauvaise qualité, les phrases trop mal prononcées, coupées ou fausses.

5.3. Résultats

nombre de fichiers interprétables pour chaque phrase est très variable et va de trois à vingt et un.

Comme les phrases vont par deux, nous avons considéré les résultats de la manière illustrée par l’exemple 5.1 :

Exemple 5.1 : "dis_que : il ne mange pas correctement"

Linked prompts : [dis_que : le radiateur ne chauffe pas correctement]

True : 9/11 False : 1/9

Total : 85.0% (17/20) Group : 88.2%

"dis_que : le radiateur ne chauffe pas correctement"

Linked prompts : [dis_que : il ne mange pas correctement]

True : 10/12 False : 0/11

Total : 91.3% (21/23) Group : 88.2%

Les nombres des catégories « true » et « false » indiquent combien de phrases ont été reconnues par le logiciel, c’est-à-dire combien ont obtenu un feedback vert.

Ainsi, tandis que plus la valeur de « true » est élevée, meilleur est le résultat, l’inverse vaut pour le nombre de « false ». Les valeurs pour « total » et « group » prennent ce facteur en compte.

L’annexe IV contient les données pour toutes les phrases. En nous fondant sur ces résultats, nous avons classé les paires selon leur taux de réussite dans la catégorie

« group ». Nous avons ensuite examiné un à un les énoncés et déterminé s’ils obtenaient d’assez bons scores pour faire partie des exercices, si nous pouvions les modifier pour améliorer la qualité de la reconnaissance, ou s’ils ne fonctionnaient simplement pas et ne pouvaient pas être utilisés pour les leçons.

Nous avons remarqué qu’il y avait un problème de reconnaissance avec le mot

« red ». En effet, le son [r] anglais est difficile à prononcer pour les francophones.

Aussi, nous avons décidé de le remplacer par « pink ». Après quelques tests, nous avons rapidement pu observer une nette amélioration des résultats pour les

phrases concernées. Ce changement a permis de garder trois paires qui obtenaient de mauvais résultats.

Nous avons également décidé de conserver certaines phrases obtenant un mauvais score dans la catégorie « false », lorsqu’il s’agit d’une faute que l’étudiant n’est pas susceptible de commettre. L’exemple 5.2 illustre le cas d’une de ces paires.

Exemple 5.2 : "dis_que : de la mousse pousse sur cet arbre"

Linked prompts : [dis_que : un papillon de nuit vole dans la pièce]

True : 6/13 False : 4/9

Total : 50.0% (11/22) Group : 65.9%

"dis_que : un papillon de nuit vole dans la pièce"

Linked prompts : [dis_que : de la mousse pousse sur cet arbre]

True : 10/13 False : 1/9

Total : 81.8% (18/22) Group : 65.9%

Cette paire de phrases est tirée de la leçon « I think I am sinking ». On remarque que le premier énoncé obtient un résultat « false » plutôt mauvais. Cependant, nous avons gardé cette paire, car il est peu probable que l’étudiant prononce mal

« moss » et le substitue par « moth ». D’autant plus que le score obtenu par la deuxième phrase est très bon.

Étant donné que les participants au prétest ne sont pas anglophones, leur prononciation n’est pas toujours idéale. En écoutant les enregistrements, nous avons remarqué que certaines phrases qui obtiennent un score « true » mauvais contiennent des mots que les testeurs ne savaient pas prononcer correctement.

Comme l’aide audio n’était pas encore disponible à ce stade du projet, nous avons estimé que ce résultat aurait été meilleur si le sujet avait eu un exemple audio à sa disposition. L’exemple 5.3 met en lumière ce cas de figure.

Exemple 5.3 : "dis_que : tu chauffes la soupe"

Linked prompts : [dis_que : tu manges la soupe]

True : 2/9 False : 0/9

Total : 61.1% (11/18) Group : 65.8%

"dis_que : tu manges la soupe"

Linked prompts : [dis_que : tu chauffes la soupe]

True : 3/8 False : 0/9

Total : 70.6% (12/17) Group : 65.8%

Dans ces deux phrases, le mot « soup », prononcé [suːp , posait problème. La prononciation des participants variait de [sup] à [saʊp] (prononcé comme

« cloud », [claʊd]). Nous avons choisi de ne pas éliminer cette phrase, en partant du principe que l’aide audio permet à l’étudiant de corriger ce type d’erreurs. Les participants au prétest ont d’ailleurs souvent mentionné qu’ils ne savaient pas comment prononcer certains mots et que c’était un facteur qui diminuait vraisemblablement la qualité de la reconnaissance vocale.

Au final, nous avons éliminé quarante-neuf phrases. Le nombre d’énoncés retenus pour chaque leçon est le suivant :

« I think I am sinking. » : 18 phrases

« I climb hills in heels. » : 33 phrases

« The bear eats a pear. » : 26 phrases

« Her hair floats in the air. » : 20 phrases

Total : 97 phrases

5.4. Conclusion

Vu la qualité moyenne des enregistrements récoltés et le nombre parfois faible de données par phrase, il a fallu interpréter les résultats de ce prétest avec prudence.

C’est pourquoi nous avons examiné les paires de phrases les unes après les autres et pris des décisions au cas par cas. L’expérience, sujet du chapitre suivant, permettra de voir si nous nous sommes montré trop optimiste dans nos choix.