Bilan et discussion - Le projet FreeText - Traitement automatique des langues et apprentissage

Le projet FreeText

4.3 Bilan et discussion

FreeText a fait l’objet d’évaluations variées, tant à l’interne qu’à l’ex-terne du projet. Commençons par les évaluations exl’ex-ternes. Tout d’abord, une version préliminaire du prototype a été évaluée par des enseignants. Par ailleurs, certains enseignants ont accepté de faire utiliser le logiciel par leurs apprenants. Toutes les interactions ont été enregistrées par le système de traçage du logiciel. En outre, les apprenants ont été invités à remplir un questionnaire sur divers aspects du logiciel. Les principaux enseignements de cette évaluation ont été le bon accueil des exercices, à part les exercices de création. On a également noté un accueil mitigé pour les exercices dont les réponses étaient évaluées par comparaison avec une réponse modèle. Les outils de diagnostic ont été jugés intéressants mais pas totalement ﬁables.

Globalement, le logiciel a été jugé agréable à utiliser et les apprenants ont jugé à 70% qu’il pouvait les aider à s’améliorer.

En outre, des enseignants familiers avec l’ALAO, des experts en techno-logie de l’information et un expert en ALAO ont été sollicités pour tester le prototype dans son état quasi final. Leur évaluation a souligné quelques in-suffisances techniques dues aux difficultés d’accéder à certains outils ou à des vidéos trop longues à télécharger. L’approche pédagogique a reçu des avis positifs, à la nuance près que l’aspect de la compréhension et de l’expression orale était insuffisamment abordé. Les outils de vérification orthographique et de diagnostic d’erreur ont été davantage critiqués. Le niveau a été jugé trop élevé pour des apprenants de niveau intermédiaire. Mais globalement le prototype a été jugé adéquat pour un complément à l’utilisation en classe et pour des exercices de remédiation. Des professeurs de français ont également testé le synthétiseur (Cassart et al., 2002) et ont déploré la mauvaise qua-lité de la synthèse ainsi que de trop nombreuses erreurs de prononciation, qui n’apportaient aucune plus-value au logiciel, voire pouvaient induire les apprenants en erreur.

11. Malheureusement, les scriptsPHPont été développés avec la version 4.0.6 du langage et nécessiteraient une adaptation conséquente pour fonctionner avec les versions actuelles du paquetEasyPhp (PHP version 5.3), notamment à cause des librairies XML (§2.7.5) qui sont incompatibles.

Par ailleurs, une évaluation comparative a été réalisée par une experte externe, qui a comparéFreeText avec deux logiciels commerciaux d’appren-tissage du français,Tell me More¹²etInteraktive Sprachreise ¹³. Enﬁn trois évaluations qualitatives, pour chaque année du projet, ont été produites par un expert externe.

Passons aux évaluations internes : de nombreuses validations ont été ef-fectuées par d’autres équipes que celle responsable de la partie évaluée. Les tutoriels eux-même ont été notamment évalués sur le plan de la pertinence des contenus, des erreurs, de l’adéquation des exercices avec les diﬀérents buts, ainsi que de la cohérence des notions avec la grammaire de référence.

Le correcteur orthographique et le diagnostic d’erreurs ont également été validés à l’interne : à deux reprises, des phrases extraites de l’évaluation du prototype par des apprenants ont été soumises aux outils et leurs résultats ont été comparés avec une correction manuelle. L’évaluation a notamment montré que le diagnostic d’erreurs fonctionnait correctement pour l’ortho-graphe, la ﬂexion, l’euphonie, le nombre et la personne, mais que des progrès devaient être faits pour la classe, l’ordre des mots, le genre et la confusion.

En outre, la synthèse vocale a aussi été testée, en demandant à des ap-prenants de comparer des phrases prononcées par la synthèse vocale avec la même phrase prononcée par des locuteurs natifs, en transcrivant phonétique-ment et orthographiquephonétique-ment ce qu’ils entendaient¹⁴. Cette évaluation a re-levé des erreurs de prononciation, notamment pour des mots entièrement en majuscules non accentuées ou pour des erreurs de résolution d’abréviations et d’homophones, ainsi que des lacunes dans le lexique. Le test a également révélé que la synthèse vocale convenait mal pour prononcer des dialogues.

Par contre, le synthétiseur est adéquat pour lire des textes et les instruc-tions du logiciel. Cependant, l’évaluation a relevé qu’il était hautement re-commandé de tester la synthèse en introduisant de nouveaux document et exercices, afin de vérifier la présence d’erreurs. Elle a aussi souligné qu’il se-rait souhaitable de tirer partie des indications fournies par la mise en forme du texte, telles que les listes ou les titres. Enfin, il est paru indiqué que dif-férentes options de paramétrage de la synthèse soient disponibles, comme la lecture des signes de ponctuation pour les dictées, mais aussi un style plus ou moins formel.

Passons maintenant à notre évaluation personnelle du logiciel. Comme

12.http://fr.tellmemore.com/, dernier accès le 16.11.2009.

13.http://www.digitalpublishing.de/, dernier accès le 16.11.2009.

14. L’étude n’a pas testé les progrès des apprenants, tout en relevant qu’une telle évaluation serait nécessaire. Le dispositif de test devrait diviser, comme c’est l’usage, les apprenants en deux groupes, l’un utilisant la synthèse vocale et l’autre des fichiers enregistrés par des locuteurs natifs. Les performances seraient mesurées à l’aide d’un pré- et d’un post-test.

nous l’avons souligné, les modules les plus importants de FreeText sont le module expert et le module d’interface. Les autres modules sont beaucoup plus réduits. Par ailleurs, il n’y a pas ou peu d’interaction entre les différents modules, bien qu’elle soit possible et relativement aisée à mettre en place, comme nous le montrerons au chapitre 5 : les erreurs détectées par la détec-tion d’erreurs pourraient servir à guider l’apprenant vers la grammaire de référence et vers des exercices. De plus, des statistiques sur les erreurs cou-rantes des apprenants peuvent aisément être extraites et exploitées par les enseignants. Enfin, à des fins de recherche, il est regrettable que les données ne soient pas exploitées pour un corpus¹⁵.

Les objectifs du projet ont été globalement tenus de manière satisfaisante, bien qu’il a fallu les revoir à la baisse, notamment pour le nombre de tutoriels et le développement de certains outils. Au niveau pédagogique, le logiciel donne l’occasion à l’apprenant d’aborder une série de thèmes variés et oﬀre de nombreux moyens de remédiation.

Poursuivons ce bilan par une évaluation technique. Entre le début et la ﬁn du projet, la bande passante d’Internetet le taux d’équipement des écoles et des ménages en général ont été considérablement améliorés. Le choix de logiciels libres était tout aussi indiqué, aﬁn d’éviter les problèmes de licence.

Sur ces points, le choix était tout à fait judicieux. Par contre, Internet a pour inconvénient que les serveursweb doivent partager les ressources entre de nombreux utilisateurs simultanés. Par conséquent, les serveurs web sont conﬁgurés de manière à limiter la disponibilité de mémoire et de temps pour les processus. Il aurait été possible de paramétrer l’installation du logiciel en fonction de l’utilisation sur un ordinateur personnel autonome ou sur un serveurwebdestiné à de nombreux utilisateurs, qui peut de plus être utilisé par plusieurs applications. Néanmoins, les ressources disponibles seraient de toute manière moindre qu’avec un logiciel complet et autonome, directement installé sur un système d’exploitation sans dépendre d’un navigateur ni d’un serveur. En outre, le code des applications de TAL n’a pas été suﬃsamment optimisé et les processus prennent un temps considérable, voire aboutissent à un dépassement de la limite de limite de temps d’exécution (timeout).

Nous en concluons qu’il était et qu’il est toujours peu indiqué d’utiliser des applications Internet pour des tâches aussi gourmandes en ressources.

Par ailleurs, FreeText n’est disponible que sous Windows et l’installa-tion n’est donc pas possible sur d’autres systèmes d’exploital’installa-tion. De plus, l’installation du logiciel a posé de nombreux problèmes techniques,

notam-15. Afin de garantir la cohérence des données et pour pallier aux faiblesses et à certains manques de fiabilité de la détection, un tel corpus devrait être révisé par un expert humain, comme nous l’avons fait pour nos recherches sur le correcteur orthographique (§6.4.2).

ment dans les institutions¹⁶. Enﬁn, nous avons déjà souligné les problèmes d’adaptation des scripts deFreeTextaux versions ultérieures dePHP. Toutes ces limitations n’ont pas été correctement anticipées et ont malheureusement eu un impact négatif sur les phases de test du logiciel et sur sa pérennité.

Pour conclure, malgré les aspects relevés ici,FreeTextapporte une contri-bution significative au domaine de l’ALIAO. Malgré l’envergure moyenne du projet, le nombre d’outils en jeu, leur complexité et leur couverture sont considérables. Relevons aussi que ce projet interdisciplinaire a nécessité de nombreuses compétences et a suscité de nombreux échanges passionnants du point de vue scientifique. C’est pourquoiFreeText a eu un écho important au sein de la communauté scientifique.

16. Comme nous l’avons souligné, FreeText est gourmand en ressources. Il est dès lors recommandé de le faire tourner sur un serveur puissant, surtout pour une utilisation simultanée en classe, ce qui a posé notamment les problèmes suivants :

i. les serveurs dans les institutions tournent plutôt sousLinux que sousWindows; ii. les serveursWindowsfont tourner le module de serveur WebInternet Information

Services (IIS), ou d’autres serveursApache, ce qui nécessite une configuration per-sonnalisée du logiciel et des compétences dont certaines institutions ne disposaient pas ;

iii. si un simple ordinateur personnel était utilisé comme serveur pour FreeText, il ne disposait pas forcément de la puissance requise (processeurs, mémoire et accès disque) et saturait rapidement.

L’analyseur Fips et son

Dans le document Traitement automatique des langues et apprentissage des langues assisté par ordinateur : bilan, résultats et perspectives (Page 177-182)