• Aucun résultat trouvé

Chapitre 6. Les éléments de conception du LICI

6.2. Exemplier de textes

Dans l'objectif du développement de l'outil LICI et avant de commencer sa réalisation, j'ai effectué un travail de recherche pour constituer un petit corpus de textes. Ces textes devaient être appropriés pour le futur public de l'outil, c'est à dire des élèves de début de collège, conformément aux objectifs fixés avec l'équipe de Médialexie. Je préfère utiliser le terme d'exemplier de texte, pour ce petit corpus, d'une part au vu de sa taille et d'autre part, par rapport à l'absence de fichiers de métadonnées associés aux textes qui sont essentiels à l'objet "corpus".

Les éléments de conception du LICI

6.2.1. Objectifs de l'exemplier

L'exemplier de textes constitué au cours du projet LICI a trois objectifs principaux. D'abord, il servira à calibrer l'outil, c'est à dire à le tester sur des textes crédibles, semblable aux textes qui seront rencontrés par les futurs utilisateurs du LICI. Ainsi, à chaque version du programme, pendant sa conception, afin de tester les différentes étapes de traitement, ou de comparer différentes méthodes de calcul ou d'affichage, l'algorithme sera testé sur tous les textes de l'exemplier. De façon pratique, cela permet, d'une part d'adapter le programme au type de textes sur lequel il sera utilisé, et d'autre part, au fur et à mesure du développement, en se familiarisant avec les textes de l'exemplier, de mieux évaluer la pertinence des cartes générées. En effet, l'évaluation de la justesse de représentation du texte par la carte est difficile si le programme est testé avec un matériel différent à chaque phase. Plus les textes sont maîtrisés, plus il est facile de se faire une idée concrète de ce qui doit être mis en avant sur la carte générée automatique. Enfin, si l'exemplier est d'une taille relativement "grande", par exemple une vingtaine de textes, cela permet d'éviter, au contraire de l'argument précédent, de toujours tester avec un seul texte et de passer à côté de bugs ou de problèmes qui adviennent en condition réelle d'utilisation. Concernant ce dernier point, la méthode que nous avons employée, a été d'ajouter au fur et à mesure des tests du programme, de nouveaux textes, hors de l'exemplier original, afin de tester sa souplesse à d'autres types de texte mais aussi d'autres types d'encodage des caractères. Ces textes étaient proposés par des membres de l'équipe de Médialexie, qui les connaissait bien, afin de pouvoir juger rapidement de la pertinence du LICI, sans avoir besoin de prendre connaissance de mon exemplier original. Parmi ces textes, se trouvaient, par exemple, Le Petit Chaperon Rouge, des essais philosophiques, un article de biologie sur les espèces de requins ou encore des extraits du Coran. Puisque ces ajouts ont été progressifs, cela m'a également permis de me familiariser avec ces divers textes. Enfin, ces ajouts ont aussi permis de définir une limite aux types de texte pouvant être traités, puisqu'adapter le programme à de nouveaux types de texte peut à tout moment faire chuter les performances sur l'exemplier original, alors qu'il représente les textes les plus pertinents à traiter.

Concernant ses autres attributions, l'exemplier devait également jouer le rôle de corpus de référence, dans l'hypothèse où les calculs de termes clés effectués par l'algorithme du LICI pour dessiner ses cartes auraient besoin de recourir à un tel corpus. En effet, parmi les méthodes de calculs des mots-clés d'un texte, dans le domaine de la recherche d'information, les algorithmes les plus populaires comparent les fréquences d'apparitions des mots dans un texte à la fréquence d'apparition usuelle de ces mots, en s'appuyant sur un corpus de textes de même type et/ou de texte suivant la même thématique. Je reviendrai sur ces méthodes et sur celles que j'ai finalement employées dans le 0.

Enfin, l'exemplier était aussi une anticipation sur la sélection de textes que je devais faire pour l'expérimentation. Ce sont donc des textes de cet exemplier qui ont servi de matériel,

autant pour les essais préalables que pour l'expérimentation finale, que je présente dans le Chapitre 7.

6.2.2. Constitution de l'exemplier

Pour effectuer la sélection de textes composant l'exemplier, je me suis référé à plusieurs critères. Tout d'abord, un critère thématique, les textes devant au maximum s'approcher de ceux rencontrés par les jeunes collégiens pendant leurs activités scolaires, en classe et à la maison. De la même façon, le niveau de difficulté des textes devait correspondre également au public. Ensuite, l'outil LICI devant être capable de proposer des retours sur des textes relativement cours, tel que les élèves en lisent en cours, l'exemplier devait être constitué en grande partie de texte courts, l'équivalent d'une à deux pages d'un manuel scolaire classique. Enfin, je devais me fournir des textes que je serai libre de partager avec mon outil et avec mes travaux de recherche, surtout dans le cas où l'algorithme de calcul des termes clés, affichés par la carte, s'appuierait sur mon exemplier.

6.2.2.1. Le programme scolaire

Je me suis d'abord renseigné sur les thèmes abordés en classe, principalement en 6ème, en consultant les programmes scolaire (Ministère de l’Education Nationale, 2008a). Nous avions déterminé les matières sur lesquelles l'outil devait apporter de l'aide aux élèves avec l'équipe de Médialexie : Français, Histoire et Géographie.

Le programme de français (Ministère de l’Education Nationale, 2008b) se concentre sur la lecture de :

 Littérature du moyen âge et de la Renaissance (ex : Romans de chevalerie de Chrétien de Troyes) ;

 Récits d’aventure (ex : Robinson Crusoé, Croc Blanc, L’ile au trésor…)  Poésie (jeux de langage) ;

 Les fables de La Fontaine ;  Théâtre (la comédie, Molière...).

Je note, ici, plusieurs liens entre mes travaux et les conseils en termes de moyens et de méthodes pédagogiques qui sont mentionnés par le programme scolaire officiel. Premièrement, le programme scolaire préconise l’utilisation des TIC, notamment des traitements de textes. C'est un exercice difficile pour les dyslexiques et les autres élèves sujets à des troubles des apprentissages et/ou des troubles de motricité. Cette préconisation justifie, une fois de plus, l'usage d’outils d’aide informatisés adaptés. Deuxièmement, il est fait mention dans le programme scolaire d’« écrits à partir de supports divers permettant de développer des qualités d’imagination (images, objets, documents audio-visuels), notamment en relation avec les œuvres étudiées dans le cadre de l’histoire des arts. » (Ministère de l’Education Nationale, 2008, p.6). Sans les nommer directement, ce conseil

Les éléments de conception du LICI

promeut l'utilisation de cartes (ou de schémas). Troisièmement, j'ai relevé un dernier point, très intéressant : le programme de français propose une méthode pédagogique mettant en œuvre la création d’un réseau de mots (clés). C'est justement le travail pour lequel le LICI va assister les élèves en difficulté :

"Pour mettre ce travail en cohérence avec les activités de lecture et d’écriture, le professeur construit des réseaux de mots à partir d’entrées lexicales choisies en relation avec les œuvres étudiées. Il peut, par exemple, privilégier les pistes suivantes :

- le portrait physique et moral ; - l’univers médiéval ;

- paysages et décors ;

- le rire."(Ministère de l’Education Nationale, 2008, p.5) Le programme d’histoire aborde les thèmes et périodes suivants :

 Les débuts de l’Islam ;  L’occident Féodal ;  Regards sur l’Afrique ;  Vers la modernité.

Pour finir, le programme de géographie se concentre sur :  La question du développement durable ;

 Des sociétés inégalement développées ;  Des hommes et des ressources.

De plus, il est précisé dans le programme officiel que « L'analyse de documents et la maîtrise de l'expression écrite et orale concernent toutes les parties du programme. » (Ministère de l’Education Nationale, 2008a). Ce qui met de nouveau l'accent sur l'impossibilité de contourner le problème de la lecture et de l'écriture dans un parcours scolaire classique et confirme la grande utilité des outils de compensation.

Pour la sélection des textes de l'exemplier, nous avons pris des décisions en commun accord avec mon premier directeur de thèse. Ainsi, j'ai dû trouver des textes qui regroupaient des thématiques communes à deux matières. Dans cette optique, j'ai constitué deux groupes thématiques :

 Le thème de l’univers médiéval (comme suggéré par le programme de français), commun au programme de français et d’histoire ;

 Le thème des pays en développement, dans le programme de géographie, en partie lié avec les textes sur l’histoire Africaine du programme d’histoire.

6.2.2.2. Les sources de textes

La source la plus évidente pour créer l'exemplier que nous souhaitions est évidemment un manuel scolaire. Cependant, les manuels scolaires classiques ne sont pas libres en termes de droit d'utilisation. Ils sont donc d'une part difficiles à partager et d'autre part, ils ne sont pas utilisables en tant que ressource pour un programme vendu par une entreprise, sans un accord commercial adéquat. Après différentes prises de contact, nous avons décidé d'utiliser des textes issus des manuels scolaire libres disponibles sur le site lelivrescolaire.fr (Éditions Lelivrescolaire.fr, 2013). Ces manuels scolaires ont été conçus de façon collaborative par une communauté d'enseignants multidisciplinaire. A l'origine 100 enseignants participaient à cette élaboration et ils sont maintenant plus de 1500. Tous ces enseignants sont coauteurs du contenu des manuels. De plus, bien qu'il existe une version papier payante de ces manuels, la version en ligne est interactive, agrémentée de nombreuses illustrations et librement accessible et utilisable. Pour être plus précis, les contenus de ces manuels sont publiés sous une licence Creative Commons (BY SA NC), permettant à chacun de les utiliser et de les modifier. Cependant, une telle licence ne permet pas l'usage commercial, donc ces textes ne pouvaient pas être utilisés en tant que composant du futur outil commercialisé par Médialexie.

Figure 6.3 Extrait d'une leçon d'Histoire telle qu'elle est présentée sur lelivrescolaire.fr (Éditions Lelivrescolaire.fr, 2013).

J'ai donc sélectionné dans les manuels du livrescolaire.fr un ensemble de deux fois 8 textes, rassemblés suivant les deux thèmes transversaux prédéfinis, l'un entre français et histoire et l'autre entre histoire et géographie. De plus, considérant les habitudes des collégiens, qui se rendent souvent sur des sites internet pour se documenter ou compléter leurs connaissances sur un sujet dont ils ont eu connaissance, il m'a semblé pertinent d'ajouter des articles de Wikipédia (2013) à l'exemplier. J'ai également extrait des articles de l'encyclopédie en ligne Vikidia (2013), une version de Wikipédia conçue à l'usage des enfants de 8 à 13 ans, dont j'ai pris connaissance grâce à des travaux de TAL sur la simplification automatique de phrases (Brouwers, Bernhard, Ligozat, & François, 2012). En effet, les articles de l'encyclopédie Vikidia sont calqués sur les articles de Wikipédia, modulo une suppression de certaines informations et une simplification de toutes les phrases. Cette

Les éléments de conception du LICI

simplification est effectuée à la main par les utilisateurs et ceci en fait donc une très bonne base pour entrainer un algorithme d'apprentissage automatique à la simplification de phrases.

Figure 6.4 Extrait de l'article de Vikidia sur le chevalier.

6.2.3. Format TEI Lite et hypothèse

méthodologique

Comme je l'ai expliqué précédemment, il était prévu dans un premier temps, d'intégrer pleinement l'exemplier de texte au fonctionnement du programme. Ainsi, tous les textes que j'avais extraits de Wikipédia et Vikidia, ont été convertis dans un format XML (eXtensible Markup Langage) dans un souci de normalisation pour effectuer facilement des traitements automatiques mais aussi dans un souci de partage et de réutilisation possible pour ce petit corpus lors de travaux à venir. Le format TEI Lite (TEI Consortium, 2012) a été choisi. Il s’agit à la fois d’un format standard de la TEI (Text Encoding Initiative), mais comportant moins de métadonnées, puisqu'il est réduit aux informations nécessaires et suffisantes pour l’identification de l’origine des textes. Pour effectuer ces changements de format, j'ai créé un programme qui permettait de transformer automatiquement le fichier obtenu lors de l'extraction d'un article de Wikipédia ou de Vikidia, qui ont leur propre structure XML, en un autre fichier XML au format TEI Lite (voir Figure 6.5).

Cette hypothèse méthodologique que nous avions faites sur le futur algorithme du LICI a également donné lieu à la constitution de paquets de mots-clés, qui devaient permettre d'identifier les thématiques des textes traités. J'ai donc extrait des ensembles de mots-clés liés aux thématiques définies précédemment dans les articles de mon exemplier. Une possibilité d'utilisation de ces paquets de mots-clés était de pré-construire de petites cartes, cohérentes au niveau thématique. Ces cartes auraient pu être utilisées par le LICI pour venir compléter des informations extraites à partir du texte en cours de traitement. Si ce texte était reconnu comme contenant des informations liées aux thématiques du programme

scolaire, alors un certains nombreux de nœuds et de liens essentiels à la thématique abordée auraient été proposés, raccordés à un ou plusieurs éléments du texte, liés à cette thématique.

Figure 6.5 La version TEI Lite que j'ai produite de l'article de Vikidia sur le chevalier.

Cet angle de résolution du problème posé par le projet LICI était intéressant, mais difficile à appliquer en accord avec certaines des contraintes que j'ai évoqué dans la section précédente sur le cahier des charges. L'idée d'utiliser le LICI pour une aide plus globale sur un ensemble de cours et pour mieux comprendre le programme d'une matière donnée n'a toutefois pas complètement était abandonné. J'expliquerai comment nous avons rebondi sur cette idée, en fin de projet, en faisant interagir le LICI et des nouveaux outils développés par les autres membres de l'équipe Médialexie, dans le Chapitre 10.