• Aucun résultat trouvé

Présentation de la plateforme Philosophèmes

Dans le document The DART-Europe E-theses Portal (Page 192-200)

La constitution du corpus : du recueil à la diffusion des données

3.5 Accès aux données et réutilisation

3.5.2 Présentation de la plateforme Philosophèmes

En lien avec les objectifs du projet Corpus-Philo (cf. Introduction générale), nous avons collaboré à la mise en place d’une plateforme sur laquelle les données présentées dans ce

135 Depuis janvier 2016, le consortium « Corpus Oraux et Multimodaux » et le consortium « Corpus Écrits » forment désormais le consortium « Corpus, Langues et Interactions » (CORLI) poursuivant les mêmes objectifs.

136 Nous avons, ainsi, pu suivre des formations mises en place par le consortium dans le cadre de ses missions (« Constitution, traitement et analyse des corpus multimodaux » ; « Notation, annotation et analyse de corpus multimodaux avec Elan »).

192

chapitre sont réunies et rendues accessibles. Cette collaboration s’est effectuée entre les membres du projet Corpus-Philo et la MSH de Clermont-Ferrand, par l’intermédiaire de Thibault Falvard, ingénieur de recherche en informatique référent en matière de gestion de données.

Cette plateforme a été mise en place dans le but de stocker et pérenniser les données liées au projet Corpus-Philo, d’une part, et afin de diffuser les données et de valoriser le travail réalisé au sein du projet, d’autre part.

Figure 25 : page d’accueil de la plateforme Philosophèmes.

Comme nous allons le voir, la plateforme Philosophèmes est pensée comme une

« réserve à corpus » au sens de B. Habert (2000). Elle regroupe différents corpus, écrits et oraux, recueillis en contexte scolaire. La plateforme est alimentée par trois corpus principaux137, chacun étant lié à une pratique et une méthode pédagogique particulière : le corpus C’est pas moi constitué de séances de discussion en classe sur le mensonge correspond à la méthode « Parler » ; le corpus Grenouille rassemblant des copies d’élèves ayant rédigé un compte-rendu scientifique et un récit littéraire correspond à la méthode « Écrire » ; le corpus de DVP Philosophèmes correspond, quant à lui, à la méthode « Penser ».

137 Pour une description plus détaillée, nous renvoyons à l’éditorial de la base de données Philosophèmes : http://philosophemes.univ-bpclermont.fr/accueil.

193

3.5.2.1 Archivage et interopérabilité des données

La plateforme Philosophèmes permet de stocker et de pérenniser les données liées au projet Corpus-Philo grâce aux serveurs d’une infrastructure locale, le Centre Régional de Ressources Informatiques (CRRI).

! Choix des formats de fichiers

Aujourd’hui, seul le numérique peut permettre la conservation et l’archivage des données. Il faut toutefois respecter certaines conditions car les formats numériques sont multiples et ils évoluent rapidement de telle façon qu’« une information sous forme numérique devient vulnérable au-delà d’une période pouvant se situer entre cinq et dix ans suivant les cas » (Rouchon et al., 2011 : 7).

Ainsi, les données primaires et secondaires doivent être disponibles dans un format ouvert, c’est-à-dire libre d’accès et d’utilisation. À l’inverse, un format fermé est un codage dont le mode de représentation n’est pas divulgué par la personne ou la société à qui il appartient ; de ce fait, il n’est pas interopérable et n’est pas compatible avec un archivage à long terme des données car il dépend de la société qui l’a créé et risque ainsi de ne plus pouvoir être lu (Baude et al., 2006 : 171)138. Un second critère entre en compte dans la sélection d’un format d’archivage : c’est son caractère normalisé, c’est-à-dire correspondant aux standards internationaux.

Par conséquent, en nous appuyant sur une étude réalisée par le Centre Informatique National de l’Enseignement Supérieur (Cines) et synthétisée dans le guide méthodologique pour le choix de formats numériques pérennes dans un contexte de données orales et visuelles (Rouchon et al., 2011), nous (les doctorantes du projet Corpus-Philo) avons converti l’ensemble des données primaires, c’est-à-dire les enregistrements recueillis dans le cadre du projet Corpus-Philo (ces derniers étant encodés selon le format propriétaire fermé de la marque de la caméra). Toutefois, lors de la mise en ligne des données, nous (les membres du projet Corpus-Philo) avons été confrontées à un autre problème, celui de la taille des fichiers de données qui, au vu de la capacité de stockage, nécessitaient une compression. Nous (les doctorantes du projet Corpus-Philo) avons donc sélectionné le format des données en prenant

138 Nous précisons que nous distinguons un format fermé et un format propriétaire. Bien que propriétaire, un format peut être ouvert, dans le sens où l’entité qui le contrôle peut laisser libre accès à sa description et sa réutilisation (Rouchon et al., 2011 : 12).

194

en compte, d’une part, les recommandations d’Huma-Num concernant les formats audio et vidéo (Rouchon et al., 2011 : 28-34) et, d’autre part, le respect d’un volume limité des fichiers. Ces questions restent des points sensibles au vu de la multiplicité des formats (conteneurs) et des codecs, de leur évolution et de l’expertise que cela nécessite.

En ce qui concerne les données secondaires, le format des transcriptions a été sélectionné, d’une part, à partir des formats d’archivage accepté par le Cines139 et, d’autre part, en fonction du public auquel elles étaient destinées. Nous (les membres du projet Corpus-Philo) avons ainsi retenu deux formats : l’un dans une optique recherche, l’autre orienté formation et usage public. Comme nous l’avons mentionné, le format XML des transcriptions issues du logiciel Elan est le format de référence dans la communauté de recherche travaillant sur les corpus. Il s’agit d’un format ouvert, libre, normalisé et largement utilisé qui garantit l’archivage et l’interopérabilité des données. Puis, à partir du logiciel Elan, nous (les doctorantes du projet Corpus-Philo) avons extrait la transcription au format texte plus accessible et plus lisible, à destination du « grand public ». Nous avons choisi le format PDF car c’est un format propriétaire140 ouvert, sa description est libre d’accès et il est réutilisable par des logiciels tiers (Rouchon et al., 2011 : 12) ; de plus, il fait partie des formats d’archivage acceptés par le Cines (PDF 1.4 ; PDF 1.5 ; PDF 1.6 ; PDF 1.7).

! Métadonnées

Chaque élément de corpus mis en ligne est accompagné d’une notice141 contenant les métadonnées qui lui sont associées de façon à faciliter l’archivage et l’exploration des corpus.

Cette notice se décompose en plusieurs sections. D’abord, elle contient des informations sur : la nature du document primaire disponible en ligne (audio ou vidéo), si ce dernier n’est pas disponible, seul le document secondaire « transcription » apparaît ; la date de son acquisition ; la durée de l’enregistrement. À ces informations s’ajoute la mention du corpus et de la méthode (« Penser » ; « Écrire » ; « Parler ») à laquelle le document se rattache. Ensuite, la notice contient des informations sur la classe au sein de laquelle le document a été recueilli dont le niveau (primaire ; collège ; lycée), la classe (du CP à la terminale), l’âge des élèves, le nombre d’élèves dans la classe, le lieu géographique de l’établissement, le nom des

139 L’outil FACILE (validation du Format d’Archivage du CInes par anaLyse et Expertise) disponible en ligne (https://facile.cines.fr/) permet de vérifier l’éligibilité d’un document à l’archivage au Cines.

140 Contrôlé par la société de droit privée Adobe Systems.

141 Telle que dans le cadre des archives de la parole (cf. Figure 14).

195

enseignants gérant l’activité. Enfin, la notice indique les responsables de la publication du corpus du recueil à la mise en ligne.

Ainsi, l’exploration des corpus est guidée à partir du renseignement de ces informations lors de la mise en ligne du corpus, et grâce à un menu, présenté dans la Figure 26, permettant à l’utilisateur de définir des critères de recherche.

Figure 26 : menu permettant de définir des critères de recherche au sein des corpus de la plateforme Philosophèmes.

De cette façon, l’utilisateur peut déterminer un sous-ensemble (sous-corpus) selon ses intérêts. Un sous-ensemble peut être déterminé en fonction de l’âge des élèves, du niveau, de la classe, de la méthode, du corpus, du média disponible avec la possibilité de croiser ces différents critères. La sélection visible sur la Figure 26 permettra d’afficher l’ensemble des DVP du corpus Philosophèmes recueillies au collège (soit l’ensemble des données recueillies au cours des phases 2 et 3, cf. Tableau 4 et Tableau 5).

Les métadonnées permettent ainsi de décrire les ressources disponibles sur la plateforme et d’effectuer des recherches au sein du corpus. Les métadonnées servent également à référencer ces ressources sur l’infrastructure Isidore d’Huma-Num. Isidore est moteur de recherche spécialisé dans les données numériques des sciences humaines et sociales qui effectue un moissonnage ciblé des données scientifiques à partir des métadonnées structurées selon les standards internationaux. Ainsi, les métadonnées associées aux corpus de la banque de données Philosophèmes sont également renseignées selon le schéma standard du Dublin Core (constitué par le Dublin Core Metadata Initiative) comme l’illustre la Figure 27.

Figure 27 : exemple de métadonnées Dulin Core associées à une DVP du corpus Philosophèmes.

Chaque corpus présent sur la plateforme Philosophèmes est ainsi référencé par Isidore (Figure 28) et est de ce fait doté d’un permalien, c’est-à-dire d’un identifiant URL pérenne.

196

Figure 28 : capture d’écran d’Isidore à partir d’une recherche par organisations portant sur la MSH de Clermont-Ferrand.

3.5.2.2 Diffusion des données

La base de données Philosophèmes a été conçue à destination de différents publics avec trois cibles et objectifs principaux : le développement de la recherche autour des DVP ; la formation des animateurs de DVP ; la sensibilisation du « grand public » à ces pratiques.

Dans un premier temps, nous (les membres du projet Corpus-Philo) avons envisagé de mettre en place plusieurs niveaux d’accès aux données en fonction de ces trois publics principaux et des niveaux d’autorisation de diffusion des données acquis. Finalement, au vu de la complexité structurelle et technique d’un tel dispositif de droits d’accès différenciés, nous avons renoncé à cette possibilité au profit d’une structure commune où chacun peut piocher les données qui l’intéressent.

Comme illustré sur la Figure 25, la barre de navigation de la plateforme Philosophèmes présente quatre onglets : une section « accueil » présentant la banque de données et les actualités ; une section permettant l’accès aux corpus ; une section présentant les méthodes pédagogiques liées aux différents corpus ; une section listant des publications scientifiques concernant la DVP de façon à guider les personnes souhaitant approfondir certains aspects en lien avec leur recherche ou leur pratique.

197

La section « Formation / Pédagogie » est descriptive ; il s’agit de détailler les différentes étapes de la méthode pédagogique liée à une pratique. Cette section a plutôt été pensée dans une visée d’information grand public et de formation (enseignants, animateurs et futurs animateurs de DVP). Dans l’espace dédié à la méthode « Penser » associée aux ateliers-philo, les différentes étapes présentées en 1.1.3 sont illustrées.

Figure 29 : section de la plateforme présentant la méthode pédagogique liée au corpus Philosophèmes.

L’utilisateur peut cliquer sur chaque étape où il trouvera une description ainsi que des documents illustratifs visant à l’accompagner dans la découverte et/ou la mise en place de cette pratique. Par exemple, sous l’intitulé « Supports », on trouve le matériel pédagogique initial mis au point par M. Lipman avec pour exemple des extraits de certains de ses romans philosophiques ; puis, l’intérêt de la « lecture » du support est illustrée avec un extrait du livre Chouette ! Ils philosophent (Auriac-Slusarczyk & Maufrais, 2010) présentant des fiches pratiques ; la « cueillette » des questions est illustrée par des extraits d’enregistrement, montrant des moments de récolte et choix de questions, recueillis dans le cadre de la constitution du corpus Philosophèmes ; le moment de discussion est illustré par des

« raisonnements en discussion » extraits de la thèse de G. Fiema (2014) et de cette thèse.

La section « Corpus » est principalement destinée aux chercheurs. Toutefois, dans le cadre du corpus Philosophèmes, nous (les membres du projet Corpus-Philo) l’avons conçue pour qu’elle soit profitable à l’ensemble des utilisateurs. Comme nous l’avons spécifié, chaque DVP est renseignée à l’aide des métadonnées décrites précédemment et sa transcription est disponible au format PDF. À terme, la transcription devrait être accessible sous deux formats selon les besoins des utilisateurs : recherche/analyse (XML) ou

198

lecture/observation (PDF).142 Pour certaines DVP, la bande son de l’enregistrement est disponible dans la mesure où celle-ci est entièrement anonymisée.143 Par ailleurs, pour chaque classe, un document « support » est accessible ; celui-ci contient des données primaires supplémentaires plus ou moins détaillées selon les classes (liste des supports de discussions, exemple de support utilisé, carnets de bord tenus par les animatrices, notes des animatrices et/ou des secrétaires de séances, etc.). Enfin, un « fichier aperçu » est associé à chaque DVP, présentant un court extrait vidéo de la discussion sous-titré et anonymisé. Ces extraits donnent un premier aperçu du contenu de chaque DVP, ils pointent des moments caractéristiques de la DVP où le raisonnement philosophique est à l’œuvre, où la conceptualisation est en cours, etc. (Fiema, 2014 : 285). Ainsi, les extraits-aperçus sont utiles pour l’ensemble des utilisateurs car ils sont représentatifs à différents niveaux. Ils permettent d’illustrer : (1) la pratique des ateliers-philo (visée informative pour le grand public) ; (2) la DVP à laquelle ils sont associés (visée présentative pour les chercheurs) ; (3) des moments de raisonnement au sein de DVP (visée formatrice pour les (futurs) animateurs).

3.5.3 Bilan

Il apparaît, encore une fois, que les données orales nécessitent un traitement assez couteux afin d’être archivées et diffusées car elles doivent respecter un nombre important de recommandations et de critères d’éthique (anonymisation), d’interopérabilité (format adapté), de volume (en lien avec la capacité de stockage), de description (métadonnées selon les standards internationaux). Ainsi, ce traitement n’est pas terminé et l’approvisionnement de la plateforme se poursuit. D’une part, les bandes audio des enregistrements ne sont pas toutes anonymisées et ne sont donc pas toutes diffusées pour l’instant. D’autre part, un traitement supplémentaire des transcriptions XML peut être envisagé. Comme nous l’avons indiqué, ce format est « un standard incontournable » car il permet « la structuration », « la gestion » (archivage) et « l’échange » (interopérabilité) des données (Baude et al., 2006 : 174).

Toutefois, actuellement nos transcriptions au format XML ne sont pas structurées. Ainsi, il serait intéressant de poursuivre ce traitement en vue de la normalisation du corpus selon les standards internationaux, favorisant ainsi son archivage au niveau des organisations

142 Pour l’instant, seuls les chercheurs impliqués dans les différents projets cités en Introduction générale ont accès à la transcription au format XML dans le cadre de l’étude pluri-disciplinaire des données.

143 Chaque fichier porte un identifiant permettant de le repérer facilement, composé de : la phase d’enregistrement (P1/P2/P3) ; le niveau (primaire/collège) ; la classe (CP/CM2…) ; le chiffre situant la DVP au sein des DVP d’un groupe classe (01/02/03) ; le thème (Effort/Argent…) ; le média (transcription/audio).

199

nationales telles que le réservoir de données Ortolang (support des actions menées par la TGIR Huma-Num) ; cela impactant également sur la réutilisation et la valorisation du corpus.

Une première structuration (et transformation) des fichiers XML correspondrait à l’application d’une feuille de style XSLT (EXtensible Stylesheet Language Transformations) élaborée en fonction de la structure souhaitée. Cela implique donc, d’une part, une réflexion quant à cette structure et, d’autre part, la conception de la feuille de style. Une seconde structuration consisterait à baliser les transcriptions XML selon le schéma standard de la TEI (Text Encoding Initiative)144 adapté aux spécificités des corpus oraux (The TEI Consortium, 2016).

Comme nous l’avons vu, la plateforme Philosophèmes a été mise en place à plusieurs fins : (1) la mise à disposition des données de la recherche en vue de leur exploitation par la communauté scientifique ; (2) la formation d’animateurs de DVP afin de développer la pratique des philo notamment en contexte scolaire ; (3) la documentation des ateliers-philo afin de démocratiser ces pratiques. La sensibilisation des parents d’élèves nous semble particulièrement importante, dans le contexte qui nous intéresse, afin de simplifier la mise en place de ces pratiques et l’obtention d’autorisations pour de futures recherches.

Conclusion

Notre recherche s’appuie sur un corpus de spécialité rassemblant des données authentiques représentatives d’un genre d’oral scolaire spécifique, tourné vers la recherche de sens à travers la mise en place d’une réflexion collective. Les discutants réfléchissent autour d’une question existentielle formant ainsi une communauté de recherche, au sein de laquelle chaque membre est considéré comme un être pensant à part entière. La communauté est donc fondée sur un rapport de place symétrique ; seul l’animateur se positionne en retrait et dans un rapport complémentaire afin de s’assurer du bon déroulement de l’interaction et d’accompagner les discutants dans leur réflexion.

La sélection de DVP pratiquées selon une méthode particulière (proche de la méthode Lipman) dans un environnement situationnel singulier (institution scolaire), nous permet de garantir l’homogénéité et la significativité de nos données.

144 La TEI est une syntaxe formelle adaptée à la description de la structure logique des documents XML.

Dans le document The DART-Europe E-theses Portal (Page 192-200)