• Aucun résultat trouvé

Des données particulières : les données de la recherche en Sciences Humaines et Sociales

N/A
N/A
Protected

Academic year: 2021

Partager "Des données particulières : les données de la recherche en Sciences Humaines et Sociales"

Copied!
13
0
0

Texte intégral

(1)

HAL Id: hal-01928548

https://hal.archives-ouvertes.fr/hal-01928548

Submitted on 20 Nov 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Des données particulières : les données de la recherche en Sciences Humaines et Sociales

Tiphaine van de Weghe, Marie-Noelle Bessagnet, Philippe Roose

To cite this version:

Tiphaine van de Weghe, Marie-Noelle Bessagnet, Philippe Roose. Des données particulières : les

données de la recherche en Sciences Humaines et Sociales. 34ème Conférence sur la Gestion de Données

– Principes, Technologies et Applications (BDA 2018), Oct 2018, Bucarest, Roumanie. �hal-01928548�

(2)

Sciences Humaines et Sociales

Tiphaine VAN DE WEGHE

LIUPPA, Laboratoire Informatique de l’Universit´ e de Pau et des Pays de l’Adour, et, ITEM, Identit´ es,

Territoires, Expressions et Mobilit´ es

PAU, FRANCE t.van-de-weghe@univ-pau.fr

Marie-No¨ elle BESSAGNET

LIUPPA, Laboratoire Informatique de l’Universit´ e de Pau et des Pays

de l’Adour PAU, FRANCE

marie-noelle.bessagnet@univ-pau.

fr

Philippe ROOSE

LIUPPA, Laboratoire Informatique de l’Universit´ e de Pau et des Pays

de l’Adour PAU, FRANCE Philippe.Roose@iutbayonne.

univ-pau.fr

ABSTRACT

Les donn´ ees de la recherche en Sciences Humaines et So- ciales (SHS) sont au cœur de tous travaux des chercheurs.

G´ erer ces donn´ ees tout au long du cycle de vie n´ ecessite un travail commun entre chercheurs en SHS produisant et exploitant les donn´ ees qui ont pour leur part ´ et´ e structur´ ees par les chercheurs en Informatique. Afin de r´ epondre aux probl´ ematiques pos´ ees par les traitements sur les donn´ ees de la recherche en SHS depuis leur recueil jusqu’` a leur valorisa- tion, nous proposons dans cet article un cadre conceptuel et m´ ethodologique, une chaˆıne de traitements ainsi que des out- ils de traitement. Nous aborderons deux types de donn´ ees de la recherche : des documents textuels, le plus souvent anciens, que les chercheurs en SHS doivent retranscrire en premier lieu avant tout traitement informatique et/ou statistique et des donn´ ees plus h´ et´ erog` enes issues du Patrimoine Culturel Immat´ eriel (PCI).

KEYWORDS

Donn´ ees de la recherche, s´ emantique, statistique, TALN

ACM Reference Format:

Tiphaine VAN DE WEGHE, Marie-No¨elle BESSAGNET, and Philippe ROOSE. 2018. Des donn´ees particuli`eres : les donn´ees de la recherche en Sciences Humaines et Sociales.., 12 pages.

1 INTRODUCTION

Les Sciences Humaines et Sociales (SHS) sont confront´ ees aux enjeux de l’´ evolution des technologies. De plus, elles ont un besoin et une n´ ecessit´ e d’utiliser l’informatique, ne serait-ce que pour les projets de recherche qui ont besoin d’ˆ etre val- oris´ es. Les donn´ ees de la recherche en SHS sont relativement particuli` eres de par leur complexit´ e et leur diversit´ e. En effet, ces donn´ ees peuvent, non seulement se trouver sur Internet, ˆ etre collect´ ees sur le terrain, ou encore ˆ etre sur papier. Selon la discipline, les donn´ ees peuvent ˆ etre des textes, des images (sch´ emas, photos), des vid´ eos ou encore des observations de l’ˆ etre humain, de ses pratiques. Ces donn´ ees, comme le d´ etermine l’Universit´ e de Humboldt [13], sont des donn´ ees sources. Par la suite, elles vont ˆ etre analys´ ees de diff´ erentes

BDA 2018, Oct. 2018, Bucarest, ROUMANIE

©2018 T.Van de Weghe, M.N. Bessagnet, P.Roose

mani` eres et donneront des donn´ ees r´ esultats. Aujourd’hui, les chercheurs en SHS effectuent des traitements manuels sur ces donn´ ees, parfois r´ ep´ etitifs, qui prennent du temps, notre but est d’automatiser certaines tˆ aches. Dans la gestion de ces donn´ ees, nous sommes confront´ es ` a plusieurs d´ efis tout au long de leur cycle de vie, de l’´ enonciation de la probl´ ematique du chercheur en SHS jusqu’` a leur valorisation. Tout au long de ce cycle de vie, des m´ ethodes et outils doivent ˆ etre mis en place. Nous tentons, quelque soit le domaine SHS trait´ e, de concevoir un environnement g´ en´ erique couvrant l’ensemble des ´ etapes du cycle de vie, de l’´ etude des besoins du chercheur en SHS jusqu’` a la valorisation des donn´ ees. Dans cet arti- cle, nous ´ etablirons, dans une deuxi` eme partie, un constat sur les donn´ ees de la recherche en SHS et leur cycle de vie.

Nous pr´ esenterons ´ egalement la solution nationale Huma- Num. Dans une troisi` eme partie, nous pr´ esenterons notre cadre m´ ethodologique et conceptuel en abordant la chaˆıne de traitement mise en place nous permettant d’appliquer des approches statistique et s´ emantique. Nous illustrerons nos propos par des exp´ erimentations sur des corpus dans une qua- tri` eme partie. Dans une cinqui` eme partie, nous discuterons de donn´ ees particuli` eres issues du Patrimoine Culturel Im- mat´ eriel demandant un autre type de traitement. Enfin, nous conclurons et montrerons les perspectives.

2 DES CONSTATS

Bonvallot [3] d´ ecrit la pratique des chercheurs en SHS o` u

cette synth` ese d´ etermine deux types de recherche : la notion

de litt´ erature primaire, document ` a ´ etudier et ` a analyser (par

exemple, un livre) et la notion de litt´ erature secondaire o` u

les documents primaires ont ´ et´ e analys´ es et r´ esum´ es (par

exemple, un article de revue). Ces documents sont princi-

palement des textes. Lorsqu’un chercheur en SHS ´ etudie ses

documents, en g´ en´ eral, il lit et interpr` ete les corpus. Ensuite,

il r´ ecup` ere les informations pour les traiter. Afin de pouvoir

y faire quelques calculs et les repr´ esenter graphiquement le

chercheur les int` egre manuellement dans une table ` a une

dimension. Dans cette table apparaissent les donn´ ees li´ ees ` a

trois dimensions : spatiale, temporelle, et th´ ematique. Dans

un but d’automatisation de certaines tˆ aches, les liens en-

tre les SHS et l’informatique se structurent depuis quelques

ann´ ees. En effet, les SHS ont des ressources et des besoins que

(3)

l’informatique peut aider ` a analyser et ` a exploiter. Cette col- laboration permet de faciliter les traitements que le chercheur en SHS doit op´ erer sur ses donn´ ees ainsi que la visualisation automatique des donn´ ees trait´ ees ` a des fins d’analyses. [19]

explique que de grandes infrastructures ont ´ et´ e fond´ ees afin d’offrir un service de gestion des ressources mais aussi des donn´ ees pour les humanit´ es num´ eriques. Les auteurs de [13]

ont ´ evoqu´ e que les donn´ ees de la recherche sont diverses, il ex- iste celles : d’observation, d’exp´ erimentation, de simulation, d´ eriv´ ees, de r´ ef´ erence . Ils mentionnent ´ egalement le point sur les donn´ ees sources et r´ esultats, plus pr´ ecis´ ement les donn´ ees non trait´ ees et respectivement les donn´ ees trait´ ees. Quelle d´ efinition peut-on retenir pour les donn´ ees de la recherche ? Quelles seront les probl´ ematiques pos´ ees par une exploitation automatique des donn´ ees de la recherche tout au long de leur cycle de vie?

2.1 Donn´ ees de la recherche et cycle de vie

Plusieurs d´ efinitions des donn´ ees de la recherche peuvent ˆ etre trouv´ ees dans la litt´ erature. Nous avons retenu celles de l’OCDE [1] : les donn´ ees de la recherche sont d´ efinies comme des enregistrements factuels (chiffres, textes, images et sons - auxquelles on ajoute les vid´ eos), qui sont utilis´ es comme sources principales pour la recherche scientifique et sont g´ en´ eralement reconnus par la communaut´ e scientifique comme n´ ecessaires pour valider les r´ esultats de la recherche.

ou encore La valeur des donn´ ees r´ eside dans leur exploitation.

L’acc` es total et ouvert aux donn´ ees scientifiques devrait devenir la norme internationale pour l’´ echange des donn´ ees scientifiques issues de la recherche financ´ ee sur fonds publics . Ces deux d´ efinitions insistent sur la perspective d’ouverture et d’acc` es aux donn´ ees de la recherche, financ´ ees sur fonds publics. Aussi, des chercheurs se sont pench´ es sur la mise en oeuvre d’un plan de gestion des donn´ ees (DMP) [14]

permettant de traiter des documents litt´ eraires des chercheurs en SHS, d´ efinis comme des ressources ou encore des donn´ ees sources. Un cycle de vie des donn´ ees de la recherche a ´ et´ e d´ efini et comment´ e notamment par the UK Data Service

1

(Fig. 1). Il s’agit de planifier la recherche, d´ eterminer les types de ressources, pour ensuite r´ ealiser un mod` ele qui permettra de collecter des donn´ ees, puis de les traiter, de les publier, de les pr´ eserver mais ´ egalement de les rendre r´ eutilisables. Cet cycle convient aux donn´ ees pour se pr´ eparer aux ´ eventuels changements : ´ el´ ements nouveaux, ` a modifier, ` a supprimer (possibilit´ es d’erreurs), etc. Lors d’enquˆ etes [13], on peut lire que Les donn´ ees de la recherche deviennent l’un des nouveaux d´ efis de la gestion scientifique .

Deux ´ etudes men´ ees par les universit´ es de Lille 3 [16] et de Rennes 2 [17] ont d´ etermin´ e que les principales ressources des SHS sont des textes. Par ailleurs, ces ´ etudes r´ ev` elent que ces textes ne sont pas ou peu num´ eris´ es (environ 10%

des ressources). Notamment, l’un des probl` emes soulev´ es concerne la retranscription manuelle de ces ressources.

1https://www.ukdataservice.ac.uk/manage-data/lifecycle

2.2 Une solution nationale : HUMA-NUM

Le concept d’humanit´ e num´ erique prend de l’ampleur. [19]

d´ efinit les humanit´ es num´ eriques comme “un cadre m´ ethodologique et technologique qui op` ere sur des sources de donn´ ees SHS et permet :

∙ la cr´ eation, la num´ erisation et la structuration de toutes les sources de la connaissance;

∙ l’exploration, l’analyse et l’interpr´ etation des informa- tions num´ eriques;

∙ la diffusion, le partage et la capitalisation des connais- sances.”

Nous retrouvons les ´ el´ ements cl´ es du cycle de vie des donn´ ees, o` u d’un point de vue technique des infrastructures et des projets f´ ed´ er´ es offrent des solutions.

Huma-Num

2

propose des outils (Nakala, Nakalona, Share- Docs, etc.) pour la gestion des donn´ ees, afin que les chercheurs puissent structurer, stocker, partager et valoriser leurs ressources, tout en pensant ` a ce que ces donn´ ees soient p´ erennis´ ees. Ces services qu’offre Huma-Num (Fig. 2) sont d´ edi´ es uniquement aux chercheurs en SHS. La plupart des donn´ ees sont struc- tur´ ees en accord avec la norme Dublin Core

3

. Le Dublin Core, comme le d´ efinit la BnF

4

, “est un format descriptif ` a la fois simple et g´ en´ erique, comprenant 15 ´ el´ ements diff´ erents, qui a

´

et´ e cr´ e´ e en 1995 ` a Dublin (Ohio) par OCLC

5

et le NCSA

6

.” Les donn´ ees ont vocation ` a ˆ etre export´ ees et doivent ˆ etre interop´ erables. La BnF [8] d´ efinit l’interop´ erabilit´ e

7

comme

“le fait de mettre en relation des donn´ ees qui sont contenues ` a l’int´ erieur de bases de donn´ ees distinctes, de les d´ ecloisonner pour offrir un espace commun de navigation et de recherche”.

De grandes institutions, comme l’Unesco, la BnF utilisent la norme Dublin Core, afin de faciliter cette interop´ erabilit´ e.

Cette description sur Huma-Num montre l’int´ erˆ et de cette infrastructure pour les chercheurs en SHS. Toutefois, pour le moment, elle ne r´ epond pas ` a toutes les probl´ ematiques des chercheurs. Par exemple, l’outil NAKALA

8

mis en place par la TGIR

9

Huma-Num facilite l’acc` es et le partage des donn´ ees avec un dispositif destin´ e aux d´ epˆ ots en grand nombre. Le chercheur proc` ede ` a l’insertion m´ edia par m´ edia. Ce travail est relativement long. De plus, les enregistrer un par un, de- mande un travail minutieux pour ´ eviter qu’il y ait une marge d’erreur. En effet, il n’offre pas la possibilit´ e d’ins´ erer un groupe de m´ edia poss´ edant des m´ etadonn´ ees pour ce groupe.

De plus, lorsque le chercheur est en possession de corpus num´ erique, il ne sait pas forc´ ement utiliser les outils ad´ equats pour traiter les donn´ ees, mˆ eme si Huma-Num propose ces outils (par exemple ArcGis

10

, Sphinx

11

, outils de stockage, etc.). Les humanit´ es num´ eriques ont un avantage d’allier

2https://www.huma-num.fr/services-et-outils

3http://www.dublincore.org/documents/dces/

4Biblioth`eque Nationale de France

5Online Computer Library Center

6National Center for Supercomputing Applications

7http://www.bnf.fr/fr/professionnels/anx pro videos/a.

video cnfpt interoperabilite.html

8https://www.nakala.fr/

9Tr`es Grande Infrastructure de Recherche

10https://www.arcgis.com/features/index.html

11http://www.lesphinx-developpement.fr/

(4)

Figure 1: Cycle de vie des donn´ ees

Figure 2: Services propos´ es par Huma-Num

les sciences exactes et les SHS, toutefois, il est primordial que les chercheurs en SHS s’int´ eressent au num´ erique [9].

Par ailleurs, la collaboration ouverte et valoris´ ee des com- munaut´ es peut apporter beaucoup de b´ en´ efices intellectuels et financiers. Cependant, en g´ en´ eral, les chercheurs en SHS ne peuvent seuls s’approprier ces environnements. Ils sont souvent d´ emunis. Une r´ eelle coop´ eration entre chercheurs en SHS et chercheurs en informatique est n´ ecessaire. Ainsi, la production de donn´ ees par les chercheurs en SHS demande aujourd’hui qu’on s’y int´ eresse notablement. En effet, de nom- breux probl` emes autour de la gestion de ces donn´ ees publiques se posent avec notamment l’av` enement de politiques de type Open Data (les donn´ ees doivent ˆ etre libres, accessibles et r´ eutilisables). Les chercheurs en SHS, contrairement aux chercheurs en informatique, ne poss` edent pas encore cette culture de la sauvegarde num´ erique facilitant le partage, la communication, et l’acc` es aux donn´ ees. Nous allons pr´ esenter notre approche pour tenter de r´ epondre aux d´ efis de la gestion des donn´ ees de la recherche en SHS.

3 NOTRE CADRE

M ´ ETHODOLOGIQUE ET CONCEPTUEL

Dans cette partie, nous traiterons de la nature des donn´ ees en SHS pour montrer leur diversit´ e ; nous d´ efinirons notre cycle de vie puis pr´ esenterons nos approches statistique et s´ emantique ` a appliquer sur ces donn´ ees.

3.1 Nature des donn´ ees

En accord avec Thierry Fournier dans Arabesque n°73

12

, la nature et le p´ erim` etre des donn´ ees de la recherche, sont tr` es d´ ependants du cadre disciplinaire dans lequel s’effectue la recherche. En effet, les donn´ ees en sociologie (enquˆ etes, s´ eries statistiques etc.) sont tr` es diff´ erentes des donn´ ees en arch´ eologie (rapports de fouilles etc.) ou encore en linguistique (corpus de textes etc.) ou encore en histoire, g´ eographie,

anthropologie sur les donn´ ees du patrimoine, que ce soit le Patrimoine Bˆ ati et Paysager ou le Patrimoine Culturel Immat´ eriel (PCI). La nature des donn´ ees d´ epend ´ egalement de leur ´ etat : les donn´ ees sont h´ et´ erog` enes. Elles peuvent ˆ etre textuelles, sonores, des images, des vid´ eos, etc. Cependant, les donn´ ees de la recherche ont des points communs :

∙ elles sont num´ eriques ou des moyens sont utilis´ es pour les rendre num´ eriques. C’est une condition n´ ecessaire pour envisager des traitements informatiques ` a op´ erer sur ces donn´ ees et ´ egalement pour leur diffusion

∙ elles sont massives ou au moins de plus en plus massives.

Ceci implique des coˆ uts de traitement et de stockage non n´ egligeables.

12Dernier acc`es le 2/5/2018 http://www.abes.fr/Publications- Evenements/Arabesques/Arabesques-n-73

(5)

C’est la raison pour laquelle, nous devons r´ efl´ echir ` a un cadre conceptuel et m´ ethodologique qui permettra de mettre en place des traitements informatiques et/ou statistiques similaires pour ces donn´ ees, notamment textuelles. Nous tra- vaillons sur l’extraction d’information selon trois dimensions : th´ ematique, temporelle et spatiale [11]. Les patrons cr´ e´ es pour extraire de l’information temporelle et spatiale seront sˆ urement g´ en´ eriques sur nos corpus. Par contre, concernant la th´ ematique, des ressources sp´ ecifiques devront ˆ etre cr´ e´ ees, tels que des th´ esaurus, des ontologies, des gazetiers. Dans ce cas, les traitements permettant de cr´ eer ces types de ressources devront ˆ etre g´ en´ eriques.

3.2 Cycle de vie

Nous avons d´ efini (Fig. 3) un ensemble de phases que l’on pourrait qualifier de cycle de vie sur les donn´ ees de la recherche montrant la complexit´ e des services de gestion des donn´ ees

`

a mettre en oeuvre tout au long de cette chaˆıne. Comme pour les donn´ ees en entreprise [4], la gestion des donn´ ees de la recherche pose de nombreux d´ efis : le recueil ou la capture des donn´ ees, le stockage, la production de nou- velles donn´ ees, la structuration des donn´ ees, l’extraction, l’int´ egration, l’analyse, la restitution mais ´ egalement la val- orisation de ces donn´ ees. Cette complexit´ e fait appel ` a de nombreux domaines de l’informatique tels que les bases de donn´ ees, la recherche d’information, le Traitement automa- tique du langage naturel (TALN), la fouille de donn´ ees, le web s´ emantique, les syst` emes d’information g´ eographiques mais ´ egalement le domaine de la statistique.

Ce cycle de vie d´ efinit les diff´ erentes phases de transforma- tion des donn´ ees. Notre socle repose sur des donn´ ees sources (donn´ ees non trait´ ees) recens´ ees par le chercheur. Ce dernier nous communique ses interrogations, ses axes et tendances suppos´ es. Puis, nous analysons, ´ etudions la faisabilit´ e de ces demandes. Pour r´ esoudre les questions de recherche du chercheur en SHS, nous proposons en g´ en´ eral un mod` ele struc- tur´ e de pr´ esentation de ces donn´ ees sources. Les r´ esultats de ce sc´ enario seront tout autant pass´ es ` a la loupe du chercheur en SHS. ` A partir de ce point, les donn´ ees subissent une premi` ere transformation. Cette base ent´ erin´ ee, valid´ ee, nous pourrons d´ emarrer les premiers traitements. Nous appliquons simultan´ ement des proc´ edures d’analyses statistiques, infor- matiques, cartographiques, etc. Au final, nous pr´ esentons les r´ esultats par des graphiques, des cartes, des frises temporelles, ou bien, sur tous supports facilitant la communication et la compr´ ehension des nouvelles orientations. La synth` ese des travaux de recherche en SHS appartient, ´ evidemment, aux chercheurs en SHS, mais ils pourront s’appuyer sur nos valeurs de traitement pour argumenter leurs conclusions.

3.3 Approches s´ emantique et statistique

Les donn´ ees de la recherche se pr´ esentent le plus souvent sous la forme de documents textuels non structur´ es. Sur ces donn´ ees, nous appliquons une approche g´ en´ erique de traitements s´ emantique et statistique afin de r´ epondre aux probl´ ematiques de recherche des chercheurs en SHS. Dans

un premier temps, nous expliquerons ce qu’apporte ces deux approches distinctement, ensuite, dans un deuxi` eme temps, nous verrons, l’avantage d’utiliser ces deux approches con- jointement.

Cˆ ot´ e s´ emantique, nous travaillons sur trois dimensions dans les documents : spatiale, temporelle et th´ ematique [11].

Nous nous int´ eressons donc ` a l’extraction d’Entit´ es Spatiales (ES), d’Entit´ es Temporelles (ET) et d’Entit´ es Th´ ematiques (ETh) dans les documents. Les ES reposent sur le concept d’entit´ e spatiale absolue caract´ erisant les informations pro- pres ` a un lieu nomm´ e (par exemple, la ville de Lescar) et le concept d’entit´ e spatiale relative caract´ erisant des indica- tions spatiales associ´ ees aux localisations (par exemple, pr` es de Pau). Les ETh ` a annoter ´ etant li´ ees, dans notre cas, au domaine d’´ etudes, nous nous appuyons sur des ressources pro- pres. Nous visons ` a terme ` a proposer une approche g´ en´ erique en donnant la possibilit´ e d’int´ egrer ais´ ement une nouvelle ressource s´ emantique de domaine. En ce qui concerne les ET, nous cherchons ` a marquer des entit´ es calendaires, qui parfois demandent des traitements suppl´ ementaires (cas du fran¸ cais ancien).

Cˆ ot´ e statistique, le pr´ etraitement est indispensable sur les textes, pour ne pas biaiser les calculs, comme pour un jeu de donn´ ees, o` u les valeurs aberrantes faussent les r´ esultats. A la suite du nettoyage et du pr´ etraitement, il est possible de r´ ealiser des traitements statistiques (Loi de Zipf, fr´ equence des termes). Plus pr´ ecis´ ement, il est possible de faire des analyses descriptives, c’est-` a-dire, calculer par exemple la fr´ equence des mots, la r´ epartition des mots dans diff´ erents textes, la corr´ elation des mots entre eux. Selon ces r´ esultats, d’autres statistiques peuvent ˆ etre pratiqu´ ees, comme l’analyse de donn´ ees (ACP

13

, AFC(M)

14

, classification, etc.), ou encore, LDA

15

, qui permet de faire des groupes de th` emes (topic model), des r` egles d’association, des classifications na¨ıves Bay´ esiennes. Apr` es les diff´ erentes analyses statistiques, nous pouvons repr´ esenter les donn´ ees r´ esultats par le biais de graphiques, sch´ emas etc., [6].

Ainsi, nous nous sommes fix´ es pour objectif d’analyser du point de vue spatial, temporel, th´ ematique et statistique l’ensemble des corpus sur lesquels nous travaillons. Aussi, nous d´ ecrivons notre approche par la Fig. 4. Ind´ ependamment de tout corpus de textes, la chaˆıne de traitement s´ emantique, lors d’une premi` ere ´ etape identifie et annote les donn´ ees spatiales, temporelles et th´ ematiques. Une deuxi` eme ´ etape concerne l’indexation de ces donn´ ees dans un moteur de recherche afin de les exploiter dans des strat´ egies d’analyse et de recherche d’information combinant des crit` eres spati- aux, temporels et th´ ematiques. Enfin, une troisi` eme ´ etape d´ efinit des processus g´ en´ eriques d’analyse et de pr´ esentation de donn´ ees, applicables ` a des corpus de textes. Nous util- isons l’environnement GATE

16

pour effectuer nombre de ces traitements s´ emantiques, notamment les traitements lin- guistiques. L’environnement GATE nous permet de d´ efinir

13Analyse des Composantes Principales

14Analyse Factorielle des Correspondances (Multiples)

15Latent Dirichlet Allocation

16https://gate.ac.uk/family/developer.html

(6)

Figure 3: Cycle de vie

un pipeline g´ en´ erique o` u les modules de traitement seront g´ en´ eralement identiques quelques soient les textes, les adap- tations portant sur les patrons ` a d´ efinir pour annoter les en- tit´ es th´ ematiques ainsi que sur la compl´ etude des ressources s´ emantiques utilis´ ees (gazetiers, ontologies, etc.). Concer- nant l’analyse statistique, il existe bon nombre d’outils pour traiter les donn´ ees. En effet, nous avons la possibilit´ e de tra- vailler avec les langages Python

17

, R

18

, ou encore d’utiliser des logiciels propri´ etaires, comme SAS

19

. Nous avons choisi le langage R qui offre une multitude de biblioth` eques pour analyser statistiquement les donn´ ees et qui nous permet d’ˆ etre le plus g´ en´ erique possible sur les donn´ ees. A la suite des traitements op´ er´ es, il est primordial de repr´ esenter les donn´ ees trait´ ees selon des formes et sch´ emas accept´ es par les chercheurs en SHS : frise temporelle, carte, graphe de collaboration, graphiques divers et vari´ es qui permettront aux chercheurs de faire une analyse plus approfondie de leurs donn´ ees de la recherche.

L’´ etude s´ emantique permet d’extraire des informations pertinentes, comme le spatio-temporel, les th´ ematiques. Ce qui donne l’acc` es ` a un document structur´ e qui nous permet de r´ ealiser de nouvelles analyses statistiques. Les deux approches nous fournissent des ´ el´ ements pertinents pour r´ epondre aux questions des chercheurs, toutefois, allier celles-ci, nous per- met d’ajouter de nouveaux r´ esultats int´ eressants pour le chercheur. Dans la section suivante, nous observerons plus en d´ etail les probl´ ematiques, ainsi que la compl´ ementarit´ e des deux approches.

17https://www.python.org/

18https://cran.r-project.org/

19https://www.sas.com/fr fr/home.html

4 DES ANALYSES ET

EXP ´ ERIMENTATIONS MEN ´ EES SUR NOS CORPUS

Dans cette partie, nous croiserons les analyses et exp´ erimentations men´ ees sur nos corpus, en les d´ efinissant avec les ques- tions pos´ ees, puis, en exposant les r´ esultats des traitements statistiques et s´ emantiques. A la suite de ce travail, nous d´ emontrerons la convergence des deux analyses pour aider au mieux le chercheur en SHS.

4.1 Les corpus et les questions pos´ ees

Nous avons travaill´ e avec des chercheurs en SHS sur des documents ayant trait aux domaines suivants :

(1) aux ´ echanges entre artistes des avant-gardes qui ont jou´ e un rˆ ole consid´ erable dans la litt´ erature et le monde des arts au XXe si` ecle. Nous avons un corpus de 17 textes, la plupart ´ etant des lettres, ´ ecrites par un artiste roumain du XXe si` ecle Gherasim Lucas ` a son ami Victor Brauner.

(2) des actes royaux du XVIe si` ecle. Nous avons un corpus de 33 textes actuellement retranscrits, sur 7000 actes

`

a recenser (en vieux fran¸ cais, en espagnol),

(3) des lettres de correspondance en espagnol datant des XIXeme et XXeme siecles. Nous avons un corpus de 450 textes.

Tous ces documents ont ´ et´ e retranscrits num´ eriquement par les chercheurs dans des corpus qui nous ont ´ et´ e fournis. Sur chacun de ces corpus, les chercheurs en SHS se posent des questions diff´ erentes mais li´ ees aux trois dimensions : spatiale, temporelle et th´ ematique.

Sur le cas d’´ etude num´ ero 1 (Correspondance Avant-Garde Roumaine), les questions pos´ ees sur les 3 dimensions concer- nent par exemple :

∙ Spatiale : O` u la lettre a-t-elle ´ et´ e ´ ecrite ? Quelles sont les villes mentionn´ ees dans les lettres

∙ Temporelle : A quelle date la lettre a-t-elle ´ et´ e ´ ecrite ?

Quelles sont les entit´ es temporelles d´ ecrites au sein de

la lettre?

(7)

Figure 4: Cha^ ınes de traitement g´ en´ eriques pour l’analyse s´ emantique et statistique de corpus textuels

∙ Th´ ematique : Qui est cit´ e dans la lettre ? Les person- nes cit´ ees ont-elles des liens artistiques ? Une oeuvre artistique est-elle mentionn´ ee ?

Sur le cas d’´ etude num´ ero 2 (acte royal), les questions pos´ ees sur les 3 dimensions concernent par exemple :

∙ Spatiale : O` u ce texte a-t-il ´ et´ e ´ ecrit ?

∙ Temporelle : Quand ce texte a-t-il ´ et´ e ´ ecrit ?

∙ Th´ ematique : Qui est cit´ e dans ce document ? Les personnes cit´ ees ont-elles des liens familiaux ? Une transaction financi` ere est-elle mentionn´ ee ?

Sur le cas d’´ etude num´ ero 3 (correspondance en espagnol), les questions pos´ ees sur les 3 dimensions concernent par exemple :

∙ Spatiale : quels sont les lieux sp´ ecifi´ es dans les lettres (des villes, des pays ou des continents, mais aussi des lieux plus pr´ ecis comme des manoirs, des quartiers ou des places)?

∙ Temporelle : quels sont les dates sp´ ecifi´ ees dans les lettres (dates d’´ ecriture des lettres le plus souvent)?

∙ Th´ ematique : on s’int´ eresse aux Personnes sp´ ecifi´ ees pour prendre connaissance de l’exp´ editeur et du desti- nataire par exemple ; au th` eme de la Famille, au th` eme du Voyage et enfin au th` eme de la Litt´ erature.

Nous pouvons remarquer que pour cette approche, les ques- tions se ressemblent quelque soit les cas d’´ etude. Ainsi, les chaˆınes de traitement (Fig.4) mises en place peuvent traiter tous ces cas de figure. Concernant l’approche s´ emantique, l’attention est ` a porter sur le vocabulaire qui varie d’un corpus

`

a un autre, ´ egalement sur la langue qui peut ˆ etre diff´ erente, qui n´ ecessitent, notamment, l’´ elaboration de gazetiers par- ticuliers. Concernant l’approche statistique, la chaˆıne de traitement est g´ en´ erique.

En terme de statistiques sur les textes, les questions sont g´ en´ eralement les mˆ emes, o` u la fr´ equence et la pond´ eration des mots jouent un rˆ ole :

∙ Quels sont les mots qui ressortent le plus dans le texte

?

∙ Quelles sont les corr´ elations entre les mots les plus redondants et les autres ?

∙ Quelles sont les fr´ equences d’´ echanges entre les corre- spondants ?

∙ Quels sont les moments o` u il y a eu le plus d’´ echanges

?

En g´ en´ eral, le chercheur en SHS est int´ eress´ e par les anal- yses descriptives : fr´ equence, moyenne, table de contingence.

Il veut savoir quelle est la fr´ equence de ses donn´ ees / des mots dans le texte, la pr´ esence et la corr´ elation des mots s´ electionn´ es par le chercheur. En statistique, nous pouvons ajouter d’autres interrogations, comme :

∙ Quels sont les flux g´ eographiques entre les correspon- dants ?

∙ Quels sont les ´ echanges entre les correspondants ?

∙ Quelles sont les personnes qui ´ ecrivent le plus ? Par ailleurs, afin de r´ epondre ` a ces types de questions, nous devons proc´ eder ` a un travail s´ emantique pour structurer les textes, pour pouvoir les analyser correctement.

4.2 Les traitements statistiques

Nous avons men´ e une analyse statistique sur les 17 lettres de

correspondance i.e. le cas d’´ etude num´ ero 1 (Correspondance

Avant-Garde Roumaine). En effet, il a ´ et´ e remarqu´ e une

h´ et´ erog´ en´ eit´ e des lettres de faible volume. Ce qui peut en-

traˆıner des r´ esultats biais´ es et non significatifs. En statistique,

nous prenons en compte chaque mot. Afin qu’ils soient tous

trait´ es de la mˆ eme mani` ere, nous devons passer par l’´ etape

(8)

de pr´ eparation et de nettoyage des donn´ ees. Les lettres en majuscules ont ´ et´ e r´ eduites en minuscules, les ponctuations ainsi que les chiffres, et les mots non significatifs (pr´ eposition par exemple) ont ´ et´ e supprim´ es. ` A la suite de ce nettoyage, la pr´ eparation des donn´ ees consiste ` a rajouter des th` emes par lettres s’il en existe (c’est notre cas) et ` a transformer les textes en matrice document-terme qui est le croisement entre les mots et les documents. Nous avons le choix entre la pr´ esence ou non (choix binaire) du mot dans chaque doc- ument, ou encore la fr´ equence de chaque mot dans chaque document, etc. A partir de cette matrice, il est possible de r´ ealiser des analyses statistiques. Tout d’abord, une analyse descriptive permet de visualiser les distributions des lettres, mais aussi les fr´ equences des mots par le biais de diagramme en barres, respectivement de nuage de mots (Fig. 5). Il a

´ et´ e possible de remarquer les corr´ elations entre des mots s´ electionn´ es (ici, les plus fr´ equents) et d’autres qui poss` edent un lien entre eux.

Figure 5: Nuage de mots

D’autres analyses plus pouss´ ees ont ´ et´ e r´ ealis´ ees comme une classification, LDA

20

. Ces ´ etudes permettent de classer les mots puis, de les regrouper afin d’interpr´ eter par le biais de ces groupes, des th` emes.

Concernant le cas d’´ etude num´ ero 3 (correspondance en espagnol), une ´ etude pr´ ealable a ´ et´ e r´ ealis´ ee sur 107 textes.

Ces 107 textes ont ´ et´ e dissoci´ es dans un jeu de donn´ ees, afin de distinguer les dates, les lieux, les exp´ editeurs, les desti- nataires. Nous sommes dans une situation de classification non supervis´ ee. En effet, il n’y a rien ` a pr´ edire, l’´ etude porte sur le pass´ e ` a analyser. Tout d’abord, une analyse brute a ´ et´ e faite, afin de garder les mots les plus coh´ erents. Nous avons pu r´ ealiser diverses statistiques comme une classification de mots.

La classification ascendante hi´ erarchique met en ´ evidence des groupes. Ces groupes sont form´ es selon leur ressemblance.

La classification a ´ et´ e r´ ealis´ ee dans le but de constater les

´ eventuelles th´ ematiques, mais aussi de d´ eterminer les lieux et l’aspect temporel. Des lieux (maison, Coruna, etc.), la tem- poralit´ e (aujourd’hui, matin, etc.), des th´ ematiques, comme

20Latent Dirichlet Allocation

la famille, la litt´ erature, les voyages apparaissent dans le den- drogramme (Fig. 6). Il va ˆ etre recherch´ e une r´ epartition des mots dans des classes. Le dendrogramme (Fig. 6), est d´ ecoup´ e en 5 groupes. Il montre bien que les groupes sont h´ et´ erog` enes.

Pour ´ etablir ses conclusions, le chercheur s’appuiera sur ce travail afin de montrer les relations entre les mots. Il faut noter que amiga et bien sont d´ emarqu´ es, et se retrouvent seuls dans leur groupe. Alors que le groupe 5 est compos´ e du maximum de mots. Actuellement, nous travaillons sur un

Figure 6: Classification des mots

corpus de 450 lettres. Concernant le cas d’´ etude num´ ero 2 (les actes royaux), 1000 actes (Fig. 7) sont en cours de retranscrip- tion par les chercheurs en SHS. Les chercheurs pourraient utiliser des plate-formes de transcription collaborative (ou crowdsourcing) des textes, acc´ el´ erant ainsi le traitement.

Figure 7: Acte royal

Ces corpus poss` edent une structure o` u il sera possible de distinguer automatiquement un(e) lettre/acte d’un(e) autre ainsi que les ´ el´ ements des lettres/actes diff´ erents du texte, comme la date, le lieu, l’exp´ editeur, le destinataire, la formule de politesse, les notes de bas de page. Par ailleurs, il faudra

´

egalement pr´ eciser la langue pour l’ensemble des textes qui

peut ˆ etre diff´ erente, car le traitement ne sera pas le mˆ emes.

(9)

4.3 Les traitements s´ emantiques

Sur l’ensemble des corpus, une chaˆıne de traitement a ´ et´ e mise en place dans l’environnement GATE. Cette chaˆıne contient un ensemble de modules (Fig.8), g´ en´ eriques pour la plupart, permettant d’annoter l’ensemble des entit´ es nomm´ ees qu’elles soient spatiale, temporelle ou th´ ematique. La chaˆıne de traite- ment a donc ´ et´ e mise en oeuvre sur la plateforme GATE [5]

[2]. Elle int` egre notamment l’analyseur morphosyntaxique Treetagger [15] et prend en charge la lemmatisation en langue fran¸ caise et en langue espagnole.

La reconnaissance d’entit´ es nomm´ ees spatiales, temporelles et th´ ematiques n´ ecessitent parfois des traitements sp´ ecifiques : l’ajout de termes dans les gazetiers existants (noms de villes par exemple), la cr´ eation de gazetiers particuliers (noms d’artistes, mots anciens, etc.) ainsi que l’´ ecriture de pa- trons sp´ ecifiques. Prenons comme exemple la reconnaissance d’entit´ es temporelles dans les actes royaux (Fig.9) pour lesquelles des patrons ont ´ et´ e ´ ecrits pour annoter les dates dites relatives (ici relatives ` a la date d’´ ecriture de l’acte royal) et absolue (un jour pr´ ecis): ceci est d´ ecrit dans la figure 9.

La figure 10 montre des exemples d’annotation mis en place sous GATE.

Apr` es la phase d’annotation, on peut utiliser ces derni` eres

`

a des fins de valorisation dans des interfaces de visualisation (Fig. 11) cr´ e´ ees pour faciliter l’acc` es aux r´ esultats par les chercheurs en SHS. D’autres types de valorisation existent tels que des cartes ou encore des interfaces pour faciliter la recherche d’information parfois combin´ ee.

4.4 La convergence des deux analyses pour aider le chercheur en SHS

Auparavant, les chercheurs en SHS calculaient manuellement le nombre de mots dans leurs corpus, [10]. Dor´ enavant, il est possible de le faire automatiquement ` a condition que les documents soient dans un format num´ erique [7]. Dans une

´ etude g´ en´ erale de fouille de texte en statistique, l’ensemble du contenu des corpus est pris en compte (chaque mot/terme):

nous ne faisons pas la diff´ erence sur le sens du mot.

Nous savons que les deux approches, informatique et statis- tique, ´ etudi´ ees distinctement permettent de repr´ esenter, vi- sionner les donn´ ees en rapport ` a leur th´ ematique, ` a leur fr´ equence, mais aussi au niveau spatio-temporel, selon les mots/phrases.

Dans l’exemple des lettres de correspondance et actes, nous nous int´ eressons ` a l’exp´ editeur, au destinataire, ` a la formule de politesse, ` a la date, au lieu et au texte (variables).

En s´ emantique, nous les rep´ erons pour obtenir un docu- ment semi-structur´ e (Fig.12) compos´ e des variables ´ enum´ er´ ees.

A partir de ce nouveau document, nous pouvons r´ ` ealiser davantage de statistiques. Par cons´ equent, si nous allions ces deux approches, nous avons la possibilit´ e de repr´ esenter les ´ echanges entre les correspondants (Fig.13), d’observer l’´ evolution des ´ echanges, etc.

Pour ˆ etre plus pr´ ecis, lorsque le chercheur ´ etudie des let- tres de correspondance, il cherche ` a connaˆıtre les diff´ erents

´ echanges qu’il y a pu avoir, grˆ ace ` a l’extraction de notions

tels que le spatial, l’exp´ editeur, le destinataire, la date. En- suite, une ´ etude statistique est r´ ealis´ ee. Nous avons pu con- stater qu’Emilia Pardo Bazan a envoy´ e 94 lettres. Nous avons cherch´ e ` a repr´ esenter ces correspondances par le biais d’un graphique directionnel (Fig. 13).

Ces deux approches, statistique et informatique, sont to- talement compl´ ementaires. Il est important de noter que la constitution du corpus revˆ et un int´ erˆ et important puisque toute modification de celui-ci est susceptible d’alt´ erer les r´ esultats statistiques et s´ emantiques sur lesquels s’appuiera l’interpr´ etation du chercheur. L’utilisation de cette approche duale sur un mˆ eme corpus est un avantage, car elle permet de comparer les r´ esultats obtenus, d’affiner l’interpr´ etation, et au final de r´ epondre aux attentes des chercheurs en SHS qui peuvent s’av´ erer extrˆ emement vari´ ees.

Notre cadre m´ ethodologique s’applique correctement sur les corpus pr´ esent´ es (des textes plus ou moins structur´ es).

Concernant d’autres donn´ ees telles que les donn´ ees du Pat- rimoine Culturel Immat´ eriel, une autre d´ emarche doit ˆ etre mise en place n´ ecessitant d’autres approches et traitements que nous allons expliquer ci-apr` es.

5 DES DONN ´ EES DE LA RECHERCHE A TRAITER DANS UN CADRE PLUS ` AMBITIEUX : LE PATRIMOINE CULTUREL IMMAT ´ ERIEL (PCI)

Dans le cadre d’un projet FEDER

21

pluridisciplinaire TCVPYR

22

23

r´ eunissant des chercheurs en g´ eographie, en histoire, en an- thropologie, en informatique mais ´ egalement des chercheurs des Inventaires r´ egionaux, nous menons un travail qui a pour objectif la valorisation du patrimoine culturel pyr´ en´ een.

Nous ´ evoquerons la gestion du patrimoine culturel, puis le patrimoine culturel immat´ eriel qui n´ ecessite une attention particuli` ere.

5.1 La gestion du patrimoine culturel

La gestion du patrimoine culturel est une tˆ ache complexe qui implique l’engagement de diff´ erents types d’acteurs (in- stitutions publiques ou priv´ ees, associations, entreprises et individus) que ce soit au niveau local, national voire inter- national. Le projet TCVPYR comporte trois grands axes :

∙ (i) l’inventaire des donn´ ees par des chercheurs de do- maines disciplinaires diff´ erents (qui vont sur le terrain

`

a cette fin),

∙ (ii) l’int´ egration et la structuration de ces donn´ ees h´ et´ erog` enes et g´ eor´ ef´ erenc´ ees dans un syst` eme d’information commun

∙ et (iii) la valorisation de ces donn´ ees aupr` es du grand public afin de contribuer ` a la promotion du thermalisme et de la vill´ egiature notamment.

21Fonds Europ´een de D´eveloppement R´egional

22http://tcvpyr.iutbayonne.univ-pau.fr/

23Inventaire du patrimoine b^ati et du patrimoine culturel immat´eriel de la vill´egiature et du thermalisme dans le massif pyr´en´een fran¸cais

(10)

Figure 8: Cha^ ıne de traitement GATE

Figure 9: Exemples d’entit´ es temporelles

Figure 10: Exemples d‘annotations sous GATE

(11)

Figure 11: Frise temporelle et Interface Web de visualisation des r´ esultats d’annotation, graphes des person- nages et des relations familiales.

Figure 12: Exemple de donn´ ees extraites

Figure 13: Echange entre les correspondants

Nous nous int´ eresserons dans cet article au premier axe (i).

Cet axe concerne l’inventaire de donn´ ees relatives ` a deux

types de patrimoine : le patrimoine bˆ ati et paysager (les bˆ atiments et le mobilier) et le patrimoine culturel immat´ eriel (PCI), relatant une pratique qu’une communaut´ e reconnaˆıt

comme partie de son patrimoine.

Les chercheurs en SHS vont sur le terrain pour collecter des ensembles d’information relative au patrimoine. Ces donn´ ees sont ensuite stock´ ees de fa¸ con h´ et´ erog` ene et sont difficilement accessibles par le grand public. Aussi, les chercheurs en SHS utilisent, pour le patrimoine bˆ ati et paysager, deux applica- tions Renabl

24

et Gertrude

25

. Ces applications sont utilis´ es pour Renabl dans la r´ egion Occitanie et pour Gertrude plutˆ ot dans la r´ egion Nouvelle Aquitaine. Les formats de donn´ ees utilis´ es sont diff´ erents. Quoiqu’il en soit, ` a partir de ces ap- plications, l’ensemble des bases nationales Architecture et

24http://www2.culture.gouv.fr/culture/dp/inventaire/telechar/

renabl/manuel renabl.pdf

25http://www.inventaire.culture.gouv.fr/Chemin annuaire1.htm

(12)

Patrimoine du Minist` ere de la Culture peuvent ˆ etre ren- seign´ ees. Ces bases nationales forment un ensemble coh´ erent, renseignant l’architecture (base M´ erim´ ee), les objets (base Palissy), les donn´ ees iconographiques (base M´ emoire). Ces donn´ ees sont difficilement exploitables dans des applications de valorisation, raison pour laquelle nous mettons en œu- vre dans le cadre du projet des m´ ethodes et traitements permettant de mieux les structurer et de les valoriser.

5.2 Le patrimoine culturel immat´ eriel (PCI)

Pour construire une connaissance partag´ ee de ce domaine, il est primordial de d´ efinir pr´ ecis´ ement ce patrimoine, d’identifier l’ensemble des acteurs concern´ es poss´ edant des donn´ ees num´ eriques li´ ees au PCI, ainsi que leurs pratiques.

Donnons la d´ efinition du PCI par l’UNESCO

26

: “Le patrimoine culturel immat´ eriel fait r´ ef´ erence aux pratiques, repr´ esentations, expressions, connaissances et savoir-faire, transmis de g´ en´ eration en g´ en´ eration au sein d’une commu- naut´ e, cr´ e´ es et transform´ es en permanence en fonction du mi- lieu, de l’interaction avec la nature et de l’histoire”. L’origine et l’approche du PCI sont mises en œuvre d’apr` es de nom- breux mod` eles d’analyse, dans le cadre d’observation des pra- tiques communautaires. Ensuite ces informations sont ins´ er´ ees dans une notice descriptive permettant d’isoler les facteurs or- ganisationnels, comme le titre, la description, l’historique, le lieu, la date, etc. Lorsqu’il y a une enquˆ ete PCI, les chercheurs pr´ ecisent si le patrimoine architectural ou mobilier est d´ ej` a r´ epertori´ e dans leurs bases de donn´ ees respectives (M´ erim´ ee pour l’architecture et Palissy pour le mobilier). Le chercheur r´ ealise ´ egalement des photographies, des vid´ eos, des enreg- istrements sonores, etc. annot´ es par des m´ etadonn´ ees qui sont sp´ ecifi´ ees par le chercheur manuellement. Nous pouvons remarquer sur le sch´ ema (Fig. 14) les donn´ ees ` a prendre en compte dans le cadre d’une enquˆ ete PCI.

Concernant le PCI, il n’existe pas ` a notre connaissance une application commune permettant aux chercheurs en SHS de saisir, stocker et valoriser les donn´ ees collect´ ees. Aussi, un travail de plus long terme est ` a mener afin de d´ efinir d’une part une structure de donn´ ees commune sous la forme d’une ontologie, et d’autre part de sp´ ecifier les diverses fonction- nalit´ es requises dans une application pour qu’un chercheur en SHS puisse facilement saisir et valoriser les donn´ ees collect´ ees, sachant que ces donn´ ees sont dans des formats h´ et´ erog` enes : textes, images, vid´ eos, enregistrements sonores.

En 2012 les acteurs du PCI ont ´ et´ e recens´ es

27

. Les types d’acteurs sont principalement les associations, les chercheurs, ainsi que les institutions de recherche et de formation. Il est int´ eressant de cartographier le PCI ` a l’´ echelle nationale [12], afin de recenser les pratiques de chacun et de pro- poser un mod` ele commun, pour des donn´ ees interop´ erables et r´ eutilisables. L’ontologie r´ esultante sera formalis´ ee en XML

26Organisation des Nations unies pour l’´education, la science et la culture

27http://www.culture.gouv.fr/Thematiques/

Patrimoine-culturel-immateriel/Le-PCI-qu-est-ce-que-c-est/

Les-acteurs-du-PCI

Figure 14: D´ eroulement de l’enqu^ ete PCI

CIDOC-CRM, mod` ele s´ emantique norm´ e de r´ ef´ erence pour la description du patrimoine [18]. Ce travail de structuration sera men´ e ` a partir ´ egalement de deux documents fournis par le Minist` ere de la Culture

28

: un vade-mecum et une fiche-type de description d’´ el´ ements du patrimoine culturel immat´ eriel en vue de leur inclusion ` a l’Inventaire national . Nous pourrons ´ egalement exploiter le travail men´ e dans le cadre du projet PCI-Lab

29

.

Afin que les chercheurs en SHS du laboratoire ITEM puis- sent d´ emarrer leur travail de saisie des notices descriptives, nous avons ´ elabor´ e sur la plate-forme Huma-Num un pre- mier canevas de saisie en respectant d’une part la norme Dublin-Core et d’autre part la description des ´ el´ ements du PCI ´ emise par le Minist` ere de la Culture. Ces premiers traite- ments permettent de montrer aux chercheurs la n´ ecessit´ e de structurer les donn´ ees, de les stocker avant de pouvoir les val- oriser de mani` ere simple en les exposant via Huma-Num ou

28http://www.culture.gouv.fr/Thematiques/

Patrimoine-culturel-immateriel/L-inventaire-national/

Fiche-type-et-vade-mecum

29https://www.pci-lab.fr/

(13)

de mani` ere plus complexe via des applications de valorisation du territoire.

6 CONCLUSIONS ET PERSPECTIVES

Nous avons discut´ e dans cet article de la complexit´ e de la gestion des donn´ ees h´ et´ erog` enes de la recherche en SHS.

Cette gestion n´ ecessite un travail commun entre chercheurs en SHS et chercheurs en informatique. ´ Etudier la grande vari´ et´ e des besoins des chercheurs en SHS quant ` a la gestion de leurs donn´ ees de la recherche afin d’y r´ epondre demande la d´ efinition d’un cadre m´ ethodologique et conceptuel que nous avons propos´ e et d´ etaill´ e.

Les exp´ erimentations que nous avons men´ ees montrent :

∙ qu’il n’est pas simple de formaliser les besoins des chercheurs en SHS ;

∙ que la conception et le d´ eveloppement d’une chaˆıne de traitement g´ en´ erique sur des ensembles de donn´ ees textuelles demandent encore un travail approfondi ;

∙ que la compl´ ementarit´ e des approches informatiques et statistiques permet de r´ epondre aux attentes des chercheurs afin qu’ils puissent illustrer leurs conclusions

;

∙ qu’aider les chercheurs en SHS ` a valoriser leurs donn´ ees de la recherche est primordial en proposant, par ex- emple, des mod` eles communs, des modalit´ es de vi- sualisation des donn´ ees au moyen de statistiques, de repr´ esentations graphiques, de repr´ esentation calendaire ou spatiale, ou encore une recherche d’information combin´ ee sur les dimensions spatiale, temporelle et th´ ematique.

Diffuser ces donn´ ees en Open data est ´ egalement une phase essentielle quant au partage de ces donn´ ees. Une r´ eflexion est ` a mener avec les chercheurs en SHS sur la temporalit´ e de diffusion des donn´ ees en Open Data. En ce qui concerne le PCI, un premier travail a ´ et´ e effectu´ e ciblant les types de donn´ ees, les acteurs et les domaines concern´ es. Une enquˆ ete est en cours de r´ ealisation pour analyser les m´ ethodes et pratiques des acteurs du PCI, afin de cr´ eer un mod` ele unifi´ e.

Ce mod` ele ainsi que la r´ ealisation d’une ontologie serviront

`

a la cr´ eation d’une application qui structurera les donn´ ees mais aussi optimisera le travail des acteurs.

7 REMERCIEMENTS

Etude r´ ´ ealis´ ee dans le cadre du programme de recherche europ´ een TCV-PYR (2017-2020), financ´ e par l’Union eu- rop´ eenne (FEDER) en partenariat avec les r´ egions Occitanie- M´ editerran´ ee et Nouvelle-Aquitaine.

REFERENCES

[1] [n. d.]. Convention de 2003 pour la sauvegarde. ([n. d.]), 46.

[2] Kalina Bontcheva, Valentin Tablan, Diana Maynard, and Hamish Cunningham. 2004. Evolving GATE to meet new challenges in language engineering. Natural Language Engineering10, 3-4 (2004), 349–373.

[3] Val´erie Bonvallot. 2007.La pratique documentaire des chercheurs en SHS: la recherche d’information. Report. Institut de l’Information Scientifique et Technique (INIST-CNRS).

[4] Christine Collet, Bernd Amann, Nicole Bidoit, Mohand Boughanem, Mokrane Bouzeghoub, Anne Doucet, David Gross- Amblard, Jean-Marc Petit, Mohand-Said Hacid, and Genoveva Vargas-Solar. 2013. De la gestion de bases de donn´ees `a la gestion de grands espaces de donn´ees. Revue des Sciences et Tech- nologies de l’Information-S´erie ISI: Ing´enierie des Syst`emes d’Information18, 4 (2013), 11–31.

[5] Hamish Cunningham. 2002. GATE, a general architecture for text engineering.Computers and the Humanities36, 2 (2002), 223–254.

[6] Nicolas Dugu´e, Jean Charles Lamirel, and Pascal Cuxac.

2016. Visualisation pour la d´etection d’´evolutions dans des corpus de publications scientifiques. Les Cahiers du num´erique12, 4 (Dec. 2016), 157–184. https://www.cairn.info/

revue-les-cahiers-du-numerique-2016-4-p-157.htm

[7] Christian Faur´e. [n. d.]. Introduction au Text-mining.

([n. d.]). http://www.christian-faure.net/2007/05/30/

introduction-au-text-mining/

[8] Biblioth`eque nationale de France. [n. d.]. BnF - L’interop´erabilit´e : d´efinition et enjeux pour les biblioth`eques. ([n. d.]).

http://www.bnf.fr/fr/professionnels/anx pro videos/a.

video cnfpt interoperabilite.html

[9] Fabien Granjon and Christophe Magis. [n. d.]. Critique et hu- manit´es num´eriques. ([n. d.]). https://journals.openedition.org/

variations/748

[10] Alain GUERREAU. 1989. POURQUOI (ET COMMENT) L’HISTORIEN DOIT-IL COMPTER LES MOTS? Histoire &

Mesure 4, 1/2 (1989), 81–105. http://www.jstor.org/stable/

24565515

[11] Eric Kergosien, Marie-Noelle Bessagnet, Christian Sallaberry, Annig Le Parc-Lacayrelle, and Albert Royer. 2016. Analyse g´eographique de s´eries de publications: application aux conf´erences EGC. InEGC’2016 (Extraction et Gestion des Connaissances).

371–382.

[12] Eric Kergosien, Marta Severo, and Marie-Aim´ee Berthelot. 2018.

Cartographier les acteurs d’un territoire : une approche ap- pliqu´ee au patrimoine industriel textile des Hauts-De-France. In KARTHALA / colloque CIST 2016 ”Demande(s) territoriale(s).

pp 16. https://hal.archives-ouvertes.fr/hal-01708035

[13] H´el`ene Prost and Joachim Sch¨opfel. 2015. Les donn´ees de la recherche en SHS. Une enqu^ete `a l’Universit´e de Lille 3.Rap- port. Lille 3.

[14] Nathalie Reymonet, Magalie Moysan, Aurore Cartier, and Renaud D´el´emontez. 2018. R´ealiser un plan de gestion de donn´ees FAIR:

guide de r´edaction. (2018).

[15] H. Schmid. 1999. Improvements in Part-of-Speech Tagging with an Application to German. InNatural Language Processing Using Very Large Corpora, Nancy Ide, Jean V´eronis, Susan Armstrong, Kenneth Church, Pierre Isabelle, Sandra Manzi, Evelyne Tzouker- mann, and David Yarowsky (Eds.). Vol. 11. Springer Netherlands, Dordrecht, 13–25. https://doi.org/10.1007/978-94-017-2390-9 2 [16] Joachim Sch¨opfel, Eric Kergosien, and H´el`ene Prost. 2017. Pour commencer, pourriez-vous d´efinir’donn´ees de la recherche’ ? Une tentative de r´eponse. InAtelier VADOR: Valorisation et Analyse des Donn´ees de la Recherche; INFORSID 2017.

[17] Alexandre Serres, Marie-Laure Malingre, Morgane Mignon, C´ecile Pierre, and Didier Collet. 2017. Donn´ees de la recherche en SHS. Pratiques, repr´esentations et attentes des chercheurs: une enqu^ete `a l’Universit´e Rennes 2. Rapport. Universit´e Rennes 2.

[18] Anne-Violaine Szabados and Rosemonde Letricot. 2012.

L’ontologie CIDOC CRM appliqu´ee aux objets du patrimoine antique. In3e Journ´ees d’Informatique et Arch´eologie de Paris- JIAP 2012.

[19] Djamel Abdelkader Zighed. [n. d.]. Les Humanit´es Num´eriques en Sciences Humaines et Sociales. ([n. d.]).

Références

Documents relatifs

Les informations sociodémographiques (concernant l'âge, le sexe, le niveau d'étude, la catégorie socioprofessionnelle, etc.) sont recueillies non seulement pour permettre de

Il est certain que les SHS se voient aujourd’hui confrontées à des réflexions déjà entamées depuis quelques années dans les sciences exactes sur l’ouverture des

18 numérique de la recherche en Sciences humaines et sociales » [17, HUMA-NUM] qui propose aux chercheurs en Sciences humaines et sociales (SHS) un accompagnement et

Le fait de proposer ce service de préservation sur le long terme permet à la TGIR d’informer les communautés, et ce dès le début du projet, de l’utilité

Dominique ROUX, Professeur des universités, et Marie SCHILL, Maître de conférences, REGARDS, URCA.. 13h50 - Quel pilotage de la performance socio-environnementale pour l’économie

Chayani et Xavier Granier (Université Bordeaux Montaigne) pour le consortium 3D- SHS, Thomas Lebarbé (Université Grenoble-Alpes) pour le consortium Cahier , Loïc

16h15 : Introduction au séminaire, par Pierre Beylot, Directeur de la Maison des Sciences de l’Homme d’Aquitaine et Professeur des universités en Etudes cinématographiques

Dans le cadre du projet inter-MSH porté par la MSHB : QualiSHS Critères de la qualité dans la recherche dans les sciences humaines et sociales : perceptions et pratiques. 4-6