Marc Renneville, directeur de recherche au CNRS, directeur du Centre pour les

J’ai décliné la proposition qui m’avait été faite de parler du Big Data et je suis content qu’un collègue se soit engagé à le faire car c’est une notion pour moi

problématique en tant qu’historien. En effet, je pense que, en sciences humaines et sociales, elle est moins liée aux grands volumes des informations à traiter qu’à la détermination du seuil qui contraint le chercheur à modifier son mode d’analyse. Il s’agit donc plus, pour moi, d’une question d’échelle. Le Big Data commence avec tout corpus qui nécessite la réalisation d’une base de données relationnelle, pour en faire l’analyse. En tant qu’historien je peux facilement, c’est dans mon domaine, analyser un rapport d’expertise médico-légal, dix ou cent rapports, mais si je dépasse plusieurs milliers d’expertises je vais être obligé de modifier mon mode de lecture. Ce sera pour moi du Big Data, tout en sachant que, pour des spécialistes de l’information, six-mille rapports d’expertise médico-légale, ce n’est pas forcément un très grand chiffre. Je maintiens donc que, pour un chercheur en histoire, le seuil du Big Data est en fait très bas.

Pour cette raison j’ai préféré parler de quelque chose de moins connu mais de fondamental pour nous : la question de la gestion des données de la recherche.

À mon avis, les chercheurs en sciences humaines et sociales doivent en prendre conscience, certaines institutions pouvant y aider. Jusqu’à une époque récente, cette question pouvait sembler relativement déconnectée de l’activité principale des chercheurs. Le chercheur en sciences humaines et sociales dépendait, comme aujourd’hui, des données accessibles, car elles ne le sont pas toujours et il lui fallait parfois, hier comme aujourd’hui, faire preuve d’ingéniosité et d’inventivité pour recueillir des données et surtout, dans mon domaine si j’ose dire, les faire parler par des problématisations ou des outils originaux. Il y avait, en amont, les sources conservées par les archives et les bibliothèques et, en aval, la publication des résultats de la recherche au format papier, sous forme d’édition critique de sources, d’articles ou de livres.

Mais, depuis le XX^e siècle, de plus en plus de chercheurs sont également producteurs de données, sur des supports de haute technologie mais de faible pérennité. Je pense aux photographies, aux films, aux enregistrements sonores, bandes magnétiques, disquettes ou disques durs, autant de supports qui posent la question de la conservation et de la transmission des contenus. Le tournant numérique en sciences humaines et sociales a accéléré encore ce mouvement et induit la nécessité d’une politique de gestion de nos données, de leur traitement, de leur interopérabilité avec d’autres données, et enfin de leur conservation à long terme.

La fragilité des données numériques est, en effet, très préoccupante. Elle tient à deux facteurs : la fragilité des supports et l’évolution des formats de lecture.

Pour le premier, le raccourcissement de la durée de vie des mémoires dans le temps constitue un paradoxe et un défi technologique : une inscription sur la pierre dure en moyenne dix-mille ans et un parchemin mille ans. Je me souviendrais toujours de ma visite des archives du Parlement de Paris à l’occasion de laquelle la conservatrice en chef a déposé sur le sol un très beau manuscrit du Haut moyen-âge, en précisant qu’elle n’était pas inquiète, car il durerait beaucoup plus longtemps que mon site Criminocorpus. Elle avait bien raison. Une pellicule se conserve une centaine d’année et un disque vinyle cinquante ans. Pour les

supports informatiques, nous ne savons pas encore. Dans les années 1980, souvenez-vous, on croyait que la solution avait été trouvée avec le cédérom, support réputé inusable. Mais on connaît très bien, depuis, sa fragilité, sa fiabilité devenant incertaine au-delà d’une vingtaine d’années. Les disques durs, même très chers, ne sont garantis que cinq ans. La mémoire flash ne dépasse guère une dizaine d’années, si on ne la sollicite pas au-delà de cent-mille réécritures.

Le deuxième facteur de fragilisation réside dans l’évolution des formats. En vidéo, il reste très peu de lecteurs betacam, qui constituaient pourtant la norme voici quelques années. On connaît aussi tous la disparition des lecteurs de disquettes en informatique. En matière de numérique, la lecture des informations évolue avec les logiciels permettant l’interprétation des codes. Nous avons tous fait un jour l’expérience de l’impossibilité de relire un fichier vieux de quelques années.

S’ajoute le problème de l’encapsulage des données dans des logiciels propriétaires, qui pose la question du libre accès à ces données, de leur interconnexion possible à d’autres corpus et de leur disponibilité future.

Toutes ces questions sans réponses simples et définitives constituent des défis scientifiques et technologiques. Mais on peut en tirer un constat, qui doit guider une politique rationnelle de gestion des données de la recherche. L’enjeu porte sur notre capacité à préserver l’accumulation des savoirs et à la transmettre, sans retourner évidemment à la gravure sur pierre. Cette transmission passe par une politique de conservation, coûteuse en temps. C’est probablement nouveau pour les sciences humaines et sociales. Effectivement, nous pouvons coûter de l’argent, beaucoup même si l’on s’intéresse à cette politique de données qui suppose une veille technologique coordonnée, du matériel et des centres de données sécurisés.

Cette politique de gestion des données de la recherche ne peut être mise en œuvre au niveau du chercheur. L’époque où l’on gérait ses petits carnets de recherche dans son coin, comme on a pu le croire au début du numérique, voici encore une dizaine ou une vingtaine d’années, est révolue. C’est très difficile à comprendre pour beaucoup de collègues, même au niveau des laboratoires. Il y a nécessité d’une stratégie coordonnée à l’échelle nationale et internationale, mais aussi d’une prise de conscience des chercheurs et d’infrastructures, notamment numériques.

La très grande infrastructure de recherche (TGIR) Huma-Num, créée en mars 2013, résulte de la fusion du très grand équipement (TGE) ADONIS (Accès unifié aux données et documents numériques des sciences humaines et sociales) et des consortiums Corpus-IR (Coopération des opérateurs de recherche pour un usage des sources numériques en SHS). Elle a construit et continue de construire des services pour le stockage, le traitement, l’exposition, le signalement, la diffusion et l’archivage des données à disposition de la recherche. Ces infrastructures sont récentes mais elles sont indispensables. Elles restent fragiles.

Il faut assurer leur stabilité à long terme pour conduire une politique nationale coordonnée.

En conclusion, je voudrais souligner combien le développement de ce type de structures, qui permet une gestion mutualisée des données, peut avoir un effet bénéfique sur l’évolution de nos savoirs et le décloisonnement des disciplines. En effet, elles permettent de développer en parallèle de nouvelles méthodes de travail et de nous concentrer sur l’élaboration de nouveaux outils de publication, de visualisation et de diffusion de l’information scientifique. Nous sommes plusieurs ici à animer, depuis de nombreuses années, des plateformes de publication originales et évolutives. Elles ont permis de constituer des communautés d’intérêt scientifique qui expérimentent les voies de convergence des sciences humaines et sociales avec les sciences technologiques. Le formidable site fabula.org en est un exemple.

Dans le domaine de l’histoire de la justice, le site criminocorpus.org contient des bases de données relationnelles, des chronologies juridiques, un blog d’actualité, une revue, une bibliothèque numérique, mais aussi des réalisations plus spécifiques et plus expérimentales, comme des visites de lieux de justice qui combinent des plans de situation et des vidéos. On y trouve également des outils de consultation qui permettent de comparer des corpus de loi, par exemple le code civil pendant deux siècles, ou l’ordonnance de février 1945 sur la justice des mineurs. Ces outils de visualisation sont intéressants car ils permettent éventuellement d’ouvrir à des contributions citoyennes et d’ouvrir également les sciences humaines et sociales sur la société.

M. Jean-Yves Le Déaut. Je donne maintenant la parole à M. Alexandre Gefen, chargé de recherche au CNRS, qui se propose d’évoquer quelques exemples remarquables parmi « les humanités numériques ».

Les humanités numériques, quelques exemples remarquables

M. Alexandre Gefen, chargé de recherche au CNRS, chercheur à

Dans le document ’ INTERACTION DES SCIENCES HUMAINES ET SOCIALES AVEC LES SCIENCES TECHNOLOGIQUES ET LES SCIENCES DU VIVANT L RAPPORT (Page 39-42)