• Aucun résultat trouvé

1 DEFINIR ET CLASSER LES DONNEES DE LA RECHERCHE

1.3 Les données dans le processus de recherche

A suivre, nous illustrerons les propos précédents à travers deux exemples tirés des entretiens, visant à montrer à quel moment des données « deviennent » des données de la recherche.

1.3.1 En Histoire : distinguer les données selon leur degré d’élaboration et transformations

« Sur la plateforme hypermédia conçue par lui et des coopérateurs, cette distinction [entre les données d’ « appui » et les données « produites »] a été réalisée pour classer les données selon leur degré d’élaboration. Les « données brutes », annotées ou enrichies de métadonnées, sont classées dans les

« sources ». Les données secondaires sont le produit d’une élaboration qui suppose – dans la plupart des cas - de déstructurer le document initial (agrégation, traitement, extraction sélective) et de s’affranchir de la représentation initiale du support pour élaboration d’une nouvelle visualisation des données. Ces données produites par la recherche sont plus proches d’« outils » ou d’instruments de recherche (typiquement, les « bases de données. » (Histoire, entretien n° 11)

« Dans le cadre de ses recherches en histoire, les données de la recherche sont avant tout des données recueillies en archives. Il importe toutefois de distinguer la « donnée brute », le texte

d’archive lui-même - qu’il qualifierait plutôt de « données de terrain »-, des données de la recherche qui correspondent plus à un travail de pré-analyse. » (Histoire, entretien n°27)

Ces deux historiens partagent l’idée selon laquelle les données « brutes », par exemple, des documents d’archives, ne constituent pas à proprement parler des « données de la recherche » dans les sens plus restrictif des « données produites » au cours de de la recherche. En effet une donnée de la recherche au sens propre serait une donnée conçue par une transformation appliquée aux sources primaires ou données brutes dans le but de produire du savoir scientifique. Il est par là donc évident que le rapport entretenu entre

« données brutes » ou « sources » et « données secondaires ou de pré-analyse est loin d’être un rapport purement externe mais, selon l’expression du chercheur, suppose une déstructuration qui est déjà une interprétation des premières : sélection et agrégation de documents d’archive pour constitution d’un corpus sur un sujet particulier.

Mais cette transformation est comprise de deux façons différentes par ces deux chercheurs : pour le premier chercheur (entretien n°11), elle a un sens qui se traduit techniquement (par la réalisation d’un ensemble d’opérations), alors que pour le deuxième (entretien n° 27 et v.

aussi n° 49), il s’agit d’une transformation opérant à travers les étapes d’un travail intellectuel sans contrepartie technique.

Dans le cas du premier extrait cité, l’intention du partage existe, il s’agit de proposer des instruments de recherche à d’autres chercheurs : des corpus annotés, documentés, enrichis de métadonnées descriptives. En effet, un des effets du tournant numérique des SHS réside dans la possibilité offerte de rendre visibles les corpus ainsi constitués, alors qu’avant le Web le chercheur avait des possibilités très réduites de le faire.

En conséquence les sources sont potentiellement des données de la recherche lorsqu’elles sont objet de transformations intellectuelles qui se traduisent par un ensemble d’opérations techniques visant à rendre ces données utilisables à d’autres chercheurs (Fig. 6).

Figure 6 - Des sources aux données de la recherche

En Histoire, comme dans d’autres disciplines utilisant des données d’archives ou corpus de textes, un champ très large de réflexion sur les sources, outils et les finalités poursuivies est en train de se produire à travers quelques initiatives innovantes comme par exemple, Criminocorpus64, plateforme d’édition scientifique pour l’histoire de la justice, des crimes et des peines, produit grâce à la coopération entre chercheurs, archivistes, documentalistes et collectionneurs.

1.3.2 Des données hétérogènes tout au long du processus de recherche

Tout au long de ce processus plusieurs types de données peuvent être produites, utilisées et réutilisées. Un exemple très caractéristique consiste à montrer toutes les types de données impliquées dans la démarche d’enquête. Dans l’entretien sur lequel nous basons ces remarques [Démographie, 28] il est possible de repérer les différentes étapes de cette démarche (fig.7) :

64 V. < https://criminocorpus.org/>; une autre initiative d’envergure est le développement de la plateforme web sur l’Histoire des sciences du Centre Alexandre Koyré :

<http://koyre.ehess.fr/index.php?936>

1. Entretiens qualitatifs selon une approche biographique auprès des immigrants de l’Afrique Sub-saharienne (données qualitatives, méthodologie)

2. À partir des données collectées, préparation d’une enquête pilote (méthodologie) 3. Enquête réalisé par un institut de sondage (données quantitatives)

4. Analyse de ces enquêtes (résultats de la recherche) 5. Publication

Figure 7 - Processus type d'une démarche d'enquêtes

Le contexte de cette recherche est collectif et interdisciplinaire : « Plusieurs équipes appartenant à des organismes divers (CEPED, INSERME, INPES) ont travaillé sur la préparation de ces enquêtes pendant plusieurs mois. »

Tout au long de la recherche les chercheurs produisent plusieurs jeux de données qui ne sont pas forcément mis en valeur dans les résultats diffusés. Il est naturel par exemple, que les données produites dans le but d’appuyer des résultats soient traitées et documentées de façon plus exhaustive à des fins de publication. Mais d’autres jeux de données produits en cours de chemin resteront moins visibles, inexploités et pas traités pour un partage.

La réutilisation des données produites par d’autres chercheurs en parallèle à la production de ses propres données peut également faire partie d’une démarche du type constitution d’enquêtes. Par exemple, la méthodologie utilisée pour constituer un échantillon, collecte et analyse des données peut être utilisée par un chercheur en vue de constituer sa propre enquête, sur un sujet divers.

« Elle estime que ces travaux préparatoires sont effectivement très riches et présentent un intérêt à être diffusés, notamment du point de vue méthodologique. Une difficulté se présente, néanmoins, originaire de la particularité de cette étude d’être à cheval sur deux disciplines, la démographie et l’épidémiologie, et des types différents de données utilisées, qualitatives et quantitatives. Il faudrait réfléchir à un moyen de présenter ces données «brutes » en les contextualisant, mais cela implique beaucoup de temps disponible pour leur préparation et les chercheurs ne sont souvent pas en mesure d’accomplir seuls ce travail. » (Démographie, entretien n° 28)