• Aucun résultat trouvé

Prédictions guidées par des données et par des modèles

2.3 Prédire et expliquer à partir des Big Data

2.3.1 La spécificité des Big Data

Si l’on ne définit les Big Data que comme l’augmentation des données disponibles et de leur capacité de traitement, il faut reconnaître qu’il ne

http ://www.ebi.ac.uk/ena/about/statistics).

57Comme le remarque Luciano Floridi, professeur de philosophie et d’éthique de

l’information à l’Université d’Oxford, « malgré l’importance de ce phénomène, ce que signifie le terme "Big Data", et donc ce à quoi il réfère, est peu clair »Luciano Floridi, “Big data and their epistemological challenge”, Philosophy & Technology (2012), p. 1– 3, p. 1.

s’agit pas d’un phénomène nouveau mais d’un processus que les histo- riens des sciences font remonter au moins au milieu du XIXesiècle avec

l’apparition et la généralisation des études statistiques dans différents domaines des sciences de la nature et des sciences humaines58. On pour-

rait d’ailleurs admettre que l’utilisation intensive de données massives n’est que le dernier épisode d’une longue transformation des pratiques scientifiques ayant commencé avec l’utilisation des premières méthodes statistiques pour formuler et tester des hypothèses.

Cependant, en ce qui concerne la question de différents types de pré- diction, définir les Big Data comme un grand volume de données n’est pas suffisant. Les Big Data sont caractérisée aussi et surtout par le fait que ces données soient numérisées et qu’il est donc possible d’y avoir accès avec des outils informatiques. Cela explique notamment pourquoi les questionnements sur les grands volumes de données et leur capacité à réaliser des prédictions soient apparus dans les années 1990, décennie qui a vu la généralisation d’ordinateurs et de réseaux informatiques bon mar- ché, qui sont ainsi devenus un outil dans la quasi-totalité des domaines de recherche.

Ce lien entre l’utilisation d’outils informatiques, d’importants vo- lumes de données et la capacité prédictive, est fait explicitement par P. Wilcock et R. Iverson dès la première phrase de leur ouvrage sur les prédictions en géomorphologie : « la disponibilité, de plus en en plus répandue, d’une importante puissance de calcul et la capacité d’acqué- rir des données volumineuses, ont le potentiel d’augmenter la précision et la pertinence des prédictions en géomorphologie »59. En effet, la ca- pacité d’utiliser des ordinateurs et de larges bases de données a permis l’émergence, en géomorphologie, de modèles de « simulation » (voir sec- tion précédente) dont on dérive des prédictions quantitatives détaillées. Les données de ces bases ont la particularité d’être de nature très di- verse : elles concernent la topographie étudiée, les taux de sédimentation

58

A ce sujet, voir notamment : Lorenz Kruger, Lorraine Daston et Michael Hei- delberger, The Probabilistic revolution, Vol. 1 : Ideas in history ; Vol. 2 : Ideas in the sciences, The MIT Press, 1987 ; Theodore Porter, The Rise of statistical thinking, 1820-1900, Princeton, Princeton University Press, 1986.

59

ou les coefficients de frottement entrant dans les équations de transports de sédiments. Elles sont aussi d’origine très variée : elles peuvent venir de travaux sur le terrain, d’expérience de laboratoire ou de simulations. Comme on l’a vu dans le cas des recherches sur l’évolution de V. Orgo- gozo et D. Stern, ces données sont souvent regroupées en une base qui colligent et recombinent les données d’autres recherches. C’est pour cela que ces prédictions issues des Big Data emploient souvent des métadon- nées, c’est-à-dire des données portant sur les expériences, enquêtes ou simulation qui ont permis de collecter les données considérées60.

Ainsi, les données des Big Data ne sont pas « big » uniquement parce qu’elles sont nombreuses. Elles le sont aussi et surtout en diversité, puis- qu’elles regroupent non seulement des données empiriques venant de nombreuses disciplines mais aussi des données provenant des simulations et les résultats d’autres recherches effectuées parfois dans des domaines très différents61.

De plus, les données regroupées en bases ne sont pas, comme c’est le cas souvent dans des travaux expérimentaux, collectées en vu de tester une loi ou un modèle, c’est-à-dire dans l’optique d’une seule et unique recherche. Le plus souvent les bases de données regroupent le plus d’in- formations possibles, mêlant des informations dont l’importance varie selon les questions que l’on pose à cette base. Autrement dit, le tri entre données pertinentes et non pertinentes s’effectue autant que faire se peut après leur collection, tandis que dans de nombreuses recherches qui ne s’appuient pas sur ce type de bases de données il s’effectue en grande partie avant62.

Ces spécificités des Big Data ont plusieurs conséquences sur les re- cherches à visée prédictive qui emploient les données massives numéri- sées :

60

Clifford Lynch, “Big data : How do your data grow ?”, Nature 455.7209 (2008), p. 28–29, p. 28.

61Je remercie Émilien Schultz d’avoir attiré mon attention sur ces différents points. 62Comme le note Eve McCulloch, biologiste à l’American Institute of Biological

Sciences, « plutôt que d’analyser des données afin de répondre à une question parti- culière l’exploration de données (data mining) créative peut permettre d’inspirer de nouvelles questions — ouvrant la porte aussi bien à l’activité scientifique générant des hypothèses qu’à celle dirigée par des hypothèses »McCulloch, “Harnessing the Power of Big Data in Biological Research”, p. 715.

• Il est nécessaire d’utiliser des moyens de calcul algorithmique et donc des outils informatiques pour rechercher parmi ces données les informations pertinentes et les synthétiser.

• Comme le fait remarquer Serge Abiteboul, si les algorithmes de tri des données sont informatisés, ils sont bien souvent trop longs à exé- cuter63, ce qui rend nécessaire non seulement la mise en parallèle de

nombreux ordinateurs mais aussi l’utilisation d’outils statistiques pour filtrer ces données (comme l’algorithme PageRank de Google qui fonctionne en attribuant une popularité à chaque page internet à partir de la probabilité qu’a un surfeur aléatoire d’y aboutir64).

Pour extraire des informations de ces grandes bases de données, on voit donc apparaître des outils statistiques spécifiquement dévelop- pés dans l’optique d’analyser des données nombreuses et variées en des temps restreints65.

• Une partie de la procédure de formulation et de test des hypo- thèses sur ces données est ainsi automatisée, grâce à des logiciels permettant d’ajuster des modèles aux données, une fois les données pertinentes isolées.

Les prédictions à partir de données massives ont ainsi permis d’aug- menter la capacité prédictive de nombreux domaines et théories, mais posent aussi des problèmes méthodologiques et philosophiques nouveaux et spécifiques.

63Les algorithmes utilisés pour partitionner un ensemble de n données ont une lon-

gueur de l’ordre de n3(Anthony Hey, Stewart Tansley et Kristin Tolle, éds., The Fourth paradigm : data-intensive scientific discovery, Redmond, Microsoft Research, 2009, p. xxiii).

64

Serge Abiteboul, “Sciences des données : de la logique du premier ordre à la Toile, Leçon inaugurale au Collège de France prononcée le 8 mars 2012” (2012), p. 21.

65C’est ainsi qu’ont été développées depuis cinq ans les méthodes ABC (Approxi-

mate Bayesian Computation) destinées à tester des hypothèses sur des bases de don- nées ayant les caractéristiques des Big Data. Voir Mark Beaumont et al., “Adaptive approximate Bayesian computation”, Biometrika 96.4 (2009), p. 983–990.

2.3.2

Les prédictions à partir de données massives et

Outline

Documents relatifs