• Aucun résultat trouvé

Les prédictions à partir de données massives et leurs enjeux épistémologiques

Prédictions guidées par des données et par des modèles

2.3 Prédire et expliquer à partir des Big Data

2.3.2 Les prédictions à partir de données massives et leurs enjeux épistémologiques

Un des usages les plus frappants des Big Data est d’avoir permis de mener des recherches à fins prédictives dans des domaines où cela parais- sait quasiment impossible à moins de croiser de très nombreux facteurs, comme l’écologie, la géologie, la biologie et la médecine. Les premières institutions à avoir proposé des moyens de conserver et de partager de très nombreuses données appartiennent ainsi à ces domaines 66.

Cependant les Big Data apparaissent aussi dans des disciplines où des prédictions guidées par des lois sont disponibles depuis longtemps. Parmi les exemples récurrents de telles recherches, on trouve celles menées au LHC en physique des particules et les grands relevés astronomiques, comme le Sloan Digital Sky Survey ou le catalogue dressé par le satellite Gaïa. Mais, même si ces projets attirent beaucoup d’attention du fait de leur taille, il ne faut pas oublier que la plupart des recherches dans toutes les disciplines sont menées par des petites équipes (moins d’une dizaine de personnes) qui, elles aussi, comme on l’a montré avec les recherches de V. Orgogozo et D. Stern, utilisent et mettent au point des bases de données en recomposant les données provenant de bases déjà existantes. Ainsi les Big Data n’ont pas seulement permis d’étendre le domaine des phénomènes prévisibles, elles ont aussi et surtout transformé la ma- nière dont on réalise des prédictions dans de nombreuses disciplines scien- tifiques. Utiliser de larges bases de données permet de se passer de lois qui énoncent les facteurs pertinents à prendre en compte : une fois numé- risées, les données peuvent être soumises à des traitements permettant d’extraire les facteurs similaires d’un cas à l’autre et leurs poids relatifs dans l’occurrence d’un phénomène.

Ces prédictions résultent donc d’inférences inductives, différentes ce- pendant de celles étudiées par Hempel. Celles-ci sont des inductions à partir de lois statistiques indiquant les conditions sous lesquelles un évé-

66Aux États-Unis par exemple, le National Center for Atmospheric Research et le

National Ecological Observatory Network regroupent les données et les modèles nu- mériques des chercheurs en sciences de la Terre, la GenBank regroupe les séquences de nucléotides identifiées et le portail internet PubMed archive toutes les études financées par le National Institue of Health est aujourd’hui en libre accès.

nement ou une propriété a une forte probabilité d’être observé. Dans le cas des prédictions à partir de Big Data, on peut être amené à identifier de faibles corrélations entre événements ou propriétés. En effet, l’objectif n’est pas de mettre au point ou de tester une ou plusieurs lois gouvernant le comportement d’un système, mais de rendre compte de la plupart de ses détails et de ses facteurs.

Telle est la principale caractéristiques des prédictions guidées par des données dans le cadre des Big Data : elles tendent à être exhaustives dans leur dénombrement des facteurs et donc d’être les plus complètes possibles. En ce sens, elles maximisent la précision des prédictionset mini- misent l’utilisation d’hypothèses auxiliaires sur les conditions aux limites, en intégrant tous les détails possibles d’un phénomène.

La deuxième caractéristique de ces prédictions est donc leur com- plexité : traiter une pléthore de variables différentes requiert des systèmes d’équations ou des algorithmes dans lesquels apparaissent de nombreux paramètres. Dans l’immense majorité des cas, ces systèmes d’équations sont impossibles à résoudre analytiquement et encore moins « à la main », c’est-à-dire sans outils informatiques.

Par exemple, le développement de modèles à complexité réduite qui en géomorphologie s’est fait en grande partie en réaction à des modèles dits de simulation qui s’appuient sur des données massives. Ces modèles sont donc conçus comme prédictifs mais non comme explicatifs. Comme le souligne Gilles Dowek :

Lorsqu’une théorie s’exprime par des énoncés ou des algo- rithmes qui font des centaines de pages, le lien entre prévi- sion et explication se distend. Ainsi, nous avons pris l’habi- tude d’accepter que les prévisions météorologiques indiquent le temps du lendemain avec une probabilité de succès assez élevée, mais qu’elles ne nous expliquent pas pour quelles rai- sons ce lendemain sera ensoleillé ou pluvieux. [...] Si nous ne pouvons pas expliquer le temps du lendemain, c’est précisé- ment parce que la situation météorologique n’est pas le ré- sultat d’une cause unique, mais de milliers de causes particu- lières desquelles il est difficile de faire émerger une explication

globale67.

G. Dowek relève donc ici le fait qu’une explication demande une cer- taine forme de simplicité, et que les prédictions à partir des Big Data ne sont donc pas explicatives à cause de leur complexité.

Enfin, la dernière caractéristique des prédictions fondées sur les Big Data est que, comme toutes les prédictions guidées par des données, elles s’appliquent aux mêmes types de données que celles qui ont été utilisées pour les formuler. Autrement dit, même si les prédictions tirées des Big Data portent sur de très grandes populations et parfois sur des échelles de temps et d’espace très grandes, ce sont des interpolations. À l’inverse, les prédictions qui sont des extrapolations requièrent plus de simplicité : elles sont réalisées sur la base de lois ou de modèles simples et robustes. Ainsi, les prédictions à partir des Big Data ont donné un rôle aux prédictions guidées par des données qui va bien au-delà de ce à quoi elles étaient utilisé auparavant : compléter des bases de données par interpola- tion (voir chapitre 1, section 1.3.2). Mais elles confrontent les scientifiques à un certain nombre de problèmes méthodologiques68, dont l’un a une im-

portance philosophique particulière : l’augmentation de la complexité des hypothèses et des modèles fondés sur ces données comporte des risques comme celui de sur-ajustement.

Le sur-ajustement d’une hypothèse consiste à utiliser des équations ayant de nombreux paramètres libres pour maximiser son adéquation aux données. Cela a pour conséquence que l’on obtient des équations complexes qui ne décrivent pas le phénomène que l’on cherche à prédire, mais qui reflètent le « bruit » des données, c’est-à-dire leur fluctuation résultant de petites causes indépendantes les unes des autres (voir cha- pitre 7, section 7.2.3). Ainsi, les équations les plus complexes et les mieux ajustées aux données disponibles ne peuvent réaliser des extrapolations précises, parce que si on les compare à de nouveaux échantillons de don- nées, elles reflètent l’idiosyncrasie de l’échantillon sur lequel elles ont été calibrées et non l’ensemble de la population.

67

Gilles Dowek, “L’Explosion mémorielle change la donne”, Pour la science 433 (2013), p. 27–31, p. 29.

68Ceux-ci sont exposés dans le projet du défi CNRS MASTODONS démarré en

Or, les prédictions à partir des Big Data étant formulées et testées par des outils statistiques et automatisées (par exemple des logiciels d’auto- apprentissage qui ajoutent et ajustent des paramètres à partir d’échan- tillons de données), elles sont sur-ajustées. C’est pourquoi elles sont res- treintes à des interpolations et qu’il est risqué de les utiliser pour des extrapolations.

Ce problème méthodologique mène à deux enjeux philosophiques im- portants.

Le premier enjeu est de savoir si l’on peut encore dire qu’une « théo- rie » intervient dans les prédictions dirigées par des données massives. G. Dowek n’hésite pas à parler de théorie pour désigner des programmes de prédictions météorologiques, même s’ils sont tellement longs et com- plexes qu’ils ne peuvent être compris ou manipulés par un esprit humain sans l’aide d’outils informatiques. Mais si ces programmes ne sont ap- plicables qu’à un certain type de systèmes et qu’ils ne peuvent réaliser d’extrapolations, alors ils sont restreints à un domaine particulier d’ap- plication. Or il semble que pour pouvoir parler de théorie, quelle que soit la conception que l’on s’en fait, il faut être capable de distinguer entre un ensemble d’énoncés et de connaissances couvrant un grand nombre de cas et leur application à l’un de ces cas particuliers. Il ne va donc pas de soi que les prédictions tirées des Big Data soient encore des prédictions qui permettent de construire, tester ou appliquer des théories scientifiques.

Ainsi, le journaliste scientifique Chris Anderson en est venu à soutenir que « tous les modèles sont faux, mais on en a de moins en moins be- soin ». Cela l’amène à décrire un état de la science future dans laquelle ni modèle, ni théorie, ni hypothèse, ne sera développé : seuls les corrélations statistiques permettront d’édifier la connaissance scientifique :

La récente mise à disposition d’immenses quantités de données et les outils statistiques qui permettent de traiter ces nombres offrent une toute nouvelle manière de comprendre le monde. Les corrélations remplacent les liens de cause à ef- fet et la science peut progresser sans même faire appel à des modèles cohérents, des théories unifiées, ou même des expli-

cations statistiques69.

Cependant, rien ne dit que certaines des corrélations que mentionne C. Anderson ne seront jamais considérées comme des lois scientifiques in- tégrées à des théories scientifiques si elles ne se révèlent incapables d’être extrapolées. De plus, il semble clair que même si les raisonnements pré- dictifs fondés sur l’utilisation intensive de données massives n’emploient pas une théorie, ils font pourtant appel à des collections de théories et d’éléments théoriques pour traiter la diversité des données qu’ils utilisent. Un modèle de simulation de rivière en géomorphologie peut ainsi utiliser la mécanique des fluides pour estimer le coefficient de friction des allu- vions, des lois géologiques pour estimer la vitesse de sédimentation, des résultats en botanique pour estimer le taux de développement des algues, etc. Le problème reste ouvert mais l’apparente absence de théorie dans les raisonnements prédictifs guidés par des données massives est peut donc être imputable à une utilisation de nombreuses théories d’origines disciplinaires différentes plutôt qu’à une réelle disparition de l’utilisation des théories scientifiques de l’activité prédictive.

Le second enjeu épistémologique des prédictions tirées des Big Data est celui de la tension entre complexité et étendue des prédictions scien- tifiques. Comme on l’a vu, les prédictions guidées par des données sont souvent restreintes à des cas d’interpolation et ne peuvent être étendues sur de grandes échelles de temps et d’espace. Certains géomorphologistes comme P. Wilcock et R. Iverson réservent même l’appellation « grande échelle » aux prédictions dans lesquelles on ne peut définir tous les fac- teurs qui interviennent dans le comportement d’un système70.

Cette manière de distinguer différents types de prédiction indique que lorsque l’on réalise une prédiction, on est amené à choisir un modèle de raisonnement prédictif en faisant un compromis entre l’étendue prédictive — c’est-à-dire le nombre et la variété de phénomènes que l’on peut prédire

69

Chris Anderson, “The End of Theory”, Wired magazine 16 (2008), p. 108–109, p. 109.

70« Les prédiction à grande échelle sont celles pour lesquelles des conditions contin-

gentes ou émergentes sont spécifiées explicitement dans la prédiction, que ce soit sous la forme de conditions initiales, aux limites ou comme une règle gouvernant la mor- phologie » Wilcock et Iverson, “Prediction in geomorphology”, p. 5.

– et la précision prédictive — c’est-à-dire le nombre et la variété de détails que l’on peut prédire concernant un phénomène. En effet que la meilleure manière d’augmenter la précision d’une prédiction soit de sacrifier la simplicité de l’hypothèse prédictive, ce qui rend difficile ensuite d’extrapoler le résultat de cette prédiction à d’autres phénomènes71. C’est

pourquoi la science des Big Data peut apparaître comme prédictive et non explicative : elle sacrifie souvent la simplicité à la précision, or la simplicité semble être un élément déterminant pour qu’un esprit humain considère un raisonnement comme une explication72.

Ainsi, sans nier la spécificité des recherches qui s’appuient sur les données massives, il me semble exagéré de voir dans les Big Data le point de départ d’un nouveau paradigme scientifique73, c’est-à-dire d’une nouvelle méthode scientifique qui aurait pour vocation de remplacer les méthodes existantes. En ce qui concerne les prédictions scientifiques, il apparaît que les Big Data ont permis de donner une importance nouvelle aux prédictions dirigées par des données, en leur accordant, dans certains domaines, le rôle qui était dévolu dans d’autres disciplines aux prédictions dirigées par des lois ou par des modèles : participer au développement et à l’application de nouvelles hypothèses.

Cependant, les prédictions guidées par des données préexistaient aux Big Data. De plus, elles se trouvent, sous de nombreux aspects, à l’extré- mité d’un spectre de raisonnements prédictifs dont l’autre extrémité est occupée par les prédictions dirigées par des lois. Ce spectre va des prédic- tions complètes, complexes et à visée d’interpolation, à des prédictions incomplètes (c’est-à-dire accompagnées d’hypothèses auxiliaires, d’idéa- lisations et de simplifications), simples et visant des extrapolations. Le choix d’un raisonnement prédictif plutôt qu’un autre dépend en grande partie des buts que les scientifiques donnent à leurs recherches, et il n’est pas question ici de juger la valeur de ces buts. Il semble cependant fort peu probable qu’une de ces formes de raisonnement prédictif remplace

71Ces rapports entre différentes vertus épistémiques comme l’étendue et la précision

d’une hypothèse sont étudiés en détail dans le chapitre 7, section 7.4.

72

Cf. Dowek, “L’Explosion mémorielle change la donne”.

73

C’est ce que soutiennent notamment Hey, Tansley et Tolle, The Fourth pa- radigm : data-intensive scientific discovery .

les autres comme unique méthode scientifique légitime, puisqu’une l’ana- lyse que nous avons proposée montre qu’elles sont plus complémentaires qu’en compétition. Il paraît donc encore moins probable que « le déluge de données rende la méthode scientifique obsolète »74 comme le prétend

C. Anderson.

2.4

Conclusion du chapitre

Nous avons vu que la conception classique des raisonnements prédictifs, celle des prédictions guidées par des lois, n’était ni la seule logiquement possible, ni la seule à être effectivement employée par les scientifiques. Notamment dans les sciences naturelles historiques qui confrontent les chercheurs à des systèmes ouverts, la structure des raisonnements pré- dictifs s’appuie plus souvent sur des modèles et des bases de données que sur des lois.

Reconnaître la diversité de structures des raisonnements prédictifs permet de prouver que ces disciplines ne sont pas dépourvues de pouvoir prédictif. Cela permet aussi de constater que les moyens et les méthodes utilisés pour réaliser des prédictions changent selon les époques, notam- ment sous l’impulsion de nouvelles technologies informatiques et statis- tiques comme le montre le développement des prédictions à partir des Big Data depuis la fin des années 1990.

Le concept de prédiction est donc un concept à texture ouverte, qui ne peut être défini par un ensemble de critères nécessaires et suffisants, parce que son extension se déforme au fil du temps. On propose ainsi, dans la conclusion de cette première partie, de rendre compte de la diversité des raisonnements prédictifs en utilisant non pas un mais trois modèles logiques.

74

Conclusion de la première partie : prédire et

Outline

Documents relatifs