• Aucun résultat trouvé

L’existence d’une distribution de probabilité

Dans le document Être ensemble et temporalités politiques (Page 151-155)

Pour certains, le monde est naturellement probabilisé et les probabilités sont des objets concrets. Pour d’autres, le monde est probabilisable. Pour d’autres enfin, les probabilités ne sont que la matérialisation de nos croyances. Carnap avait cherché à distinguer explicitement deux concepts de probabilité : un premier pour la confirmation d’une proposition conditionnellement à une autre4, un second pour les fréquences.

La loi de succession

Zabell raconte l’histoire de la loi de succession (tirage de billes successives dans un sac contenant des billes de différentes couleurs, probabilité d’obtenir au prochain tirage une couleur donnée ayant déjà observé le résultat de n tirages)5. Si le sac contient des billes rouges et des billes noires,

1 Comme Laurence BonJour qui pense qu’il y a des vérités nécessaires qui ne sont pas de nature analytique

(Laurence BONJOUR (1986): “A Reconsideration of the Problem of Induction”, Philosophical Topics, dorénavant [RPI]).

2 L’école bayésienne utilise les probabilités comme moyen de traduire numériquement un degré de croyance.

Le théorème de Bayes de mise à jour des croyances peut s’appliquer à toute proposition, quelle que soit la nature des variables et indépendamment de toute considération ontologique.

3 Il existe d’autres thèmes en débat au sujet de l’induction que nous ne développons pas ici. Notons en

particulier la difficulté d’autonomiser le process d’induction hors du modèle théorique présupposé et de la contingence des observations. Pour John Norton, par exemple, le raisonnement inductif ne repose pas sur des règles générales : des inférences inductives particulières sont réalisées dans des environnements spécifiques, et une forme de schématisme s’y mélange aux faits concrets, rendant chaque fois unique le raisonnement inductif. Ainsi pour lui, toute induction est « locale ». On s’appuie sur des éléments concrets pour faire une induction. Ces éléments eux-mêmes provenant d’inductions préalables, etc. jusqu’à ce qu’on aboutisse à un corpus de connaissances premières (John NORTON (2003): “A Material Theory of Induction”, Philosophy of Science, dorénavant [MTI]). Mais quelles sont-elles ? s’interroge Thomas Kelly, voyant là la vengeance en retour de l’analyse humienne (Thomas KELLY (2010): “Hume, Norton, and Induction Without Rules”, Philosophy of Science, dorénavant [HNI]).

4 La mesure quantitative de confirmation – probabilité conditionnelle subjective – est définie de manière

axiomatique par Carnap, Ramsey, et de Finetti de façon à respecter des contraintes de rationalité ou l’absence d’opportunité d’arbitrage (l’inexistence de paris intrinsèquement gagnants). Par ailleurs, le théorème de Cox- Jaynes démontre que toute forme d'acquisition de connaissance (respectant certaines propriétés qui permettent de la qualifier de « cohérente ») est isomorphe à la théorie bayésienne des probabilités qui s’appuie sur de telles probabilités conditionnelles subjectives.

5 Sandy L. ZABELL (2011): “Carnap and the logic of inductive inference”, in D. M. GABBAY, S. HARTMANN and J.

149 en proportion p inconnue, alors la probabilité d’avoir une rouge au n+1ème tirage, si on a déjà

observé k tirages rouges sur n tirages, est de (k+1)/(n+2).

On pourrait alors penser que le soleil a pas mal de chance de se lever demain. Pour cela toutefois, il a fallu supposer une distribution uniforme de p avant le tout premier tirage, avec différents arguments selon qu’on suppose p « proportion inconnue » ou p « croyance a priori ». De fait, le modèle sous-jacent n’est pas neutre. D’ailleurs, la loi de succession pose quelques difficultés. Par exemple, ayant observé n corbeaux, chaque fois noirs, je peux calculer à l’aide de la formule précédente la probabilité que le prochain corbeau soit noir lui-aussi ; de même, je peux calculer la probabilité que les N prochains corbeaux observés soient noirs. Problème : la probabilité que les N prochains soient noirs tend vers zéro quand N tend vers l’infini : bref, la généralisation échoue. Et la seule façon de contourner ce paradoxe serait de donner une probabilité a priori en faveur de l’existence de cette loi générale !1

L’argument de l’échantillonnage

L’argument de l’échantillonnage est une autre réponse statistique au problème de l’induction. La forme d’induction de William reprise et affinée par Stove2 est connue sous le nom d’inférence

inversée : il s’agit d’inférer une caractéristique d’une population sur la base de prémisses issues d’un échantillon assez large3. Stove montre formellement qu’il est nécessairement vrai qu’une

inférence de ce type présente une probabilité élevée d’être vraie dans certains cas (lorsque l’échantillon est effectivement assez large). Pour Stove, montrer qu’il existe au moins une induction fondée en raison suffit à faire « tomber » le problème de Hume. Il faut toutefois remarquer que cet argument ne répond pas à la question humienne fondamentale de la possibilité que le monde change entre aujourd’hui et demain et que le soleil ne se lève plus. Cette critique est souvent

1 Lorsque le nombre de couleurs dans le sac de billes augmente, est requise la propriété d’échangeabilité : il

faut que l’ordre d’apparition des couleurs n’ait pas d’incidence sur la probabilité du n+1ème tirage, et que seul compte le nombre d’apparitions de chacune des couleurs. L’échangeabilité est un concept intéressant dans une réflexion phénoménologique sur le temps. Cette propriété n’est pas anodine, ce qui apparaît lorsqu’on essaie de généraliser cette notion : l’échangeabilité en effet peut ne pas être parfaite, entre l’identité des billes (échangeabilité totale) et l’absence de lien entre elles : ainsi, l’analogie entre deux événements est un cas d’échangeabilité partielle : l’analogie temporelle est modélisable ; celle en termes de similarité reste en attente de son cadre mathématique. Zabell a également formalisé la loi de succession lorsqu’on ignore les couleurs existantes dans le sac, ou problème d’échantillonnage des espèces ; il s’agit alors d’échangeabilité non plus de séquences d’observations mais de partitions (Sandy L. ZABELL (1992): “Predicting the unpredictable”, Synthese, dorénavant [PTUP]).

2 Donald WILLIAMS (1953): “On the Direct Probability of Inductions”, Mind, dorénavant [ODPI]. David Charles

STOVE (1986): The Rationality of Induction, Oxford University Press, dorénavant [TRI].

3 Idée assez naturelle : pour faire simple, si la population est constituée de n corbeaux, si j’en extrais un

échantillon de taille m et qu’ils sont tous noirs, alors il y a, à partir de m assez proche de n, une probabilité élevée que ce soit le cas de tous les corbeaux de la population. Il est en effet possible de calculer cette probabilité en fonction de m et de n, et donc, pour n donné, de donner cette probabilité. Pour McGrew, cette induction peut être reformulée comme directe : plutôt que d’aller de l’échantillon vers l’ensemble de la population, il est possible de poser directement la probabilité p relative à la population d’avoir la caractéristique X, de supposer que l’élément a est un membre aléatoire de cette population, pour conclure que la probabilité pour a d’avoir X est p. Or p est, pour un échantillon suffisamment grand où X est de fréquence m/n, tel que |p - m/n| ≤ e, sachant qu’il existe toujours n pour un e petit fixé. (Timothy MCGREW (2001): “Direct Inference and the Problem of Induction”, The Monist, dorénavant [DIPI]).

150 également avancée sous une forme plus technique, réclamant que l’échantillonnage soit aléatoire. Mais sous cette forme technique, cette critique peut être elle-même mise à mal1.

Godfrey-Smith2 fait partie de ceux qui pensent que l’échantillon doit être aléatoire pour permettre

une généralisation inductive, mais son approche est intéressante pour deux autres raisons. En premier lieu, elle vise à séparer explicitement deux types d’induction : d’une part, l’induction statistique de généralisation à partir d’échantillons (aléatoires, donc) ; d’autre part, lorsqu’on ne peut pas échantillonner, l’induction qui s’appuie sur des arguments de causalité et de typicalité (les F ont des traits communs en relation causale avec G qui permettent une généralisation). C’est conditionnellement à ce savoir (l’existence de traits communs et de la relation causale) que l’inférence est conduite. S’agit-il encore d’induction ? Le nombre d’observations continue de jouer un rôle, mais, pour Godfrey-Smith, il s’agit plus d’un rôle pratique qu’épistémique.3 En second lieu,

Godfrey-Smith considère qu’une induction se fait au moyen d’un ajustement mutuel des jugements à propos des cas et des jugements à propos des règles générales, avec l’aide de l’intuition que nous avons des deux. Rawls, créditant Goodman, a baptisé cette méthode d’équilibre réfléchi4.

La théorie de l’apprentissage statistique

Les approches statistiques les plus récentes ne se posent plus les questions en termes d’échantillonnage ou de loi de succession, et assument le caractère subjectif des probabilités mises à jour de façon bayésienne tout en présupposant l’existence d’une distribution de probabilités cohérente avec les données observées. L’inférence inductive y est part d’un process d’apprentissage au sens large, incluant les deux types d’induction proposés par Godfrey-Smith. Pour Steel5 par exemple, le raisonnement inductif implique l’existence de règles servant à conduire

l’inférence mais ces règles sont elles-mêmes fonctions des données observées. Les connaissances contextuelles jouent un rôle important dans ce type de modèle, puisque les mesures de probabilité sont conditionnées par l’ensemble des connaissances d’arrière-plan6. Dans ces approches, que l’on

1 Sous le voile de l’ignorance, n’importe quel échantillon est par nature aléatoire ; seule une connaissance

supplémentaire permet d’envisager un biais d’échantillonnage (Scott CAMPBELL and James FRANKLIN (2004): “Randomness and the Justification of Induction”, Synthese, dorénavant [RJI]).

2 Peter GODFREY-SMITH (2011): “Induction, Samples, and Kinds”, in J. CAMPBELL, M. O'ROURKE, and M. SLATER

(Eds.), Topics in Contemporary Philosophy Volume 8, MIT Press, dorénavant [ISK].

3 Par ailleurs, l’introduction de lois permet d’éviter la condition de naturalité (entrenchment) de Goodman.

Godfrey-Smith s’appuie sur Jackson (Frank JACKSON (1975): “Grue”, The Journal of Philosophy, dorénavant [GRUE]) qui évite la difficulté de la projectibilité en introduisant comme prémisse supplémentaire une condition contrefactuelle qui dit que si quelqu’un avait échantillonné dans le passé, il aurait trouvé la bonne conclusion.

4 « nous ne jugeons la validité d’une règle normative que si elle confirme nos intuitions, et nous ajustons

aussi nos intuitions de manière à les rendre conformes à nos règles normatives, jusqu’à ce que nous ayons atteint l’état d’équilibre, obtenu par des ajustements successifs. » (Pascal ENGEL (1992) : « Trois formes de normativité », in P. ENGEL (Ed.), Lire Davidson – Interprétation et holisme, Editions de l’Eclat, dorénavant [TFDN], p. 218). Harman et Kulkarnidétaillent l’idée d’une méthode inductive explicitant un équilibre réfléchi. Mais pour eux, ces méthodes sont fragiles (Gilbert HARMAN and Sanjeev KULKARNI (2012): Reliable reasoning:

Induction and statistical learning theory, MIT Press, dorénavant [ISLT], p. 10).

5 Daniel STEEL: “Inductive Rules, Background Knowledge, and Skepticism”, mimeo, dorénavant [IRBK] ou Daniel

STEEL (2010): “What if the Principle of Induction is Normative? Formal Learning Theory and Hume’s Problem”,

International Studies in the Philosophy of Science, dorénavant [WPIN].

6 Steel définit un problème inductif comme une séquence d’observations (D), un ensemble de connaissances

d’arrière-plan (K), une partition d’hypothèses (H) et une condition de succès (S). K peut par exemple ordonner ou pondérer les flux d’information, H est une partition des possibles pour certaines prévisions et la condition de succès peut être de converger vers la vérité à long terme, ou ne pas trop se tromper à court

151 nomme Théorie de l’apprentissage statistique, le choix de la méthode inductive dépend du critère retenu – minimiser l’erreur sur les données n’est qu’un des critères possibles et le bayesianisme n’est finalement qu’une des règles inductives possibles dont on vérifie qu’elle est effectivement qualifiable.

L’intérêt de ces méthodes est de mieux contrôler les limites rationnelles de l’induction statistique en fonction des règles et de l’échantillon de données1. Avec des considérations moins formelles,

Gelman et Shalizi2 soutiennent également que l’approche bayésienne dans un processus

d’apprentissage est finalement assez en phase avec une philosophie des sciences hypothético- déductive, dès lors que cet apprentissage est vu comme un process itératif de construction de modèle, d’inférence a posteriori, et de test de modèle : l’inférence a posteriori joue le rôle de science normale, le test de modèle permet la falsification, et la construction de modèle témoigne du potentiel de progrès ou de révolution scientifique3. Comme nous le verrons après quelques

considérations sur les lois causales et les lois de la Nature, ces avancées convergent avec les travaux conduits en philosophie expérimentale.

terme, etc. Dans ce cadre, une règle inductive est un ensemble de fonctions de D vers H, qui vise S étant donné K. Une règle logiquement fiable dans une situation donnée est une règle pouvant donner la bonne prédiction quelle que soit cette dernière. Le choix de la règle dépend donc du problème inductif lui-même, et donc des connaissances d’arrière-plan. A titre d’exemple, les tests statistiques de significativité en dépendront (forme de la distribution de probabilité). Le principe d’induction (PI) est alors nécessaire et suffisant pour assurer la fiabilité logique dans le cas simple de l’induction énumérative. La réponse à Hume est alors d’interpréter le PI comme une affirmation normative, justifiée par un argument moyens-fins non- empirique : une règle inférentielle est une solution mathématique à un problème épistémique spécifié.

1 Ces méthodes arbitrent entre la capacité prédictive et la simplicité des règles d’inférence. Vapnik (Vladimir

VAPNIK (2000): The Nature of Statistical Learning Theory, Springer, dorénavant [NSLT], p. 293) est à l’origine de la dimension de Vapnik-Chervonenkis, qui mesure la richesse de l’ensemble de règles (Vapnik et Chervonenkis ont montré que l’induction énumérative est valide, quelle que soit la distribution de probabilité supposée, si et seulement si l’ensemble C des règles a une VC-dimension finie (Vladimir VAPNIK and A. Ya CHERVONENKIS (1968): “On the uniform convergence of relative frequencies of events to their probabilities”, Theory of Probability and Its Applications, dorénavant [UCRF]). Pour donner une intuition, La VC-dimension d’un ensemble de points est le nombre maximal de points que ces règles permettent de différencier (en faisant passer des droites entre eux sur un plan, par exemple). Vapnik a ensuite fait le lien entre la VC- dimension et la falsifiabilité au sens de Popper, en fonction de la taille de l’échantillon de données disponible. On peut alors définir la notion de PAC apprentissage (probably approximately correct learning). David Balduzzi montre autrement qu’apprentissage et falsification sont liés (David BALDUZZI (2014): “Falsifiable implies Learnable”, arXiv preprint, dorénavant [FIL]). Pour lui, si une théorie est falsifiable, alors elle est apprenable. Pour cela, il définit la précision prédictive d’une stratégie comme la fraction d’événements futurs bien identifiés. Le risque prédictif sur une séquence est la différence entre la précision prédictive d’une stratégie et la précision explicative de la théorie. Ce n’est pas une mesure absolue, puisqu’elle dépend du pouvoir explicatif de la stratégie. Il définit alors une stratégie optimale comme une stratégie dont le risque prédictif est asymptotiquement négligeable, puis une théorie apprenable comme une théorie qui admet une stratégie optimale. La falsifiabilité est la fraction d’hypothèses sur une séquence que la théorie ne peut expliquer (la mesure qu’il en propose est l’espérance de la distribution des erreurs). Une théorie est falsifiable si cette fraction tend vers 1. Enfin, il montre que si une théorie est falsifiable elle est apprenable.

2 Andrew GELMAN and Cosma SHALIZI (2012): “Philosophy and the practice of Bayesian statistics in the social

sciences”, in H. KINCAID (Ed.), Oxford handbook of the philosophy of the social sciences, Oxford University Press, dorénavant [PPBS].

3 Pour cela, il faut considérer les probabilités a posteriori comme une mesure scientifique plutôt que comme

l’énoncé de croyances subjectives et conduire le test de modèle comme en théorie des tests classiques et non dans une logique de comparaison de modèles sur la base des probabilités a posteriori.

152

Dans le document Être ensemble et temporalités politiques (Page 151-155)