• Aucun résultat trouvé

L’induction au quotidien, et sa formalisation

Dans le document Être ensemble et temporalités politiques (Page 156-161)

L’induction catégorielle

Pour Sloman et Lagnado4, la partie descriptive de l’inférence chez Hume souffre de plusieurs

défauts. En premier lieu, Hume semble faire l’hypothèse d’un sens objectif de la similarité qui permet d’aller de causes comme à des effets comme, et vice versa. Cette capacité à faire à chaque

1 Peter MENZIES (2002): “Causal Models, Token-Causation and Processes”, long version of a paper contributed

to the symposium ‘Causation and Bayesian Networks’ at the PSA 2002, dorénavant [CMTC]. Un modèle causal est un triplet <U, V, E>, où U est une ensemble de variables exogènes, V, un ensemble d’endogènes et E un ensemble d’équations structurelles qui donnent la valeur de chaque endogène comme fonction des valeurs des autres variables. On peut imaginer les variables à droite de l’équation comme les antécédents d’un contrefactuel, et celle de gauche comme la conséquence de ce contrefactuel. Chaque équation fait valoir plusieurs contrefactuels, un pour chaque assignement des variables qui rendent valide l’équation. D’autres contrefactuels, non directement modélisés dans les équations structurelles, peuvent être étudiés, en remplaçant une équation par une autre stipulant le contrefactuel, notamment par exemple en contraignant une endogène à une valeur fixée. On définit alors la dépendance contrefactuelle au sein du système : une variable Y dépend contrefactuellement d’une variable X dans un modèle causal M si et seulement si il est le cas que X=x et Y=y et qu’il existe x' ≠ x et y' ≠ y tel que le résultat obtenu en remplaçant X par x’ est Y = y’. C’était déjà l’idée de Lewis pour permettre de définir la causalité entre particuliers (David LEWIS (1973): “Causation”, The journal of philosophy, dorénavant [CAUS]). Ces concepts ne suffisent pas selon Menzies : il faut définir également la notion de process intrinsèque et de process effectif qui permettent alors de comparer les deux situations et de définir convenablement la causalité au sein d’un modèle.

2 Peter MENZIES (2010): “Norms, causes, and alternative possibilities”, Behavioral and brain sciences,

dorénavant [NCAP].

3 Christopher HITCHCOCK and Joshua KNOBE (2009): “Cause and norm”, The Journal of Philosophy, dorénavant

[C&N].

4Steven A. S

LOMAN and David A. LAGNADO (2005): “The Problem of Induction”, in K. Holyoak and R. G. Morrison (Eds.), The Cambridge handbook of thinking and reasoning (2005), Cambridge University Press, dorénavant [PI].

154 fois une sélection au sein d’un grand nombre de dimensions de similarité et à généraliser d’un objet donné à un autre, ou au même dans d’autres lieux et moments, relève pour eux de la description même de l’induction. En second lieu, dire que l’inférence inductive n’est pas fondée en raison n’implique pas l’absence de raisonnement réflexif dans certaines de nos inductions. Une étude expérimentale des processus d’induction doit donc être conduite.

Heit et alii1 ont récemment proposé un bilan des différentes approches et des différents modèles

utilisés dans les travaux de psychologie expérimentale sur l’induction. Ils décrivent les phénomènes de l’induction mis en évidence, ceux liés à la similarité, puis ceux liés à une base de connaissance d’arrière-plan et à la mobilisation de relations causales2.

A partir des années 1970, à la suite des travaux de Rosch notamment3, la similarité est devenue une

clef importante pour comprendre l’induction. Les travaux expérimentaux inspirés par l’idée de projectibilité cherchaient à modéliser et tester l’apprentissage par généralisation. Sloman et Lagnado considèrent que de telles approches étaient trop réductionnistes, car s’appuyant sur des généralisations le long de dimensions spécifiques, le plus souvent liées aux sens et supposant implicitement que des prédicats plus complexes pourraient être décomposés en un ensemble de prédicats unidimensionnels. Dès la fin des années 70, (Amos) Tversky4 a proposé une mesure de

1 Brett K. HAYES, Evan HEIT, and Haruka SWENDSEN (2010): “Inductive reasoning”, Cognitive science, dorénavant

[IR].

2 Les phénomènes liés à la similarité : la similarité entre conclusion et prémisses favorise l’induction. La

typicalité des prémisses (et possiblement celle de la conclusion) renforce l’induction. L’homogénéité de la conclusion également. La diversité des prémisses joue un rôle dans l’inférence d’une loi générale : on est plus enclin à tirer la conclusion que tous les mammifères aiment les oignons sur les prémisses que les hippopotames et les hamsters les aiment plutôt que sur celles que les hippopotames et les rhinocéros les aiment. L’importance de la diversité des prémisses dans l’induction concerne plus les adultes que les enfants, même si on a pu en montrer le rôle significatif pour des enfants de 5 ans (Evan HEIT and Ulrike HAHN (2001): “Diversity-based reasoning in children”, Cognitive psychology, dorénavant [DBRC]). En revanche, certaines inférences semblent non-rationnelles : par exemple, le phénomène d’inclusion fallacieuse (inclusion fallacy) où l’inférence la plus forte est la plus générale (des corbeaux aux oiseaux plus fort que des corbeaux aux autruches). Voir également Osherson et alii qui recensent 13 phénomènes qualitatifs dans les inductions catégorielles expérimentales (Daniel N. OSHERSON, Ormond WILKIE, Edward E. SMITH, Alejandro LOPEZ and Eldar SHAFIR (1990): “Category-Based Induction”, Psychological Review, dorénavant [CBI]).

3 Eleanor H. ROSCH (1973): “Natural categories”, Cognitive psychology, dorénavant [NC], ou Eleanor H. Rosch

(1999): “Principles of categorization”, in E. MARGOLIS and S. LAURENCE (Eds.), Concepts: core readings, MIT Press, dorénavant [POC].

4 Par exemple, dans Amos TVERSKY (1977): “Features of similarity”, Psychological Review, dorénavant [FOS].

Soit D = {a,b,c,d…} un domaine d’objets. Chaque objet est représenté par des ensemble de traits A,B,C… associés à a,b,c… Soit s(a,b) une mesure de similarité de a à b dans D. C’est une échelle ordinale. Elle est supposée respecter les propriétés suivantes : 1/ appariement : s(a,b) est une fonction F(AB, A-B,B-A). 2/ monotonicité : s(a,b)> s(a,c) chaque fois que (AB)  (AC) et (A-B)(A-C) et (B-A)(C-A). Ce qui signifie que la similarité s’accroît si on ajoute des traits communs ou si l’on supprime des traits distinctifs. Toute fonction F vérifiant 1 et 2 est dite fonction d’appariement. 3/ indépendance : on définit l’accord entre deux paires (a,b) et (c,d) comme le fait qu’il existe un des 3 sous-ensembles arguments de F qui peut être substitué à l’autre. Alors : si les paire (a,b) et (c,d) d’une part, et (a’,b’) et (c’,d’) d’autre part, s’accordent sur deux arguments et que (a,b) et (a’,b’) d’une part, et (c,d) et (c’,d’) s’accordent sur le troisième, on a, sous l’hypothèse d’indépendance : s(a,b)  s(a’,b’) si et ssi s(c,d)  s(c’,d’) (bref, l’ordre apparaissant entre deux facteurs est indépendant du troisième). 4/ solvabilité : il faut que l’espace des traits soit assez riche pour permettre l’inférence 5/ invariance : préservation des écarts entre facteurs. Le théorème de représentation assure alors sous 1-5 qu’il existe une échelle de similarité S et une échelle non-négative f telle que pour tout a,b,c,d de D : S(a,b) > S(b,c) si et ssi s(a,b)>s(b,c) ; S(a,b) est une fonction linéaire de f(AB), f(A-B) et f(B-A) : S(a,b) =

155 similarité multidimensionnelle fondée sur un ensemble de propriétés dépendant du contexte. Dans les années 90, les travaux se sont multipliés. Corter et Gluck1 ont donné par exemple une mesure

de l’intérêt prédictif des différentes catégories en jeu, supposant ensuite que les plus prédictives sont les plus résilientes dans le langage2.

Relations causales et modèles structurels statistiques

Lorsqu’elles existent, les relations causales (des modèles explicatifs et des connaissances plus complexes reliant prémisses et conclusions) dominent empiriquement les aspects catégoriels dans les processus d’induction. On observe ce phénomène chez les adultes comme chez les enfants de 5 ans. L’induction catégorielle n’en a pas pour autant été abandonnée, et des modèles de théorie de la pertinence (relevance theory) visent à en garder la logique tout en l’ouvrant à d’autres types d’inférence en fonction des thèmes.

Pour Sloman et Lagnado, la piste à suivre pour bien décrire l’induction est celle de l’induction catégorielle reposant sur un corpus de connaissances causales. La projection d’un prédicat d’une catégorie sur une autre dépend de ce que les deux catégories partagent. Et, plus spécifiquement, la force de l’argument dépend de la capacité à expliquer pourquoi la catégorie présente la caractéristique que formule le prédicat. Sloman3 avait déjà montré que l’argument est plus fort si

les prémisses et la conclusion sont explicables de la même façon. Ainsi, les catégories jouent un rôle

f(AB) - f(A-B) - f(B-A) avec ,,>0. Tversky suggère d’avoir recours à cette mesure pour étudier les métaphores. Nous verrons au Chapitre 9 que l’analyse des métaphores ou de l’humour s’appuie aujourd’hui sur d’autres types de distance.

1 James E. CORTER and Mark A. GLUCK (1992): “Explaining basic categories: Feature predictability and

information”, Psychological Bulletin, dorénavant [EBC]. Soit la catégorie c définie par un ensemble d’instances c= (o1,o2, . . . ,on}. Une instance o peut être elle-même définie par un ensemble de traits : F=(f1 , f2 , . . . ,fm).

Supposons que la seule information d’une personne R à propos de o soit son appartenance à c. Quelle valeur cette connaissance apporte-t-elle ? Quel est l’accroissement de la capacité à deviner correctement les traits de o sachant que ot est un membre de c. Sans cette connaissance la probabilité que ot ait le trait fk est fondée

sur P(fk). Supposons que R estime correctement cette probabilité d’expériences passées. La probabilité de

deviner correctement est alors (fk)P(fk) = P(fk)2. Supposons maintenant qu’il est informé lorsqu’une instance

appartient à c et que R mesure correctement P(fk/c). A présent R imagine que o a le trait fk avec la probabilité

P(fk/c) et sa probabilité de succès sera à nouveau P(fk/c)2. Si enfin l’information que o appartient à c est de

probabilité P(c). Alors l’amélioration est P(c)[P(fk/c)2 - P(fk)2]. Si on fait la somme sur toutes les m instances fk

alors on a CU(c,F) = k=1,m [P(fk/c)2 - P(fk)2] (Category Utility de c).

2 Parmi les modèles d’induction fondés sur la similarité, existent notamment le modèle de couverture /

similarité (Similarity/Coverage Model – SCM) qui se focalise sur les similarités taxinomiques entre les catégories des prémisses et celle de la conclusion, à partir de deux facteurs : un facteur de similarité mesurant les traits partagés et un facteur de couverture, mesurant la similarité maximale moyenne entre les catégories des prémisses et la catégorie incluant à la fois les prémisses et la conclusion. Le modèle suppose également que le calcul des similarités est plus complexe que celui de la couverture, ce qui justifie les résultats différents obtenus pour les adultes et pour les enfants. Le second modèle classique est celui fondé sur les traits (Feature-Based Induction Model – FBIM). FBIM est un réseau neuronal qui apprend les associations entre des nœuds d’entrée représentant les traits des catégories des prémisses et un nœud de sortie pour la propriété considérée. La conclusion active le même nœud de sortie en proportion des traits partagés par les prémisses et la conclusion. Le FBIM permet de mieux rendre compte que le SCM des déviances comme l’inclusion- fallacy, mais en revanche rend dans certains cas mal compte du phénomène de typicalité. Quoi qu’il en soit, ces deux modèles déjà anciens sont aujourd’hui en difficulté pour expliquer des phénomènes observés dans l’induction qui ne relèvent plus seulement de la catégorisation mais aussi de l’usage de relations causales et plus généralement de la base de connaissance d’arrière-plan.

3 Steven A. SLOMAN (1994): “When explanations compete: The role of explanatory coherence on judgements

156 même sous l’hypothèse d’induction via un système causal. Toutefois, Sloman et Lagnado concluent que les croyances sur la façon dont le monde fonctionne influencent l’induction au moins autant que le fait de partager des propriétés, y compris chez les enfants1.

Les modèles bayésiens de révision des croyances poursuivent autrement cet objectif de mêler structure causale et statistique. Les prémisses jouent le rôle d’une observation nouvelle (en un sens élargi) conduisant à une révision des croyances sur la base desquelles est estimée la plausibilité de la conclusion. Cette approche par des modèles structurels statistiques (Structural statistical models) est prometteuse : elle présente à la fois un mécanisme clair de dérivation des probabilités a priori à partir d’une base de connaissance d’arrière-plan et elle permet également la mise en œuvre de différentes formes de connaissances. On peut notamment citer les travaux de Griffiths, Kemp et Tenenbaum2. La valeur de leur approche est dans l’entrelacement entre structures et statistiques,

qui permet de mieux s’approcher de la flexibilité du raisonnement humain3.

1 Lagnado et Sloman se sont interrogés sur la façon dont on apprenait des structures causales au travers

d’expérimentations. Les indices qui sont donnés aux sujets de l’expérience relèvent de trois catégories : la succession temporelle, la co-variation et la possibilité d’intervenir sur le système pour observer les résultats. Il apparaît que la succession temporelle domine la co-variation (au risque d’inférences erronées, comme l’éclair et le tonnerre). La possibilité d’intervenir, avec des indices temporels, améliorent les résultats obtenus avec des indices de co-variation mais cette possibilité de tester ses propres hypothèses ne semble apporter de la valeur que lorsque les indices temporels sont imparfaits (David A. LAGNADO and Steven A. SLOMAN (2006): “Time as a Guide to Cause”, Journal of Experimental Psychology, Learning, Memory, and Cognition, dorénavant [TGC]).

2 Leur modèle vise à prendre en compte une riche base de connaissance d’arrière-plan et à modéliser

comment différents types de connaissances conduisent aux différentes formes de raisonnement observées selon les contextes. Le modèle peut « raisonner » sur des catégories, dans une logique spatiale, dans une logique à seuil et dans une logique causale. Chacun de ces quatre modes de raisonnement repose sur un cadre formel unifié et réalise des inférences probabilistes sur la généralisation de nouvelles propriétés. Les a priori sont mobilisés selon le mode de raisonnement en fonction des différentes relations existantes dans chacun des quatre univers (Charles KEMP and Joshua B. TENENBAUM (2009): “Structured statistical models of inductive reasoning”, Psychological review, dorénavant [SSM], ou Thomas L. GRIFFITHS and Joshua B. TENENBAUM (2009): “Theory-based causal induction”, Psychological review, dorénavant [TBCI]).

3 Il existe d’autres travaux sur l’apprentissage statistique qui explorent d’autres voies. On peut citer

notamment Goldstein et alii (Michael H. GOLDSTEIN, Heidi R. WATERFALL, Arnon LOTEM, Joseph Y. HALPERN, Jennifer A. SCHWADE, Luca ONNIS, and Shimon EDELMAN (2010): “General cognitive principles for learning structure in time and space”, Trends in cognitive sciences, dorénavant [LSTS]) qui posent le problème de la façon suivante : « Developing cognitive systems overcome ‘confusion’ by discovering ways in which reality can be structured. They extract reliable units and relationships from the input (e.g. co-occurring sequences of phonemes and the regularities in their juxtaposition), thereby becoming capable of principled, systematic generalization over those units – the epitome of sophisticated cognition. Distilling spatial and temporal patterns in the stream of experience makes prediction of events and actions possible. Thus the primary goal of development – sensory, motor and, arguably, conceptual – is to learn structure in space and time. » et qui aboutissent à une règle de selection qui retient à la fois la significativité statistique et ce qu’ils appellent la significativité comportementale : « candidate structures drawn from a continuous stream of experience must pass two ‘tests’ to be learned. First, they must occur with statistical regularity, relative to a baseline of chance alignments, within a small time window. Second, they must be behaviorally significant, as indicated by external cues. Unlike statistical significance, which is formulated in terms of abstract information patterns, behavioral significance is embodied in interactive mechanisms of perception and action, and situated in the world. If structural elements pass both tests, they become likely to be learned. They can then be used recursively to discover further structure, resulting in hierarchical representations and developmental cascades of learning. » Les travaux de simulation progressent mais ils butent sur une représentation de l’efficacité qui ne se résume pas à celle de l’apprentissage d’un lexique (cf. les résultats de Steels). Ils arrivent

157

L’hypothèse de l’Inference to the Best Explanation

On ne peut pas finir ce tour d’horizon de l’induction sans aborder l’IBE (Inference to the Best Explanation). Lipton, à la suite de Harman1, fonde le process d’inférence sur une interprétation de

ce qu’est l’abduction de Peirce. Pour eux, une partie au moins des inférences repose sur ce principe de la meilleure explication possible : l’hypothèse que l’on choisit est celle qui rend le mieux compte des données observées, sans autre garantie. Lipton ne prétend pas ainsi résoudre le problème de Hume, mais plutôt mieux définir l’induction2. C’est pour Lipton une extension du mode d’explication

par auto-validation : le phénomène expliqué est l’argument essentiel pour croire que l’explication est correcte et la meilleure explication est alors mécaniquement la plus plausible. Cette approche choque naturellement les plus poppériens, puisqu’une démarche hypothético-déductive voudrait poser l’hypothèse avant la phase d’observation. L’IBE reconstruit la relation entre connaissances et compréhension et, comme chez Peirce, l’inférence devient un outil pour acquérir de nouvelles connaissances.3

Par ailleurs, Lipton essaie de préciser le best de l’IBE de Harman. Certes, le plus vraisemblable ou le plus plausible semble une réponse naturelle. Pourtant, c’est la plus pauvre, puisqu’elle n’apportera sans doute pas de réelle nouveauté. Il propose de rendre best par loveliest – la plus belle – et de la définir comme étant celle qui nous apportera la plus grande compréhension, en un sens plus ouvert que la plausibilité. Il propose à cette fin de définir des vertus explicatives, comme la portée, la précision, la richesse d’information sur le mécanisme en jeu, l’unification et la simplicité, sans renoncer bien sûr à la vraisemblance elle-même.4

Conclusion de la première partie

En conclusion de cette première partie, il apparaît qu’une forme de convergence entre les approches les plus statistiques, les plus ontologiques et les plus expérimentales a eu lieu ces dernières années, même si les débats et les résultats se multiplient encore. Les modèles structurels statistiques, les modèles de la théorie de l’apprentissage statistique, ou encore les modèles de causalité sont dorénavant construits sur des bases de connaissances, des outils de simulation de lois causales, et, dans la plupart des cas, sur des tests statistiques. Les modèles d’apprentissage présentent selon nous l’intérêt d’identifier de façon endogène les lois sur lesquelles les tests sont

à faire émerger une grammaire (voir, par exemple : OrenKOLODNY, Arnon LOTEM, and Shimon EDELMAN (2015): “Learning a Generative Probabilistic Grammar of Experience: A Process‐Level Model of Language Acquisition”, Cognitive Science, dorénavant [PLLA]). Nous pensons que pour aller plus loin et intégrer l’idée d’efficacité comportementale de ce qui est appris, il convient de disposer d’une représentation sémantique, et que le concept de narration tel que nous le suggérons est un bon candidat.

1 Peter LIPTON (2000): “Inference to the Best Explanation”, in W.H. NEWTON-SMITH (Ed.), A Companion to the

Philosophy of Science, Blackwell, dorénavant [IBE2] et Gilbert H. HARMAN (1965): “The inference to the best explanation”, The Philosophical Review, dorénavant [IBE1].

2 « Unfortunately, Inference to the Best Explanation does not solve Hume's problem. The description he gave

of induction was incorrect, but his skeptical argument does not depend on it. » (LIPTON [IBE1]).

3 Tout le monde n’est pas fan de l’IBE : Day et Kincaid expliquent par exemple que l’IBE n’est rien d’autre

qu’un mécanisme de révision des croyances basée sur un critère de cohérence globale (Timothy DAY and Harold KINCAID (1994): “Putting Inference to the Best Explanation in its Place”, Synthese, dorénavant [PIBE]).

4 On ne résiste pas à souligner l’orientation toute contraire de Popper : « Ma théorie de la préférence n’a rien

à voir avec une préférence pour l’hypothèse la « plus probable ». Au contraire, j’ai montré que la stabilité d’une théorie croît et décroît en proportion de son contenu informatif et, par conséquent, de son improbabilité (au sens du calcul des probabilités). L’hypothèse « la meilleure », l’hypothèse « préférable », sera donc, dans la plupart des cas, la plus improbable. » (POPPER [LCO], pp. 60–61).

158 ensuite construits. Les travaux de Lipton sur l’IBE ouvrent la porte à un critère de plausibilité élargie, susceptible d’intégrer des considérations globales.

Dans le document Être ensemble et temporalités politiques (Page 156-161)