• Aucun résultat trouvé

La profondeur logique de Bennett : complexit´e al´eatoire et

Comme nous avons pu le voir, la complexit´e de Kolmogorov d’un syst`eme mesure son contenu d’information incompressible, son d´esordre, sa composante al´eatoire. Grˆace `a cette notion math´ematique parfaitement pr´ecise la notion de complexit´e prend un sens formel d´epourvu de toute ambigu¨ıt´e. Cependant la complexit´e qui est approch´ee via cette m´ethode n’est que celle donn´ee par le d´esordre d’un m´elange qui ne produit rien de nouveau : c’est par exemple la complexit´e du d´etail d’un tas de sable ou d’une suite de tirages de piles ou faces. Cette m´ethode ne permet en effet pas d’aborder correctement la complexit´e d’un organisme vivant, ni celle d’une ville par exemple ; complexit´e qui pr´esente des structures organis´ees.

Ainsi, on peut distinguer deux types de complexit´e : la complexit´e al´eatoire, qui est la complexit´e d’un d´esordre sans r`egle, et la complexit´e organis´ee, la richesse en structures et sous-structures que l’on peut trouver dans les sys- t`emes tels que les organismes vivants, les organisations sociales et les machines artificielles, etc. Comment alors formuler une d´efinition math´ematique qui soit pour la complexit´e organis´ee ce que la complexit´e de Kolmogorov est pour la complexit´e al´eatoire ? (Question pos´ee par [Delahaye, 1999])

A cet effet, le physicien [Bennett, 1988] a propos´e une d´efinition compl´e- mentaire de celle de Kolmogorov qui aborde la complexit´e non plus seulement en terme de taille de programme g´en´erateur ou de description du syst`eme mais ´egalement en temps de calcul n´ecessaire `a ce mˆeme programme pour produire la description du syst`eme. Pour une suite binaire s, ce temps de calcul est alors appel´e profondeur logique de s et not´e P(s).

Les implications de la profondeur logique sont imm´ediatement visibles lorsque l’on s’int´eresse aux syst`emes complexes. En effet, les profondeurs logiques d’un syst`eme simple et d’un syst`eme al´eatoire sont toutes deux tr`es faibles : ce sont des objets sans richesse de structure, sans contenu authentique en information. Dans le cas du syst`eme simple, un programme court permettra de g´en´erer la description en mettant peu de temps `a s’ex´ecuter. Dans le cas d’un syst`eme al´eatoire, un programme long (au minimum de la taille du syst`eme dans le cas d’un syst`eme compl`etement al´eatoire), mettra ´egalement peu de temps `a s’ex´ecuter (print de la description du syst`eme).

En revanche, la profondeur logique d’un objet/syst`eme finement organis´e (comme un syst`eme complexe biologique) sera sensiblement plus ´elev´ee : en ef- fet, le programme sera certes plus court que dans le cas d’un syst`eme purement al´eatoire mais son ex´ecution exploitera les propri´et´es et r´egularit´es particuli`eres du syst`eme d´ecrit, ce qui demandera n´ecessairement un grand temps de cal-

cul. Dans de tels cas, le passage du plus court programme `a la description du syst`eme n’est plus la simple ex´ecution d’un print mais le parcours d’un chemin computationnel, riche en boucles r´ecursives et appel de sous-proc´edures.

Les syst`emes complexes biologiques portent g´en´eralement des traces de ces deux types de complexit´e. La structure d’un ˆetre vivant, par exemple, dont l’essentiel est tir´e du g´enome, est intuitivement de l’ordre de la complexit´e organis´ee. Le “calcul” qui lui a donn´e naissance est celui effectu´e de mani`ere indirecte pendant des centaines de millions d’ann´ees par l’´evolution. Quant `a elle, la complexit´e al´eatoire d’un ˆetre vivant ´evolu´e est celle qui fixe, par exemple, l’emplacement pr´ecis des cheveux ou des vaisseaux sanguins, dont les positions dans le d´etail ne sont pas le simple r´esultat de l’interpr´etation de l’in- formation g´en´etique. Comme le note d’ailleurs [Delahaye, 1999] : en n´egligeant la complexit´e organis´ee contenue dans le cerveau et provenant de l’apprentis- sage, on pourrait dire par exemple que deux vrais jumeaux portent en eux le mˆeme contenu en complexit´e organis´ee, et diff´erent tr`es fortement pour ce qui est de leur complexit´e al´eatoire.

La profondeur logique de Bennett a l’avantage d’aborder des probl´ema- tiques g´en´eralement d´elaiss´ees par la th´eorie de la complexit´e. En effet, en pro- posant la loi de croissance lente, l’approche de Bennett permet ainsi d’aborder le concept d’´emergence du point de vue de la complexit´e.

La loi de croissance lente peut bri`evement s’expliquer comme suit : lors du d´eroulement d’une dynamique, l’´evolution de la complexit´e de Kolmogo- rov dans un syst`eme peut ˆetre brusque. Par exemple, en jetant un verre de cristal au sol, on passe d’une complexit´e de Kolmogorov faible (le verre est un objet simple) `a une complexit´e assez forte : le d´etail des morceaux bri- s´es a soudainement accru la complexit´e al´eatoire de l’objet. En revanche, la profondeur logique d’un syst`eme donn´e ne peut quasiment jamais croˆıtre brus- quement ; c’est cela que Bennett nomme la loi de croissance lente. Ainsi, un syst`eme richement structur´e et organis´e ne peut pas apparaitre de rien, ins- tantan´ement, mais demande un long processus d’interactions entre ses divers ´el´ements, c’est-`a-dire une sorte de calcul prolong´e et cumulatif. La profondeur logique de Bennett permet ainsi de mesurer la quantit´e de calcul fix´ee dans un syst`eme ; c’est une mesure du contenu computationnel du syst`eme et une mesure de la longueur de la dynamique qui y a donn´e naissance.

Annexe C

Questionnaire Pr´esent´e lors des

J’ai joué au jeu E+N : Oui Non

NUMERO D’ANONYMAT

Jour de naissance de votre maman : |__|__| Jour de naissance de votre papa : |__|__| Début du prénom de votre maman : |__|__| Début du prénom de votre papa : |__|__|

RENSEIGNEMENTS PERSONNELS P1. Age : ______ ans

P2. Sexe : Féminin Masculin

P3. Quel est, ou était le domaine d'activité professionnelle de vos parents ? Cochez la ou les case(s)

pertinente(s) :

Education scientifique Recherche scientifique Agriculture Industrie Santé Autre

Première partie : questionnaire

A propos de la science

1 Le savoir scientifique se construit. D’accord Pas

d’accord

2 L’objectivité est intrinsèque à l’activité scientifique. D’accord Pas

d’accord

3 La subjectivité est intrinsèque à l’activité scientifique. D’accord Pas

d’accord

4 La science produit des connaissances qui s’amoncèlent progressivement. D’accord Pas

d’accord 5 Le savoir produit par la science repose aussi sur les préjugés et les opinions des

scientifiques. D’accord

Pas d’accord

6 Toute observation scientifique est chargée de théorie. D’accord Pas

d’accord

7 Le progrès de la science consiste en une accumulation graduelle de connaissances. D’accord Pas

d’accord

8 Tous les chercheurs d’un domaine sont égaux face à une expérience. D’accord Pas

d’accord

9 Tous les chercheurs d’un domaine sont égaux face à une théorie. D’accord Pas

d’accord 10 Quelque chose est dit « scientifique » uniquement parce que les scientifiques en ont

décidé ainsi. D’accord

Pas d’accord

11 Toute observation scientifique est neutre. D’accord Pas

d’accord

12 Toute observation scientifique est objective. D’accord Pas

d’accord

13 Toute observation scientifique est subjective. D’accord Pas

d’accord

14 Toute connaissance est subjective. D’accord Pas

d’accord

15 Un chercheur isolé peut faire de la science. D’accord Pas

d’accord

16 Du point de vue scientifique, il y a une seule bonne interprétation des faits. D’accord Pas

d’accord

17 Un observateur scientifique n’interprète en rien ce qu’il voit. D’accord Pas

20 Les atomes existent vraiment dans la nature. D’accord Pas d’accord

21 La notion d’atome est une découverte. D’accord Pas

d’accord

22 Le résultat d’une expérience impose une conclusion. D’accord Pas

d’accord

23 Les théories scientifiques guident les conclusions issues des expériences. D’accord Pas

d’accord

24 Il y a toujours plusieurs interprétations possibles à un résultat d’expérience. D’accord Pas

d’accord

25 Observer, c’est recevoir passivement de l’information. D’accord Pas

d’accord

26 Observer, c’est construire une interprétation de ce que l’on a vu. D’accord Pas

d’accord 27 Il y a des connaissances scientifiques qui sont considérées comme acquises et sur

lesquelles on ne reviendra jamais. D’accord

Pas d’accord

28 Toute théorie scientifique est susceptible d’être remise en cause dans le futur. D’accord Pas

d’accord

29 L’élaboration des théories scientifiques implique de la créativité. D’accord Pas

d’accord

30 On peut dire de certaines connaissances scientifiques qu’elles sont vraies. D’accord Pas

d’accord 31 Avant, il y avait des théories qui étaient fausses mais maintenant, on tend de plus en

plus vers la vérité. D’accord

Pas d’accord

32 Les chercheurs n’utilisent pas leurs croyances pour faire de la science. D’accord Pas

d’accord 33 Lorsqu’un chercheur travaille, il procède selon des étapes bien déterminées – la

démarche scientifique. D’accord

Pas d’accord 34 Si le résultat d’une expérience est incompatible avec une théorie scientifique, la

théorie sera nécessairement remise en question. D’accord

Pas d’accord

35 L’erreur est toujours évitée en science. D’accord Pas

d’accord

36 Parfois, je ne crois pas les faits relatés dans des livres écrits par des experts. D’accord Pas

d’accord 37 Même les conseils prodigués par des experts devraient être soumis au

questionnement. D’accord

Pas d’accord 38 Les scientifiques parviendront ultimement à trouver la vérité s’ils continuent de la

chercher. D’accord

Pas d’accord

39 La connaissance scientifique est certaine et ne change pas. D’accord Pas

d’accord 40 Pour formuler des lois scientifiques, on étudie plusieurs cas particuliers puis on

généralise. D’accord

Pas d’accord 41 D’abord on formule des lois scientifiques générale puis on essaie de les vérifier par

des études de cas. D’accord

Pas d’accord 42 On peut dire qu’une loi est vraie quand on a montré qu’elle s’appliquait partout où a

essayé de l’appliquer. D’accord

Pas d’accord 43 En fait quand on dit qu’une loi est « vraie », ca veut seulement dire qu’on n’a pas

(encore) trouvé de cas où elle ne marchait pas. D’accord

Pas d’accord 44 C’est l’addition des travaux individuels des chercheurs qui augmente le savoir

scientifique. D’accord

Pas d’accord 45 C’est à partir des confrontations au sein de la communauté scientifique que naît le

savoir scientifique. D’accord

Pas d’accord 46 Même un chercheur isolé peut décider si une connaissance donnée peut être ajoutée

au savoir scientifique. D’accord

Pas d’accord 47 Seule la communauté scientifique peut décider si une connaissance donnée peut être

ajoutée au savoir scientifique. D’accord

Pas d’accord

Comment percevez-vous le « savoir scientifique », la « science », « l’erreur », « l’apprentissage », … ?

Cochez 1 case sur 5 par ligne (pour chaque paire d’adjectif). Cochez la case la plus proche de l’adjectif qui vous semble le mieux caractériser le sujet indiqué en gras :

savoir scientifique beau laid exact approximatif faux vrai universel contextuel subjectif objectif bon mauvais

issu de la raison issu de l’imagination

donné créé définitif temporaire relatif absolu réaliste idéaliste mal bien précis imprécis science belle laide exacte approximative fausse vraie universelle contextuelle subjective objective bonne mauvaise précise imprécise abstraite concrète erreur belle laide utile inutile négative positive agréable douloureuse subjective objective bonne mauvaise intéressante inintéressante relative absolue

fait peur fait envie

mauvaise bonne

scientifique non scientifique

enseignement beau laid faux vrai subjectif objectif bon mauvais dévolutif directif subjectif objectif transmissif accompagnateur actif passif

faux vrai subjectif objectif bon mauvais universel contextuel subjectif objectif cumulant réorganisant définitif temporaire actif passif connaissance belle laide utile inutile négative positive agréable douloureuse subjective objective bonne mauvaise intéressante inintéressante relative absolue

fait peur fait envie

mauvaise bonne additionnée organisée preuve Relative Absolue Expérimentale Théorique Statistique Logique Définitive Temporaire Complexe Simple Individuelle Collective réfutation Relative Absolue Expérimentale Théorique Statistique Logique Définitive Temporaire Complexe Simple Individuelle Collective

Troisième partie : problème non routinier

Cette situation a lieu dans une société imaginaire. Vous êtes chercheur dans une communauté scientifique. La proposition A est admise par la communauté scientifique, car elle a été confirmée de nombreuses fois. Un début de recherche vous a apporté les résultats B et C. NB : La mistonite est un animal.

A. Toutes les mistonites sont noires.

B1. Des mistonites ont été isolées à Trumus-les-Eaux. B2. Elles sont marron clair.

B3. Une découverte fortuite a mis en évidence qu’elles sont infectées par le virus CP (qui ne semble pas affecter leur longévité).

C2. Elles ne sont pas infectées par le virus CP

1/ Discutez vos résultats

2/ Maintenant (d’après vos résultats), qu’envisagez précisément vous de faire pour faire progresser la science ? Vous pouvez discuter les différents cas de figure.

a) Donnez 3 mots ou expression que vous associez à la communication des résultats au sein de la communauté scientifique :

-

-

-

b) Donnez 3 mots ou expression que vous associez à la découverte scientifique :

-

-

-

c) Cochez les TROIS mots qui vous semblent le mieux évoquer le processus de la découverte scientifique :

hypothèse résultat expérience difficile réfutation réflexion long collectif

Cinquième partie : impressions sur le jeu E+N

C1. Nom de l’équipe dans laquelle vous avez joué : _________________ C2. Nombre de joueurs dans l’équipe : ___

C3. Est-ce que le jeu vous a plu ? Pourquoi ?

C4. Quelles émotions avez-vous ressenties en jouant ?

C5. Avez-vous des améliorations à proposer ? Si oui, lesquelles ?

´

Evolution des formalismes

logiques

Science

Mohammad Afshar, Christopher Dartnell, Dominique Luzeaux, Jean Sallantin, Yannick Tognetti Ariana Pharmaceuticals, Pasteur Biotop, 28 rue Dr Roux Paris 75724 - France

Email:{m.afshar, y.tognetti}@arianapharma.com

Euriware, 44 Rue des Vindits, 50130 Cherbourg-Octeville - France Email: christopher.dartnell@gmail.com

Centre Technique des Syst`emes d’Information, 24 av. Prieur de la Cˆote d’Or 94117 Arcueil Cedex France Email: dominique.luzeaux@polytechnique.org

LIRMM, CNRS UM2, 161 rue Ada, 34392 Montpellier Cedex 5 - France Email: js@lirmm.fr

Abstract— The paper attempts to give a formal framework to capture the entire process of scientific discovery including hypothesis formation, reasoning, identifying contradictions, peer reviewing, reformulating and so on. Data mining can be seen as one step in this complex process of interactive learning of an empirical theory This paper uses the terminol- ogy from paraconsistent logic and paracomplete logic that extends Aristotle square in a hypercube of oppositions which defines or substantiates any step of the discovery process.

The central formal notions are validated on a mathemat- ical scientific discovery game, and an industrial application in the field of Drug Discovery illustrates how the presented framework combines different learning processes to predict pharmaco-kinetic properties (ADME-T) and adverse side effects of therapeutic drug molecules.

Index Terms— Machine Learning, Scientific Method, Logical Reasoning Framework, Aristotle’s Square of Oppositions

I. INTRODUCTION

Our objective is to propose a logical framework to assist scientists in supervising the entire process of theories formation while studying a phenomenon, as it is done by chemists studying properties of a new molecule, such as absorption or toxicity.

The first piece of the framework’s logical structure is known since medieval logic as Aristotle’s square [1], and has appeared in logical texts ever since: Aristotle defines syllogistic reasoning by differentiating universal and par- ticular statements, and linking them by deduction and negation. The detection of contradictions then occupies the diagonal of such a square and can warn the scientist that a revision of knowledge is necessary (Figure 1).

The framework is formulated in a logical form such that contradictions can occur: in logic, a contradiction is produced by the conjunction of a formula and its negation. Each logic defines its own negation by an axiomatic schema expressing relations between universal and ex- istential modalities, as ”‘Necessary”’ (positive universal) and ”‘Contingent”’ (negative existential). In the case of scientific discovery, events can be declared contingent

contradiction when it allows to deduce, for instance, that a contingent event occurs by necessity.

Since Platon and Aristotle, logicians created different logics by selecting axioms that impose for instance that a necessary action is a possible action. But all these logics exhibit paradoxes provoked by their axioms, which often lead to their triviality. However, we admit that contradic- tions occur during a causal reasoning, and they are used in this framework to alert about problems concerning the consistency or the completeness of the ongoing theory.

Let us sketch such a formation process (a definition of unintuitive terms is provided in sections IV-A and V-A). Since Popper, it is admitted that a scientific theory must be refutable by experimentation and empirical data. A scientific experimentation, designed to enable empirical proof or refutation, requires the use of an accurate and efficient instrumentation to determine the existence of positive observations used to formulate postulates and conjectures. This experimentation design is a tool to ensure the progression of the ongoing theory by revealing facts. A fact is a piece of information (data) having an undeniable empirical evidence for scientists, and tech- niques such as data mining consist in the induction of a model from these facts. Such a model is built to match with positive information describing facts and to prevent the prediction of non observed facts. Predictions are made using a theory completed by a model, and the consideration of the overfitting and underfitting of these predictions informs the scientists on the bias conditions making it possible to decide correctly with the ongoing theory.

The logical framework presented in this paper is de- signed to take into account the two dynamics of scientific discovery [2] [3]. The first dynamic, which we refer to as the personal dynamic, embraces the supervision of a com- puter assistant by a scientist. This dynamic is centered on individual behaviors, and depends strongly on the research strategy of each individual and on its use of computer assistants. In fact, more and more learning techniques and

dynamic by giving logical modalities to the statements occurring during the construction of a theory, and by placing the interpretation of contradictions in the heart of the interactive process leading to the construction of a model which can be discussed, justified, and proven in pure logic. The second dynamic we are concerned with, which we refer to as the social dynamic, comes from the collective behavior emerging from the social game during which scientists publish their theories and confront them to understand how models in a given domain match or influence models concerning other domains. In fact, sci- entists are experts in the different scientific fields involved in the understanding of a phenomenon, and we suppose that it is not always possible to merge all the scientific domains in a only one. In other words, scientists can all use their own models and data to compute and predict (personal dynamic). But by confronting their works, they may realize that a good solution for a given model can be a bad one for another model, and therefore point out the need to improve their understanding of the phenomenon. For instance, a model of Absorption may not take into account the toxicity of the molecule. To enable this dynamic, the framework proposed in this paper takes into account the process of crisis, conflict and transactions which continuously rhythms Science and contributes to the formation of theories admitted by the society of scientists as being scientifically valid.

We illustrate in section II the recurrent problems posed by the personal and social dynamics, by describ- ing the domain of Drug discovery and the prediction of ADME-T properties. The pharmaceutical industry is indeed confronted to a pressing need to analyze ever growing quantities of collected data and convert them into relevant decisions, using cheminformatics methods. Most often, reliable predictions are only possible on molecules very similar to the learning set, and these predictions use descriptions which are not easy to be translated in better molecular structures. This domain concentrates many challenges for inductive learning : the bias problem,the underfitting/overfitting problem, the con- straint satisfaction problem, the multiparametric decision