D’o` u viennent les r´eseaux bay´esiens ?

Les réseaux bayésiens sont apparus dans la première moitié des années 1980 et en intelligence artificielle. Plus précisément, ils ont été introduits dans

ce champ comme des outils de traitement de l’incertitude. Dès lors, comprendre d’où viennent les réseaux bayésiens implique de faire retour d’abord sur la question du traitement de l’incertitude en intelligence artificielle.

1.1.1.1 Traitements de l’incertitude en intelligence artificielle La question du traitement de l’incertitude a émergé en intelligence artificielle dans les années 1970, corrélativement du projet de création de systèmes experts. Un système expert est un programme informatique qui reproduit les mécanismes cognitifs d’experts d’un domaine particulier – et pourraient donc servir d’aide à la décision dans ce domaine. Le projet de création de systèmes experts soulève la question du traitement de l’incertitude dans la mesure où les raisonnements humains en général et les raisonnements d’experts en particulier sont des raisonnements en situation d’incertitude, relativement à des énoncés susceptibles d’exceptions, selon des règles défaisables...

L’un des premiers systèmes experts est le système MYCIN pour le diag- nostic des infections sanguines, développé à Stanford par Shortliffe, Buchanan et d’autres au début des années 1970. MYCIN repose sur une base de données (knowledge base) constituée de règles de la forme : Si le patient présente tel et tel symptômes, alors une conclusion raisonnable est telle ou telle. A titre d’illustration, Buchanan et Shortliffe indiquent la règle suivante1 _:

IF : The stain of the organism is gram positive, and The morphology of the organism is coccus, and The growth conformation of the organism is chains THEN : There is suggestive evidence (.7) that the identity

of the organism is streptococcus.

Il apparaˆıt alors que l’incertitude est prise en compte sous la forme quantita- tive de l’attribution d’un degré à la conclusion autorisée par la règle. Ce degré est déterminé empiriquement, à partir de la consultation d’experts. Il prend ses valeurs dans l’intervalle [0 ; 1] mais n’est pas la probabilité conditionnelle du conséquent de la règle relativement à son antécédent :

interroger l’expert révèle graduellement que malgré son apparente si- milarité avec une affirmation concernant une probabilité conditionnelle, le nombre 0.7 diffère significativement d’une probabilité. L’expert peut bien accorder que P (h1|s1, s2, s3) = 0.7, mais il devient mal

a l’aise quand il essaie d’en tirer la conclusion logique que, du coup, P(¬h1|s1, s2, s3) = 0.3. Il affirme que les trois observations plaident

(au degré 0.7) en faveur de la conclusion que l’organisme est un Strep- tococcuset ne devraient pas être considérées comme plaidant (au degré 0.3) contre la conclusion que c’est un Streptococcus. [...]

1.1. Présentation des réseaux bayésiens 19

Il est tentant de conclure que l’expert est irrationnel puisqu’il ne veut pas accepter les implications de ses affirmations probabilistes à leurs conclusions logiques. Une autre interprétation, cependant, est que les nombres qu’il a donnés ne doivent pas être considérés comme des pro- babilités du tout, qu’ils sont des mesures de jugement qui reflètent un degré de croyance.2

Les auteurs adoptent cette derni`ere interpr´etation et construisent le concept dyadique de confirmation non probabiliste dont ils ont besoin. Ils parlent de « facteurs de certitude ».

1.1.1.2 Caractéristiques du traitement de l’incertitude au moyen des réseaux bayésiens

Le traitement de l’incertitude qu’autorisent les réseaux bayésiens est si- milaire à celui qui est à l’oeuvre dans les systèmes experts du type de MY- CIN sur le point suivant : il n’est pas logique, mais repose sur l’introduction d’un concept numérique. En cela, les deux traitements de l’incertitude se distinguent ensemble de celui qui est offert par les logiques non-monotones. Toutefois, au-delà de cette première convergence, le traitement de l’incertitude par les réseaux bayésiens diffère de celui qui est à l’oeuvre dans les systèmes tels MYCIN par deux aspects fondamentaux. En premier lieu, le concept numérique sur lequel repose le traitement de l’incertitude dans les réseaux bayésiens est probabiliste. Du coup, il rend disponible toute la théorie classique des probabilités.

En second lieu, mais surtout, ce concept numérique n’est pas manipulé de la même fa¸con dans MYCIN et dans un réseau bayésien. Dans MYCIN, les facteurs de certitude sont attribués à des hypothèses sur la base de règles lo- cales du type de celle que nous venons de mentionner. Le facteur de certitude attaché à une hypothèse découle des informations sous une règle locale. Dans cette mesure, on peut considérer que les facteurs de certitude généralisent la notion de degré de vérité. A l’inverse, dans les réseaux bayésiens, les états du monde ont d’emblée des probabilités, qui varient en fonction des informations obtenues et selon le principe général de la conditionalisation bayésienne. La variation des probabilités est globale au sens où une nouvelle information implique la révision de toutes les probabilités. Pearl parle d’un traitement sémantique de l’incertitude dans les réseaux bayésiens, et l’oppose au traitement syntaxique3 _{qui est à l’oeuvre dans un système expert du même type}

que MYCIN.4 2 Shortliffe et Buchanan (1984) p. 239. 3 Pearl (1988) p. 3. 4

Le principal attrait des traitements syntaxiques de l’incertitude est computationnel. Du caractère local des règles de la base de connaissance, il découle en effet qu’il est possible de définir une procédure modulaire pour déterminer le facteur de certitude associé au conséquent de la règle. La prin- cipale contre-partie de cette facilité computationnelle réside dans la nécessité de définir des règles très nombreuses pour prendre en compte les exceptions aux règles.5 _{A l’inverse, les traitements sémantiques se heurtent à l’obstacle}

computationnel :

puisque la syntaxe n’indique aucune procédure utile, nous de- vons construire des mécanismes spéciaux pour convertir les entrées déclaratives en des routines pour répondre à des questions.6

Cela suppose de contourner l’obstacle du caractère global des conséquences de l’acquisition d’information dans le contexte sémantique.

Dans les r´eseaux bay´esiens, ce contournement s’effectue au moyen d’un « truc » :

Le truc, d`es lors, est d’encoder les connaissances de telle sorte que ce qu’on peut ignorer est reconnaissable (the ignorable is recognizable) ou, mieux encore, que ce qu’on peut ignorer est identifi´e rapidement et accessible facilement.7

L’encodage qui convient est graphique. Ainsi, les réseaux bayésiens com- portent des graphes sur lesquels on peut lire ce qui peut être ignoré et, positivement, ce qui doit être pris en compte à l’occasion de la révision de la probabilité d’un état du monde donné. Il apparaˆıt alors que la composante graphique des réseaux bayésiens est essentielle au traitement sémantique de l’incertitude qu’ils véhiculent. A l’inverse, les graphes qui sont mobilisés dans le contexte syntaxique sont toujours des auxiliaires et jamais porteurs d’informations indispensables pour mener l’inférence.

Nous avons décrit le paysage théorique dans lequel les réseaux bayésiens apparaissent. Plus précisément, nous avons qualifié la réponse que les réseaux bayésiens apportent à la question du traitement de l’incertitude en intelligence artificielle. Il nous reste à comprendre les détails de cette réponse. Cela du traitement de l’incertitude dans MYCIN au caractère non probabiliste du concept numérique utilisé pour traiter l’incertitude. Ainsi PROSPECTOR est-il un système expert allié stratégie syntaxique et probabilités. Réciproquement, des concepts numériques non probabilistes peuvent être utilisés dans le cadre d’un traitement sémantique de l’incertitude.

Pour une présentation des autres contre-parties de l’intérêt computationnel des ap- proches syntaxiques, voir Pearl (1988) sous-section 1.2.2.

Pearl (1988) p. 12.

1.1. Présentation des réseaux bayésiens 21

ne sera possible qu’après avoir défini rigoureusement les réseaux bayésiens et présenté les résultats fondamentaux qui les concernent. Nous le faisons dans les deux prochaines sous-sections.

Dans le document Causalité et probabilités : réseaux bayésiens, propensionnisme (Page 34-38)