• Aucun résultat trouvé

1.3.2.1 La connaissance imparfaite

Toutes les approches présentées précédemment s’appuient sur une vision idéale de la représentation de la connaissance. Dans la réalité, la connaissance est loin d’être parfaite. La description des faits relatifs au cas particulier auquel on cherche à appliquer la connaissance peut être notamment incomplète. Or, s’il manque des faits, les mécanismes de déduction issus de la logique classique sont souvent inca- pables d’aboutir à des conclusions dans la mesure où les règles de déduction né- cessitent la vérification de toutes leurs prémisses pour que la conclusion soit valide (en supposant que les règles spécifient toutes les exceptions envisageables, ce qui rendrait d’ailleurs leur acquisition très compliquée). Dans certains cas, pourtant, on aimerait pouvoir conclure au moins provisoirement, surtout si on sait qu’ob- tenir la connaissance d’une prémisse est difficile, coûteux, voire impossible. La connaissance utilisée peut aussi se révéler incertaine. Si la source qui nous a per- mis de dire qu’un fait est vrai n’est pas fiable, alors les conclusions qui pourront être tirées de ce fait seront entachées d’incertitude. Il peut donc être important de pouvoir préciser voire quantifier la confiance que l’on accorde à un fait et donc aux conclusions qu’il entraîne. Enfin, la connaissance peut être imprécise : si on demande la taille de Jacques à Paul, il ne répondra pas forcément «1,90 m», mais probablement «il est grand». Ce n’est pas faux, mais c’est imprécis et relativement vague. Pourtant, l’information contenue dans cette phrase doit pouvoir suffire à tirer des conclusions dans un certain nombre de cas où la taille exacte n’est pas requise.

Ce genre de problème est très courant dans la réalité. Dans les systèmes ex- perts, par exemple, pour construire la base de connaissance initiale qui permettra d’alimenter les déductions, il faut formaliser en termes logiques la connaissance humaine sur le domaine. Des experts doivent donc réussir à restituer de manière précise et organisée des connaissances qu’ils ont acquises de manière souvent em- pirique et désordonnée. Cette tâche est en général difficile et au pire impossible : il arrive que ces experts soient tout simplement incapables de formaliser explicite- ment des raisonnements qui sont passés d’un statut déclaratif à un statut implicite. Et construire la base de connaissance n’est pas la seule source de problèmes. Pour qu’un système expert fonctionne, il utilise aussi des faits nouveaux qui peuvent provenir de capteurs, dans le cas d’un système industriel, ou de symptômes ob-

servés chez un patient, dans le cas d’un système médical. Dans le premier cas, les capteurs peuvent être mal réglés, ce qui entraîne des erreurs, ou peu précis, ce qui entraîne des imprécisions. Dans le deuxième cas, des symptômes peuvent ne pas apparaître, pourtant on veut quand même pouvoir proposer un diagnostic, même provisoire.

En résumé, le raisonnement en présence d’informations imprécises, incertaines ou simplement manquantes, une chose que l’être humain fait de manière naturelle, ne peut pas être abordé avec la logique classique. Il existe de très nombreux for- malismes qui abordent ce problème. Les approches les plus répandues s’appuient sur une quantification de l’erreur grâce à des techniques probabilistes.

1.3.2.2 L’inférence probabiliste

Définitions. L’outil mathématique le plus ancien et donc le plus développé pour

prendre en compte l’incertitude quant à la nature de l’information traitée est la théorie des probabilités. Considérons un événement A. Sa fonction de vérité est la fonc- tion qui lui associe des valeurs traduisant son adéquation avec le monde. Ainsi en logique classique, cette fonction ne peut prendre que deux valeurs, 0 (ce fait est

faux) ou 1 (il est vrai). Considérant l’ensemble des faits connus, appelé un monde,

soit une valeur de vérité peut être attribuée, soit elle ne le peut pas et A ne fait pas partie du monde et rien ne peut être dit sur sa nature. En revanche, dans l’ap- proche probabiliste, loin de se limiter au seul monde décrit par les faits connus, l’ensemble des mondes possibles à partir des ces faits est considéré dans sa globa- lité. Dans un certain nombre de ces mondes possibles, A sera vrai, mais dans le reste il sera faux. Le rapport du nombre de mondes où A est vrai par le nombre total de mondes possibles définit la probabilité que A soit vrai, et elle est en géné- ral notée p(A). Un grand nombre de propriétés sur les probabilités peuvent être dérivées de cette définition, en particulier la propriété caractéristique d’additivité (P(A∪B) = P(A) +P(B) si A∩B = ∅). Nous rappelons maintenant la notion d’indépendance et de probabilité conditionnelle.

– Soit deux événements A et B. On note A∩B l’événement «A et B sont simul- tanément vrais». Alors p(A∩B) = p(A).p(B) si et seulement si A et B sont stochastiquement indépendants, c’est à dire que le fait que A soit vrai ou faux n’influe en rien sur la nature de B. Un exemple simple de l’indépendance de deux événements est le lancer de deux pièces de monnaie. Si on suppose qu’elles n’entrent pas en collision alors le fait qu’une des pièces tombe sur

face n’influe en rien sur le résultat de l’autre lancer. Il en résulte que, comme la probabilité qu’une pièce tombe sur face est de 12, la probabilité que les deux pièces tombent sur face est égale à 12×12 = 14.

– Il est possible de calculer la probabilité d’un événement A dans le cas res- treint des mondes où un autre événement B est vrai. Cette probabilité p(A|B) (probabilité de A sachant B) est appelée probabilité conditionnelle et est définie par :

p(A|B) = p(A∩B)

p(B) (1.7)

Cette définition permet de démontrer la formule d’inversion suivante : p(B|A) = P(A|B).P(B)

P(A) (1.8)

Cette formule est connue sous le nom de théorème de Bayes et est le fondement de l’inférence probabiliste bayésienne. En effet, «inférer» consiste à prendre en compte un fait nouveau pour en tirer des conclusions. Donc si e est ce fait nouveau, mettre à jour les probabilités des événements sachant e revient à calculer, pour un évé- nement A quelconque, p(A|e), c’est-à-dire ici, passer de probabilités a priori à des probabilités a posteriori sachant le fait nouveau.

On définit aussi la notion de variable aléatoire. Une variable aléatoire (v.a) est une variable qui associe une valeur unique à chaque réalisation possible d’une expérimentation ou d’un jeu de hasard. Par exemple, la durée de vie d’une am- poule électrique qu’on laisse brûler en permanence (v.a continue) ou le nombre d’ampoules électriques défectueuses dans une boîte (v.a discrète). La distribution de probabilités πV associée à une v.a V est la fonction qui, à une valeur v possible pour

cette variable, associe la probabilité p(V =v)si V est à valeurs discrètes, et qui est définie par P(a<v<b) = Rb

a πV(v)dv lorsque V est à valeurs continues (on parle

alors de densité de probabilité).

Classifieur bayésien naïf. La formule de Bayes est à l’origine d’une méthode

de classification probabiliste appelée classification bayésienne naïve. Cette méthode consiste à calculer la probabilité qu’un objet, décrit par un ensemble d’attri- buts {Fi}i∈[1,...,n], appartienne à une classe C en calculant P(C|F1, F2, . . . , Fn).

Sous l’hypothèse (forte, ce qui explique la dénomination de classification naïve) d’indépendance des attributs entre eux, on peut écrire (en utilisant le théorème de

Bayes et la propriété d’indépendance) : P(C|F1, F2, . . . , Fn) = 1 Zp(C) n

i=1 p(Fi|C) (1.9)

où Z est une constante et où les quantités P(C) et p(Fi|C) peuvent être apprises

à partir du jeu de données à disposition. Pour ensuite classifier l’objet dans une certaine classe, une manière simple de procéder consiste à prendre la classe la plus probable compte tenu des attributs. Cette méthode est appelée maximum a posteriori (MAP). Le paragraphe suivant présente un formalisme qui permet de faire de la classification en exploitant des indépendances stochastiques conditionnelles entre variables.

Réseaux bayésiens. Ce sont des graphes acycliques et orientés dont les nœuds

sont les différentes variables aléatoires qui décrivent le système observé et dont la structure définit des relations d’indépendances conditionnelles stochastiques entre v.a, chacune des variables ne dépendant que de ses parents dans le graphe (Pearl 1988) (voir fig. 1.16). Plus exactement, pour un système décrit par un ensemble de v.a. {Ai}i∈[1,..,n], connaître la probabilité conjointe p(A1, A2, . . . , An)

des{Ai}i ∈ [1, .., n] (c’est-à-dire la probabilité que l’ensemble des variables prenne

un ensemble de valeurs données) permet de le décrire complètement. Or, calculer cette probabilité conjointe, pour un ensemble de v.a important, est particulièrement coûteux en termes de calculs. S’il existe des indépendances stochastiques entre ces variables, il est alors possible de factoriser cette distribution conjointe en éléments plus simples à calculer. Décrire le système revient alors à fournir les probabilités conditionnelles traduites par les arcs et les probabilités a priori des variables en en- trée du graphe. Le graphe des relations, les probabilité a priori et les probabilités conditionnelles, suffisent à caractériser la distribution conjointe. Dans l’exemple de la figure 1.16, les distributions a priori et conditionnelles nécessaires à la description complète du système sont les probabilités que :

– il pleuve (a priori)

– l’arroseur fonctionne SACHANT qu’il a plu (si l’arroseur a un détecteur de pluie) (conditionnelle)

– l’arrosage se mette en route (si l’arroseur n’a pas de détecteur de pluie) (a priori)

Pluie Arroseur

Pelouse

voisin Pelouse

Fig. 1.16 – Réseau bayésien formalisant les interactions des variables décrivant un système d’ar- rosage de jardin. Le jardin est mouillé s’il a plu ou si le système d’arrosage s’est allumé. S’il a plu, le jardin du voisin est aussi mouillé. Le graphe représente ces dépendances (en traits pleins). On peut imaginer que le système d’arrosage est équipé d’un détecteur qui annule son déclenchement en cas de pluie, ce qui rajoute une nouvelle dépendance (en pointillés sur la figure). Traduit de Pearl (1988).

– ma pelouse soit mouillée SACHANT qu’il a plu (conditionnelle)

– ma pelouse soit mouillée SACHANT que l’arroseur a fonctionné (condition- nelle)

A partir des ces probabilités conditionnelles et a priori il est possible de calculer les probabilités associées à chacune des v.a du graphe en utilisant entre autres le théorème de Bayes. Ces probabilités sont appelées probabilités a posteriori ou révisées. Lorsqu’on effectue une inférence probabiliste en s’appuyant sur le théorème de Bayes, on parle d’inférence bayésienne.

Il est facile de voir que les réseaux bayésiens peuvent être appliqués à la classi- fication dans le cas où les attributs ne sont pas indépendants (cf. 1.3.2.2, p.48).

Applications des réseaux bayésiens. Les réseaux bayésiens sont aujourd’hui ap-

pliqués dans beaucoup de domaines. Les dix dernières années ont vu une explo- sion de leur nombre et de leurs applications. De la détection de messages électro- niques indésirables au contrôle industriel, en passant par le diagnostic de panne, la liste est longue. Plus intéressant dans le cadre de ce manuscrit, il a été postulé à maintes reprises que l’inférence bayésienne est aussi un bon modèle de la pen- sée humaine (Dawes et Kagan 1988). L’idée est de dire que nous construisons un modèle du monde qui prend en compte, entre autres, les relations causales exis- tant entre différents événements (le réseau). Ce modèle s’appuie sur les observa- tions répétées du monde qui nous permettent d’établir les faits qui sont fortement susceptibles de se produire ou pas (les probabilités a priori évaluées de manière

fréquentielle). A partir de ce modèle et des a priori, nous avons des attentes, des craintes et des hypothèses sur des événements futurs. Ces hypothèses peuvent être vues comme des probabilités a posteriori évaluées à partir du modèle du monde. Toute information nouvelle qui vient modifier la valeur d’une variable entraîne une réévaluation de ces attentes, ou, autrement dit, une révision des probabilités a posteriori. Si on ne peut nier que le formalisme bayésien permet de modéliser ef- ficacement un certain nombre de problèmes liés à la prise de décision (Cyert et DeGroot 1987, Berger 1985), considérer que la pensée humaine dans son ensemble obéit à des lois bayésiennes semble un peu plus douteux. La question des probabi- lités a priori, pour commencer, est délicate : pour raisonner efficacement de manière bayésienne, il est nécessaire d’évaluer correctement la probabilité des événements du monde (savoir si tel événement est fréquent, rare, rarissime, etc.). Or, il a été établi que le système sensoriel est fortement limité lorsqu’il s’agit d’extraire des régularités statistiques de l’environnement (Fiser et Aslin 2001; 2002a;b).Le pro- blème majeur de cette vision bayésienne de la pensée humaine est que, dans la très grande majorité des cas, le raisonnement suivi par les individus n’est pas valide d’un point de vue bayésien. Lorsqu’on demande à des médecins d’évaluer la pro- babilité qu’une femme ait un cancer du sein si elle présente un résultat positif à une mammographie, connaissant les probabilités de faux positifs et faux négatifs de la mammographie, seuls 15% d’entre eux fournissent un résultat correct car ils ne raisonnent pas instinctivement de manière bayésienne (Gigerenzer et Hoffrage 1995). Ces remarques restent à nuancer par le fait que le formalisme des réseaux bayésiens peut être utilisé malgré des probabilités a priori faussées. On verra dans la section suivante que le formalisme bayésien est aussi massivement utilisé dans le cadre de la modélisation cérébrale.

Avantages et inconvénients de l’inférence probabiliste. L’inférence bayésienne

a l’avantage d’être bien connue et maîtrisée depuis longtemps. De plus, connaître la distribution de probabilités caractérisant une v.a est extrêmement utile. Premiè- rement, cela répond au problème de l’information manquante : avec un système expert classique, tant qu’aucun nouveau fait n’est connu, aucune déduction nou- velle ne peut être établie ; en revanche, si un réseau bayésien décrivant le système étudié peut être construit, il est possible d’obtenir des informations sur le compor- tement probable du système, même en l’absence d’information supplémentaire. Deuxièmement, un réseau bayésien tient naturellement compte de l’imprécision et des erreurs possibles dans les mesures par le biais des probabilités a priori.

Cependant, ces probabilités a priori sont aussi la plus grande faiblesse de l’in- férence bayésienne. Il a été évoqué dans le paragraphe 1.3.2.1 le problème de la récolte d’informations auprès d’experts. S’il leur est déjà difficile de formaliser lo- giquement les règles qu’ils utilisent parfois inconsciemment, leur demander de les caractériser en termes de probabilités l’est parfois encore plus. Une solution pos- sible à ce problème passe par l’estimation de ces probabilités par des méthodes statistiques (Pearl 1988). Une autre limitation des réseaux bayésiens est leur faible capacité d’évolution. Si la description du système modélisé vient à changer, il faut reconstruire le graphe des dépendances et calculer à nouveau toutes les probabili- tés. Or ces calculs sont computationnellement coûteux.

Il existe cependant un autre formalisme qui permet de prendre en compte l’in- certitude, les ensembles flous et la théorie des possibilités. Les ensembles flous, qui autorisent des transitions continues entre appartenance et non-appartenance, per- mettent de représenter des propriétés graduelles. La théorie des possibilités permet de représenter des informations imprécises ou incertaines au moyen d’une distri- bution de possibilités qui s’avère être un ensemble flou particulier. Une différence fondamentale entre les théories possibiliste et probabiliste réside dans l’interpré- tation qui est faite de l’incertitude. La théorie des probabilités considère l’incer- titude comme le fruit d’un aléa, tandis que la théorie des possibilités manipule l’incertitude comme provenant de l’imprécision sur l’information et de situations d’ignorance partielle. Nous la détaillons dans la section suivante.

1.3.2.3 La théorie des ensembles flous et des possibilités

Les ensembles flous. Les ensembles flous ont été introduits par Zadeh (1978)

dans le but de modéliser le langage naturel. Celui-ci est, en effet, caractérisé par des termes vagues dont il est parfois difficile de décider avec précision s’ils s’appliquent à tel ou tel objet : grand, chaud, etc. Un ensemble flou F, défini sur un domaine U, est caractérisé par une fonction d’appartenance µF telle que :

∀u ∈U, 0 ≤µF(u) ≤1 (1.10)

µF(u) est appelé degré d’appartenance de l’élément u à l’ensemble F. Les degrés

d’appartenance µF(u) = 1 et µF(u) = 0 signifient respectivement que u appartient

et n’appartient pas à F. Dans le cas où les degrés d’appartenance sont toujours 0 et 1, F est un ensemble classique, si des degrés intermédiaires sont possibles, F est dit

flou. La figure 1.17 représente l’ensemble flou capturant la notion de «chaud» dans la phrase «l’eau est chaude». Cet ensemble Fchaud est défini sur le domaine[0, 100].

On définit aussi l’α-coupe, notée Fα, comme étant l’ensemble des éléments de degré

d’appartenance au moins α :

Fα = {u∈ U, µF(u) ≥ α} (1.11)

Enfin, on distingue particulièrement le support, F = {u ∈ U, µF(u) > 0},

qui contient tous les éléments appartenant un tant soit peu à F, et le noyau, ¯

F = {u ∈ U, µF(u) = 1} qui contient tous les éléments appartenant complète-

ment à F (fig.1.18).

Opérations sur les ensembles flous. Les opérations possibles sur les ensembles

flous sont les mêmes que pour les ensembles classiques : union, intersection, etc. En revanche, la généralisation de la fonction d’appartenance implique que la défi- nition de tels opérateurs n’est plus unique comme pour les ensembles classiques. L’inclusion, par exemple, peut être définie comme le fait que tout élément dans un ensemble appartient au moins autant à un ensemble le contenant :

F⊆1 G ⇔µF ≤µG (1.12)

Ou elle peut être vue comme le fait que le noyau d’un ensemble est au moins inclus dans le support de l’ensemble contenant :

F ⊆2 G⇔ F¯ ⊆G (1.13) 0 0 100 u 1 µF(u)

0 0 1 α support α-coupe noyau

Fig. 1.18 – α-coupe, support et noyau d’un ensemble flou.

Les définitions les plus courantes pour l’union et l’intersection sont celles de Zadeh (1965) :

µF∪G(u) = max(µF(u), µG(u)) (1.14) µF∩G(u) = min(µF(u), µG(u)) (1.15)

Théorie des possibilités. Revenons sur l’exemple précédent de l’eau chaude :

soit une variable x qui caractérise la température d’une eau. Sachant que cette eau est chaude (sans plus de précision), alors la possibilité πx(u) que x prenne la

valeur u est prise égale à µFchaud(u). πx est appelée distribution de possibilité de x.

Les ensembles et les variables flous permettent de définir la théorie des possibilités qui caractérise l’incertitude et l’imprécision d’événements. Soit une variable floue x, définie sur U, et de distribution πx. Soit A un sous-ensemble (éventuellement

flou) de U (i.e. un événement). x réalise A quand sa valeur appartient à A. La mesure de possibilité de A, notée Π(A), représente la possibilité que A se réalise (Zadeh 1978) et est définie par :

Π(A) =sup

u∈U

min(µA(u), πx(u)) (1.16)

Si A est un ensemble classique, la définition se simplifie en Π(A) = sup

a∈A

πx(a).

Graphiquement, si l’intersection de A et de πxest vide, l’événement est impossible

A x B

0 1 Π(A)

Π(B) =0

Fig. 1.19 – Mesure de la possibilité que x réalise l’événement A et l’événement B dans le cas où A et B sont des ensembles classiques.

Π(∅) = 0 (1.17)

Π([Ai) = max(Π(Ai)) (1.18)

Π(\Ai) ≤ min(Π(Ai)) (1.19)

où Ai est un ensemble dénombrable d’événements. Enfin, si Π(U) = 1, on dit que

la mesure de possibilités est normalisée, et on a :

Π(A∪ A¯) =max(Π(A),Π(A¯)) =1 (1.20)

où ¯A désigne le complémentaire de A dans U. Soulignons que l’équation 1.19 n’est bien qu’une inégalité car si A1 = A et A2 = A, on a bien¯ Π(A, ¯A) = 0 tandis que

Π(A)et Π(A¯) peuvent tous les deux être positifs en cas d’ignorance partielle. Remarquons qu’à la différence des ensembles flous définis précédemment, l’en- semble correspondant à une distribution de possibilités est défini de manière dis- jonctive, c’est-à-dire que la variable à laquelle est associée la distribution de pos- sibilités ne peut prendre qu’une valeur, mais que cette valeur est incertaine. A l’inverse, les ensembles flous «classiques» peuvent être vus comme la conjonction (pondérée) des éléments qui les composent.

A la mesure de possibilité Π(A) est associée une mesure de nécessité N(A) (Du- bois et Prade 1980) définie comme suit (fig.1.20) :

N(A) = inf

u∈Umax(µA(u), 1−πx(u)) =1−Π(

¯

A) (1.21)

Remarquons que (i) N(A) > 0⇒Π(A) =1, et (ii) si A contient le support de πx,

A x N(A) =0 Π(A¯) =1 A x 0 1 Π(A¯) N(A)

Fig. 1.20 – Mesure de la nécessité que x réalise l’événement A.

Comme pour la théorie des probabilités, on peut définir la notion de lien condi- tionnel entre deux variables floues. Le problème vient du fait que ce lien peut être défini d’un grand nombre de manières (Walley et de Cooman 1999). Ainsi, Dubois et Prade (1994) distinguent deux principales familles d’interprétations : ordinale et numérique. La première interprétation consiste à voir dans les possibilités une ma- nière qualitative d’ordonner les différents niveaux d’incertitude (par opposition à la théorie des probabilités qui quantifie cette incertitude). Dans ce cas, la possibilité conditionnelle la plus générale se définit par :

Π(A∩B) =min(Π(A|B),Π(B)) (1.22)

Cela se traduit de deux manières :

SiΠ(A∩B) < Π(B) alors Π(A|B) = Π(A∩B) (1.23) SiΠ(A∩B) = Π(B) alors Π(A∩B) ≤ Π(A|B) ≤1 (1.24) et on prendΠ(A|B) =1 qui est la solution la moins restrictive en vertu du principe de minimum de spécificité.