• Aucun résultat trouvé

Au de-là des probabilités bayésiennes : le dialogue avec l’intelligence artificielle

Questions ouvertes

4. Méthodologies de la connaissance incertaine sur la ville

4.5 Au de-là des probabilités bayésiennes : le dialogue avec l’intelligence artificielle

Notre état de connaissances ne justifie pas toujours le recours à une modélisation bayésienne

Dans la section précédente j’ai montré plusieurs manières qui m’ont permis d’adapter le formalisme des réseaux bayésiens à l’analyse spatiale des phénomènes urbains. En ce qui concerne le clustering multivarié, une comparaison méthodologique a même été conduite avec l’approche connexionniste des mappes auto-adaptatives, même si dans leur version classique, qui n’intègre pas l’incertitude. La base théorique et méthodologique de ces applications réside dans les probabilités et dans le conditionnement bayésien. Le conditionnement bayésien fournit une façon rigoureuse (une norme rationnelle) de révision des croyances dans la mesure où ces croyances peuvent être formulées en tant que probabilités additives. Un des piliers du bayésianisme, en tous cas de sa version la plus orthodoxe (Drouet 2016), est que cela soit toujours possible.

Dans la communauté de l’intelligence artificielle (IA), cette affirmation a été contestée à partir des années 70. L’approche probabiliste bayésienne impose des nombreuses contraintes : d’abord, la nécessité de connaître ex ante l’univers de possibles et la capacité d’attribuer une évaluation additive des croyances sur ces évènements élémentaires disjoints ; ensuite, la nécessité de disposer des vraisemblances de tout évènement pertinent possible en lien avec le phénomène étudié (cela est nécessaire pour appliquer ensuite le conditionnement bayésien). Shafer (1981) a ainsi défendu une approche constructiviste aux probabilités bayésiennes. Ces dernières ne doivent pas être vues comme une norme de raisonnement rationnel, mais comme un modèle possible (parmi d’autres), que nous construisons car il est particulièrement pertinent pour certaines situations de connaissances, mais qui devient impraticable pour d’autres, dans lesquelles nous serons alors appelés à construire d’autres modèles.

Les probabilités bayésiennes élargissent, assouplissent et en même temps rendent plus transparente la modélisation probabiliste, mais ne doivent pas être vues comme la seule modélisation possible en contextes d’incertitude. Pour élargir la gamme de modèles disponibles pour la connaissance incertaine, le géographe a alors tout intérêt à ouvrir un dialogue avec l’intelligence artificielle et notamment l’ingénierie des connaissances, la branche qui s’est plus particulièrement intéressée aux possibles cadres théoriques permettant de modéliser des connaissances incertaines.

Personnellement j’ai ouvert ce dialogue dès le début de ma carrière de chercheur, en me penchant sur les ouvrages de J. Pearl (2000) sur la modélisation bayésienne, de B. Bouchon-Meunier (1993) sur

182

la logique floue et la théorie des possibilités ainsi que sur les travaux de G. Shafer (1976, 1981) sur la théorie des évidences. Mais l’expérience qui m’a plus marqué dans ce dialogue a été le portage du projet interdisciplinaire « Géo-Incertitude » (2014-15) entre la géographie et les sciences informatiques, soutenu par le CNRS dans le cadre du PEPS HumaIn. Dans le déroulement de ce projet j’ai eu l’occasion unique de côtoyer et entretenir un échange intellectuel avec les pères fondateurs de la théorie des possibilités, Didier Dubois et Henri Prade de l’Institut de Recherche Informatique de Toulouse (IRIT) ainsi qu’avec les collègues du laboratoire I3S à Sophia Antipolis. Beaucoup des considérations qui suivent ont été le fruit des échanges personnels avec eux, ainsi que des lectures de leurs textes (Dubois et Prade 1988, 2014, Dubois 2006) avec lesquels j’ai dû à mon tour me confronter.

Incertitude, imprécision, incomplétude et incohérence selon l’Intelligence Artificielle

L’intelligence artificielle cherche à représenter les informations et les connaissances que les humains manipulent dans leurs activités. Au Chapitre 1, nous avons vu avec MacFarlane (2013) une première distinction entre information, ensemble d’éléments factuels (mesures, observations) codés, transmis et stockés et connaissance, ensembles d’informations interprétées permettant d’avoir une « image » du monde réel et d’interagir avec lui. Nous avons également remarqué que la littérature sur les systèmes experts a plutôt employé le terme d’information pour les éléments factuels, codés, sur une instance donnée et celui de connaissance pour la généralisation de ces éléments factuels dans la forme des règles qui s’appliquent à toute une série d’instances (les connaissances sont ainsi des propriétés du comportement d’un système). Les deux définitions ne sont pas complètement incompatibles : les règles sont des « images » du monde réel que nous extrayons d’un ensemble d’informations interprétées pour interagir avec le monde. Il est en revanche vrai qu’une connaissance en tant qu’« image » du monde pourrait porter sur une seule instance et ne pas forcement constituer une règle. On fera alors la distinction entre connaissance spécifique (portant sur une instance, un cas d’étude) et connaissance générique (portant sur un ensemble d’instances).

Pourquoi l’agent cognitif (humain ou artificiel) est-il confronté à l’incertitude dans la connaissance générique ? Parce-que les règles ont des exceptions que l’on ne peut pas ou que l’on ne veut pas toutes énumérer. On vise à reduire la complexité des règles, les règles étant un modèle du réel.

Pourquoi l’incertitude serait-elle présente dans les informations ? Parce qu’elles sont produites par des instruments de mesure plus ou moins précis et fiables ou bien elles sont le produit d’évaluations humaines qui sont de nature plus approximative, où pour lesquelles on peut avoir une confiance plus ou moins limitée.

Donc, la partie de l’IA qui cherche à représenter la connaissance (knowledge representation) et à formaliser les procédures de raisonnement et de décision à partir de cette connaissance et des informations disponibles se trouve confrontée au problème de traiter des connaissances et des informations imparfaites, au sens où elles sont éventuellement imprécises, incertaines, incomplètes, incohérentes. Ces quatre mots renvoient à différents concepts en IA, que je vais maintenant préciser.

Incertain est ce qui ne peut être que vrai ou faux, mais pour lequel on n’en connait pas

suffisamment pour pouvoir conclure qu’il est définitivement vrai ou faux, tout en pouvant éventuellement pencher pour l’une de ces deux options. L’IA cherche à formaliser l’estimation de la propension de l’agent cognitif pour les deux options.

Imprécis concerne le contenu de l’information par rapport à une norme du précis qu’on se donne.

183

information en années révolues, 25 ans serait dans ce contexte une information précise, 25-26 moins précise et 25-30 encore moins. On voit que l’information précise correspond à une valeur unique, tandis que l’information imprécise correspond à un sous-ensemble, voire à un intervalle. Dans un autre contexte, où la précision recherchée est l’âge en mois, 25 ans révolus devient une information imprécise car il s’agit d’un intervalle allant de 25 ans et 0 mois à 25 ans et 11 mois.

Incomplète est la situation d’une information manquante, qui peut être vue comme un cas extrême

d’imprécision. Si, par exemple, le champ renseignant l’âge d’une personne n’est pas connu, nous savons seulement que, étant un être humain, cette valeur peut varier entre 0 et un maximum connu de 120 ans (qui pourrait à son tour ne pas être précisément connu).

Incohérente / inconsistante est la situation d’information contradictoire. Dans le cas d’information

incomplète on aurait trop peu d’information, ici on en a trop : même si en nombre limité les informations peuvent se contredire entre elles.

Ces différences que je viens de décliner pour l’information, concernent également la connaissance. Si on continue à définir la connaissance comme ensemble de règles, on serait alors en situation de règles incertaines, imprécises, manquantes ou contradictoires.

L’IA est confrontée à l’information et la connaissance imparfaites dans son effort de coller à la complexité du raisonnement des humains face à la réalité du monde avec lequel ils interagissent. Si

l’on se limite seulement à ce qui est précis, certain, complet, etc. on perdrait une partie énorme des informations et des connaissances dont disposent les humains et dont pourraient disposer des systèmes informatiques avancés susceptibles d’aider les humains dans leur interaction avec le réel.

Vers des théories plus générales que la logique classique et les probabilités

La logique classique a fourni longtemps le cadre de référence de la formalisation du raisonnement, tout comme les probabilités ont traditionnellement fourni la seule manière de formaliser l’incertitude. Une chose qui est apparue dès la fin des années 80 dans la communauté de l’IA est que la logique classique, propositionnelle ou du premier ordre, tout en étant incontournable pour la représentation des connaissances pouvait se révéler insuffisante pour plusieurs raisons.

Une première raison c’est que la logique classique ne permet pas de traiter des raisonnements qui tolèrent des exceptions. La deuxième raison est qu’elle ne peut pas raisonner à partir de bases factuelles qui peuvent être incohérentes ; on peut en effet s’assurer que la connaissance, définie comme ensemble de règles, soit cohérente, mais cela n’empêche pas que cette connaissance soit confrontée à des informations factuelles qui puissent être incohérentes dans le cas de sources multiples d’information… la logique classique ne peut pas traiter ces situations. La troisième raison c’est que la logique classique ne permet pas de représenter des propriétés graduelles et donc prendre en compte le fait que les propriétés au lieu d’être vraies ou fausses vont éventuellement pouvoir être vraies à des degrés intermédiaires et le raisonnement doit pouvoir s’appuyer sur ces éléments d’information. Ces différents besoins, qui peuvent être indépendants, ont ouvert trois différents courants de recherche, notamment celui des logiques non monotones.

Le développement de nouvelles logiques a porté également à reconsidérer les formalismes disponibles pour la connaissance incertaine, susceptibles de nourrir les nouvelles propositions logiques. Les probabilités étaient la seule théorie formalisée de l’incertain jusqu’aux années 1950, elles étaient donc un candidat naturel qui a été utilisé largement et majoritairement en IA pour le traitement de l’incertitude, notamment par une approche bayésienne. Pour Jaynes (2003) les probabilités bayésiennes sont même une généralisation du raisonnement permis par la logique, en contexte

184

d’incertitude. Cependant, d’autres théories ont été successivement développées pour pallier les limitations de la théorie des probabilités. En réalité, ni les probabilités ni la logique classique n’ont été strictement substituées par quelque chose d’autre, l’objectif étant de compléter l’arsenal des outils de représentation disponibles pour avoir une capacité d’expression plus adéquate au contexte des connaissances et des informations que l’on possède.

Les probabilités ne sont en effet pas appropriées pour prendre en compte toutes les formes d’incertitude. En matière d’incertitude on distingue normalement les situations de variabilité (incertitude ontique) et celles d’incertitude épistémique. La variabilité est celle de phénomènes qui connaissent des fluctuations, par exemple la quantité journalière de pluie dans un lieu donné varie, mais on peut éventuellement faire des statistiques sur cette grandeur et en fournir donc une bonne modélisation objective pour la traiter en tant que variable aléatoire. L’incertitude épistémique porte en revanche sur des faits pour lesquels on a une information incomplète, qui ne sont pas de nature répétitive, et pour lesquels on ne peut donc pas faire des statistiques de manière naturelle. Pour prendre un exemple, si on parle de l’âge d’une personne précise, par exemple le président d’un pays éloigné, que l’on aurait seulement vu à la télévision, mais pour lequel nous ne disposons pas d’autres informations, on peut éventuellement avoir une idée de son âge, mais être encore relativement incertain s’il s’agit plutôt de 60 ou de 70 ans. On pourrait alors représenter cette information comme information imprécise, par le biais d’un ensemble flou, un ensemble qui va avoir des frontières graduelles. En tous cas, il ne s’agit pas d’une variable aléatoire que l’on pourrait nourrir avec des informations statistiques, telles que la distribution d’âge des présidents en exercice dans le monde, car il s’agit d’une personne précise pour laquelle nous disposons d’une information, qui est épistémiquement incertaine. Je remarquerais seulement que, si cette distinction est essentielle dans la formalisation théorique de l’IA, elle peut l’être beaucoup moins dans des cas d’application concrète. N. Taleb (2007) parle à ce sujet de distinction sans différence.

En revenant sur la distinction entre variabilité et incertitude épistémique, si la première a été bien traitée par les probabilités (notamment dans leur approche fréquentielle), nous avons vu comment la seconde pourrait commencer à être abordée, même si de façon un peu grossière, par une représentation ensembliste. La théorie des probabilités subjectives bayésiennes, qui n’est pas basée sur une justification fréquentielle, mais sur une axiomatique de paris échangeables, n’a pas entrepris cette voie d’intégrer une représentation ensembliste aux probabilités et ne peut ainsi pas représenter convenablement toutes les situations d’incertitude épistémique qui se présentent à l’humain et à un agent artificiel.

Selon Dubois et Prade (1988), les probabilités ne sont pas non plus appropriées pour représenter des informations incomplètes. Prenons l’exemple extrême de l’ignorance totale sur un fait. Supposons que l’on ne sache pas s’il y a de la vie au dehors de la Terre. Si l’on représente cette information par une variable binaire (vrai / faux), le principe d’indifférence de Laplace conduirait à une équipartition des probabilités. On pourrait faire une différence entre plusieurs niveaux de développement de la vie (par ex. absence de vie / vie microbienne / vie d’organismes complexes) ; ici l’ignorance complète serait encore une fois modélisée en probabilités par une équipartition. L’incohérence est que, selon le nombre de modalités prises en considération, l’évènement absence de vie est à tour de rôle caractérisé par une probabilité d’abord de ½ et ensuite de ⅓, une différence non négligeable, alors qu’en réalité on n’en sait rien.

D’autres exemples montrent que l’équirépartition des probabilités représente mal l’ignorance. Imaginons d’avoir deux quantités dont nous ignorons tout, au-delà du fait qu’elles peuvent varier dans un certain intervalle. Nous allons équirépartir les deux fonctions de probabilité qui les représentent

185

sur cet intervalle. Si maintenant nous sommes intéressés à la somme entre ces deux quantités, la théorie des probabilités nous fournit pour cette somme une distribution de probabilité qui est triangulaire, avec un pic sur le point médian de l’intervalle support. Or si l’idée d’une équidistribution sur un intervalle pouvait bien correspondre à une situation d’ignorance totale, le fait que la somme des deux quantités soit représentée par une distribution triangulaire avec un pic bien précis ne nous semble plus correspondre à une situation d’ignorance complète, car nous sommes en train de dire que la valeur médiane sur l’intervalle support est clairement la plus probable.

Une dernière limitation des probabilités c’est que quand on quantifie la probabilité d’un évènement

E par la valeur p, on a automatiquement la probabilité de l’absence de l’évènement (¬E ) par 1-p, valeur

qui est donc utilisée à la fois pour exprimer notre croyance en ¬E et notre incertitude sur E . Cela ne nous permet pas de nous mettre dans une position de retrait épistémique dans laquelle nous pourrions ne pas croire ni en E, ni en ¬E.

Des cadres théoriques plus expressifs : probabilités imprécises, évidences, possibilités

Dans des situations réelles, variabilité et incertitude épistémique pourraient se combiner. On a alors besoin d’une structure de représentation plus riche qui permet d’exprimer les deux. Il faudrait donc mélanger des ensembles avec des probabilités. De fait, le modèle le plus général pour représenter de l’incertitude en IA c’est des ensembles de probabilités, ce qui concrètement revient à attribuer aux évènements non pas une valeur précise de probabilité, mais des intervalles, c’est-à-dire une borne inférieure et une borne supérieure pour cette probabilité. Ce formalisme, correspondant aux probabilités imprécises (Walley 1991), est assez lourd à manier, même si certains chercheurs s’y attèlent. Il existe alors d’autres théories qui s’avèrent mathématiquement des cas particuliers de la

théorie des probabilités imprécises, notamment la théorie des possibilités et la théorie des croyances, qui fournissent deux alternatives plus pratiques de représentation d’informations

incertaines. Chacune de ces deux théories fournit non plus une mesure pour quantifier l’événement mais deux mesures qui vont être dans une relation de dualité. Cette dualité est à mettre en relation avec les bornes inférieure et supérieure des probabilités imprécises d’un évènement E et au fait qu’elles constituent en même temps les bornes supérieure et inférieure, respectivement, de l’évènement opposé ¬E.

Dans chacune de ces deux théories, il existe ainsi une première mesure qui permet de caractériser

l’engagement épistémique de l’agent dans la vérité de l’événement, et qui permet également de

représenter des situations plus agnostiques dans lesquelles l’agent n’a de raisons de croire ni dans un évènement ni dans son contraire, c’est la mesure de croyance dans la théorie des croyances et la mesure de nécessité dans la théorie des possibilités. La mesure duale représente la plausibilité, voire

le caractère normal et non surprenant d’un évènement : c’est la mesure de plausibilité dans la théorie

des croyances et celle de possibilité dans la théorie des possibilités.

La théorie des croyances a été introduite dans les années 70 par le mathématicien Glenn Shafer

(Shafer 1976), qui la nomme théorie de l’évidence, et trouve une élaboration ultérieure dans le modèle des croyances transférables (Smets et Kennes 1994). Le rôle de la densité de probabilité d’une variable en théorie de probabilités y est remplacé par une fonction de masse qui se distribue non pas sur un ensemble de valeurs singulières mutuellement exclusives de l’univers du discours mais sur l’ensemble de ses parties, c’est-à-dire sur des sous-ensembles des valeurs singulières qui peuvent se chevaucher et qui représentent des descriptions plus ou moins précises de la variable en question. Dans la pratique, les masses attribuées sont nulles sur beaucoup de sous-ensembles, autrement la théorie des croyances serait extrêmement lourde à opérationnaliser. C’est la distribution de la fonction de masse

186

qui permet de calculer ensuite les fonctions de croyance et de plausibilité. La fonction de croyance d’un évènement correspond à la somme de toutes les masses attribuées aux sous-ensembles qui incluent l’évènement en question, cela revient à comptabiliser toutes les « évidences » dont on dispose comme support de l’évènement (elles impliquent l’évènement). La fonction de plausibilité correspond à la somme de toutes les masses attribuées aux sous-ensembles ayant une intersection non vide avec l’évènement en question, ce qui revient à comptabiliser toutes les « évidences » qui ne contredisent pas l’évènement (elles lui sont compatibles). Le degré de croyance est par construction toujours inférieur (éventuellement égal) au degré de plausibilité : les évènements sont plausibles avant d’être crus. Les fonctions de croyance et de plausibilité sont également liées de façon duale : la croyance d’un évènement E équivaut à 1 moins la plausibilité de l’évènement dual ¬E. La théorie des croyances est particulièrement utilisée en matière de fusion d’informations, en exploitant la règle de fusion de Dempster (1967) qui permet de fusionner les fonctions de masse attribuées par deux observateurs différents.

La théorie des possibilités correspond à une situation complètement à l’opposé de la théorie des

probabilités. Cette dernière peut être appréhendée comme un cas particulier de la théorie de croyances lorsque les éléments focaux (c’est-à-dire les sous-ensembles de l’univers du discours pour lesquels la fonction de masse n’est pas nulle) sont mutuellement exclusifs. Au contraire, dans la théorie des possibilités, les éléments focaux sont tous emboités les uns dans les autres et constituent, par-là, des descriptions de plus en plus précises de l’état du monde. La chose la plus remarquable c’est que du moment où ces éléments focaux sont emboités les uns dans les autres, on n’a plus besoin de définir la fonction de masse sur l’ensemble des parties du référentiel, mais on peut à nouveau avoir recours à une fonction qui joue le même rôle que la densité de probabilité : la distribution de possibilité, qui permet ensuite de calculer les deux mesures de nécessité et de possibilité, qui sont les deux mesures duales de l’incertitude d’un évènement dans cette théorie.

Pour calculer la possibilité  d’un évènement, au lieu de faire une somme des probabilités des