• Aucun résultat trouvé

Connaissance experte et apprentissage dans les bases de données : les réseaux bayésiens

Questions ouvertes

4. Méthodologies de la connaissance incertaine sur la ville

4.3 Connaissance experte et apprentissage dans les bases de données : les réseaux bayésiens

Les probabilités bayésiennes tirent profit de l’information des grandes bases de données

Lorsque l’on dispose de grandes bases de données (éventuellement massives) le problème de la connaissance a priori avec laquelle on initialise les modèles bayésiens devient secondaire, voire négligeable. Par successives révisions des croyances, les paramètres probabilistes sont essentiellement inférés des données en ne portent presque aucune mémoire de l’initialisation a priori : data swamp

the priors (les données noient les connaissances préalables). Dans les applications de fouille de

données (data mining) les bases de données permettent d’accéder à une information statistique exploitable par la modélisation probabiliste. Graduellement, la modélisation bayésienne quitte le domaine de la formalisation de la connaissance experte pour devenir une approche d’apprentissage automatique par machine learning. L’approche est celui de la découverte de connaissances dans les bases de données.

En l’absence d’une théorie forte permettant de formuler des hypothèses qui doivent être validées/invalidées par les données, les algorithmes bayésiens de recherche automatisée de modèles ouvrent la voie à une approche inductive, data-driven. À être plus précis, l’architecture de recherche qu’ils implémentent est abductive. L’approche de la maximisation des vraisemblances est en soi une abduction : l’algorithme génère une pluralité d’hypothèses (les modèles), ensuite il considère la probabilité avec laquelle ces modèles pourraient générer les données observées s’ils étaient vrais (c’est la vraisemblance de chaque modèle en connaissant les données). De façon itérative, l’algorithme compare ces modèles par rapport à leurs vraisemblances respectives. La différence avec l’approche du small data, où l’expert fournit le modèle, est que maintenant tous les modèles possibles, respectant éventuellement un certain nombre de contraintes, sont considérés et comparés par les algorithmes d’apprentissage automatique. Pour éviter le surapprentissage, les algorithmes peuvent pénaliser les modèles trop compliqués, en suivant le principe du rasoir d’Occam. Leur fonction objectif est alors un mélange de la vraisemblance du modèle avec la parcimonie de son architecture (notamment en termes de nombre de paramètres à estimer).

Les réseaux bayésiens peuvent modéliser des systèmes de causalité probabilisée

Un des formalismes les plus puissants et souples de modélisation bayésienne dans ce domaine est celui des réseaux bayésiens (Jensen 2001, Korb et Nicholson 2004). Curieusement, les réseaux bayésiens avaient commencé à être développés dans les années 70 et 80 comme solution rigoureusement probabiliste de formalisation des systèmes experts (Ignizio 1991, Russell et Norvig 1994). Les avancées dans les solutions algorithmiques au cours des années 80 et 90 en ont fait un puissant outil de découverte de connaissances dans les bases de données.

158

Le terme réseau bayésien a été promu par Pearl (1985) pour décrire une méthode d’inférence probabiliste bayésienne (dérivant des conclusions logiques de faits connus et assignant à elles un degré de croyance pour caractériser leur incertitude) entre nœuds reliées dans une structure de graphe. Le réseau bayésien couple ainsi une représentation graphique avec un contenu mathématique associé. Graphiquement, il est constitué de nœuds (représentant des variables) et d’arcs orientés qui les relient (représentant des liens de cause-à-effet entre les variables). Le graphe orienté qui en résulte (Figure 4.1) constitue la structure du réseau, résumant l’information qualitative sur la causalité entre les variables. On remarquera que la structure d'un réseau bayésien ne peut pas contenir de boucles, tout comme dans les modèles causaux des équations structurelles (Kaplan, 2000). Nous verrons dans la suite comment cette contrainte pourra être éliminée dans le cas de modèles dynamiques.

Du point de vue mathématique, chaque cercle représente une variable stochastique qui peut être décrite par une fonction de probabilité (éventuellement une table de probabilités conditionnelles pour des variables discrètes). Les valeurs numériques de la fonction (ou table) de probabilité constituent

les paramètres du réseau. Couplant la théorie des probabilités à la théorie des graphes, les réseaux

bayésiens permettent de traiter deux problèmes centraux de la modélisation mathématique : l’incertitude et la complexité (Jordan 1998).

L’idée centrale de ces modèles est celle de la modularité : un système complexe peut être construit par combinaison de parties plus simples, interconnectées entre elles. Cela est possible car la distribution des probabilités conjointes des variables du réseau peut être factorisée selon la structure du graphe sous-jacent. Plus précisément, en respectant la condition causale markovienne (Pearl 2000, Drouet 2007), la fonction (ou table) de probabilité de chaque nœud dépend uniquement des valeurs de ses nœuds parents et la probabilité totale du réseau est ainsi égale au produit des probabilités conditionnelles de chaque nœud par rapport à ses parents. Sur un ensemble de variables X1, X2, … Xn, la distribution de probabilité jointe est donnée par :

𝑃(𝑥

1

, 𝑥

2

, … , 𝑥

n

) = ∏𝑃(𝑥

𝑖

∣ 𝑃𝑎𝑟

𝑋𝑖

)

𝑛

𝑖=1

où ParXi sont les parents de la variable Xi dans la structure du réseau. De cette façon, le calcul global de la probabilité d’une configuration de valeurs dans le réseau est reconduit au produit des probabilités des valeurs de chaque variable, conditionnellement à la connaissance de ses variables parentes. Pour le réseau de la Figure 4.1 nous obtenons :

P(A, B, C, D, E) = P(A) P(B|A) P(C|B) P(D|A,B) P(E|D)

Le réseau bayésien généralise et implémente le théorème de Bayes (et la règle de Jeffrey) à un grand nombre de variables connectées par un graphe de relations causales. Il devient dès lors possible de modéliser des véritables systèmes de causalité, plus à même de rendre compte de la complexité des systèmes réels.

Les flèches orientés, constituant les arcs du graphe peuvent, sous certaines conditions (Pearl 2000), être interprétées en tant que liens de cause-à-effet entre les variables du modèle. L’interprétation des liens de causalité en question diffère selon les auteurs (Drouet 2007, Williamson 2005, Pearl 2000) : il peut s’agir de causalité probabiliste (l’effet d’une cause est précisément celui d’augmenter la probabilité des effets) ou de causalité déterministe mal connue (la relation de causalité garde une définition strictement déterministe mais, étant mal connue, elle est modélisée par des relations probabilistes). J’emploierai alors le terme épistémologiquement plus neutre de causalité probabilisée, sous-entendant que l’utilisation des probabilités est une option de modélisation, indépendamment de

159

l’interprétation philosophique de la nature des relations entre les phénomènes. Il s’agit d’une option déjà défendue par Harvey (1969) dans le domaine de la modélisation géographique.

Le réseau bayésien peut être directement construit par le modélisateur ou être appris d’une base de données. Tout mélange des deux approches est également possible (par exemple structure totalement ou partiellement fournie par le modélisateur et paramètres appris d’une base de données). Grâce à la révision bayésienne, l’apprentissage incrémental des modèles est également possible : un modèle construit sur des connaissances a priori et sur les données initialement disponibles, peut successivement intégrer le contenu informationnel de nouvelles données, et éventuellement diminuer l’apport des données les plus anciennes, si le modèle se veut adaptatif par rapport à des relations probabilistes changeant au cours du temps.

L’apprentissage automatique de la structure et des paramètres d’un réseau bayésien à partir d’une base de données, implémentant l’approche abductive précédemment évoquée est computationnellement extrêmement onéreux dès que le réseau atteint des dimensions non banales. Les algorithmes les plus couramment utilisés sont alors des algorithmes de recherche itérative sous-optimaux qui limitent leur recherche à un sous-ensemble des structures possibles (Korb et Nicholson 2004). Ce sous-ensemble est défini par le modélisateur qui exprime sa connaissance préalable du domaine d’étude dans la forme de contraintes pour l’algorithme de recherche (liens causaux interdits ou obligatoires, ordre d’évaluation des variables, pans entiers de la structure à considérer comme une pré-connaissance théorique qui peut être éventuellement modifiée, mais qui doit guider la recherche des meilleures solutions, etc.). La pénalisation des structures trop compliquées car comportant un nombre trop élevé de paramètres limite également le nombre de structures à explorer, tout en évitant le surapprentissage du modèle (voir supra).

Les réseaux bayésiens peuvent accompagner différents types de raisonnement

Une fois le réseau construit, celui-ci peut produire des simulations probabilistes du modèle implémentées avec une liberté complète dans le choix des variables d’entrée et sortie. Dans la Figure 4.2 sont ainsi montrés les principaux types de raisonnement possibles à l’aide d’un réseau bayésien. Les variables connues (éventuellement de manière incertaine, dans la forme de probabilités ou de vraisemblances) sont rentrées dans le réseau en tant qu’"évidences", des "requêtes" sont alors effectuées pour connaitre en probabilité les valeurs d’autre variables dans le réseau12 :

• le raisonnement peut être diagnostique, pour inférer en probabilité la valeur des causes d’un effet observé ;

• il peut être prédictif, pour déduire les conséquences d’un événement ;

• il peut être inter-causal en utilisant la connaissance d’un effet et d’une de ses causes pour inférer la valeur d’autres causes possibles ;

• il peut finalement combiner la connaissance (éventuellement imparfaite) de tout sous-ensemble de variables pour effectuer une inférence probabiliste sur les autres.

La possibilité d’assembler une multitude de mécanismes participant au fonctionnement d’un système complexe existait déjà dans le formalisme des systèmes d’équations différentielles de la dynamique des systèmes (Forrester 1969). Elle manquait en revanche dans les approches de modélisation statistiques couramment utilisées tant dans les sciences naturelles que dans les sciences

12 Conventions utilisées dans la construction des graphiques de la Figure 4.2 : le réseau est centré sur l’événement E, ayant un parent P et un descendant D ; C est un co-parent de E par rapport à P et X un second descendant.

160

sociales. Avec la seule exception des modèles d’équations structurelles (Kaplan 2000), qui gardent en effet des fortes similitudes avec les réseaux bayésiens, la modélisation statistique était précédemment limitée à des modèles trop simplificateurs de la complexité du réel : modèles de régression multiple, modèles linéaires généralisés, modèles d’analyse de variance … l’introduction d’architectures hiérarchisées, la recherche automatique des meilleurs régresseurs, l’introduction de relations non-linéaires, le développement d’approches non paramétriques ne permettent pas pour autant à ces formalismes de modéliser des systèmes complexes d’interactions entre une multitude de variables.

Figure 4.2 : Types de raisonnement dans un Réseau Bayésien (d’après Korb et Nicholson, 2004)

D’autre part, les systèmes d’équations différentielles ne permettent pas des approches de recherche data driven (au mieux, les données sont utilisées pour calibrer et valider qualitativement des modèles théoriques) et restent en tous cas réfractaires à une évaluation statistique. Les modèles d’équations structurels, tout en se situant dans la famille des modèles statistiques, reposent également sur les hypothèses théoriques du modélisateur dans la formulation de son architecture.

D’autres formalismes connexionnistes entre variables nombreuses existent dans la famille des réseaux de neurones artificiels, depuis le travail fondateur de McCulloch et Pitt (1943), jusqu’au perspectives plus récentes présentées par Schmidhuber (2015). Ils permettent la découverte d’associations dans les bases de données et, dans la mesure où des approches floues ou probabilistes sont implémentés, la modélisation de connaissances graduées et incertaines. Il devient néanmoins beaucoup plus difficile d’employer ces formalismes pour identifier des relations de causalité structurant les systèmes réels où même pour coupler les pré-connaissances du modélisateur avec le contenu informationnel des données. Finalement, l’aspect boite noire des réseaux de neurones rend cette approche plus adaptée à la prédiction inductive qu’à la compréhension des fonctionnements réels et au test d’hypothèses théoriques (fussent-elles faibles).

161

15 ans de recherche dans l’exploitation des réseaux bayésiens pour la connaissance urbaine

Je me suis intéressé à l’adaptation du formalisme des réseaux bayésiens pour la modélisation urbaine depuis ma thèse de doctorat (Fusco 2004). Dans ce travail, clairement fondateur pour la suite de mon parcours personnel de chercheur, j’ai abordé de façon bien plus détaillée des questions à peine effleurées dans le cadre de ces pages : quelles sont les différentes approches algorithmiques à l’apprentissage des structures et des paramètres des réseaux bayésiens (voir également Becker et Naim 1999, Korb et Nicholson 2004), dans quelle mesure les algorithmes de recherche automatique des réseaux bayésiens sont vraiment capables d’identifier des structures causales dans des bases de données dépourvues d’information temporelle (une question également abordée par Druzdzel et Simon 1993, Pearl et Russell 2000, Drouet 2007), comment mélanger les connaissances expertes et celles apprises des données dans des différents schémas de recherche et d’exploitation des réseaux bayésiens, quels sont les avantages et les inconvénients des réseaux bayésiens par rapport à d’autres techniques de modélisation.

Pour la suite de mon exposé, on retiendra les points suivants : les réseaux bayésiens constituent à

plusieurs égards un formalisme de modélisation unique. Ils permettent, d’intégrer l’incertitude des connaissances modélisées par l’approche des probabilités bayésiennes. Ils peuvent être produits par connaissance experte, par apprentissage des bases de données et par hybridation de ces deux approches. Sous certaines conditions, ils peuvent fournir une modélisation des relations causales dans

le système étudié et, finalement, cette modélisation peut se rapprocher davantage de la complexité

des systèmes réels en intégrant un grand nombre de variables, des parcours de causalité multiples et

enchevêtrés et l’influence de variables omises dans la modélisation. Disposant d’un réseau bayésien du système étudié, il est finalement possible d’utiliser l’inférence bayésienne de façon extrêmement souple (raisonnement diagnostic, prédictif, inter-causal, etc.).

Les réseaux bayésiens présentent également un certain nombre de limites pour leur application à la modélisation de connaissances géographiques incertaines sur la ville, notamment la difficulté à intégrer les boucles d’interaction, la non prise en compte de la spatialité des phénomènes et les contraintes inhérentes à la modélisation de l’incertitude par les probabilités. Je montrerai dans la suite les pistes parcourues dans mes recherches pour apporter des solutions à ces problèmes.