• Aucun résultat trouvé

2.3 Modélisation des connaissances

2.3.2 La logique de Markov

Nous avons donc cherché une approche à inférence qui soit capable de combiner l’apprentissage probabiliste et le raisonnement sur des règles logiques. Combiner probabilité et logique de premier ordre dans une seule représentation a longtemps

Figure 2.3 – Exemple d’une ontologie mise en place pour la modélisation des connaissances a priori sur les pratiques agricoles. Nous y voyons une organisation des cultures selon leur date de semi, l’usage possible ou non d’irrigation et leur appartenance à la catégorie culture d’été/culture d’hiver.

été un objectif de l’Intelligence Artificielle. Les modèles probabilistes graphiques tels que les réseaux Bayésiens permettent de manier facilement l’incertitude. La logique de premier ordre rend possible la représentation compacte d’une grande variété de connaissances. La fusion des modèles probabilistes et propositionnels a été l’objet de recherches à l’activité importante depuis le milieu des années 1990 [90, 91].

Récemment, la logique de Markov [92] a été introduite comme une approche simple pour combiner logique de premier ordre et modèles probabilistes graphiques en une unique représentation. Un réseau de logique de Markov (de l’anglais Mar- kov Logic Network ou MLN) est une collection de formules de la logique du 1er

ordre (une base de connaissances de premier ordre), chacune d’elles se voyant at- tribuer un nombre réel, ou poids. Les formules peuvent être découpées en formules atomiques5 (ou atomes). Chaque atome peut être vu comme le nœud d’un réseau

de Markov (ou champ aléatoire de Markov), et les connexions logiques entre ces

atomes peuvent être vues comme les arcs de ce réseau de Markov.

La figure 2.4 présente un exemple de MLN simple. Dans cet exemple, chaque nœud représente un atome liée à la nature de la culture cultivée sur une parcelle à l’année n − 2, n − 1 ou n. Culture n-2 Blé Culture n Blé Culture n-1 Blé Culture n-2 Tournesol Culture n-1 Tournesol Culture n Tournesol

Figure 2.4 – Exemple de réseau de logique de Markov simple. Chaque nœud représente un atome (Culture n-2 Blé représente la formule signifiant qu’à l’année

n − 2 du blé était cultivé sur la parcelle). Les arc représentent les connexions

logiques entre ces atomes.

Nous sommes nous-mêmes utilisateurs des MLN. Nous les avons validés, et nous avons caractérisé leur fonctionnement pour notre problème. Nous croyons en avoir une bonne compréhension, mais nous n’en sommes pas des spécialistes. Dans la suite de cette section, nous présentons le fonctionnement des MLN. Le lecteur pourra comprendre la suite de ce manuscrit sans être un spécialiste des méthodes présentées ici.

Chaque formule du MLN est constituée d’une ou plusieurs formules atomiques reliées par des connexions logiques. Elles peuvent donc être considérées comme étant des cliques6 du réseau de Markov. Inversement, chaque atome apparaît dans

une ou plusieurs formules du MLN, donc sa couverture de Markov7 constitue l’en-

semble de ces formules.

Dans les MLN, l’inférence est réalisée avec la méthode de l’échantillonnage de Gibbs sur le sous-ensemble minimal du réseau lié requis pour répondre à la re- quête. L’échantillonnage de Gibbs est un algorithme de Monte-Carlo par chaîne de Markov (MCMC) qui permet d’obtenir une approximation d’une distribution de probabilités multivariée. En considérant les évidences8 comme des variables qui sont fixées à la valeur observée, les variables restantes forment une distribu- tion conditionnée par les évidences. Cette distribution est estimée par des tirages aléatoires récursifs.

6En théorie des graphes, une clique est un sous-ensemble d’un graphe, les nœuds de cette

clique étant adjacents dans le graphe.

7La couverture de Markov d’un nœud est constituée de l’ensemble de ses nœuds voisins. 8Terme employé en apprentissage automatique pour faire référence aux variables dont la valeur

Les poids sont appris efficacement à partir de bases de données relationnelles en optimisant itérativement une mesure de pseudo-vraisemblance [93]. Utiliser la vrai- semblance demanderait un temps et une puissance de calcul très importants, c’est pourquoi la pseudo-vraisemblance est utilisée. Il s’agit d’une approximation de la fonction de vraisemblance qui prend en considération les dépendances condition- nelles. De façon optionnelle, des techniques de programmation logique inductive (PLI) sont utilisées pour apprendre des clauses additionnelles, ou affiner celles apprises précédemment. La PLI consiste à créer un programme logique à partir d’un échantillon de faits logiques qui permet de les séparer en deux catégories : faits avérés et faits infirmés. Aussi, des clauses peuvent être ajoutées si quelques connaissances a priori ou expertes sont disponibles. Nous verrons que ce point sera très utile par la suite.

Une base de connaissance du premier ordre peut aussi être vue comme un ensemble de contraintes strictes sur un ensemble de domaines9 possibles : si le domaine ne respecte pas ne serait-ce qu’une formule, il a une probabilité nulle. L’idée de base dans les MLN est d’assouplir ces contraintes : lorsqu’un domaine ne respecte pas une contrainte de la base de connaissances, il a une probabilité plus faible, mais il n’est pas impossible. Moins un domaine viole de formules, plus il est probable. Chaque formule est associée à un poids qui représente la force d’une contrainte : un poids élevé augmente la différence en logarithme des probabilités entre un domaine qui satisfait à la formule et un domaine qui ne la satisfait pas, tout étant égal par ailleurs. Les poids ne sont pas bornés dans une plage, contrairement aux valeurs de probabilités.

Bien entendu, les modèles tels que les champs aléatoires de Markov (MRF) et réseaux Bayésiens (BN) peuvent toujours être représentés de façon compacte par les MLN, en définissant des formules pour les facteurs correspondants.

Il existe des algorithmes d’apprentissage efficaces pour la structure du réseau et les poids associés aux règles [94] et ils sont mis à disposition par leurs auteurs sous la forme d’un logiciel libre [95] ce qui nous permet d’évaluer la méthode pour nos besoins.

Dans les deux prochains chapitres, nous allons utiliser un réseau de logique de Markov pour modéliser les rotations de culture, et les règles sur les cultures d’été. Nous travaillerons principalement sur ces deux informations a priori car elles permettent d’illustrer l’ensemble des possibilités offertes par notre méthode. Nous allons aussi évaluer l’intérêt de ces modèles pour la production de cartes d’occupation du sol au chapitre 5.

9Lorsque toutes les variables sont fixées à une valeur, on obtient un domaine. Il y a donc

Chapitre 3

Modélisation des rotations de

cultures

Sommaire

Documents relatifs