Modéliser des connaissances - Méthodes d'exploitation de données historiques pour la production

L’historique, tel que nous l’avons défini, contient tous les éléments nécessaires à la production de cartes d’OCS : images de télédétection, données de référence, classifieurs, cartes d’OCS, mesures statistiques de la précision des cartes. Nous pouvons associer à cet historique des connaissances annexes : données météo (pluviométries, températures), pratiques agricoles (ensilage, irrigation) par exemple. On appelle ce genre d’informations des “connaissances expertes”. Elles sont généralement fournies par des spécialistes du domaine concerné, et servent en grande partie à l’exploitation des résultats de classification. Cependant, elles demeurent souvent liées à une région spécifique, exigeant un effort conséquent de collecte et d’harmonisation proportionnel à l’étendue de la zone concernée.

Il existe des méthodes permettant de modéliser les connaissances expertes afin de les exploiter lors d’un apprentissage. Ainsi, le rôle du classifieur consiste à comprendre et apprendre ces règles, afin de les généraliser lors de la classification. Pour cela, transformer les différentes connaissances en probabilités permet bien souvent une modélisation simple et exploitable par une règle d’inférence bayésienne. Néanmoins, ces approches ne permettent pas d’établir des liens sémantiques entre les différentes sources d’informations et se révèlent donc trop simplistes. De fait, on retrouve des approches complexes permettant d’établir des connexions entre les informations.

Ontologies

Une première approche exploite les ontologies [Uschold and Gruninger, 1996]. Une phrase simple composée d’un sujet S, d’un verbe V et d’un complément d’objet O constitue une règle. L’ensemble de ces règles constitue une ontologie. Il s’agit de vérités permettant d’établir des liens entre S et V . Par exemple “Blé est une culture d’hiver” ou “une culture d’hiver peut être du Blé”. Ainsi, l’ontologie constitue la définition du domaine d’étude, où l’utilisateur crée des liens entre tous les éléments traités. On peut donc confronter, à l’aide d’un raisonneur, l’ontologie à des éléments n’appartenant pas au domaine décrit, afin de vérifier leur cohérence.

Cependant, en fonction de l’ampleur du domaine et la diversité des éléments le composant, l’ontologie atteint rapidement ses limites. En effet, chaque élément impliquant au minimum une règle envers les autres éléments, l’ajout d’un nouvel élément crée autant de nouvelles règles que d’éléments déjà existants. Il devient alors très difficile de conserver la cohérence entre toutes les règles. Le temps de résolution du problème augmente proportionnellement au nombre d’éléments de l’ontologie.

La notion d’incertitude constitue l’un des problèmes majeurs des ontologies liés à l’OCS. En effet, il n’existe aucune vérité absolue sur l’évolution d’une classe d’OCS. De fait, les ontologies constituent un outil puissant, très utilisé dans les problèmes de langages naturels [Reiter and Dale, 2000] ou pour des domaines où l’incertitude n’existe pas (ou peu) [Navigli and Velardi, 2004,Charlet et al., 2004,Le Ber et al., 2006b].

7.1.1 La logique de Markov

Une seconde approche de modélisation d’historique repose sur les chaînes et les champs de Markov.

Chaînes de Markov

Une chaîne de Markov représente un processus aléatoire satisfaisant la propriété de Markov, que l’on peut définir comme : l’état courant contient toute l’information requise à la prédiction de l’état futur et cette prédiction ne dépend pas des états antérieurs. Un état présente la condition actuelle du système étudié, par exemple pour la météo : “soleil”, “pluie” constituent deux états d’intérêts.

Inversement, un exemple caractéristique de problème non markovien consiste à réaliser des tirages de boules numérotées dans une urne sans remise, la probabilité d’obtenir une boule donnée dépend alors de tous les tirages précédents.

La première étape d’un processus markovien consiste à déterminer l’équilibre du système : on attribue une probabilité de transition tr à chaque état ei, vers lui-même et vers n autres états. On regroupe ces

probabilités sous la forme d’une matrice de transition :

P=    tr1,1 ... tr1,n ... ... ... trn,1 ... trn,n   

Reprenons l’exemple de la prédiction de la météo. On peut exprimer une matrice de transition, avec des valeurs arbitraires, comme :

P ="0.9 0.1

0.5 0.5 #

Cette matrice traduit les liens entre les états, ainsi avec une probabilité de 90 % un jour de “soleil” succédera à un autre, contre seulement 10 % de chances de basculer sur un jour de “pluie”. Mais, une fois dans cet état, le système possède la même probabilité de changer ou non d’état. Ainsi, ce problème suit la propriété de Markov, puisqu’il ne prend en compte que l’état actuel.

L’initialisation de la chaîne de Markov consiste à traduire le comportement actuel du système par des probabilités, et ce pour chaque état considéré. Par exemple l’état “aujourd’hui il fait soleil” se traduit par

e0=

1 0i, mais nous pouvons également moduler l’information en attribuant à chaque état une valeur non nulle ainsi : e0 =

0.85 0.15i qui décrit un jour ensoleillé mais avec la présence de nuages. Cette variation va pondérer la matrice de transition lors du calcul de la prédiction.

À partir de l’initialisation et de la matrice de transition P , la prédiction pour le jour suivant s’obtient par :

e1= e0P,

mais on peut également prédire pour le surlendemain :

e2= e1P = e0P2,

qui est généralisable à la prédiction du nième _{jour :}

en = en−1P ou en= e0Pn.

Un des avantages considérable des chaînes de Markov réside dans la possibilité de prédire à partir de l’état initial l’état à N étapes dans le futur. Néanmoins, cette modélisation devient vite limitée si le phénomène à modéliser s’observe sur plusieurs états, par exemple les rotations multi-annuelles des classes de cultures. On leur préfère les champs de Markov aléatoires, capables d’établir des liens entre divers états.

Champs de Markov aléatoires

Un ensemble de variables aléatoires respectant les propriétés markoviennes et décrites par un graphe non orienté constitue un champ de Markov aléatoire (Markov Random Field en anglais). Dans ce graphe, chaque noeud correspond à un état décrit par une variable. Chaque branche du graphe représente la probabilité de transition d’un état vers un autre. On constate alors que dans sa représentation, un champ aléatoire de Markov ressemble à un réseau bayésien. En effet, un réseau bayésien est également un modèle graphique probabiliste, permettant de représenter des variables aléatoires sous la forme d’un graphe orienté acyclique. Mais la différence majeure réside dans le fait que, contrairement aux réseaux bayésiens, il s’agit d’un graphe non orienté et potentiellement cyclique : une succession de plusieurs transitions à partir d’un état donné ramène le système dans ce même état. De fait, ces graphes représentent un atout non négligeable pour la modélisation des connaissances [Richardson and Domingos, 2006].

En effet, une chaîne de Markov permet de relier deux états, on parle alors d’ordre 1. Ainsi, on considère qu’elle ne possède pas de mémoire. Les graphes permettent d’exploiter des chaînes de Markov d’ordre 2, permettant de considérer l’état présent conjointement à l’état précédent, et ainsi de suite jusqu’à une chaîne de Markov d’ordre N prenant en compte alors tous les états passés. Ces différents degrés permettent alors la modélisation de connaissances complexes, comme la rotation des cultures. Ces approches dominent en fouille de données (data mining), mais également dans les applications de transfert d’apprentissage ou de détection de changements.

Modélisation des interactions de l’historique

De nombreux travaux existent exploitant les chaînes et les champs de Markov pour modéliser différentes interactions. Souvent, il s’agit de déterminer les probabilités de transitions entre les différentes classes concernées. Notamment, les travaux présentés par [Castellazzi et al., 2008] mettent en évidence la bonne performance des chaînes de Markov (ordre 1) pour la modélisation des rotations de cultures à partir de séries temporelles. Des connaissances expertes fournissent les probabilités de transitions entre les diverses classes étudiées. Une connaissance experte consiste à exploiter des vérités actuelles impactant ainsi les règles modélisées. Par exemple, la culture du Maïs dans le sud ouest est très répandue en raison des conditions de rentabilité favo- rables pour l’exploitant. De fait, on peut définir le Maïs comme une culture géographiquement stable, ce qui se traduit par une probabilité de transition faible.

Les travaux de [Dogliotti et al., 2003] proposent un outil ROTAT, permettant à partir de la liste des classes de cultures et de filtres définis par l’utilisateur de calculer toutes les rotations possibles. Ces deux exemples de travaux, requièrent un apport de l’utilisateur, qui joue le rôle d’expert. Cependant, cette notion représente un frein à une utilisation à large échelle, tout simplement car chaque expert maîtrise uniquement une zone restreinte. Néanmoins, une pratique courante consiste à réunir un comité d’experts lorsque la taille de la zone d’étude le requiert [Vancutsem et al., 2012].

Des travaux proposent de déterminer, directement à partir des données, les probabilités de transitions. Par exemple le modèle CarrotAge [Le Ber et al., 2006a] permet de détecter les rotations de cultures à partir d’une base de données (Teruti) ou CropRota [Schönhart et al., 2011] intégrant des critères agronomiques lors de l’estimation des transitions.

Les travaux de thèse de Julien Osman [Osman, 2015] considèrent ces différentes approches pour la production en temps réels d’une carte d’OCS. La finalité de ces travaux porte sur la possibilité d’une mise à jour de la carte au fil de l’arrivée des images, en exploitant les transitions et les champs aléatoires de Markov contraints par les règles d’un réseau bayésien (pas de cycle et une orientation des relations) : c’est la logique de Markov. Les travaux concernent essentiellement les classes de cultures d’été. Les transitions entre les classes sont extraites des différents millésimes duRPG. Dès lors, nous pouvons tirer plusieurs enseignements de ces travaux :

1. Les ontologies manquent d’amplitude (mesure d’incertitude) pour répondre à un problème comme l’OCS.

2. Les modèles de Markov permettent une amélioration des performances de la carte quand le nombre d’images est suffisant.

3. La possibilité de considérer chaque état indépendamment au moment de la prédiction, au lieu d’une succession de différents états, améliore les performances obtenues.

La logique de Markov constitue une méthode très coûteuse permettant d’estimer des règles à partir de probabilités a priori. Un des grands avantages reste la possibilité d’ajouter de nouvelles règles expertes, qui ne sont pas des probabilités estimées à partir des données, à la demande. Nous ne projetons pas l’exploitation de cet avantage, aussi dans ce cas, la logique de Markov peut être remplacée par un simple comptage d’occurrences de transitions [Osman et al., 2012].

Des approches exploitant des classifieurs afin de déterminer les probabilités de transitions existent [Bruz- zone et al., 2004,Bruzzone and Serpico, 1997]. Cependant, nous avons choisi de ne pas les aborder dans

cette thèse car elles reposent sur des approches d’adaptation de domaine, dont nous avons eu un aperçu des limitations. Dans ces approches, une fois les liens entre les différentes classes estimées, la prédiction repose également sur une règle de fusion bayésienne.

À partir de ces enseignements, nous proposons une méthode d’estimation de transitions indépendante des données de référence tout en suivant un grand nombre de règles détaillées ci-dessus.

Dans le document Méthodes d'exploitation de données historiques pour la production de cartes d'occupation des sols à partir d'images de télédétection et en absence de données de référence de la période à cartographier (Page 119-123)