E STIMER L ’ ERREUR REELLE - Méthodologie d'évaluation de la cohérence inter-représentations po

L’évaluation a priori de l’erreur réelle est théoriquement possible mais quasiment impossible en pratique. L’estimation de la performance en apprentissage s’opère généralement de manière empirique, a posteriori. Les méthodes utilisées fournissent des résultats plus précis [Cornuéjols et Miclet 2002].

Notons qu’il s’agit bien ici d’une estimation de l’erreur réelle puisqu’il n’est pas possible de connaître la classe de tous les exemples potentiels pour la calculer. Cette erreur est inconnue et on cherche, à partir d’un échantillon, à l’évaluer.

La première méthode d’évaluation consiste à utiliser un échantillon de données test. L’idée est de séparer les exemples d’apprentissage aléatoirement en deux ensembles, dont l’un est utilisé pour apprendre et l’autre pour mesurer la qualité de l’hypothèse. Le taux d’erreur réelle est estimé par l’erreur apparente mesurée sur l’échantillon test, éventuellement associée à un intervalle de confiance. Étant donné que ce jeu test est indépendant de l’échantillon qui a servi à générer l’hypothèse, on considère que l’erreur apparente calculée sur le jeu test constitue une bonne approximation de l’erreur réelle.

Cette méthode n’est malheureusement pas toujours applicable. Elle requiert en effet un nombre suffisamment grand d’exemples d’apprentissage dont la disponibilité peut manquer. La qualité d’un apprentissage augmente avec la taille de l’échantillon.

Si le nombre d’exemples n’est pas suffisant26_{, l’apprentissage peut donner de mauvais}

résultats. Ce manque de disponibilité des exemples est une difficulté récurrente pour la mise en œuvre de l’apprentissage. Ce problème se pose pour de nombreuses applications, notamment dans le domaine de l’information géographique.

La seconde méthode, permettant d’évaluer empiriquement l’erreur réelle en s’affranchissant de cette contrainte, est la validation croisée [Schaffer 1993]. Le principe est le suivant :

1. On divise l’échantillon d’apprentissage E au hasard, en k parties de taille équivalente E1,…,Ek ;

2. Pour chaque partie Ei, (i variant de 1 à k) :

• On applique une procédure d’apprentissage sur les exemples correspondant à l’échantillon E-Ei ;

• On calcule l’erreur apparente sur la partie restante Ei.

3. L’erreur réelle est estimée par la moyenne des erreurs apparentes mesurées successivement.

Habituellement, le nombre de parties est fixé à 10. Parfois, la valeur de k correspond au nombre total d’exemples disponibles. Dans ce cas, le test est répété autant de fois qu’il y a d’exemples, mais évalué sur un exemple seulement à chaque fois (méthode « leave-one-out »). Cette procédure est relativement coûteuse en temps de calcul mais fournit une bonne estimation du taux d’erreur réelle [Mitchell 1997].

Pour conclure, précisons que toutes les méthodes de validation donnant des approximations de l’erreur réelle ne dispensent pas d’évaluer les règles apprises interactivement, à l’issue de la procédure [Mitchell 1997]. De faibles taux d’erreur n’empêchent nullement d’apprendre des hypothèses totalement erronées, qui ne reflètent pas le raisonnement de l’expert. Le problème d’apprentissage peut avoir été mal posé, exploitant des exemples qui ne sont pas suffisamment informatifs ou l’évaluation a pu être biaisée. La pertinence d’une hypothèse apprise doit donc toujours être analysée et ne jamais être acceptée aveuglément.

D.4.1.4 APPRENTISSAGE ET INFORMATION GEOGRAPHIQUE

Qu’en est-il de l’utilisation de ces techniques dans le domaine de l’information géographique ?

Depuis quelques années, plusieurs travaux ont été développés pour étendre les techniques de la fouille de données27_{aux bases de données spatiales [Miller et Han} 2001]. Ce qui distingue principalement l’analyse de données spatiales des méthodes traditionnelles est la prise en compte des relations spatiales entre les objets [Zeitouni et Yeh 1999, Aufaure et al. 2000]. Les notions de dépendance et d’hétérogénéité

26_{Les travaux théoriques en apprentissage n’ont pas pu fixer précisément le nombre d’exemples}

nécessaires pour obtenir une « bonne » hypothèse. Ce nombre varie d’une application à l’autre. En pratique, on considère qu’il faut disposer de plus d’une centaine d’exemples mais ce nombre est très approximatif et dépend de la complexité des exemples (du nombre d’attributs).

27_{La fouille de données (DM : « Data Mining ») fait partie du processus plus général d’extraction de}

connaissances à partir de données (KDD : « Knowledge Discovery in Databases ») [Fayyad et al. 1996]. Les outils qu’elle utilise sont issus de différents domaines : les bases de données, l’analyse de données et l’apprentissage inductif.

spatiale sont en effet fondamentales en géographie. A l’image de la fouille des bases de données traditionnelles, l’exploration des données géographiques exploite des méthodes empruntées aux statistiques spatiales [Cressie 1993], aux bases de données spatiales et plus récemment, à l’intelligence artificielle. Les récentes contributions ont apporté des développements, notamment en matière de recherche de règles d’associations spatiales [Koperski et Han 1995, Appice et al. 2003] et de clustering [Han et al. 2001]. Certains auteurs ont également adapté des langages d’interrogation de bases de données pour exprimer des tâches d’exploration dans une requête spatiale [Malerba et al. 2002]. Un prototype dédié au data mining spatial a par ailleurs été mis au point par une équipe du laboratoire de base de données de l’université Simon Fraser au Canada : il s’agit de GeoMiner [Han et al. 1997].

Il faut noter que la plupart de ces travaux se sont focalisés sur des méthodes d’apprentissage ou de classification non supervisée. Il existe relativement peu d’adaptations d’algorithmes d’apprentissage supervisé symbolique. Mentionnons toutefois les contributions de [Ester et al. 1997, Koperski et al. 1998]. La méthode de classification proposée par les premiers auteurs est fondée sur l’algorithme ID3 [Quinlan 1986] et la construction d’un graphe de voisinage. Ils proposent de développer un arbre de décision en prenant en compte non seulement les attributs des objets à classer, mais aussi la nature des objets présents dans le voisinage. De cette manière, il est possible de découvrir des règles qui indiquent par exemple que le pouvoir économique d’une ville est élevé parce que sa population est élevée et qu’il existe un aéroport à proximité (voisin de la ville). Les objets sont traités en tant que voisins s’ils satisfont une relation de voisinage qui peut être topologique et métrique (un seuil étant fixé pour la distance). La proposition de [Koperski et al. 1998] est assez proche de la précédente mais prend en compte davantage d’informations. Elle exploite ainsi les attributs des objets voisins et agrège la valeur des attributs non spatiaux de ceux-ci lorsqu’ils sont identiques. Les propriétés relatives à chaque voisin et au groupe de voisins identiques sont donc utilisées. Les relations spatiales sont décrites sous forme de prédicats.

Ces propositions sont intéressantes et on ne peut qu’espérer qu’elles se développent davantage. Ceci n’empêche pas pour autant d’utiliser les algorithmes d’apprentissage supervisé non spécifiques aux données géographiques pour explorer les bases de données spatiales [Gahegan 2002]. Tout dépend du type d’analyse que l’on souhaite réaliser et de la tâche d’apprentissage à accomplir. Plusieurs expérimentations ont ainsi été développées en utilisant des algorithmes classiques d’apprentissage (comme C4.5. [Quinlan 1993] ou RIPPER [Cohen 1995]) dans un contexte cartographique [Duckham et al. 2000, Mustière et al. 2000b, Sester 2000, Elias 2003]. Ces algorithmes d’apprentissage fournissent de bons résultats si le problème d’apprentissage est bien posé.

C’est l’approche que nous adoptons dans cette thèse. Nous utilisons des algorithmes d’apprentissage supervisé symboliques non spécifiques aux données géographiques. D’un point de vue méthodologique, nous n’excluons pas la possibilité d’utiliser d’autres techniques, celles auxquelles fait appel la fouille de données, spatiale ou non, comme les statistiques, mais nous nous restreignons en pratique à exploiter ici l’apprentissage inductif.

La principale difficulté dans la mise en œuvre de l’apprentissage réside dans la définition du problème. Deux questions se posent :

• Quelles sont les propriétés spatiales et non spatiales pertinentes qui vont permettre de facilement discriminer les exemples de l’échantillon d’apprentissage ?

• Comment exprimer au mieux ces propriétés spatiales dans les langages de représentation acceptés par les algorithmes d’apprentissage ?

La réponse à ces questions n’est pas triviale. L’identification des propriétés pertinentes est un problème propre à toute mise en œuvre d’une tâche d’apprentissage supervisée. La description des propriétés spatiales est quant à elle une difficulté spécifique à l’information géographique. Comment décrire au mieux la forme d’un objet ? Quelles mesures reflètent ses caractères géométriques tels que la sinuosité, l’élongation ou l’orientation, caractères qui sont par ailleurs implicites (cf. chapitre précédent) ? L’avis d’experts et l’analyse des spécifications doivent nécessairement intervenir à ce niveau. Cela peut aider à identifier les bonnes mesures qui décrivent symboliquement la représentation de chaque objet géométrique sous forme d’attributs. Une fois les mesures identifiées et évaluées, l’échantillon d’exemples d’apprentissage peut être construit et la tâche d’apprentissage expérimentée.

Ceci justifie la phase d’enrichissement que nous proposons avant de mener l’interprétation des différences de représentation (chapitre C). L’enrichissement vise aussi à extraire les propriétés implicites des objets géométriques pour construire des exemples d’apprentissage pertinents.

D.4.2 M

ISE EN OEUVRE DE L

’

APPRENTISSAGE D.4.2.1 ALGORITHMES D’APPRENTISSAGE EXPLOITES

Avant d’expliquer la manière de mettre en œuvre les techniques d’apprentissage dans le cadre de notre méthodologie d’évaluation, nous devons préciser que nous nous plaçons en tant qu’utilisateur de celles-ci et en particulier, de l’apprentissage inductif supervisé. Nous n’avons donc pas développé de nouvel algorithme d’apprentissage ni adapté un algorithme existant. Nous nous sommes concentrés sur la manipulation d’algorithmes qui étaient à notre disposition.

De ce point de vue, nous avons dû faire un choix sur la méthode d’apprentissage à utiliser et les algorithmes à exploiter, de manière à sélectionner des outils adaptés au problème traité. Puisque les connaissances que nous souhaitons acquérir sont destinées à être intégrées dans un système-expert, nous avons jugé que les outils d’apprentissage symbolique étaient les plus adaptés. Les hypothèses induites par de tels outils sont plus facilement compréhensibles car elles sont généralement exprimées sous forme de règles de décision ou d’arbres de décision. Celles-ci peuvent donc aisément être contrôlées et révisées au besoin. Les règles de décision peuvent en outre être directement insérées dans la base de règles du système-expert (en les traduisant au préalable dans le langage de celui-ci), ce qui constitue un gain de temps important.

De nombreux algorithmes d’apprentissage supervisé symbolique ont été mis au point par les chercheurs en intelligence artificielle. Parmi ceux-ci, deux algorithmes sont particulièrement populaires et reconnus : C4.5. [Quinlan 1993] et RIPPER [Cohen 1995]. En raison de leur efficacité prouvée dans des domaines très variés, ce sont ces algorithmes que nous avons retenus pour entreprendre nos expérimentations. Ceux-ci présentent comme biais de représentation des exemples, un langage attribut/valeur.

Les exemples sont donc décrits par un ensemble de valeurs d’attributs sélectionnés par l’expert et jugés pertinents pour le problème d’apprentissage posé.

D.4.2.2 APPRENDRE POUR AIDER A ENRICHIR LES DONNEES

La première étape pour laquelle l’apprentissage peut apporter une aide est l’enrichissement (étape de MECO, cf. chapitre C). L’apprentissage peut être utile pour déterminer automatiquement les paramètres des indicateurs, comme les indicateurs de forme par exemple.

Dans le chapitre précédent, nous avions pris l’exemple de carrefours particuliers (les pattes d’oie) pour exposer la méthode MECO. Nous avions précisé que l’existence de ces objets pouvait être implicite dans les bases et que leur extraction pouvait être requise si l’étude du respect des spécifications l’exigeait. Comment pourrait-on extraire ces objets et quel peut être le rôle de l’apprentissage dans cet enrichissement ?

Lors d’un stage effectué à l’IGN, une étude a été menée pour détecter divers types de carrefours dont les pattes d’oie [Grosso 2004]. L’extraction des pattes d’oie a été rendue possible après une analyse et une caractérisation de chaque face constituée par les tronçons de route (ce qui suppose la constitution d’une structure topologique). Les propriétés retenues pour sélectionner les faces correspondant aux pattes d’oie furent les suivantes :

• Une face est candidate si elle est constituée de 3 nœuds de degré 3 et si sa superficie < seuil1.

• Une face est candidate si la distance surfacique entre celle-ci et le triangle qu’il est possible de construire en reliant les trois nœuds < seuil2.

Dans cette étude, les seuils ont été fixés empiriquement, de manière interactive. C’est la solution la plus fréquemment adoptée pour paramétrer des indicateurs ou des algorithmes géométriques destinés à ce type de tâches [Trévisan 2005]. Toutefois, il est possible de déterminer ces seuils automatiquement, en exploitant une méthode d’apprentissage supervisé. A partir d’un ensemble d’exemples étiquetés, c’est-à-dire des faces pour lesquelles les propriétés précédentes auraient été calculées et dont la classe aurait été identifiée manuellement (une patte d’oie ou un autre carrefour), il est possible d’appliquer un algorithme d’apprentissage pour déterminer la relation entre la classe des exemples et leur descripteurs (figure 84). Cette solution permettrait d’éviter la multiplication des tests destinés à trouver les bons seuils interactivement.

On peut également citer à ce sujet les travaux de [Sester 2000] concernant l’identification de parcelles et de routes sur base de critères de forme, en utilisant des données cadastrales ou encore les travaux de [Plazanet et al. 1998, Mustière et al. 2000b] pour qualifier de manière symbolique la forme de routes (ex : lisse/sinueux) ou de bâtiments (ex : rectangulaire/en L/ en escalier) ;

L’apprentissage peut ainsi aider à paramétrer les outils d’analyse spatiale utilisés lors de l’enrichissement. Sa mise en œuvre a toutefois un coût. La construction d’exemples prend du temps. Son utilisation n’a donc de sens que si la détermination interactive des seuils est difficile et que le nombre de propriétés est élevé.

Figure 84. L’apprentissage peut aider à déterminer automatiquement des règles permettant de relier un concept que l’on souhaite extraire des données (les pattes d’oie) aux descripteurs qui le caractérisent (les

mesures effectuées sur les faces).

D.4.2.3 APPRENDRE POUR ACQUERIR DES REGLES RELATIVES AU CONTROLE INTER-BASES L’utilisation de l’apprentissage pour acquérir des règles destinées au contrôle inter-bases s’impose plus fréquemment. Ces techniques peuvent être mises en œuvre :

• En raison du manque de spécifications, de leur imprécision et d’une manière générale, de leur insuffisance, voire en raison de l’absence totale de spécifications ;

• Dans l’optique de découvrir l’écart existant entre les spécifications décrites dans les documents et celles contenues dans les données qui sont effectivement respectées par les opérateurs de saisie ;

• Dans l’optique d’automatiser l’acquisition de règles pour le contrôle inter- bases si les spécifications sont complexes et les règles trop nombreuses ; Dans le chapitre consacré à la méthode MECO, nous avons exposé deux solutions différentes pour organiser les connaissances destinées à contrôler la cohérence inter- représentations. La première est la classification directe et la seconde se compose des étapes de prédiction, comparaison et classification (cf. C.5.4.). Nous allons reprendre ces deux solutions et expliquer comment des règles s’y rapportant peuvent être acquises automatiquement par apprentissage.

Dans le document Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique. (Page 151-156)