• Aucun résultat trouvé

Stratég ies d • étude

Dans le document La recherche à l'IGN : activité 1998 (Page 79-82)

Nous allons présenter ici deux stratégies d'étude qui sont complémentaires.

L'une consiste à étudier mathématiquement la transformation des modèles d'incertitude par une application géographique dans des cas simples. Elle permet de déterminer de façon exacte la loi du critère c sur le résultat de l'application géographique, et donc sa relation avec les indicateurs de qualité de la base de données. Le problème de test que nous avons posé plus haut peut donc être résolu.

L'autre consiste à se doter d'un outil de simulation et à réaliser une étude empirique suivie d'analyses statis­ tiques. On cherchera à déterminer empiriquement le lien entre le critère c et les indicateurs de qualité, avant de répondre au problème de test.

Ét u d e t h é o r i q u e

L'étude théorique présente des difficultés considérables. Un exemple simple se trouve dans [RAV E L 96] . L'application géographique est le calcul de la distance entre deux points A 1 et A2 appartenant à deux objets linéaires, et

les incertitudes prises en compte sont les incertitudes géométriques.

D'après [VAUGLI N 97], les coordonnées (X;, Y;) de chaque A; suivent une loi GES (mélange de loi Gaussienne et de loi exponentielle symétrique, avec trois paramètres) . Nous avons au total un modèle avec douze paramètres.

Le calcul théorique est faisable, mais les applications numériques demandent un temps considérable de calcul (de l'ordre de trente secondes sur un PC standard) .

Un deuxième exemple est en cours de développement. L'application géographique considérée est une application de calcul de temps de parcours et d'itinéraires. Pour le moment nous nous restreignons aux erreurs de sémantique, et cette étude est menée sur des itinéraires déterminés à l'avance. Elle permet de valider les modèles statistiq ues d'incertitude sur la sémantique que nous avons préalablement définis.

S i m u l at i o n

La simulation d e type Monte-Carlo permet d e mener à bien complètement une étude expérimentale lorsque l e calcul n'est pas possible. Elle doit être menée d e façon rigoureuse. Un exemple d'une telle étude est détaillé dans [BON IN 98], qui reprend les outils développés par [COUGET 97] . Nous allons l'exposer brièvement ici.

Pour faire une étude par simulation, il est nécessaire de se doter d'un certain nombre d'outils : un outil de bruitage contrôlé de la base de données,

l'application géographique elle-même,

un outil de calcul du critère C (comparaison des résultats), un outil d'analyse statistique et d'analyse de données.

Pour obtenir une base de données d'une qualité déterminée (c'est-à-dire dont le contrôle qualité donne les valeurs souhaitées) , on utilise une simulation de type Monte-Carlo. Cette technique consiste à bruiter chaque objet de la base de données selon un modèle d'incertitude.

Ce modèle d'incertitude dépend de paramètres fixés en fonction des taux d'incertitude globaux que l'on souhaite obtenir. Puisqu'il y a un très grand nombre d'objets, on obtient une base de données de qualité souhaitée.

Dans cette étude, nous étudions une application de calculs d'itinéraires et d'isochrones (points situés au même temps de parcours d'un point initial fixé) . La base de données utilisée est Géoroute sur la zone de Lagny (F). Les résultats se présentent de la manière suivante :

fig ure 8.8. 1 : isochrones sur Lagny (en bleu) par rapport a u point vert

fig ure 8 . 8 . 2 : exemple de plus court chemin (en noir) ;

les points de départs et d'arrivées possibles sont matérialisés par des points noirs

Pour l'étude par simulation, nous considérons que cette base de données est sans erreur, et elle devient notre référence.

Nous choisissons de nous intéresser à un bruitage des attributs uniquement (précision sémantique) . Nous générons à l'aide de l'outil de bruitage un certain nombre de jeux de données de qualité de plus en plus dégradée. Nous calculons ensuite les résultats de l'application géographique en utilisant les jeux de données bruités.

Nous calculons pour chaque jeu de données bruité la valeur du critère C en comparant te résultat obtenu au résultat de référence (obtenu avec la base initiale) .

Q)

bd

®

bd D

() c --� Q) ,Qj :aï a:

Base de données Application Résultats

bJ

@

bd D

ë __ ..,. --� 0 rn en en ·e

bd

@

bd D

() •Q) __ ..,. --� � ë en 0

bd

ëi), ()

@

bd D

- en ·s __ ..,. --� cl5

figure 8.8.3 : principe de l'analyse par simulation

Nous essayons ensuite de mettre en évidence une relation entre l'importance du bruit présent dans la base de

données et la qualité des résultats de l'application géographique, exprimée par le critère c. On trouve souvent dans la

littérature le terme d'analyse de sensibilité géographique quand cette étude est menée sur des données maillées (raster) [LODWICK et al 90) , par exemple.

Le critère C que nous avons choisi pour qualifier les résultats de l'application est la moyenne des écarts entre les aires des isochrones calculées dans le jeu de données et les aires des isochrones calculées dans la référence. Il reste donc à relier les variations de ce critère aux variations des indicateurs de qualité décrivant la qualité du jeu de données utilisée.

Nous avons choisi ici arbitrairement un critère. Dans le cas d'une étude réelle, c'est l'utilisateur, expert dans son domaine, qui doit fixer le critère qui répond le mieux à ses exigences. Nous pouvons tout de même signaler que l'utilisation d'autres critères (nombre de tronçons de route communs aux trajets du jeu de données et de la référence par exemple) ont donné sensiblement les mêmes résultats.

Nous avons, par des techniques de régression, déterminé l'indicateur de qualité dominant pour cette application et ce jeu de données. C'est le taux d'accord de la valeur la plus représentée de l'attribut Vocation du tronçon routier, " Voie de desserte ", qui a un rôle prédominant dans notre calcul d'isochrones.

1,2

0

0,88 0,9 0,92 0,94 0,% 1,02

figure 8.8.4 : régression en tre le critère C et les indicateurs de qualité

Dans cette étude particulière, l'ajout d'autres indicateurs de qualité dans le modèle de régression ne permet pas d'améliorer sensiblement les résultats. C'est l'indicateur de qualité, cité plus haut, qui détermine majoritairement la qualité des résultats de l'application, les autres ayant une influence nettement moins grande.

Nous pouvons donc prédire la qualité des résultats de notre application géographique à l'aide des indicateurs fournis par le contrôle qualité. Remarquons, qu'ici, nous utilisons tel quel un des indicateurs du contrôle qualité. Cependant l'étude d'une autre application ou d'un autre jeu de données aurait très bien pu conduire à utiliser des paramètres d'un modèle statistique d'incertitude calculés à l'aide de plusieurs indicateurs de qualité.

Dans le document La recherche à l'IGN : activité 1998 (Page 79-82)