• Aucun résultat trouvé

La qualité des données (spatiales) est une notion relative et très complexe qui nécessite le recours à plusieurs composantes (ou critères) pour être évaluée [ISO/TC 211, 2002; Devillers et Jeansoulin, 2005; Devillers et al., 2007]. Divers travaux de recherche ont proposé divers critères quantitatifs et qualitatifs pour déterminer la qualité d'un jeu de données (spatiales).

Ces travaux proposent deux définitions pour la qualité des données en considérant deux points de vue, celui des producteurs de données et celui des utilisateurs de données :

(i) Qualité interne : La qualité interne désigne l'absence d'erreurs/imperfections dans les

données en rapport à des règles précises [ISO/IEC, 2001, 2003]. Cette qualité qualifiée de qualité intrinsèque se mesure au travers de critères quantitatifs et qualitatifs comme la précision, l'exhaustivité, la cohérence logique, la généalogie, etc.

(ii) Qualité externe : La qualité externe correspond au niveau d'adéquation existant entre les

données et les besoins des utilisateurs dans un contexte donné [ISO/IEC, 2001, 2004]. Elle exprime la capacité des données à répondre à un usage particulier. C'est donc une qualité dépendante des besoins des utilisateurs qui peut être qualifiée de qualité d'usage relative.

Comme notre but est d'avoir une bonne qualité de données qui soit applicable à différentes utilisations et utilisateurs, nous allons dans ce qui suit décrire les principales composantes de la qualité interne, dans laquelle se situent nos travaux. Dans la littérature, différentes

définitions, terminologies, hiérarchisations des composantes de cette qualité ont été proposées. Il y également de nombreux efforts de normalisation de ces concepts et définitions.

Dans la suite de cette section nous allons présenter la qualité interne des données (spatiales) telle que définie par la norme ISO 19113:2002 [ISO/TC 211, 2002], car cette norme fournit des définitions précises et concises pour décrire les concepts de la qualité.

Dans cette norme, la qualité interne des données spatiales est décrite en utilisant deux types de critères, quantitatifs (cf. Section 4.2.1.1) et qualitatifs (cf. Section 4.2.1.2) qui sont applicables à un jeu de données.

4.2.1.1 Critères quantitatifs

Les critères quantitatifs (éléments et leurs sous éléments) sont décrits comme suit :

4.2.1.1.1Exhaustivité (Completeness)

L'exhaustivité d'un jeu de données désigne la couverture avec laquelle l'univers du discours18

(universe of discourse) est représenté dans le jeu de données [Batini et Scannapieca, 2006]. L'exhaustivité contrôle le manque et le surcroît d'objets, leurs attributs et relations dans un jeu de données [ISO/TC 211, 2002]. Ses sous éléments sont donc :

(a)Omission : manque ou absence de données utiles dans le jeu de données;

(b)Commission : présence de surplus de données inutiles dans le jeu de données.

Selon [Devillers et Jeansoulin, 2005], l'exhaustivité peut être de deux catégories : (i) exhaustivité des données (erreurs d'omission ou commission dans les instances de classes, d'attributs ou de relations); et (ii) exhaustivité du modèle qui mesure le degré de fidélité du modèle de données à l'univers du discours. Le contrôle de cette dernière consiste à voir si tous les objets, leurs attributs et liens de l'univers de discours sont bien représenté dans le modèle.

4.2.1.1.2Précision de position (Positional accuracy)

La précision ou l'exactitude mesure les écarts entre les données mesurées et les données réelles. Elle est définie comme la proximité d'une valeur mesurée de la valeur réelle qu'elle

18

L'univers du discours (appelé aussi terrain nominal) est défini comme une abstraction/vue du monde réel ou hypothétique qui inclut tout ce qui présente un intérêt pour l'application [ISO/TC 211, 2002].

représente [Batini et Scannapieca, 2006]. La précision de position [ISO/TC 211, 2002] décrit l'exactitude du positionnement spatial des objets spatiaux; ses sous éléments sont :

(a)Précision absolue : proximité des valeurs des coordonnées mesurées des valeurs

vraies ou acceptées comme telles;

(b)Précision relative : proximité des positions relatives des objets de leurs positions

relatives vraies ou acceptées comme telles;

(c) Précision matricielle : concordance des valeurs de position dans la grille avec les

valeurs vraies ou acceptées comme telles.

Cette précision dépend directement des instruments de mesure et moyens d'acquisition et de traitement de l'information spatiale [Devillers et Jeansoulin, 2005]. La seule façon de la mesurer est donc de comparer le jeu de données, soit à autre jeu de données de meilleure qualité, ou soit de procéder par sondage ou échantillonnage (par exemple à l'aide de capteurs GPS) [Devillers et Jeansoulin, 2005].

4.2.1.1.3Précision temporelle (Temporal accuracy)

La précision temporelle se rapporte à la précision des références temporelles des données. Elle est définie comme l'exactitude des attributs et relations temporelles des entités; ses sous-éléments sont [ISO/TC 211, 2002] :

(a)Précision des mesures temporelles : proximité des valeurs des références

temporelles des valeurs vraies ou acceptées comme telles;

(b)Cohérence temporelle : exactitude de l'ordre des événements dans le temps;

(c) Validité temporelle : validité des références temporelles par rapport aux formats et

système de référence temporelle.

4.2.1.1.4Précision thématique (Thematic accuracy)

La précision thématique, appelée également précision sémantique ou d'attributs, se rapporte à la précision des données alphanumériques attributaires (non temporels et non spatiales), de leurs classifications et relations. Elle est définie comme (i) l'exactitude (accuracy) des attributs quantitatifs et (ii) la justesse (correctness) des attributs non quantitatifs (qualitatifs), des classifications d'entités et des relations entre entités [ISO/TC 211, 2002]. Ses sous éléments sont :

(a)Justesse de classification : comparaison des classes assignées aux entités ou leurs

attributs à leurs classes dans l'univers du discours;

(b)Précision des attributs non quantitatifs : justesse des attributs non quantitatifs;

(c) Précision des attributs quantitatifs : exactitude des attributs quantitatifs.

Nos travaux de thèse concernent la cohérence logique qui est décrite comme suit (cf. Section 4.2.1.1.5).

4.2.1.1.5Cohérence logique (Logical consistency)

La cohérence logique décrit le degré d'adhésion (conformité) des données aux règles

logiques des structures de données, des attributs et des relations (la structure de données peut être conceptuelle, logique, physique) [ISO/TC 211, 2002]. Autrement dit, la cohérence logique désigne l'absence de contradictions dans le jeu de données en rapport aux règles logiques présentes dans sa spécification. Ses sous éléments sont :

(a)Cohérence conceptuelle : adhésion des données aux règles du schéma conceptuel;

(b)Cohérence de domaine : adhésion des valeurs à leurs domaines de valeurs;

(c) Cohérence de format : le degré auquel les données sont stockées en accord avec la

structure physique du jeu de données;

(d)Cohérence topologique : justesse des caractéristiques topologiques encodées

L'approche la plus répondue pour la vérification de cette qualité dans les bases de données est le mécanisme de contrôle d'intégrité ou des contraintes d'intégrité (cf. Section 4.3).

4.2.1.2 Critères qualitatifs

Les critères qualitatifs définis par la norme ISO 19113:2002 [ISO/TC 211, 2002] pour décrire la qualité d'un jeu de données sont le but, l'usage et la généalogie. Ces critères sont décrits comme suit.

4.2.1.2.1But (Purpose)

Le but décrit la raison de création du jeu de données et contient des informations sur son utilisation initialement prévue.

4.2.1.2.2Usage (Usage)

L'usage décrit les applications dans les quelles le jeu de données a été employé. L'usage décrit les utilisations effectives du jeu de données par le producteur ou différents utilisateurs.

4.2.1.2.3Généalogie (Lineage)

La généalogie décrit les informations sur l’histoire du jeu de données depuis sa création jusqu’à sa mise à disposition de l’utilisateur. La connaissance de ces informations est primordiale pour déterminer comment exploiter les données et quelles en sont les limites [Devillers et Jeansoulin, 2005]. La généalogie peut fournir des informations par exemple sur :

- les sources des données et les systèmes d'acquisition;

- les traitements ayant permis de réaliser le jeu de données;

- etc.