• Aucun résultat trouvé

Analyse de la qualité des données par recherche de valeurs exceptionnelles

4.1 Définition de la qualité

Dans cette section, nous définissons ce que nous entendons par qualité des données, et justifions la méthode qui sera proposée, à savoir l’évaluation de la qualité de l’information statistique territoriale par la recherche de valeurs exceptionnelles.

Il s’agit d’abord de cerner précisément ce qu’est la « qualité ». Bien souvent, le terme « qualité » est associé dans l’esprit des utilisateurs à la précision spatiale des données collectées, mais en réalité, le concept de qualité couvre un spectre beaucoup plus large et touche l’ensemble du processus d’acqui-sition, gestion, diffusion et utilisation de l’information géographique, [Devillers 05]. La qualité est un concept hautement subjectif, car il correspond à l’adéquation entre la vue que donne un système d’in-formation d’une réalité, et la réalité perçue par les utilisateurs [Wand 96]. Il s’agit donc de distinguer la qualité externe, celle perçue par les utilisateurs, qui correspond à l’adéquation des données à leurs besoins (fitness for useen anglais) de la qualité interne des données, qui ne dépend pas de l’usage des données. Par ailleurs, la qualité est un concept multi-dimensionnel se prêtant à de multiples interpréta-tions, et de nombreux termes et critères peuvent être définis, comme l’exposent les travaux de [Wand 96] ou [Vaisman 07]. Le tableau 4.1 montre l’ensemble des adjectifs1qui relèvent du domaine de la qualité, en distinguant ce qui relève de la qualité interne de ce qui relève de la qualité externe.

TABLE4.1 – Dimensions de la qualité des données, d’après [Wand 96]. Qualité Dimensions

Vue interne (orientée système)

Les données peuvent être: exactes (accuracy), fiables (reliability), ponctuelles (timeliness), complètes (completeness), actuelles (currency), cohérentes ( consis-tency), précises (precision)

Le système peut être: fiable (reliability) Vue externe

(orientée uti-lisateur)

Les données peuvent être : ponctuelles (timeliness), pertinentes (relevance), satisfaisantes (content), importantes (importance), suffisantes (sufficiency), utili-sables (usableness), utiles (usefulness), claires (clarity), concises (conciseness), exemptes d’erreurs (freedom from bias), instructives (informativeness), détaillées (level of detail), nombreuses (quantitativeness), de portée plus ou moins grande (scope), interprétable (interpretability), compréhensible (understandability)

Le système peut être: ponctuel (timeliness), flexible (flexibility), normé (format), efficace (efficiency)

Ce tableau démontre la difficulté inhérente à la définition et à la mesure de la qualité, car elle se cache derrière une grande variété de qualificatifs. Il apparaît d’abord qu’en réalité tout ce qui concerne la qualité externe est en dehors du contrôle qui peut être effectué dans le système. Par exemple, la précision requise des données ne peut pas toujours être adaptée à l’emploi qui va en être fait : une précision de l’ordre du millier d’unités suffit pour connaître la situation financière d’une entreprise, alors que la réalisation d’un audit financier requiert une donnée précise à la centaine d’unités près. Ainsi, l’usage qui sera fait des données ne peut être systématiquement anticipé dans le système. Ce n’est qu’au niveau de la conception du système que les besoins des utilisateurs (la qualité externe) peuvent être prise en compte. En revanche, tout ce qui relève de la production des données (acquisition, maintenance, et publication) peut être mis sous contrôle, indépendamment de l’usage qui sera fait des données.

4.1.1 Les critères de mesure

Notre démarche se focalise donc sur la qualité interne, et examine les méthodes de vérification ou d’évaluation de la qualité en reprenant ici les critères qui ont été définis dans la norme ISO 19115. Nous écartons l’usage de méthodes de mesure de la précision géométrique, puisque nous nous concentrons ici sur la dimension thématique de l’information. Egalement, la cohérence sémantique qui relève plutôt de l’adéquation du modèle aux besoins des utilisateurs n’est pas considérée. Par ailleurs, nous sommes dans un cas d’archivage de différentes versions des données, qui peuvent remonter loin dans le temps. Il ne s’agit donc pas de vérifier si les données sont d’actualité, ou ponctuelles, mais bien de vérifier que l’on archive à la fois leur date de validité et leur date d’acquisition dans le système, ainsi que la date de publication de ces données. Restent donc les critères suivants, dont les désignations correspondantes dans le domaine des entrepôts de données sont fournies, [Vaisman 07], en vue de mesurer la qualité des valeurs statistiques :

– la complétude (completness) – la cohérence logique (consistency)

– la précision sémantique ou l’exactitude (accuracy, correctness)

Pour chacun de ces critères sont détaillées les méthodes de mesures existantes et les travaux qui s’y rapportent.

Un nombre conséquent de travaux visant à qualifier le niveau d’incomplétude s’attachent à considérer les données dans leur ensemble, lorsqu’elles sont conservées dans une base de données relationnelle, et vérifient la complétude des tables et tuples (enregistrements) de la base. Cependant, dans le cas que nous considérons, les données arrivent dans des lots (les jeux de données) destinés à couvrir une certaine aire d’étude sur certains niveaux de la hiérarchie territoriale, pour une certaine période temporelle et pour une certaine thématique. Dans ces cas, il ne faut pas s’attendre à obtenir un remplissage complet du modèle : toutes les unités, ni tous les niveaux ne peuvent être renseignés pour tous les indicateurs existants ni toutes les dates. De même, certaines données sont produites et conservées en doublon, voire plus. En effet, si l’on prend le cas du chômage par exemple, il peut être intégré au moins deux fois dans le modèle, pour la même période et la même aire d’étude car il peut être présent dans des jeux de données utilisant respectivement comme source EUROSTAT, ou bien l’INSEE. Il s’agit donc pour calculer la complétude de définir le nombre de valeurs attendues pour chaque jeu de données, et de rapporter le nombre de doublons ou de valeurs absentes à ces valeurs attendues. Le travail de [Naumann 04] est ici particulièrement pertinent car il propose une mesure permettant de distinguer la complétude dite extensionnelle, qui mesure la couverture d’un jeu de données, de la complétude dite intentionnelle, qui décrit à travers la densité des données dans quelle mesure les intentions annoncées dans le jeu de données ont été réalisées. De plus, les solutions proposées sont adaptées à l’intégration de sources de données hétérogènes.

La vérification de la cohérence logique des données consiste à contrôler la conformité des valeurs vis à vis du domaine de leurs valeurs (par exemple, des valeurs exprimant un poids en kilogrammes ne peuvent être négatives), ainsi que leur typage. Elle consiste également à contrôler certains invariants dé-finis dans le modèle. Par exemple, dans un modèle d’unités statistiques hiérarchiques comme la NUTS, les valeurs statistiques associées aux unités de niveau inférieur devraient toujours être inférieures à la valeur de l’unité statistique à laquelle elles appartiennent. Ce type de travail relève généralement des programmes d’acquisition de données (les ETL, pourExtract-Transform-Load) qui sont destinés à net-toyer les données et à les convertir dans le format attendu du modèle de données. Durant cette phase, les données peuvent être rejetées dès leur entrée dans le système, ou bien acceptées, mais signalées comme non cohérentes, et/ou corrigées.

Lorsque les données ont été nettoyées de ce qu’on appelle les « erreurs d’entrée », il reste alors le délicat travail de déterminer les valeurs inexactes qui relève de la vérification de la précision séman-tique. Notre cas d’étude concerne la constitution d’une base de données statistiques territoriales issue de sources multiples, et nous postulons qu’il n’existe pasa prioride source(s) plus fiable(s) que d’autre(s). Nous orientons donc nos recherches vers les méthodes de vérification de type directes et internes. En l’absence de données de référence, il est difficile de procéder à un nettoyage systématique des données : une donnée peut être exceptionnellement haute ou basse sans être fausse. Dans cette optique, l’identifi-cation de valeurs exceptionnelles, celles qui sont très différentes de leur voisinage (temporel, spatial et thématique) peut être utile, car elle ne nécessite pas de données externes, et permet de repérer rapidement des valeurs suspectes, peut-être inexactes.

4.1.2 L’évaluation de la précision sémantique par recherche de valeurs exceptionnelles

Une valeur exceptionnelle (outlieren anglais) est définie de façon basique comme une observation quidéviede la valeurmoyennedel’échantillondans lequel elle est observée, [Grubbs 69]. À travers cette définition, il ressort immédiatement que la connaissance des opérations statistiques et du vocabulaire af-férent (dévier, moyenne, échantillon, etc.) est nécessaire à la compréhension des méthodes de recherche de valeurs exceptionnelles. C’est pourquoi un rappel des notions statistiques les plus élémentaires est présenté en annexe, dans la section 8.2, page 309.

De façon plus générale, une valeur est exceptionnelle si sonrésiduest trèssignificatif par rapport à unmodèle. Donc trouver une valeur exceptionnelle signifie trois choses :

– proposer un modèle de distribution représentatif de l’échantillon,

– calculer des résidus, c’est-à-dire l’écart des valeurs de l’échantillon à ce modèle,

– et évaluer dans quelle mesure cet écart est significatif : il faut donc classer les valeurs des écarts, et les traiter statistiquement.

Deux aspects de la recherche de valeurs exceptionnelles sont à souligner : d’abord, le plus évident qui réfère à l’usage de méthodes statistiques, et ensuite, un aspect non moins important, qui porte sur le rôle de l’utilisateur dans le choix du modèle. En effet, pour qu’un système trouve des valeurs exceptionnelles, il faut que l’utilisateur soumette des hypothèses sur la distribution des données. C’est pourquoi ce type d’analyse ne peut se mener de façon totalement automatique, et nous conduit à étudier les méthodes proposées dans le domaine de l’analyse exploratoire de données (EDA).

Par ailleurs, le recherche de valeurs exceptionnelles est très similaire à l’estimation de données man-quantes : en effet, dans les deux cas, il est nécessaire de mettre en place un modèle et de proposer des hypothèses pour estimer la distribution des données. La recherche de valeurs exceptionnelles peut donc être perçue comme le pendant de l’estimation de valeurs manquantes.

Enfin, il est à noter que les méthodes qui permettent de repérer des individus (au sens statistique du terme) exceptionnels ont de façon symétrique besoin de repérer les ressemblances. C’est pourquoi une partie de la présentation qui suit insiste sur la notion de corrélation et d’auto-corrélation. En probabi-lités et en statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques numériques, c’est étudier l’intensité de la liaison qui peut exister entre ces variables. L’autocorrélation est une estimation de la corrélation d’une variable en référence à sa localisation dans l’espace ou dans le temps. On estime si les valeurs sont inter-reliées, et si oui, s’il existe une forme de répartition spatiale ou temporelle des individus.