• Aucun résultat trouvé

Les outils pour l’évaluation de la qualité

Analyse de la qualité des données par recherche de valeurs exceptionnelles

4.3 Les outils pour l’évaluation de la qualité

Par rapport à la problématique que pose l’exploration et l’évaluation de la qualité, nous recensons les outils qui mettent en œuvre les méthodes de recherche de valeurs exceptionnelles précédemment expo-sées. La plus grande partie des outils est issue du domaine de l’analyse exploratoire des données, dont les méthodes sont de plus en plus reprises et exploitées à grande échelle par les outils de fouille de don-nées spatiales, [Zeitouni 00], [Guo 09]. Par ailleurs, les relations hiérarchiques entre unités sont rarement exploitées, en dehors d’HyperAtlas qui est un outil du groupe de recherche HyperCarte [Grasland 05b]. L’usage de méthodes statistiques pour l’analyse de données se répand dans d’autres domaines, comme par exemple l’informatique décisionnelle, et si le focus n’est plus forcément mis sur l’analyse spatiale ou temporelle, le rôle que doit jouer un utilisateur dans l’analyse de la qualité est mieux cerné.

4.3.1 Les outils de l’ESDA

L’EDA est très liée à la représentation graphique des données, car les graphiques fournissent à l’ana-lyste des vues nouvelles suscitant spontanément des questions [Bertin 67]. Par ailleurs, l’outil visuel emploie au mieux les capacités de l’esprit humain pour l’observation, la comparaison et la détection de patrons. Ainsi, Banos explique queviace type d’outil, les « formidables capacités humaines, en termes de visualisation, d’intuition, de raisonnement par analogie et de génération d’hypothèses, sont ainsi plei-nement mises à contribution, dans le cadre d’une relation homme-machine ludique et réaliste, exploitant au mieux les qualités de chacune des parties » [Banos 01]. De ce domaine fertile est née l’Analyse Ex-ploratoire de Données Spatiales (Exploratory Spatial Data Analysis, ESDA) qui est une spécialisation de la discipline pour les données à références spatiales et temporelles (bien que le temps n’apparaisse pas dans sa dénomination). La promotion de l’ESDA a été largement le fait de chercheurs comme Luc Anselin [Anselin 93], Robert Haining [Haining 03], ou Gennady et Natalia Andrienko [Andrienko 06].

4.3.1.1 Fonctionalités et architecture requises

En tout état de cause, les capacités à la fois cartographiques et statistiques sont primordiales pour un outil d’analyse spatio-temporelle exploratoire. La reconnaissance, l’analyse et la mesure des formes d’as-sociation spatiale par le calcul de l’autocorrélation spatiale est une des fonctionnalités les plus classiques [Anselin 93]. Il s’agit également de disposer de méthodes pour la comparaison de différentes évolutions temporelles en vue d’identifier les différents formes d’évolution [Andrienko 01], [Andrienko 03b]. En-fin, la possibilité de détecter des associations thématiques entre différentes variables est aussi importante que les associations spatiales. En effet, ce sont ces dernières méthodes qui peuvent aider à trouver des variables auxiliaires utiles pour des manipulations plus complexes.

La méthode de gestion des données est une caractéristique importante de l’architecture d’un logi-ciel : lorsque que celle-ci est faite de manière adéquate, par l’emploi d’adapteursà différentes sources de données, elle économise nombre de manipulations contraignantes comme la transformation des données d’un format donné à celui exigé par le logiciel. Une telle gestion des données facilite l’exploration d’un nombre conséquent de données puisqu’alors le croisement de différentes sources de données est immé-diat : elles peuvent être issues de fichiers dans différents formats, ou de bases de données hétérogènes.

De même, il s’agit de proposer une structure pour les données facilitant l’analyse. Ainsi, dans le cas des statistiques spatiales, on s’aperçoit qu’elles reposent sur l’usage de la matrice de voisinage, structure de données qui peut représenter soit une distance discrète (les différents ordres de contiguïté), soit une distance continue (métrique ou de distance-temps). Si, à partir d’un modèle de données spatio-temporelles, on sait calculer les matrices de voisinage topologiques comme les matrices de distance métrique, on s’aperçoit que l’usage de distances pertinentes pour un géographe, comme la matrice de distance-temps entre unités spatiales, suivant des modes de transport différents, exige le stockage de ces matrices. A cet égard, [Lee 05] met en évidence la complémentarité qui existe entre le monde des SIG et celui de l’ESDA, où les SIG sont décrits comme des systèmes d’information dotés de capacités cartographiques. Cette proposition pour rapprocher les SIG et le monde de l’ESDA par le couplage des fonctionnalités de cartographie et d’analyse statistique est centrée sur le calcul d’indices d’association spatiale (Modèles d’Association Spatiale, MAS). [Lee 05] souligne la nécessité de fabriquer des matrices de voisinages spatiaux dans un SIG (voir figure 4.23). Cette proposition peut être étendue à l’analyse temporelle et multi-dimensionnelle, à condition que les structures de données soient capables de prendre en compte la variable temporelle.

FIGURE4.23 – Coupler les SIG et l’analyse exploratoire de données spatiales, d’après [Lee 05].

Par ailleurs, le volume des données traitées peut-être un frein à l’interactivité étant donné que les capacités de calculs requises par les méthodes d’analyse, de plus en plus complexes, sont assez élevées [Guo 09]. Les capacités de calculs sont donc également en prendre en compte et le couplage des outils avec des méthodes de calculs intensifs, et des super-calculateurs est un atout important. Par exemple, le calcul des coefficients d’autocorrélation spatiale augmente de façon exponentielle avec le nombre d’unités : il est enO(n2), sinest le nombre d’unités spatiales. Bien qu’Anselin recommande le pré-calcul de ces coefficients, plus précisément de la valeur duspatial lagpour chaque observation (c’est-à-dire de la valeur moyenne de la variableXconsidérée dans le voisinage de l’observation), [Anselin 93], cela ne nous semble pas optimal (ni même faisable) si on est en présence d’une quantité de variables

Xiimportante, et que, de plus, ce calcul est effectué pour tous les types de voisinage d’intérêt. Peut-être vaut-il mieux alors envisager de paralléliser le calcul de ces coefficients pour optimiser les temps de calcul, afin de répondre aux exigences de l’interactivité de la démarche exploratoire.

Enfin, ces méthodes présentent des vues différentes d’un même sous-ensemble de variablesXi: par exemple, la visualisation d’une distribution et les représentations comme le bagplot font partie de la vue thématique, la carte (que ce soit en représentation continue ou discrète) donne une vue spatiale des données, comme le nuage de dispersion de Moran, ou un corrélogramme, tandis que les diagrammes avec courbes d’évolution temporelles font partie de la vue temporelle. Il y a intérêt de construire les logiciels d’exploration sur le principe de synchronisation des vues, (le modèleModel-View-Controler) afin que lorsque un individu est repéré dans une vue, l’utilisateur puisse observer sa position dans une autre vue de son choix. Monmonier fut le premier à souligner l’intérêt de la synchronisation entre deux vues, l’une cartographique avec une carte chroplèthe, et l’autre statistique avec un diagramme de dispersion [Monmonier 89].

4.3.1.2 Critiques des outils existants

Le développement et la diffusion d’outils consacrés à l’ESDA, embarquant des méthodes d’analyse statistique, est en plein essort. La situation de 2011 est donc bien améliorée par rapport à celle de 2001 où ces outils se faisaient encore trop rares [Banos 01]. Le tableau 4.2 liste les outils les plus connus du domaine.

TABLE4.2 – Références d’outils connus. Libres

Weka [Hall 09]http://www.cs.waikato.ac.nz/ml/weka/

R (successeur de S-Plus) [Bivand 08],http://www.r-project.org, en particulier les pa-quetagesspetspacetime

Protovis http://vis.stanford.edu/protovis/

Grass (GIS + R) http://grass.itc.it/index.php

QGis http://www.qgis.org

GeoDa [Anselin 04]http://geodacenter.asu.edu

SAGE [Haining 03]

CrimeStat http://www.icpsr.umich.edu/icpsrweb/CRIMESTAT

SADA http://www.tiem.utk.edu/sada/index.shtml

SPACE-STAT [Anselin 92]

SPIDER-REGARD [Haslett 90], [Unwin 94]

XLisp-Stat [Brunsdon 96] http://www.stat.uiowa.edu/~luke/xls/ xlsinfo/

Commerciaux

SAS http://www.sas.com/offices/europe/france/

ESRI - The Spatial Statis-tics toolbox in ArcGIS 9.

http://www.esrifrance.fr/Spatial_Analyst.asp

SPSS http://www.spss.com/fr/

Les sites suivants proposent des comparaisons et des descriptions détaillées de ces outils :

http://fedc.wiwi.hu-berlin.de/xplore/ebooks/html/csa/node82.html http://www.geovista.psu.edu/grants/VisEarth/refs1.html

http://www.cartomouv.parisgeo.cnrs.fr/index.php?page=accueil

Il apparaît ainsi qu’un nombre important d’outils ont été développés dans le cadre de l’ESDA, dont certains s’attachent plus à l’aspect analyse statistique, d’autres plus à l’aspect visualisation des données. La plupart peuvent être réutilisés, soit dans leur ensemble, soit comme des composants, pour la recherche de valeurs exceptionnelles. Cependant, ces outils ne sont pas explicitement dédiés à l’analyse de la qualité des données, exception faite d’un module de SAS.

Des outils d’analyse spatiale comme SADA, Geoda, CrimeStat proposent des fonctions d’analyse statistique spatiale, couplées à des fonctions de visualisation et d’exploration de données, qui sont assez intéressantes lorsque l’on souhaite faire de l’estimation de valeur manquante : interpolation par krigeage complexe, simulation spatiale. Cependant, en dehors de Geoda, qui est open-source, le code réalisant les fonctionnalités de ces outils n’est pas réutilisable par d’autres développeurs. De plus, ces logiciels importent des fichiers décrits dans des formats propriétaires (Shapefile, DBF, Excel, etc.) sans fournir de connexion vers des bases de données spatiales, ni temporelles.

D’autres outils, comme QuantumGis (écrit avec Python), TerraLib (écrit avec C++) ou bien GRASS GIS (écrit avec C ou Python) proposent une lecture de données depuis des bases de données libres (PostgreSQL, ou MySQL), couplées à des fonctions de visualisation des données avec une interface cartographique.

Bien que pour ces derniers logiciels, la liste des fonctionnalités d’analyse spatiale disponibles im-médiatement pour l’utilisateur soit plus restreinte, il faut noter qu’elle peut être étendue. En effet, ces logiciels offrent la possibilité d’intégrer des scripts pour l’analyse statistique programmés avec R. La librairie open-source R se révèle être un langage d’expression privilégié pour de nombreux statisticiens [Templ 09]. Par exemple, Geoda est devenu libre, et il s’appuie sur R : ses contributeurs enrichissent la bibliothèque R avec de nouvelles méthodes régulièrement. De même, certains services Web pour l’inter-polation de données spatiales comme, par exemple, INTAMAP [Pebesma 10] sont aujourd’hui basés sur R. Si l’idée de services de calculs distribués nous semble très pertinente, l’interface d’utilisation nous apparaît comme trop sommaire. Dans [Hengl 08], l’usage de R comme outil capable de s’interfacer avec des fonctions SIG est également promu. A ce titre, bien que l’outil s’interface principalement avec le SIG commercial ArcGIS vendu par ESRI, nous pouvons citer l’initiative open-source de [Roberts 10] proposant une suite d’outils open-source pour l’analyse des écosystèmes marins, la plateformeMarine Geospatial Ecology Tools (MGET). Développée avec Python, cette plate-forme permet d’intégrer des scripts écrits en R pour analyser les données à références spatiales. Enfin, dans sa dernière version, le module SpatialAnalyst de ArcGIS vendu par ESRI propose d’exécuter des scripts R.

Cependant, force est de constater qu’aucun de ces outils ne fournit d’informations sur les métadon-nées sous un format non textuel, par exemple, au moyen de cartes ou de représentations interactives qui permettraient à l’utilisateur de mettre facilement en relation les informations collectées sur le jeu de données qu’il analyse avec les résultats calculés. Ces logiciels ignorent tout à fait la présentation des métadonnées associées aux données, puisque le schéma d’importation des données n’intègre pas l’im-port des métadonnées : les données spatiales, en particulier, sont simplement réduites à l’association d’un fond de carte (l’ensemble des géométries) et d’attributs thématiques, sans aucune information sur la provenance des valeurs, ou la description des méthodes d’évaluation des données. L’affichage des fiches de métadonnées se répand dans les SIG actuels, mais encore sous une forme qui reste très primitive (un document textuel séparé), et leur consultation est séparée des données : les valeurs continuent d’appa-raître dans les interfaces de façon assez dépouillée. Enfin, aucun de ces outils ne permet d’exploiter les relations d’appartenance entre les unités en vue de pratiquer une analyse de la variance qui permettrait de distinguer des valeurs exceptionnelles au regard des classes formées dans la hiérarchies des unités statistiques spatiales.

4.3.2 Prise en compte des relations d’appartenance avec HyperAtlas

Le principe d’analyse de la variance par mesure des écarts est mis en œuvre dans HyperAtlas, un logiciel issu des travaux du groupe de recherche Hypercarte [Grasland 05b]. Les analyses proposées offrent une vue d’ensemble de la position relative d’une unité territoriale et de l’information statistique associée par rapport à différents contextes à travers un atlas de cartes interactives. L’utilisateur ayant choisi interactivement le ratio de deux indicateurs qu’il souhaite étudier, par exemple le PIB par habitant, le taux de chômage, ou la part des actifs dans la population, les cartes montrent soit la position spatiale « absolue » de chaque unité dans une représentation choroplèthe classique en dégradé de couleur, soit la position relative de cette unité par rapport à trois contextes différents dans trois autres cartes choroplèthes.

Ces trois cartes, dites cartes d’écart5, montrent pour chaque unité son écart à la moyenne définie dans un contexte qui peut-être :

– une référence globale unique : par exemple, l’union européenne des 15, des 27, ou l’aire des Pays de l’Europe Centrale et Orientale (PECO).

– une région d’appartenance de niveau supérieur à l’unité : son département, sa région, son pays. – une région formée de ses voisins, suivant différents critères : la contiguïté d’ordre 1, ou bien des

seuils de distance. Les distances sont issues de matrices de distance précalculées entre unités d’un niveau de maillage donné, pour un certain moyen de transport. Par exemple, les régions à moins d’une heure de transport en voiture forment un voisinage d’une région donnée.

Le premier contexte est dit « général », le second « territorial » et le troisième « spatial »6. Par ailleurs, une quatrième et dernière carte choroplèthe résume la position des unités relativement à ces trois contextes et permet ainsi de construire une synthèse des différenciations locales, territoriales ou globales (figure 4.24).

FIGURE4.24 – Extrait des trois cartes d’écart a) général, b) territorial, c) spatial et de d) synthèse d’Hy-perAtlas (v1.0) pour l’étude de la part des actifs dans la population en 2030.

5. Egalement nommées cartes de déviation avant 2010.

Les cartes d’écart global et local proposent des mesures de l’association spatiale somme toute assez classiques tandis que la carte d’écart territorial constitue une mesure originale du caractère exceptionnel des valeurs, en les rapportant à la moyenne des unités englobantes. La carte de synthèse, qui permet de combiner ces analyses, apparait aussi être un outil puissant, car elle permet de repérer très vite quelles sont les unités qui ont une valeur exceptionnellement haute ou basse par rapport à ces trois contextes. Selon Waniez [Waniez 10], l’avancée scientifique est réelle et permet enfin de prendre en considération l’idée selon laquelle « la réalité apparaît différente en fonction de l’échelle d’analyse ».

Un des grands avantages de cet outil réside dans sa simplicité d’utilisation. Cet outil est en effet destiné à un public d’aménageurs du territoire et il a été par exemple diffusé au Parlement Européen dans le cadre d’une étude sur la décroissance démographique en Europe [UMS 2414 RIATE 08] : il est hors de question d’exiger des utilisateurs dans ce cadre de savoir configurer des méthodes statistiques aussi complexes que celles qu’on trouve dans des outils comme GeoDa ou CrimeStat. HyperAtlas est plus simple à prendre en main que des outils munis de méthodes statistiques plus évoluées mais dont l’interprétation peut être difficile, et la configuration ardue.

Concernant l’analyse des évolutions temporelles, un menu permet de choisir des indicateurs suivant différentes dates de validité, et de calculer un taux d’évolution. Il est alors possible d’étudier la distribu-tion spatiale de cette évoludistribu-tion par l’analyse de la variance. Prenons, par exemple, le rapport des valeurs de l’espérance de vie en bonne santé au niveau régional en Europe calculé entre 2030 et 2005. La carte de la figure 4.25 montre la synthèse des écarts à la moyenne européenne, la moyenne nationale et la moyenne locale (calculée par contiguïté). Il ressort de façon très évidente que, si pour toutes ces unités, l’évolution anticipée en 2030 est une hausse de l’espérance de vie, les unités faisant partie de l’ancien bloc de l’Est bénéficient plus fortement de cette hausse, ainsi que la région du Nord-Est de l’Écosse, qui apparaît ici comme une valeur exceptionnelle.

Toutefois, cet outil ne gère actuellement pas la dimension temporelle de façon pleinement satisfai-sante. En effet, le maillage d’étude est obligatoirement le maillage de référence ayant servi à l’harmoni-sation des données. Par exemple, les cartes de la figure 4.24 montrent une projection de la part des actifs dans la population totale en 2030, avec un zonage du Danemark au niveau régional correspondant à la version de zonage de 2003.

Ainsi, pour HyperAtlas, comme pour l’ensemble des outils d’analyse spatiale et d’exploration spatio-temporelle connus à ce jour pour l’étude de données zonales, l’utilisateur se voit imposé une certaine version de zonage pour son étude. Or, il n’y a pas de raison de penser qu’une version de zonage soit plus pertinente qu’une autrea priori, et nous souhaiterions avoir le choix de ce maillage de référence.

FIGURE4.25 – Analyse spatiale du taux de variation de l’espérance de vie en bonne santé entre 2005 et 2030 (projection).

4.3.3 Prise en compte de l’utilisateur et des métadonnées dans l’évaluation de la qualité Dans le domaine de l’informatique décisionnelle, la qualité des données possède un rôle vital. En premier lieu, [Daniel 08] comme [Chengalur-Smith 99] soulignent l’importance que revêt pour les utili-sateurs la publication et la consultationdes métadonnées avecles données, afin qu’ils puissent réajuster leurs décisions en fonction de la qualité connue des données. Des outils et des méthodes de contrôle de la qualité des entrepôts de données ont été développés, [Vaisman 07], reposant sur un travail de fond pour déterminer les critères de qualité [Wand 96].

Il est à noter que l’utilisateur doit jouer un rôle déterminant dans cette évaluation de la qualité [Daniel 08] : il doit à la fois être informé de la qualité, mais également, il peut lui même produire des avis concernant la qualité des données. Ces recherches recommandent donc la conception de sys-tèmes interactifs d’évaluation de la qualité. Ainsi, certains modules de SAS7, qui sont dédiés à l’analyse de la qualité de données, proposent une interface interactive pour que l’utilisateur intervienne dans le processus d’évaluation de la qualité.

Également, dans le domaine de la climatologie, une société, Méteo France International, publie un outil, Clisys8 qui propose un contrôle de cohérence des données climatiques. Pour cela, unflag qualité est associé à chaque élément climatique. D’après le site Web de la société, les paramètres mesurés sont les suivants :

– Tolérance : exécuté automatiquement lors du processus d’acquisition pour vérifier la va-lidité des éléments observés.

– Cohérence interne : exécutée par des experts9sur le contenu de la base de données pour valider la donnée ou la considérer comme douteuse.

– Cohérence temporelle : exécutée par des experts sur le contenu de la base de données pour tester la variation d’un élément dans le temps.

– Cohérence géographique : visualisaton géographique des données climatiques avec lien direct aux fonctions de modification des données.

Clisys propose un système interactif avec visualisation des données et de leur métadonnées. Dans ce système, les métadonnées et les données sont stockées dans un même SGBD. Ce système est ouvert et permet aux experts d’intégrer leurs propres connaissances.

Ces outils ou travaux insistent donc sur l’importance de proposer des systèmes interactifs pour l’éva-luation de la qualité des données, prenant en compte l’avis des experts, d’une part, et, d’autre part, de proposer un accès simultané aux métadonnées et aux données pour ces experts.

4.4 Conclusion

Dans ce chapitre, nous avons montré que l’analyse de la qualité, en particulier de la précision