Approches d‟évaluation de la qualité - Évaluation de la qualité des données géospatiales

Chapitre 2 – Revue de littérature

2.3 Évaluation de la qualité des données géospatiales

2.3.2 Approches d‟évaluation de la qualité

2.3.2.1

Cette section présente plusieurs exemples d‟approches basées sur des critères pour évaluer la qualité. Ces exemples ne sont pas les premières approches à avoir utilisé des critères pour prendre des décisions, mais sont plutôt des applications de ces approches au domaine des sciences géomatiques. Les approches plus générales sont rarement mentionnées dans la littérature par les entreprises qui les mettent en place, c‟est pourquoi nous avons choisi de nous concentrer sur les approches propres à notre domaine.

Afin de déterminer si un jeu de données pouvait répondre à des besoins communiqués par un utilisateur, une approche basée sur des critères de qualité a été proposée (Bédard et al., 1995).

Cette approche, développée avant la création des normes ISO sur la qualité que nous présenterons ultérieurement, utilise six critères, soit la définition, la couverture, la généalogie, la précision, la légitimité et l‟accessibilité. Ces critères sont déclinés en caractéristiques plus précises pour décrire les données. Par exemple, pour la définition, on peut retrouver la définition sémantique, la définition spatiale, la définition temporelle, ou une combinaison de ces critères. Une pondération peut alors être établie en fonction des informations disponibles, pondération variant de 0 à 3. Par exemple, l‟absence de définition sémantique peut conduire à une pondération de 0, et une présence partielle de la définition spatiale peut conduire à une pondération de 2. Afin d‟évaluer si les données sont aptes à satisfaire les besoins de l‟utilisateur, il faut évaluer les données disponibles en fonction de ces critères, de même que les besoins. Pour chacun des critères, une soustraction est effectuée entre la pondération de l‟état des données (les données elles-mêmes) ainsi que la pondération du besoin de l‟utilisateur. Il est ensuite possible de faire une moyenne des résultats obtenus et de vérifier la qualité globale des données : si la moyenne est supérieure à 0, les données sont globalement de bonne qualité, alors que si la moyenne est inférieure, elles ne le sont pas. Cette approche, qui avait été proposée dans un contexte gouvernemental au Québec, n‟a pas été retenue, car elle avait été jugée trop complexe pour les utilisateurs (Entrevue avec Yvan Bédard, 2013). L‟approche par réponse à des critères s‟apparente à celle présentée dans la norme ISO 19114:2002 : Information géographique – Procédures d‟évaluation de la qualité, qui a été mentionnée dans le premier chapitre de ce mémoire. Les concepts présentés par cette norme sont repris dans le projet de norme ISO 19157 Information géographique – Qualité des données. Le cadre proposé par ces normes implique de spécifier les données à évaluer, ainsi que les éléments de qualité à évaluer, puis à spécifier des mesures et des procédures d‟évaluation. Les méthodes d‟évaluation de la qualité sont alors séparées entre deux grandes catégories, soit les méthodes d‟évaluation directes et les méthodes d‟évaluation indirectes. Une méthode d‟évaluation directe consiste à aller inspecter les données à l‟intérieur du jeu de données, soit de façon complète ou par le biais d‟un échantillon. Une méthode d‟évaluation indirecte repose quant à elle sur des connaissances et de l‟expérience acquises au fil de l‟utilisation du jeu de données, et est considérée comme possiblement subjective par le projet de norme ISO 19157. Il y est indiqué comment les différents critères de qualité doivent être évalués et communiqués. La norme ISO 19157 ajoutera l‟élément de qualité Usability pour un jeu de données, qui sera entre autres utilisé pour communiquer la qualité lorsque différents éléments

norme prévoit des métadonnées indiquant quelle méthode d‟agrégation a été utilisée, et quels étaient les éléments de qualité utilisés pour produire cette agrégation. La norme suggère également des méthodes d‟agrégation des résultats telles qu‟une sommation ou une sommation pondérée. L‟utilisation d‟éléments de qualité et l‟agrégation de ceux-ci peuvent s‟apparenter à l‟utilisation d‟indicateurs et de tableaux de bord que l‟on retrouve dans le domaine de l‟intelligence d‟affaires, notions qui ont été reprises et appliquées dans les travaux de Devillers (2004).

D‟autres méthodes basées sur des critères ont été utilisées dans le domaine géospatial, par exemple dans le but de sélectionner des sources de données pour les intégrer et créer un nouveau produit (Charron, 1995). Nous nous permettons de dresser un parallèle entre ces travaux et l‟évaluation de la qualité des données géospatiales, car les données à intégrer (les données source) sont comparées à la définition de la base de données à référence spatiale (BDRS) cible, ce qui implique d‟évaluer leur qualité. Ces travaux ont été réalisés avant l‟apparition des normes ISO sur les métadonnées, ce qui veut dire que les métadonnées identifiées par Charron pour l‟intégration ne sont pas nécessairement conformes à une norme. Dans un premier temps, le processus vise à identifier les métadonnées qui devront être présentes dans le système cible. Par la suite, à partir des métadonnées des données source, l‟effort d‟intégration à effectuer doit être évalué, en se basant sur une échelle de 1 à 4. Cela permet alors de choisir, parmi les jeux de données présents, quels sont les meilleurs pour réaliser l‟intégration, et donc quels sont ceux qui ont la meilleure qualité externe. Cette méthode est particulièrement intéressante étant donné qu‟elle ne compare pas un seul jeu de données avec un autre, mais a pour but de combiner plusieurs jeux de données vers un seul. Cela peut s‟apparenter à un utilisateur voulant acquérir un jeu de données pour ses besoins, mais qui se voit confronté à l‟absence d‟un seul jeu de données lui permettant de tout réaliser. Voyant les caractéristiques manquantes, il est possible pour lui de chercher un jeu de données qu‟il pourrait intégrer avec le premier pour parvenir à combler ses besoins. Ainsi, cette volonté d‟intégration des données peut s‟apparenter à un processus de recherche dans un portail, à condition encore une fois que les métadonnées soient disponibles pour pouvoir comparer les données avec le besoin. Enfin, nous pouvons présumer que plus les efforts d‟adaptation des données source pour satisfaire les besoins de la BDRS cible étaient élevés, plus le risque de les utiliser telles quelles, sans adaptation, était également élevé.

Approche par évaluation des risques 2.3.2.2

L‟approche présentée dans cette section ne repose pas sur des critères de qualité ni sur aucune norme existante. Elle est plutôt basée sur le risque acceptable pour un utilisateur face à une décision donnée (Agumya et al., 1999a, Agumya et al., 1999b, Gary J. Hunter et al., 2006). Dans un premier temps, l‟approche implique de considérer l‟incertitude ou les erreurs présentes dans l‟information et de les exprimer comme un risque dans la décision à prendre, pour ensuite comparer ce risque avec le risque acceptable pour l‟utilisateur. Cette approche peut présenter des difficultés dans la mesure où la conversion de l‟incertitude vers le risque demande des informations qui pourraient ne pas être disponibles pour un utilisateur. Par exemple, si l‟utilisateur veut utiliser un MNT (modèle numérique de terrain) pour évaluer le risque d‟inondation dans une région donnée, il lui faut alors traduire en valeur de risque la présence d‟une incertitude de 20 millimètres sur les points utilisés pour construire le MNT. Il se pourrait aussi que l‟hydrographie soit présente, mais qu‟on ne connaisse pas l‟incertitude reliée au positionnement de celle-ci. Afin de mesurer la portée de l‟incertitude sur un point d‟élévation, il faut donc tenir compte de la présence ou non d‟habitations, la valeur de celles-ci, ainsi que d‟un modèle de simulation des crues dont on ne connaît pas nécessairement la portée, et les intégrer au calcul de risque. C‟est uniquement en combinant tous ces facteurs, leur impact, leur relation avec les autres facteurs que l‟on peut parvenir à avoir une idée réelle du risque relié à l‟incertitude des mesures du MNT.

Une notion centrale à cette approche concerne la définition de ce qu‟est un risque « acceptable » pour un utilisateur. Agumya et al., (1999b) proposent trois façons d‟estimer le risque acceptable d‟une décision pour déterminer la qualité externe des données. La première, le bootstrapping, implique de considérer l‟historique de l‟acceptabilité des risques dans ce domaine, et de l‟accepter s‟il l‟a déjà été dans le passé. La seconde implique d‟en appeler à un jugement professionnel, c‟est-à- dire de se baser sur l‟expérience personnelle et l‟intuition d‟un expert. La dernière façon repose sur une analyse coût-bénéfice, et implique donc de quantifier le bénéfice de la réduction du risque avec le coût relié à cette réduction.

L‟évaluation de la qualité en utilisant les risques n‟implique pas uniquement de déterminer si les données sont aptes à satisfaire un besoin, comme le propose une approche basée sur des critères, mais implique aussi de trouver des moyens de réduire l‟incertitude dans le cas où le risque de

répondre au besoin, quatre options de réduction de risque sont possibles, soit la réduction de sa probabilité d‟occurrence, la réduction de ses conséquences, la réduction du degré d‟utilisation des données et l‟évitement de l‟utilisation de ces données (Agumya et al., 2002). Ces mêmes travaux révèlent aussi qu‟afin de sensibiliser les utilisateurs à la présence d‟incertitude dans les données, la possibilité de se procurer une assurance en cas de dommages peut s‟avérer une avenue intéressante étant donné que cela leur permet de se référer à d‟autres produits de consommation de la vie courante.

Approche basée sur les utilisateurs et les usages 2.3.2.3

La plupart des méthodes d‟évaluation de la qualité que l‟on retrouve dans la littérature et qui tiennent compte de l‟usage envisagé des données sont des méthodes difficilement utilisables pour un utilisateur non expert en données géospatiales. Un guide de recherche de données spatiales a été développé par Ivánová et al. (2013), en utilisant les métadonnées présentes dans un portail pour guider un utilisateur non expert dans l‟évaluation de la propension des données à satisfaire l‟usage envisagé. Cette solution, qui porte le nom de GUESS, implique d‟améliorer l‟engin de recherche à l‟intérieur du portail, en incluant notamment des informations sur l‟utilisateur et sa façon de rechercher l‟information, puis en conservant l‟information sur les données finalement sélectionnées par l‟utilisateur. Cette façon de faire permet d‟aider un utilisateur non expert dans sa recherche de données spatiales, tout en fournissant des données qui correspondent autant que possible aux besoins qu‟il formule. De plus, la solution permet de comparer des utilisateurs entre eux et de fournir des informations basées sur les expériences des autres utilisateurs avec les jeux de données, ce qui permet d‟enrichir constamment les connaissances en matière de besoins de données pour différentes applications. L‟utilisateur non expert n‟a donc pas à fournir d‟effort particulier pour évaluer si les données permettent de répondre à ses besoins. Cependant, cette solution fonctionne uniquement si les données sont accompagnées de métadonnées de qualité et complètes.

Autres approches d’évaluation de la qualité 2.3.2.4

Il existe un pan de la recherche dans le domaine géospatial visant à mesurer l‟incertitude, le vague relié aux données, à l‟aide de théories basées sur des modèles exacts (probabilistes) ou des modèles flous (possibilistes) (Bejaoui et al., 2009). Contrairement aux travaux précédents qui ont été utilisés dans un contexte opérationnel, ces travaux sont à ce jour de nature purement académique et

cause de leur complexité théorique et de mise en œuvre. Des travaux sont présentement en cours afin de rendre la notion de vague spatial plus applicable dans la pratique et liée à la gestion du risque, particulièrement dans les cubes de données spatiales (Edoh-Alove et al., 2013).

On retrouve aussi des approches participatives d‟évaluation de la qualité perçue des données

Dans le document Nouvelle méthode pour mieux informer les utilisateurs de portails Web sur les usages inappropriés de données géospatiales (Page 42-47)