• Aucun résultat trouvé

Aller plus loin que les métadonnées et résoudre l’interopérabilité sé- sé-mantiquesé-mantique

Description de l’information statistique territoriale

3.5 Aller plus loin que les métadonnées et résoudre l’interopérabilité sé- sé-mantiquesé-mantique

Dans cette section, nous abordons les travaux relatifs au problème de l’interopérabilité sémantique que ne résolvent pas les métadonnées. En effet, à partir des informations structurées dans le profil de la norme ISO 19115, ou bien le modèle SDMX, il n’est pas encore possible de restituer simplement dans un formalisme exploitable par des automates les processus de transformation agissant sur les données ou bien leur sémantique. Si ces informations sont généralement décrites dans des rubriques structurées, le cœur de l’information est encore décrit par du texte écrit en langage naturel. Ce problème a déjà été souligné dans d’autres travaux [Barde 05], et ceci offre des pistes à explorer pour aller plus loin que les métadonnées et offrir ainsi une méthode pour mieux documenter la qualité de l’information en vue de construire un système d’information statistique plus intégré.

3.5.1 Calcul d’une ontologie de domaine pour résoudre l’interopérabilité sémantique Face au problème d’incohérence sémantique entre différentes sources de données, un nombre crois-sant de travaux s’oriente vers l’usage d’ontologies, tels ceux de [Pattuelli 03, Comber 10]. Ces travaux proposent des méthodes pour l’extraction semi-automatisée de métadonnées à partir de textes, mais éga-lement pour l’alignement sémantique de données issues de sources hétérogènes. [Comber 05] propose également des méthodes de construction d’ontologies à partir de métadonnées, dans le cadre de l’analyse de données d’occupation du sol.

Les travaux de [Wadsworth 06] et de [Comber 05, Comber 10] étudient plusieurs approches pour l’alignement des différentes catégories d’usage de sol, en vue de comparer des cartes d’occupation du sol produites par différents organismes, à dix ans d’intervalles. Ces catégories, qui sont qualitatives et non-ordonnées, présentent le même niveau d’hétérogénéité que les catégories socio-professionnelles. Parmi les différentes approches étudiées pour leur alignement, il ressort qu’une analyse détaillée de la description de la catégorie (lorsqu’elle comporte plus de 100 mots) par une technique de fouille de don-nées textuelle permet d’établir une matrice de recouvrement entre catégories, que les auteurs démontrent

supérieure aux autres techniques qui nécessitent l’intervention d’experts. La technique consiste à établir la liste des mots employées dans la description de chaque catégorie, puis à calculer leur poids sémantique dans chaque catégorie à l’aide d’une mesure de fréquence inverse dans le document (Inverse Document Frequency, IDF, telle que discutée par [Robertson 04]). Le niveau de recouvrement entre chaque caté-gorie est ensuite calculé via l’usage de la théorie de l’analyse sémantique latente probabiliste introduite par [Hofmann 99], qui stipule que la similarité sémantique entre deux concepts (ici les catégories) peut-être mesurée par la quantité d’information qu’ils partagent (les mots). Cette approche permet également d’identifier les concepts qui structurent une classification données, et les termes qui s’y rapportent. Les auteurs notent toutefois que les concepts identifiés varient d’une exécution à l’autre, et que la méthode doit encore être stabilisée.

Cependant, identifier que des indicateurs se rattachent à un même concept ne résout pas le problème d’équivalence des valeurs qui a été souligné dans la section A.1.5 page 6. L’ontologie sert essentiellement à résoudre et à raisonner sur les problèmes d’équivalences entre catégories. Il s’agit aussi de pouvoir ensuite raisonner sur les valeurs au niveau de leur transformations (modalités de calcul, réajustement, estimation).

3.5.2 Travaux relatifs à la capture d’un lignage

Pour raisonner au niveau des transformations, il faut se doter de formalismes de représentation. La description des transformations en vue de retrouver des données originelles à partir de données transfor-mées est une ambition affichée par [Woodruff 97], qui proposent un formalisme sous forme de graphe (direct et acyclique) du flot de données dans une base de données, chaque nœud modélisant une fonction de transformation, et chaque arc correspondant à une donnée particulière. Le graphe est défini par l’uti-lisateur, via une interface graphique. L’utilisateur spécifie chaque fonctionf de transformation, par son nom, et son type, ainsi que les paramètres d’entrée (des attributs de tuples), par leur type et leur nom, et l’indicateur produit par leur type. Cependant, le dictionnaire des fonctions de transformation proposé est pauvre par rapport à l’ensemble des opérateurs qui sont recensées dans la littérature, car ne sont distingués que deux types de fonction : les agrégats (min, max, compte, moyenne) et les scalaires (pro-duit, quotient, somme, etc.). « Scalaire » est de plus défini dans un sens différent du sens mathématique usuel, et l’adjectif s’applique aux fonctions qui permettent de retrouver une valeur à partir des attributs d’un unique tuple. Ces travaux s’appliquent donc essentiellement sur un modèle de données relationnel, et ces résultats ne s’exportent pas aisément dans un contexte moins structuré. Mais l’idée de structurer sous forme de graphe les relations entre indicateurs, et d’employer une interface graphique nous semble extrêmement pertinente.

Basé sur un formalisme de plus haut-niveau que constitue une ontologie, les travaux de [Brilhante 06] suggèrent également d’associent les indicateurs à leurs formules de calcul dans une base de connais-sances. Mais, d’une part, les modalités de construction et d’acquisition de ces opérateurs ne sont pas mentionnées, et, d’autre part, les formules ne sont pas rédigées dans un formalisme mathématique stan-dardisé.

3.6 Conclusion

Face au problème de la variabilité sémantique des données statistiques, il faut envisager de mieux décrire l’information statistique et c’est pourquoi les métadonnées sont considérées depuis longtemps comme une des solutions à ce problème. Les métadonnées sont des données qui renseignent sur la qualité des données, comprise au sens large : elles rapportent par exemple la source des données, le nom du pro-ducteur, l’année de production, la définition, la méthode de calcul employée, et les modalités d’échange des données. Les métadonnées interviennent au niveau du flux d’échange des données, et doivent aider les utilisateurs à comprendre si les données correspondent à leurs besoins. Elles sont normalement pro-duites par les producteurs des données. Pour assurer leur compréhension et l’interopérabilité entre les différentes sources de données, des normes définissant la syntaxe comme le contenu des métadonnées ont été établies. Dans d’autres domaines que celui de l’information statistique (pour les données de santé par exemple), l’usage et la production de métadonnées est ainsi devenue courante, et elle respecte ces normes.

Cependant, pour l’information statistique, on note une faible adhésion des producteurs aux méta-données. Dans ce domaine, le standard SDMX, qui modélise la structure multi-niveau des jeux de don-nées, et permet de prendre en compte l’aspect multidimensionnel des données semble le plus adapté. Avec SDMX, l’objectif est de proposer des métadonnées opérationnelles, c’est-à-dire prévues pour trai-ter immédiatement les données auxquelles elles sont associées dans un même support. Cependant, pour des producteurs encore peu au fait des métadonnées, décrire et partager leurs données avec SDMX est contraignant parce qu’ils doivent renoncer au format tabulaire des données, et s’ajuster au niveau tech-nologique que requiert l’emploi de langages semi-structurés comme XML. Il existe une autre norme, la norme ISO 19115, initialement prévue pour l’information géographique, et a priorila plus adaptée pour l’information statistique en dehors de SDMX. La norme ISO 19115, promue par la directive INS-PIRE, permet de produire des métadonnées sans contraindre les utilisateurs à changer le format de leurs données. L’étude de la norme ISO 19115 révèle en revanche certaines difficultés. Par exemple, la signi-fication de certains champs n’est pas toujours évidente et il manque des directives claires pour leur com-préhension et leur renseignement. Même comprises, certaines rubriques sont difficiles à remplir car elles mettent en jeu l’écriture et la formalisation de processus complexes, notamment celles qui concernent le lignage des données ou l’évaluation de la qualité des données. Enfin, cette norme ne correspond pas d’emblée à la structure d’un jeu de données, qui présente différents niveaux d’information.

La démocratisation des métadonnées pour l’information statistique passe notamment par des sim-plifications et une adaptation de cette norme, voire la spécification d’outils appropriés pour la capture et l’édition de ces métadonnées, afin de la rendre plus opérationnelle. Il s’agit aussi de s’interroger sur l’usage qui peut être fait d’une partie de ces informations supplémentaires. En effet, l’interopérabilité sémantique n’est pas encore acquise car de nombreux champs de métadonnées ne sont pas codifiés. Dans ce sens, l’établissement d’une ontologie de domaine statistique pourrait être un apport certain pour l’usage et la compréhension de ces données très hétérogènes. De même, il semble utile de représenter les processus de transformation que les données ont subis, de façon structurée, et des travaux se sont penchés sur la question, sans cependant aboutir à une solution suffisamment générique pour être réutilisée dans le contexte de notre recherche.

Analyse de la qualité des données par