• Aucun résultat trouvé

Le cas des tableaux statistiques

N/A
N/A
Protected

Academic year: 2022

Partager "Le cas des tableaux statistiques "

Copied!
22
0
0

Texte intégral

(1)

multidimensionnels évolutifs

Le cas des tableaux statistiques

Virginie Detienne* — Frédéric Vesentini** — Jean-Luc Hainaut*

* PReCISE research center/LIBD FUNDP - Université de Namur

21, rue Grandgagnage, B-5000 Namur, Belgique

** FRS-FNRS, Centre d’Histoire du Droit et de la Justice Université catholique de Louvain

vdt@info.fundp.ac.be, vesentini@chdj.ucl.ac.be, jlh@info.fundp.ac.be

RÉSUMÉ. Un des principaux avantages de la numérisation de documents est l’amélioration des possibilités de traitement et de recherche. Lorsque ces documents sont suffisamment structurés, leur contenu informationnel peut être entreposé dans un système de gestion de bases de données (SGBD), outil bénéficiant de capacités de traitement efficaces et dégagées des limites du format d’origine. Les tableaux statistiques, de par leur contenu fortement structuré, multidimensionnel et évolutif, sont particulièrement adaptés à ce type de stockage.

Le caractère récurrent des processus d’extraction et d’intégration des informations dans une base de données rend nécessaire le support d’une automatisation. L’exploitation de la base de données, qui doit considérer le caractère évolutif des informations, requiert également l’usage d’un outil d’analyse automatisé. Cet article traite de la modélisation multidimensionnelle des tableaux statistiques tous domaines d’application confondus, présente un prototype d’extraction et d’intégration de leur contenu dans une base de données et propose un outil d’aide à l’interprétation de ces données évolutives.

ABSTRACT. One of the main advantages of document digitalisation is the improvement of processing and research. Structured documents contents can be stored in a database management system (DBMS) for efficient processing independently of the original format.

Statistical tables, which are highly structured, multidimensional and evolving are such documents. Extracting high volume of statistical data and integrating them in a database need to be automated. Database exploitation must address the evolving characteristic of the information so that this task must be automated too. This paper deals with multidimensional modelling of any kind of statistical tables, presents a prototype allowing to extract data and to store them in the database, and put forward a help tool to interpret the changing data.

MOTS-CLÉS : entrepôt de documents multidimensionnels, tableaux statistiques, base de données, outil d’extraction de données.

KEYWORDS: multidimensional documents warehouse, statistical tables, database, data extraction tool.

DOI:10.3166/DN.10.2.63-83 © 2007 Lavoisier, Paris

(2)

1. Introduction

Face à la variété des formats de représentation des documents électroniques, plusieurs techniques d’aide à l’exploitation des documents numériques ont été développées. Lorsque les documents sont peu ou pas structurés, une solution consiste à indexer leur contenu puis à fournir un système de recherche basé sur un lexique de mots-clés (Camillerapp et al., 2004 ; Galloway et al., 1995). Certains outils enrichissent l’indexation en intégrant des métadonnées qui permettent de décrire le contenu des documents (Ceheux, 2002 ; Emptoz, 2003). Ces métadonnées et/ou des extraits du contenu du document peuvent également être stockés en XML (Keiper, 2001 ; Dang-Ngoc et al., 2004) ou dans des entrepôts de données (Darmont et al., 2002 ) de manière à faciliter les recherches. Les entrepôts de documents se basent quant à eux sur la structure du document. Celle-ci peut en effet permettre de détecter les sections les plus enclines à répondre aux besoins de l’utilisateur. Cette technique permet ainsi de stocker des documents hétérogènes, sélectionnés et filtrés ainsi que de les classer selon des structures logiques communes à l’ensemble des documents (Khrouf et al., 2003 ; Khrouf et al., 2005). Parallèlement à ces documents, qui sont par nature électroniques, un volume croissant de documents, souvent plus anciens, sous forme papier sont actuellement numérisés, ce qui autorise leur stockage, leur accès et leur exploitation par des moyens informatiques.

Lorsque les documents sont suffisamment structurés, c’est-à-dire qu’ils sont formés de composants significatifs articulés entre eux et que cette structure est d’application pour chacun des documents du corpus, leur contenu informationnel peut être entreposé dans un système de gestion de base de données (SGBD) offrant des possibilités de traitement particulièrement puissantes et dégagées des limites du format d’origine. Les tableaux statistiques sont des documents typiquement adaptés à ce type de stockage. Ils présentent en effet une structure multidimensionnelle : ils décrivent des faits (nombres de personnes, de pays…) mesurés selon différentes dimensions (âge, superficie…). De plus, les analyses statistiques nécessitant généralement le croisement de multiples tableaux, l’utilisation d’une technologie optimisant les fonctionnalités de recherche est primordiale et les SGBD répondent complètement à ce besoin. La difficulté majeure lors de la création d’une telle base de données ne réside pas seulement dans la modélisation multidimensionnelle des documents, mais dans l’extraction de l’information et dans son intégration à la base de données. Il s’agit d’établir les relations qui existent entre les éléments des tableaux statistiques et le schéma de la base de données. Ce tissu de liens étant très dense, le recours à un outil destiné à automatiser le processus d’extraction s’avère le plus souvent indispensable.

Lorsque les données de documents s’étendant sur de longues périodes ont été extraites, puis transférées dans la base de données, se posent souvent des problèmes d’interprétation. Les informations statistiques peuvent en effet subir des glissements sémantiques au cours du temps. Il est donc primordial de s’interroger sur la légitimité des séries de chiffres temporelles, c’est-à-dire de se demander si les

(3)

chiffres représentent la même réalité au cours du temps et s’ils peuvent par conséquent être comparés. L’analyse systématique de la sémantique des chiffres est une tâche importante et fastidieuse qui requiert, elle aussi, le support d’une forte automatisation laissant place, à l’occasion, au jugement de spécialistes.

Le projet Quetelet.net s’inscrit dans cette problématique. Il vise à la construction d’un système critique de numérisation, d’intégration et d’accès aux statistiques pénales publiées en Belgique depuis 1830 (Detienne et al., 2005). Outre le fait que l’essentiel du corpus se présente sous la forme d’ouvrages imprimés, son originalité repose sur l’inclusion au sein même de l’application d’un appareillage critique éclairant les usagers quant aux éventuelles variations de sémantique des chiffres présentés. Ce système est appliqué aux statistiques pénales, mais il est construit de façon générique, de sorte qu’il puisse être utilisé dans tout autre domaine statistique, économique, démographique ou médical par exemple.

Cet article se concentre sur les aspects méthodologiques et technologiques de la numérisation, de l’intégration et de l’exploitation des données développés dans le cadre du projet Quetelet.net. La section 2 propose une méthode d’entreposage des données. La conception et l’implémentation de la base de données font l’objet de la section 3, tandis que l’extraction des données présentées sous forme de tableaux et leur intégration à la base de données sont décrites dans la section 4. La méthode de génération automatique de commentaires critiques est brièvement décrite dans la section 5. La section 6 conclut l’article.

2. Méthode d’entreposage des données

Les tableaux statistiques sont des documents présentant des caractéristiques très typées. D’une part, ils sont fortement structurés et représentent des concepts en principes parfaitement définis. D’autre part, ils possèdent une dimension temporelle lorsqu’ils décrivent des réalités qui s’échelonnent dans le temps.

Plusieurs techniques permettent de stocker des données structurées. Les informations peuvent être enregistrées dans le format XML ou intégrées dans un SGBD. Cependant, les analyses statistiques requérant en général le croisement et l’agrégation de données issues de différents annuaires et tableaux, le choix se portera sur le SGBD qui est plus efficace en ce qui concerne les possibilités de recherche et de croisement de données. Ce type d’outil supporte en effet l’interprétation de requêtes complexes et offre des temps de réponse extrêmement performants, même lorsqu’on se limite aux fonctionnalités du langage SQL standard, à l’exclusion des extensions d’analyse de données de SQL3.

Étant donné la structure précise des tableaux statistiques, l’intégralité de leur contenu informationnel peut être stocké dans une base de données. Les informations sont réparties dans des tables matérialisant différents concepts. Les données issues des documents sont par conséquent organisées d’une manière différente, bien

(4)

qu’équivalente sur le plan informationnel, de celle sous laquelle elles se présentent naturellement sur papier.

L’entreposage de tableaux statistiques requiert la conception, l’implémentation et le chargement d’une base de données à partir de tableaux disponibles soit sous format électronique, soit sous format papier.

Figure 1. Fragment de tableau de la statistique criminelle de 1952

tableaux statistiques

images

phase concernant la structure du tableau conception et implémentation de la base de données

phase concernant les données du tableau remplissage de la base de données

base de données

Figure 2. Les deux phases de l’entreposage des documents statistiques

(5)

Un tableau comporte deux catégories d’information : la structure des données, parfois appelée méta-données, d’une part, et les données proprement dites d’autre part (figure 1). L’entreposage des données s’articule en deux phases qui correspondent au traitement de ces deux catégories (figure 2). La première phase consiste à modéliser la structure du tableau et à en dériver la structure de la base de données, sous la forme d’un schéma. Il est alors possible de créer la base de données. C’est au cours de la seconde phase que le remplissage de la base de données est réalisé à l’aide des valeurs présentes dans le tableau.

3. Création de la structure de la base de données 3.1. Concepts représentés dans les tableaux statistiques

Tout tableau statistique décrit des faits observables mesurés selon différentes dimensions. Dans le tableau de la figure 1, par exemple, le fait chiffré est un nombre de condamnés, comptage réalisé selon cinq dimensions : la profession (Jardinage, etc.), l’état social (Patrons), le groupe générique de l’infraction commise (Calomnies et injures), le sexe (HOMMES) et le temps (ANNEE 1952).

La position de ces dimensions n’est ni unique ni uniforme : profession et état social apparaissent dans l’intitulé des colonnes et dans le titre, alors que groupe générique de l’infraction commise n’est indiqué que dans le titre. Concernant les valeurs, l’instanciation des dimensions profession et état social se décline dans les colonnes 1 et 2. La liste des groupes d’infractions fournit pour sa part les intitulés des colonnes 3 à 11. Quant aux dimensions sexe et temps, leurs noms ne sont pas évoqués tels quels. Il faut se référer au sous-titre pour en trouver les valeurs (hommes et année 1952) et déduire les dimensions qu’elles représentent. Pour hommes, c’est la consultation du tableau suivant concernant les femmes qui permet de déduire que cet intitulé représente un type de donnée relatif au sexe dans une division hommes/femmes. Cette description d’un tableau aux apparences des plus ordinaires montre combien la présentation des structures et des données est hétérogène. Elle souligne par ailleurs le lien intime souvent chargé de sémantique qui lie le tableau à sa place dans le recueil. Il convient dès lors de maîtriser parfaitement la diversité de présentation des statistiques avant d’envisager la structuration de la base de données.

3.2. Structuration de la base de données

L’élaboration de la structure de la base de données commence par une étape d’analyse qui consiste à modéliser les types de données des tableaux statistiques. Les éléments de ces tableaux doivent être décrits de manière abstraite et indépendante de toute technologie. Le modèle Entité-association permet de décrire un domaine d’application sous la forme d’un schéma conceptuel constitué d’un ensemble

(6)

d’entités, dotées de propriétés et en association les unes avec les autres, et ce, sans référence aux notions techniques de tables, colonnes et autres index (Hainaut, 2005).

Figure 3. Schéma conceptuel des tableaux statistiques

Un domaine d’application est perçu comme constitué d’entités concrètes ou abstraites. Dans l’univers de la statistique, on repère des tableaux, des faits mesurés et des dimensions. On considère que chacun d’entre eux est une entité du domaine et que chaque entité appartient à une classe ou un type d’entités. On définit dès lors naturellement trois types d’entités qu’on nommera TABLEAU, FAIT et DIMENSION (figure 3). Un tableau est issu d’une statistique. Dans notre exemple, il s’agit de la statistique criminelle. Il possède un numéro (exemple de valeur : "3"), un titre (« condamnés répartis par profession, état social et groupe générique de l’infraction commise ») qui peut être mentionné dans une seconde langue, éventuellement un ou plusieurs sous-titres également notés dans les deux langues

Contraintes d'intégrité :

Les nomenclatures d'un même groupe doivent appartenir à la même dimension 0-1

0-N signification

1-1 représentation 0-N

1-1 0-N instanciation

est le fils de 0-N est le père de

0-N

hiérarchie contient

0-N

est compris dans 0-N hiérarchie

0-N

0-N groupement Position 1-1 0-N

caractérisation

1-1 0-N

appartenance

1-1 appartenance 0-N

1-N 0-N appartenance

TYPE Numero Total Nom[0-1]

id: Numero

TABLEAU Statistique Numéro Titre Titre_l2[0-1]

Sous-titre[0-N]

Sous-Titre Sous-titre_l2[0-1]

Prem. page Dern. page Début Fin id: Statistique

Numéro Début Fin SEMANTIQUE

Nom Définition

id: appartenance.DIMENSION Nom

NOMENCLATURE Nom

Nom_l2[0-1]

id: Nom

instanciation.CARACTERISTIQUE

GROUPE Type Total Début Fin id: Type

Début Fin

FAIT Id Chiffre Unité de compte Type de compte Début Fin id: Id

DIMENSION Nom id: Nom

CARACTERISTIQUE Signification

id: caractérisation.DIMENSION Signification

(7)

(« hommes »), les numéros de page du tableau (50 à 50), et une période pour laquelle il est valide (01-01-1952 au 31-12-1952). On modélise ces caractéristiques en allouant au type d’entités TABLEAU les attributs Statistique, Numéro, Titre, Titre_l2, Sous-titre décomposé en Sous-titre et Sous-titre_l2, Prem. Page, Dern. Page, Début et Fin.

De même, un fait mesuré (FAIT) est représenté par un chiffre ("3" pour le premier chiffre du tableau), une unité de compte (« condamnés »), un type de compte (« nombre »), et une période de validité (01-01-1952 au 31-12-1952). Il existe un lien entre un tableau et chacun des chiffres qu’il contient. On dira que tous les liens de cette nature appartiennent au type d’associations appartenance entre les types d’entités TABLEAU et FAIT. Un tableau contient de zéro à plusieurs chiffres (0-N) alors qu’un chiffre ne peut appartenir qu’à un seul tableau (1-1).

Notre exemple comporte, outre le temps, quatre DIMENSIONS dénommées profession, état social, infraction et sexe. Le concept du temps est représenté par les attributs Début et Fin spécifiant la période de validité de l’entité. Les éléments des nomenclatures, c’est-à-dire des ensembles de valeurs de chacune des dimensions citées dans le tableau, sont représentés par le type d’entités NOMENCLATURE. La dimension état social, par exemple, comporte les éléments de nomenclature {patrons, employés, ouvriers, aidants, indéterm.}. NOMENCLATURE et DIMENSION sont liés via le type d’entités CARACTERISTIQUE qui précise la signification de l’élément de la nomenclature. Patrons, employés, ouvriers, aidants et indéterm., par exemple, sont les noms des éléments de la nomenclature de la dimension état social (« nom » est la valeur de l’attribut signification de CARACTERISTIQUE). Considérons une dimension lieu dont une des valeurs de nomenclature est « arrondissement d’Arlon ». Arrondissement est dès lors le type de lieu (signification a la valeur « type »), et Arlon est le nom du lieu (signification a la valeur « nom »). Ces deux valeurs d’éléments de nomenclature sont alors répertoriées dans un même type (TYPE). Les types de chaque dimension constituent des typologies de structure hiérarchique (type d’associations hiérarchie) qui permettront à l’utilisateur de formuler ses requêtes (Detienne et al., 2005). Un groupe (GROUPE) est un type auquel on associe une dimension temporelle (Vstart et Vend). Chaque groupe correspond à un type (1-1) alors qu’à un type peuvent être associés un nombre quelconque de groupes (0-N). C’est à des groupes et leurs caractéristiques temporelles que sont associés les faits mesurés (FAIT). Pour chaque groupe, il est spécifié s’il s’agit d’une valeur primaire ou d’une valeur agrégée (total).

Cette information permettra de calculer des totaux à partir des valeurs primaires et de les comparer aux totaux mentionnés dans les tableaux, les éventuelles divergences n’étant pas corrigées, mais simplement identifiées. Il peut exister une relation hiérarchique entre deux groupes (hiérarchie). Le canton de Vilvorde par exemple fait partie de l’arrondissement de Bruxelles. La sémantique d’un groupe peut être décrite dans le type d’entités SEMANTIQUE sous la forme d’une annotation.

(8)

Ce schéma conceptuel1 est un méta schéma qui représente à la fois les modèles en étoile, en flocons de neige et en cubes utilisés dans le domaine des entrepôts de données (data warehouses). Il présente dès lors un caractère générique et est par conséquent valide pour tous les tableaux statistiques, quel que soit le domaine d’application analysé.

Le schéma conceptuel, qui modélise les statistiques indépendamment de toute contrainte technologique, est ensuite transformé selon une procédure standard (Hainaut, 2005) en un schéma logique sémantiquement équivalent mais conforme au modèle des SGBD relationnels (figure 4). Le schéma logique est alors traduit dans le langage de définition de données (SQL-DDL) du SGBD sélectionné et compilé. Les structures de la base de données sont créées et peuvent désormais accueillir les valeurs extraites des tableaux.

4. Extraction des données

4.1. Nécessité d’un outil de collecte

L’objectif de l’extraction des données est d’identifier, copier et enregistrer les éléments statistiques des tableaux dans les tables appropriées de la base de données.

Le tissu de liens entre le tableau et son schéma logique étant très dense (figure 4), le recours à un outil de collecte destiné à automatiser, au moins partiellement, le processus d’extraction des données et celui de leur stockage dans la base de données est essentiel.

La solution idéale consisterait à analyser le document numérique à l’aide d’un outil permettant de reconstruire sa structure logique. En d’autres termes, les liens entre le tableau et le schéma seraient automatiquement identifiés. Chacun des éléments du tableau serait ainsi associé au fait, à la dimension ou à l’élément de nomenclature qu’il représente et pourrait être enregistré dans la base de données.

Cependant, la représentation des dimensions et de leurs valeurs dans les tableaux statistiques est très hétérogène et temporellement instable, aussi bien entre les tableaux qu’entre les recueils. L’intervention humaine se révèle dès lors nécessaire pour identifier à quelles dimensions correspondent les intitulés des tableaux.

Dans le cadre du projet Quetelet.net, les documents sources se présentent sous la forme de photographies numériques des annuaires statistiques sur papier. La mauvaise qualité de ces recueils – certains volumes ont plus de 175 ans - rend pour l’instant irréaliste l’utilisation de logiciels de reconnaissance optique de tableaux. De plus, ces outils sont peu adaptés à l’examen de documents d’une telle complexité

1. Certaines contraintes d’intégrité liées au caractère temporel du schéma ne sont pas explicitement déclarées. Par exemple, l’intervalle de validité [Debut, Fin] d’un fait doit être compris dans l’intervalle de validité [Debut, Fin] du tableau qui lui est associé (Detienne et al., 2001). Elles devront être garanties par toute application exploitant les données.

(9)

structurelle. Des signes typographiques variés tels que des accolades, des guillemets, des tirets ou des abréviations (par exemple idem) sont en effet largement utilisés et malheureusement polysémiques. La compréhension de leur sémantique, triviale pour l’être humain, n’est actuellement pas à la portée des outils de reconnaissance (figure 5). Le choix s’est donc porté sur un encodage manuel assisté, basé sur un outil de collecte qui, par l’intermédiaire d’une interface graphique, permet la création des liens entre les éléments statistiques et la structure de la base de données.

TYPE Numero Nom[0-1]

Total id: Numero

TABLEAU Statistique Numéro Titre Titre_l2[0-1]

Prempage Dernpage Debut Fin id: Statistique

Numéro Debut Fin

SOUSTITRE Statistique Tableau Debut Fin Sous-titre Soustitre_l2[0-1]

id: Statistique Tableau Debut Fin Sous-titre ref: Statistique

Tableau Debut Fin SEMANTIQUE

Id Dimension Nom Définition id: Id

ref: Dimension NOMENCLATURE

Dimension Signification Nom Nom_l2[0-1]

id: Nom Dimension Signification ref: Dimension Signification HIERARCHIE_T

Pere Fils Debut Fin id: Pere

Fils Debut Fin ref: Fils Debut Fin ref: Pere

Debut Fin

HIERARCHIE Fils Pere id: Fils

Pere ref: Pere ref: Fils GROUPEMENT Nom Dimension Signification Type Position Nom_l2[0-1]

id: Type NomDimension Signification ref: Nom

Dimension Signification ref: Type GROUPE

Type Total Debut Fin Semantique id: Type

Debut Fin ref: Semantique ref: Type

FAIT Id Chiffre Unité de compte Type de compte Debut Fin Statistique NumTab Debut_Tab Fin_Tab id: Id ref: Statistique

NumTab Debut_Tab Fin_Tab DIMENSION Nom

id: Nom CARACTERISTIQUE

Dimension Signification id: Dimension

Signification ref: Dimension

APPARTENANCE Fait Groupe Debut_Gr Fin_Gr id: Fait Groupe Debut_Gr Fin_Gr ref: Groupe

Debut_Gr Fin_Gr equ: Fait

TYPE Numero Nom[0-1]

Total id: Numero

TABLEAU Statistique Numéro Titre Titre_l2[0-1]

Prempage Dernpage Debut Fin id: Statistique

Numéro Debut Fin

SOUSTITRE Statistique Tableau Debut Fin Sous-titre Soustitre_l2[0-1]

id: Statistique Tableau Debut Fin Sous-titre ref: Statistique

Tableau Debut Fin SEMANTIQUE

Id Dimension Nom Définition id: Id

ref: Dimension NOMENCLATURE

Dimension Signification Nom Nom_l2[0-1]

id: Nom Dimension Signification ref: Dimension Signification HIERARCHIE_T

Pere Fils Debut Fin id: Pere

Fils Debut Fin ref: Fils Debut Fin ref: Pere

Debut Fin

HIERARCHIE Fils Pere id: Fils

Pere ref: Pere ref: Fils GROUPEMENT Nom Dimension Signification Type Position Nom_l2[0-1]

id: Type NomDimension Signification ref: Nom

Dimension Signification ref: Type GROUPE

Type Total Debut Fin Semantique id: Type

Debut Fin ref: Semantique ref: Type

FAIT Id Chiffre Unité de compte Type de compte Debut Fin Statistique NumTab Debut_Tab Fin_Tab id: Id ref: Statistique

NumTab Debut_Tab Fin_Tab DIMENSION Nom

id: Nom CARACTERISTIQUE

Dimension Signification id: Dimension

Signification ref: Dimension

APPARTENANCE Fait Groupe Debut_Gr Fin_Gr id: Fait Groupe Debut_Gr Fin_Gr ref: Groupe

Debut_Gr Fin_Gr equ: Fait

Figure 4. Liens entre un tableau statistique et son schéma logique relationnel

(10)

L’encodage semi-automatique, lié aux caractéristiques de sources historiques de mauvaise qualité, laissera la place à une procédure automatisée lorsque les statistiques plus récentes seront fournies sous forme électronique (fichiers Excel par exemple). Le travail d’encodage se résumera alors à établir les correspondances entre le format électronique et le schéma de la base de données.

Figure 5. Exemple de complexité structurelle d’un tableau. Les accolades indiquent que les intitulés des infractions se ventilent sur plusieurs lignes. Les guillemets mentionnent la répétition du terme noté à la ligne supérieure. Les tirets représentent un chiffre égal à zéro et non une absence de donnée

4.2. Encodage des données 4.2.1. Encodage en deux phases

La méthode adoptée propose un encodage en deux temps (figure 6). La première phase ou encodage sémantique consiste à décrire, au moyen d’un formulaire, la structure des tableaux. L’encodeur, qui doit justifier d’une bonne connaissance du domaine statistique étudié mais d’aucune connaissance particulière en bases de données, y précise pour chaque intitulé de ligne ou de colonne, le concept que celui- ci illustre, son nom, sa position dans le tableau, etc. Au cours du remplissage de ce formulaire, les informations nécessaires à la formalisation des correspondances entre les éléments du tableau et le schéma de la base de données sont saisies. Un formulaire HTML imitant le tableau statistique source est alors généré automatiquement à partir des informations du formulaire de description. Ce tableau généré comporte le titre et les intitulés de lignes et de colonnes, mais les cellules destinées à recevoir les chiffres sont vides. La deuxième phase consiste en l’encodage des chiffres. Cette tâche peut être réalisée par une personne sans connaissances ni en statistiques, ni en informatique. Le résultat est un tableau entièrement complété dont les liens avec le schéma de la base de données sont formellement établis. Le remplissage est ensuite effectué automatiquement.

tableau statistique

description de la structure du tableau

génération d’un formulaire

analogue au tableau

formulaire HTML

sans chiffre formulaire

de description

encodage des chiffres

formulaire HTML

avec chiffres

remplissage automatique de la BD

base de données

encodage sémantique encodage des chiffres

Figure 6. Méthode d’encodage des données. Les tâches d’encodage sont spécifiées par la présence d’un personnage

(11)

4.2.2. Encodage sémantique

Le formulaire de description des tableaux permet de décrire à la fois la sémantique du titre ainsi que celle de chacun des intitulés. Un formulaire de structure analogue à celle du tableau analysé est ensuite généré en vue de la saisie des chiffres.

4.2.2.1. Informations relatives à l’ensemble du tableau

La description d’un tableau implique la saisie des informations relatives à son identification, c’est-à-dire son titre, ses éventuels sous-titres, son numéro, sa période de validité et la statistique à laquelle il appartient (figure 7). Les statistiques étant parfois multilingues, il est nécessaire d’enregistrer les données simultanément dans toutes les langues, de manière à éviter l’encodage de tableaux distincts. Les informations figurant dans le titre ou le sous-titre et qui ne sont pas répétées au sein même du tableau sont considérées comme des intitulés à part entière caractérisant l’ensemble des chiffres. Dans notre exemple (figure 1), le sous-titre hommes spécifie que tous les chiffres du tableau représentent des condamnés du sexe masculin. Cette précision ne figure pas dans les intitulés de lignes et de colonnes et doit donc être stipulée, au moment de l’encodage du sous-titre, comme une information décrivant l’ensemble des faits mesurés.

Figure 7. Description du titre d’un tableau

4.2.2.2. Intitulés de lignes et de colonnes

Les intitulés de ligne ou de colonne sont décrits les uns à la suite des autres (figure 8). L’objectif est de définir la dimension représentée par chacun d’eux. Pour certaines dimensions, le nom de l’intitulé, c’est-à-dire l’élément de la nomenclature,

(12)

est la seule information à stipuler. Pour d’autres dimensions, il est nécessaire de mentionner des renseignements complémentaires. Pour un lieu, par exemple, on notera non seulement le nom du lieu (Bruxelles, Anvers,…) mais également son type (canton, commune,…). La position de l’intitulé dans le tableau, c’est-à-dire la ligne, la colonne et le niveau auxquels il se situe, est également saisie afin de préparer la génération du formulaire analogue au tableau.

Il apparaît que certaines structures de tableaux se répètent d’une période à l’autre. L’encodeur a dès lors la possibilité de copier en tout ou en partie les données saisies précédemment pour un autre tableau.

Figure 8. Formulaire de saisie des intitulés

4.2.2.3. Génération du tableau destiné à la saisie des chiffres

Grâce à la description du tableau statistique, un formulaire similaire au tableau source et destiné à recevoir les chiffres est généré automatiquement (figure 9).

(13)

Figure 9. Tableau d’encodage des chiffres

insert into dimension set nom="profession" ;

insert into caracteristique set dimension="profession", signification="nom" ;

insert into nomenclature set dimension="profession",signification="nom",nom="Jardinage, culture maraîchère, arboriculture, horticulture, viticulture" ;

insert into type set numero=1, total="non";

insert into groupement set dimension="profession" , signification="nom" , nom="Jardinage, culture maraîchère, arboriculture, horticulture, viticulture" , type=1 , position=1 ;

insert into groupe set type=1 , total="non", debut=‘1952-01-01’, fin=‘1952-12-31’

insert into fait set chiffre=3, unite_compte="condamnés", type_compte="nombre", debut=‘1952-01-01’, fin=‘1952-12-31’, statistique="criminelle", numtab="3", debut_tab=‘1952-01-01’, fin_tab=‘1952-12-31’ ; insert into appartenance set fait=1, groupe=1, debut_gr=‘1952-01-01’, fin_gr=‘1952-12-31’

Figure 10. Exemples de requêtes de remplissage de la base de données

4.2.3. Encodage des chiffres et garnissage de la base de données

Lorsque tous les chiffres ont été introduits, les requêtes de remplissage de la base de données sont composées automatiquement grâce aux informations stockées au cours des deux types d’encodage (figure 10). Le générateur de requêtes, qui établit les liens entre le tableau et la base de données, considère que les concepts sont des dimensions et que les noms des intitulés sont des nomenclatures de type nom (caractéristique). Quant aux chiffres, ils sont analysés comme des faits. Leur

(14)

position dans le tableau permet de définir leurs liaisons avec les nomenclatures. Le chiffre situé à la colonne x et à la ligne y est associé aux intitulés localisés en colonne x ou en ligne y, tous niveaux confondus.

Ces requêtes exécutées, la base de données contient la même information que le tableau statistique. Un extrait des données correspondant au tableau de la figure 1 est représenté graphiquement à la figure 11.

profession état social sexe

19521 ... ...

Jardinage, culture

maraîchère,... patrons ... Indéterm. Crimes

et

délits... ... Destructions, dégradations,

... hommes

nom nom nom nom

chiffre:

année3 1952

chiffre:

année2 1952

groupe générique de

l’infraction commise

1 2 ... 6 7 ... 15 16

19522 6

1952 7

1952 15

1952 16

1952

1-N 0-N appartenance

1-1 0-N représentation

0-N 0-N groupement

1-1 0-N instanciation

1-1 0-N caractérisation

FAIT GROUPE

TYPE NOMENCLATURE CARACTERISTIQUE DIMENSION

Figure 11. Liens entre les principaux concepts de la base de données (cases gris clair) et leurs instances (cases gris foncé)

5. Exploitation et appareillage critique

Une base de données statistiques couvrant de longues périodes peut poser des problèmes complexes d’interprétation lors de son exploitation. Le chiffre, s’il constitue un puissant outil d’analyse, n’en reste pas moins un objet d’histoire.

Rendant compte d’une réalité évolutive dans le temps, il est produit à chaque instant par des institutions données selon des procédures définies, lesquelles évoluent. Le chiffre a donc lui aussi un passé qui a modelé sa sémantique. Avant d’interpréter une série temporelle de chiffres, il convient donc de distinguer les composantes stables de sa sémantique de celles qui ont évolué dans le temps. (Detienne et al., 2005)

Ce sont essentiellement les nomenclatures des dimensions qui évoluent au cours du temps, entraînant notamment l’apparition de phénomènes de synonymie et de

(15)

polysémie lors des exploitations diachroniques. Deux intitulés (noms d’éléments) distincts représenteront la même réalité à des périodes différentes alors qu’ailleurs, un même intitulé subira d’une période à l’autre un glissement sémantique. On assistera également à des restructurations plus complexes de nomenclature : regroupement, éclatement, suppression, introduction, remplacement, renommage, recomposition d’éléments par exemple. Parallèlement à l’évolution des nomenclatures des dimensions, il faut également tenir compte des modifications des procédures de construction des chiffres qui affectent, elles aussi, leur signification.

Ce phénomène a fait récemment l’objet d’études dans le domaine voisin des entrepôts de données (data warehouses). (Vaisman et al., 2002) propose un prototype supportant la mise à jour des dimensions. Cet outil permet également de gérer la maintenance de vues, c’est-à-dire d’ensembles de faits mesurés selon certaines dimensions, qui doivent être actualisées en fonction des modifications apportées aux dimensions. D’autres études se penchent sur la gestion de versions multiples de schémas liées à des périodes déterminées, ainsi que sur la résolution des requêtes portant sur des périodes couvrant plusieurs versions. (Eder et al., 2001) présente une extension du modèle multidimensionnel de données employé habituellement dans les entrepôts de données, de manière à supporter les évolutions des éléments des dimensions. Ce modèle temporel permet l’enregistrement des différentes versions des éléments des dimensions s’échelonnant dans le temps. Des règles établissent les correspondances entre les données des diverses versions temporelles. Le système peut ainsi répondre correctement aux requêtes couvrant plusieurs versions en établissant les transformations de données adéquates.

(Golfarelli et al., 2004) propose quant à lui une approche selon laquelle le concepteur peut décider de modifier les données des anciennes versions afin d’augmenter les possibilités d’interrogation couvrant des versions multiples.

Dans le cadre de tableaux statistiques s’étendant sur de longues périodes, le traitement formel de l’évolution des nomenclatures n’a pas été jugé réaliste et a été écarté au profit d’une approche semi-formelle permettant de prendre en compte des aspects spécifiques connus des seuls experts du domaine. La solution optimale pour garantir la légitimité des séries temporelles est de définir la sémantique des éléments des nomenclatures qui décrivent les chiffres, puis de comparer, pour chacune des dimensions, les sémantiques des chiffres confrontés sur la ligne du temps. Si elles sont identiques, les chiffres peuvent être comparés. Si elles sont contradictoires, il faut en tenir compte dans l’interprétation de la série [1].

N: ensemble des types d’une typologie

( )

n

S N n∈ ,

∀ représente, dans un formalisme approprié, la sémantique du type n

( )

n p

S N n∈ ,

∀ : sémantique dans un formalisme approprié du type n pendant la période p

, N n

S

( )

n t =S

( )

n t+1chiffrescomparables

(16)

, N n

S

( )

n tS

( )

n t+1chiffresnoncomparables [1]

Cependant pratiquement, dans de nombreux domaines d’application, il est très difficile, voire impossible, de décrire de manière formelle la sémantique de tous les éléments de chaque nomenclature. Dans le cas de statistiques pénales par exemple, pour la dimension des infractions, il faudrait reconstituer et formaliser l’historique du code pénal, ce qui constituerait une tâche d’une ampleur colossale.

Pour pallier ce problème, des outils permettant de repérer la plupart des évolutions de nomenclatures peuvent être utilisés. Il suffit de construire, pour chaque dimension, une typologie affichant une structure hiérarchique de relation d’ordre partiel de types dont la racine correspond au nom de la dimension et dont les feuilles sont les éléments des nomenclatures présentes dans la statistique. Les niveaux intermédiaires regroupent les éléments des nomenclatures par thèmes. Lors de la comparaison de deux chiffres appartenant à deux périodes différentes, il convient dès lors de consulter la typologie de chacune des dimensions décrivant chaque chiffre. La procédure [2] consiste à sélectionner la feuille qui correspond à l’intitulé analysé, à déterminer son type parent, puis à répertorier l’ensemble des types fils de ce dernier pour chaque période étudiée. Si les partitions d’intitulés sont identiques pour les deux périodes, il y a de fortes chances que les sémantiques n’aient pas évolué. Dans le cas contraire, il convient de s’interroger sur un éventuel glissement sémantique.

N: ensemble des types d’une typologie

( )

n

P N n∈ ,

∀ désigne l’élément parent du type n dans la hiérarchie

( )

n

E N n∈ ,

∀ désigne les types enfants du type n dans la hiérarchie t: période

, N n

E

(

P

( )

n

)

t =E

(

P

( )

n

)

t+1chiffresconsidéréssérialisables ,

N n

E

(

P

( )

n

)

tE

(

P

( )

n

)

t+1alerteglissementsémantique [2]

Le premier exemple de la figure 12 illustre la typologie de la dimension sexe. Le type sexe est le nom de la dimension et joue le rôle de la racine dans la typologie.

Les valeurs hommes, femmes et enfants rencontrées dans la statistique représentent les feuilles de la structure hiérarchique. Supposons que l’on veuille comparer deux chiffres décrivant des hommes sur l’intervalle de temps [n, n+1]. Dans la typologie relative au sexe, le parent de la feuille hommes est le type sexe. La partition des fils du type sexe est composée des valeurs {hommes, femmes} pour la période n, alors que la partition de la période n+1 est constituée de {hommes, femmes, enfants}.

Cette observation montre que les chiffres représentant les hommes et les femmes lors de la période n comptabilisent également les mineurs d’âge. Pour la période n+1, par contre, ces derniers ne sont pas repris dans le comptage des catégories hommes et femmes. Deux chiffres décrivant des hommes relatifs à ces deux périodes ne sont

(17)

donc pas légitimement comparables puisqu’ils ne représentent pas la même réalité.

Cependant, des évolutions de partitions n’impliquent pas toujours des variations sémantiques. Dans le second exemple de la figure 12, l’apparition de deux nouveaux délits ne modifie en rien la définition de la violation de confidentialité de lettres. En conclusion, lorsqu’une modification de partition apparaît, elle dévoile une variation potentielle de sémantique qui doit être notifiée à l’utilisateur.

Dans le projet Quetelet.net, un moteur d’analyse des séries temporelles a été développé à partir des règles de sérialisation, c’est-à-dire de comparaison de chiffres dans le temps, définies ci-dessus ([1] et [2]). Cet outil a pour mission de générer des commentaires critiques signalant à l’utilisateur toute évolution ou possibilité d’évolution de la sémantique des chiffres. L’automatisation de cette tâche d’analyse essentielle à toute interprétation statistique facilite non seulement le travail de l’utilisateur expert clairvoyant sur l’importance de l’évolution des dimensions, mais fait également prendre conscience de la nécessité de ce type d’analyse à l’utilisateur novice. Le système développé gère 175 ans de statistiques, ce qui représente pas moins de 5.500 tableaux et plus de 7.000.000 de chiffres. Cette étude de cas concrète est d’une telle ampleur qu’il n’est matériellement pas possible de définir la sémantique de tous les éléments de toutes les nomenclatures. L’usage des typologies, plus aisé à mettre en place, a dès lors été adopté. Lorsque deux chiffres sont sérialisés, le système détermine d’abord si les sémantiques des intitulés de chacune des dimensions concernées sont identiques. Ces définitions sont stockées dans la table SEMANTIQUE de la base de données (figure 4). Si ces définitions sont disponibles, le commentaire généré par le moteur décrit la légitimité de la série.

Dans le cas contraire, le système recourt alors à l’analyse des typologies (tables TYPE et HIERARCHIE de la figure 4) et avertit l’utilisateur de toute évolution des partitions, c’est-à-dire de tout changement sémantique potentiel. Le commentaire généré n’est donc plus une assertion ou une déduction mais plutôt une mise en garde de l’utilisateur. Dans ce cas, la critique automatisée ne peut se suffire à elle-même mais elle constitue néanmoins « un système d’aide à la sérialisation » très utile impliquant directement l’utilisateur.

La sémantique des éléments des nomenclatures évolue parfois selon des règles formellement définies telles que le regroupement, l’éclatement, la suppression, l’introduction, le remplacement, le renommage, la recomposition, etc. Il serait dès lors opportun, dans les travaux futurs, de définir la relation qui lie la sémantique des éléments de nomenclature de chaque période aux sémantiques des éléments des périodes voisines sur la ligne du temps, de manière à pouvoir transposer cette relation aux chiffres. Supposons que pour la période n, l’ensemble des cantons étudiés soit {A, B, C}, et que pour la période n+1, il soit {AB, C}, le canton AB résultant du regroupement administratif des cantons A et B. La définition de la relation entre A, B et AB permet de comparer la somme des chiffres des cantons A et B de la période n au chiffre du canton AB de la période n+1. L’usage de ces descriptions affinerait le mécanisme d’analyse des évolutions temporelles et guiderait d’avantage l’utilisateur dans son interprétation des séries. Il est aujourd’hui

(18)

informé de l’existence d’une évolution. La description des relations entre les éléments des nomenclatures sur la ligne du temps lui permettra demain d’en connaître la nature. Il convient de noter que la relation entre les sémantiques d’un élément de nomenclature portant sur différentes périodes ne peut être définie dans tous les cas. L’exemple des hommes cité ci-dessus en est la preuve. Les hommes des période n et n+1 ne sont comparables que si l’on retire les enfants de l’ensemble des hommes de la période n, enfants dont on ne connaît pas la proportion.

Figure 12. Évolution des partitions d’une dimension. En haut, la sémantique des intitulés est modifiée. En bas, la sémantique est inchangée

6. Conclusion

Les tableaux statistiques décrivent des faits mesurés selon différentes dimensions. Les analyses statistiques requérant des croisements et des agrégations de données issues de différents tableaux, ces documents doivent être entreposés dans un système fournissant des fonctionnalités de recherche puissantes et efficaces, c’est-à- dire un SGBD. De très nombreuses collections de tableaux statistiques ne sont disponibles que sous forme de documents imprimés ou d’images numérisées et sont donc inaccessibles à l’analyse statistique par voie informatique.

sexe

hommes femmes enfants

hommes stat x femmes stat x hommes stat y femmes stat y enfants stat y typologie

statistiques

période n période n+1

violation de confidentialité

... lettres ... télégraphie et

téléphonie

… radiocommunications

lettres 1929 lettres 1930 télégraphie et

téléphonie 1930 radiocommunications

1930

infraction

...

typologie statistiques

1929 1930

(19)

L’entreposage des tableaux statistiques dans une base de données consiste à définir la structure de la base de données pour ensuite la remplir. L’insertion des données dans les tables peut être réalisée automatiquement à condition que les liens entre les éléments du tableau statistique et le schéma de la base de données aient été formellement établis. Lorsque les données sont transférées, elles seront exploitées avec la plus grande prudence, les séries temporelles manquant parfois de cohérence.

Le projet Quetelet.net fournit des méthodes et des outils adaptés aux différentes étapes de la vie d’une base de données issue de tableaux statistiques, depuis sa création jusqu’à son exploitation. L’objectif de ces méthodes et outils consiste non seulement à maximiser l’automatisation des différents processus, mais également à fournir des solutions génériques, c’est-à-dire réutilisables pour tout domaine de la statistique. La contribution de cet article, qui se base sur les acquis de ce projet, est triple.

D’abord, nous proposons un schéma d’entrepôt de données multidimensionnelles générique. L’ajout d’une nouvelle dimension se matérialise simplement par l’insertion d’un nouvel enregistrement dans la table DIMENSION, alors que la présence d’un nouvel élément de nomenclature se traduit par le stockage d’un nouvel enregistrement dans la table NOMENCLATURE (figure 4). Que le domaine d’application étudié évolue ou qu’un nouveau domaine d’application soit analysé, la structure de la base de données ne subit donc aucune modification.

Ensuite, un outil a été développé pour extraire semi automatiquement les données statistiques. Cet outil, sur base d’informations encodées via des formulaires, génère automatiquement les requêtes de remplissage de la base de données. Le formulaire de description des tableaux est lié au domaine d’application étudié. Il présente en effet la liste des dimensions propres à l’univers analysé, et appelle à saisir des informations spécifiques aux dimensions. Pour définir un lieu, par exemple, on ne se contentera pas de fournir son nom mais on devra également spécifier son type. Ces formulaires particuliers pourraient tout à fait être créés automatiquement par un générateur de systèmes de collecte de données. Cet outil produirait des systèmes d’extraction de données analogues à celui de Quetelet.net, et adaptés aux milieux statistiques analysés. Le formulaire d’encodage sémantique et son générateur de requêtes seraient ainsi créés automatiquement moyennant une description succincte du domaine d’application telle que l’énumération des dimensions et leurs caractéristiques.

Enfin, l’outil encadre l’utilisateur dans l’exploitation des données statistiques. Un moteur analyse les résultats des requêtes afin de mesurer leur pertinence. Il fournit dès lors à l’utilisateur des séries temporelles accompagnées de commentaires critiques générés automatiquement. La composition de ces observations se base d’abord sur les descriptions sémantiques enregistrées dans la base de données. Si ces dernières n’existent pas, ce sont les typologies également stockées dans la base de données qui sont utilisées. Le contenu des commentaires est donc alimenté par les

(20)

informations figurant dans la base de données. Les procédures de construction de ces observations sont quant à elles totalement génériques.

7. Bibliographie

Camillerapp J., Pasquer L., Coüasnon B., « Indexation automatique de formulaires anciens par reconnaissance du patronyme manuscrit », quatorzième édition du congrès francophone de Reconnaissance des formes et d’Intelligence artificielle RFIA 2004, Toulouse, 2004.

Ceheux G.R. (nom collectif), « Stratégie pour l’interprétation de documents », Actes des deuxièmes assises nationales du GdR I³, 2002.

Dang-Ngoc T-T., Kou H., Gardarin G., “Integrating Web Information with XML Concrete Views”, Databases and Applications, IASTED/ACTA Press, 2004, p. 268-273.

Darmont J., Boussaid O., Bentayeb F., “Warehousing Web Data”, 4th International Conference on Information Integration and Web-based Applications and Services (iiWAS 02), 2002, p. 148-152.

Detienne V., Hainaut J-L., “Case Tool Support for Temporal Database Design”, in Proc. Int.

Conf. on Conceptual modeling - ER 2001, LNCS 2224, Springer, 2001, p. 208-224.

Detienne V., Vesentini F., Bernard B., « Entre archivage électronique, bases de données temporelles et e-learning : « Quetelet.net », plate forme de diffusion des statistiques pénales », dans Les chiffres du crime en débat – Regards croisés sur la statistique pénale en Belgique (1830-2005), Bruylant-Academia S.A., Louvain-la-Neuve, 2005, p. 147-157.

Detienne V., Vesentini F., « La sérialisation des chiffres de la poursuite pénale : formalisation, problèmes, perspectives et automatisation », dans Les chiffres du crime en débat – Regards croisés sur la statistique pénale en Belgique (1830-2005), Bruylant- Academia S.A., Louvain-la-Neuve, 2005, p. 217-233.

Eder J., Koncilia C., « Evolution of dimension data in temporal data warehouses », in Proc.

DaWaK 2001, LNCS 2114, Springer 2001, p. 284-293.

Emptoz H., Lebourgeois F., Eglin V., Leydier Y., « La reconnaissance dans les images numérisées : OCR et transcription, reconnaissance des structures fonctionnelles et des méta-données », La numérisation des textes et des images : techniques et réalisations, Lille, France, 2003.

Galloway, Edward A., Gabrielle V. Michalek, “The Heinz Electronic Library Interactive Online System (HELIOS): Building a Digital Archive Using Imaging, OCR, and Natural Language Processing Technologies”, The Public-Access Computer Systems Review 6, no. 4, 1995.

Golfarelli M., Lechtenborger J., Rizzi S., Vossen G., “Schema Versioning in Data Warehouses”, in S. Wang et al. (Eds.), ER Workshops 2004, LNCS 3289, Springer, 2004, p. 415-428.

Hainaut J-L., Bases de données et modèles de calcul - Outils et méthodes pour l’utilisateur, Dunod, Paris, 2005.

(21)

Keiper J., Brocks H., Dirsch-Weigand A., Stein A., Thiel U., “COLLATE - A Web-Based Collaboratory for Content-Based Access to and Work with Digitized Cultural Material”, dans Proceedings of the International Cultural Heritage Informatics Meeting (ICHIM’01), Bearman D. & Garzotti F., Milano : Politecnico di Milano, 2001, p. 495- 511.

Khrouf K., Soulé-Dupuy C., « Vers une mémoire d’entreprise via les entrepôts de documents : Extraction de structures logiques », Extraction et Gestion des Connaissances (EGC’03), Hermès Ed., Lyon, France, 2003, p. 201-206.

Khrouf K., Soulé-Dupuy C., « DocWare: Vers l’entreposage et l’analyse multidimensionnelle de documents », dans Conférence en Recherche d’Information et Applications - CORIA’05, IMAG Ed., 2005, p. 405-420.

Vaisman, A., Mendelzon A., Ruaro, W., Cymerman S., “Supporting dimension updates in an OLAP server”, in Proc. CAiSE 2002, LNCS 2348, Springer, 2002, p. 67-82.

(22)

Références

Documents relatifs

Nous avons cherché à favoriser la navigation des utilisateurs dans l'espace des résultats ; nous pensons que le modèle pourrait évoluer pour être adapté à une utilisation en

Les Académiciens (parmi lesquels Vaugelas) stabilisent la catégorie des correctifs : « On appelle figurément, Correctif, Certain adoucissement qu’on employe dans le discours pour

Si vous avez des difficult´es, je vous invite ` a contacter le r´ef´erent du brevet correspondant, dont le m´el est disponible sur https://framacalc.org/univ maine referent

As competition policy is one of the most powerful tools for controlling the concentration of private power, it comes as no surprise that there is now a fierce debate among

Les personnes soupçonnées de ces voyages à visée terroriste incrimi- nés à l’article 140sexies du Code pénal peuvent faire l’objet de ces trois méthodes

Premièrement, nous avons étudié pour la première fois dans un système hôte-parasite naturel, l'existence d'un transfert d'anticorps maternels spécifiques qui est

Marti and Chavance [10] showed that multiple imputation (MI) is a good alternative to classical weighted methods for the analysis of case-cohort data. When the imputation model

Pour cette première approche des fréquences, j’ai testé sur Frantext huit lexies, choisies parmi les marqueurs dévolus à la glose : autant dire, ce qui veut dire, c’est-à-dire,