HAL Id: hal-01914397
https://hal.archives-ouvertes.fr/hal-01914397 Submitted on 7 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives| 4.0 International License
Migration de grandes bases de données statistiques des systèmes propriétaires vers les stations de travail
Jean-Claude Poupa, . Association Française Des Utilisateurs d’Unix Et Des Systèmes Ouverts
To cite this version:
Jean-Claude Poupa, . Association Française Des Utilisateurs d’Unix Et Des Systèmes Ouverts. Mi-gration de grandes bases de données statistiques des systèmes propriétaires vers les stations de travail. Journée AFUU-BPL : Bases de données sous UNIX, Jun 1992, Lannion, France. 27 p. �hal-01914397�
eOOA.
Institut National do la P.ochorcho AgronomiqueI.N.R.A. - RENNES
L
-
5 JUIN 1992 ]ECONOMIE RURALE BIBLIOTHEQUE
MIGRATION DE GRANDES BASES
DE DONNÉES STATISTIQUES
DES SYSTÈMES PROPRIÉTAIRES
VERS LES STATIONS DE TRAVAIL
Jean-Claude POUPA INRA
Département Économie et Sociologie rurales
65, rue de Saint-Brieuc 35042 RENNES Cedex
Tél.: 99.28.54.05
e-mail poupa@rennes.inra.fr
8JN?,\
Institut National de b Recherche Agronomique
MISSION DE L'INRA
"Organiser et exécuter toute recherche scientifique
intéressant l'agriculture et les industries qui lui sont liées ... "
8 200 salariés
22 centres régionaux de recherche 25 départements de recherche
'
LES SCIENCES SOCIALES A L'INRA
- Département d'Économie et Sociologie rurales200 chercheurs
12 implantations régionales
- Réaliser des recherche sur l'économie du secteur agro-alimentaire et de la consommation
Institut National de la Recherche Agronomique
PLAN
•
LES BASES STATISTIQUES EN
SCIENCES SOCIALES
•
REPRÉSENTATION LOGIQUE DES
DONNÉES
•
REPRÉSENTATION PHYSIQUE DES
DONNÉES
•
LES APPLICATIONS
•
RÉSULTATS ET PERSPECTIVES
Institut National do la Rechercho Agronomiquo
LES BASES STATISTIQUES
EN SCIENCES SOCIALES
LES SOURCES DE DONNÉES
• L'INRA acquiert les données auprès d'institutions
spécialisées, nationales ou communautaires : INSEE,
SECODIP, EUROSTAT, etc ...
• L'accès aux données est strictement réservé aux
équipes scientifiques autorisées.
• Les bases sont gérées sur systèmes propriétaires et
les fichiers transmis au format d'archivage sur support bande magnétique.
• Les enquêtes nationales de l'INSEE sont gérées par
le logiciel LEDA, qui utilise un modèle hiérarchique.
• Les bases sont volumineuses : de quelques dizaines à
plusieurs centaines de mégaoctets.
enRA.
lnsàrut National de la Recherche Agronomique
LES BASES STATISTIQUES
EN SCIENCES SOCIALES
L'EXEl\lPLE DE LA CONSOMMATION ALil\ŒNTAIRE
• Structure simplifiée
MÉNAGE
/
"
INDIVIDUS ACHATS
• Les panels SECODIP
- 2 panels annuels de 6 000 ménages (20 000 individus), - 5 millions d'opérations d'achats,
- 32 000 produits alimentaires,
- 52 périodes d'observations hebdomadaires, - 600 mégaoctets sur bande magnétique.
• Les enquêtes INSEE
- annuelles ou bisannuelles depuis 1965, - 5 000 à 10 000 ménages,
- 400 produits alimentaires,
- 300 000 à 800 000 opérations d'achats .
-Institut National de b Recherche Agronomique
LES BASES STATISTIQUES
EN SCIENCES SOCIALES
LES TRAITEl\ŒNTS INFORMATIQUES• Description statistique et modélisation
économétrique,
• vue vectorielle des données,
• relations d'ordre implicites exprimées usuellement
par la notation indicée
xl!!
1,J
• contraintes du secret statistique.
LA MISE EN CORRESPONDANCE D'ENQUÊTES
• Empilement d'enquêtes annuelles et génération de
séries temporelles,
• empilement d'enquêtes sur plusieurs pays et
génération de "coupes" spatiales,
• vue des données à travers plusieurs nomenclatures
(vue INSEE des données SECODIP).
eJN?A.
Institut National de b Recherche AgronomiqueLES BASES STATISTIQUES
EN SCIENCES SOCIALES
LES MOYENS INFORMATIQUES
• Réseaux locaux dans les centres de recherches,
autour d'un serveur UNIX, de stations de travail et de postes MSDOS,
• interconnexion des réseaux locaux via Transpac,
• moyens humains restreints et absence d'équipes de
développement,
• accès à des serveurs IBM externes :
INSEE, CNUSC, CIRCE,
• accès au réseau des Universités,
• logiciels : SAS, S, TSP, SPSS, ...
lnstiNt National de b Recherche Agronomique
REPRÉSENTATION LOGIQUE
DES DONNÉES
, ,
LES STRUCTURES DE DONNEES NUMERIQUES
• Le statisticien manipule des structures de données
ordonnées : vecteurs, séries temporelles, matrices, objets multidimensionnels,
• les logiciels statistiques reconnaissent des tables
avec en lignes les observations et en colonnes les variables,
V1 V2 •....•.•.••.•...•. V·
J . ... Vn
• un échantillon est défini sur un espace vectoriel de
dimension fixe.
8IN?A.
Institut National de la Recherche AironomiqueREPRÉSENTATION LOGIQUE
DES DONNÉES
LES IMAGES DE FICIDERS
• Les informations relatives à une entité sont
regroupées dans des enregistrements logiques
(segments, articles) de formats fixes donnés;
• L'unité d'entrée-sortie est l'enregistrement logique,
vue comme une chaîne d'octets;
• L'enregistrement logique est décodé par programme
(COBOL, PLl);
• Les types de données sont spécifiques aux systèmes
propriétaires
...
Code âge du commune revenu ....
ménage chef
ebcdic binaire(l) binaire(!) décimal packé
eOOA.
Institut National de la Recherche Agronomique
REPRESENTATION LOGIQUE
DES DONNÉES
LE MODÈLE HIÉRARCHIQUE
1111
• Logiciel LEDA de l'INSEE;
PJ23
• Une enquête classique est un graphe de plusieurs
millions de sommets;
• Un sommet représente l'enregistrement logique
associé à une entité;
• Exemple : budget des familles 1989
- 2 143 305 sommets,
- 5 générations dans l'arbre, - 34 types d'entités,
- enregistrements de longueurs variables ( 17 à 1 260
octets);
• Les variables sont décrites par un format dans un
enregistrement logique.
8IN?i\
Institut National de la Recherche Agronomique
REPRÉSENTATION LOGIQUE
DES DONNÉES
REPRÉSENTATION RELATIONNELLE SIMPLE : PRINCIPE
• Le terme Xij de la matrice X, Iième "Observation de la
ième variable, est le tuple (i, j, x) de la relation
A Ci :N,
i :
N, :,ç : R)• La valeur y d'un achat d'un produit k effectué par le
ménage i à la période t, usuellement notée
Y7t
,estle tuple (i, t, k, y) de la relation
B Ci : N, t: N, k : N, X : R)
• L'ajout de dimensions supplémentaires correspond à
l'ajout d'un attribut numérique entier la relation
C (w : N, s : N,
i:
N,i :
N, x : R)représente un ensemble d'enquêtes annuelles ( w
=
wave), sur plusieurs pays (s = space), avec
observation des variables j pour les individus i.
INRA-Sciences Sociales • 11 • 0-1 _juin I
81N?A.
lrutitut National de la Recherche Agronomique
REPRÉSENTATION LOGIQUE
.,DES DONNEES
CARDINALITÉ DES RELATIONS
• Valeur des achats SECODIP
ACHAT (m: N,
t:
N,n:
N, tag: N, x = R)card (ACHAT) - 5.106
( 5 millions d'inscriptions)
• Description des ménages de l'enquête budget des
familles de l'INSEE (1989)
10 000 ménages, 400 variables
MÉNAGE (m: N,i: N, x: R)
card (MÉNAGE)= 4.106
( 4 millions d'observations élémentaires)
• Cardinalités limitées par les coûts des enquêtes.
Institut National do la R.ochorcho Agronomique
REPRÉSENTATION PHYSIQUE
,DES DONNEES
LE MYTHE DÉCLARATIF
"Il suffit de déclarer les relations
sans qu'il soit nécessaire de se préoccuper des méthodes d'accès et du choix des algorithmes". • Les modèles hiérarchique et réseau sont orientés
"accès".
• Recommandations linguistiques de CODD (1970)
==> Le langage d'interrogation, basé sur la logique des
prédicats, permet d'exprimer les questions (langage
R).
==> Un langage hote (langage H) permet de fournir des
directives pour choisir le mode de représentation des relations en mémoire.
• PROTOTYPE SYSTEM R (IBM San José)
==> regroupement des pages: cluster.
• PROTOTYPE INGRES (BERKELEY)
==> choix des structures de stockage avec
ordonnancement initial.
-Institut National do b Recherche Avonomiquo
REPRÉSENTATION PHYSIQUE
DES DONNÉES
LE MYTHE DÉCLARATIF
"Il suffit de déclarer les relations
sans qu'il soit nécessaire de se préoccuper des méthodes d'accès et du choix des algorithmes".
• Les modèles hiérarchique et réseau sont orientés
"accès".
• Recommandations linguistiques de CODD (1970)
==> Le langage d'interrogation, basé sur la logique des prédicats, permet d'exprimer les questions (langage R).
==> Un langage hote (langage H) permet de fournir des directives pour choisir le mode de représentation des relations en mémoire.
• PROTOTYPE SYSTEM R (IBM San José)
==> regroupement des pages: cluster.
• PROTOTYPE INGRES (BERKELEY)
==> choix des structures de stockage avec ordonnancement initial.
eitRA.
Institut National do la Recherche Agronomique
REPRÉSENTATION PHYSIQUE
,DES DONNEES
LA GESTION DE LA MÉMOIRE SECONDAIRE
• Les composantes d'un vecteur et les termes d'une
matrice ne doivent pas être éparpillés sur le disque extraction type SECODIP : données sur un produit (p) pour tous les ménages et toutes les périodes.
• L'organisation séquentielle indexée est suffisante
pour gérer des données statiques
coût de stockage de la relation ACHAT (5.106 x 12)
=
60 Mo ( + pages index)• L'organisation dynamique arborescente classique est
pénalisante dans ce contexte, et inutile
- données de la relation ACHAT : 60 Mo
pages feuilles : 60 Mo
(pages remplies, adresse logique sur 4 octets)
( + pages index).
- duplication de la clé.
eJ.N?A.
lrutitut National do la Rodiorcho Agronomique
REPRÉSENTATION PHYSIQUE
DES DONNÉES
UEXÉCUTION DES OPÉRATIONS RELATIONNELLES
• Exemple : cardinalités = 4 millions de tuples (n=222)
ACHAT 1 (m: N,
.t:
N,n:
N, tag: N, x: R)ACHAT 2 (m: N,
.t:
N, n: N, tag: N, y: R)(m,
.t,
n, tag) est clé primaire unique des relations.
• Restriction : extraction des données sur un produit
- accès instantané si l'attribut p est la première clé
d'index.
- recherche dichotomique.
• Projection: suppression tag et agrégation
- balayage séquentiel (n opérations)
==> quelques minutes.
• Jointure naturelle ACHATl x ACHAT 2
- algorithme de tri-fusion: un balayage séquentiel si les deux ensembles sont ordonnés
(n opérations)
- coût d'ordonnancement d'un ensemble
n log2 n opérations
==> == 1 heure
INtitut National de la Recherche Agronomique
REPRÉSENTATION PHYSIQUE
DES DONNÉES
,
EVALUATION DE LA PUISSANCE DE CALCUL RELATIONNEL
• Analyse des fonctions de complexité;
• L'opération coûteuse est la jointure;
• Un algorithme inadapté peut aboutir à l'évaluation
d'une expression "calculable", mais avec un temps d'exécution irréaliste
machine abstraite exécutant une comparaison par microseconde (10-6 s),
- jointure naturelle des relations ACHAT 1 et ACHAT 2,
- Algorithme P1 : produit cartésien des ensembles suivi d'une restriction
==> complexité O(n2) => 185 jours,
- Algorithme P2 : ordonnancement total des ensembles
puis fusion
==> complexité O(nlogn) => 3 minutes.
• Vérification expérimentale facile.
-Institut NatioNI de la Recherc:he Agronomique
LES APPLICATIONS
STRUCTURATION LOGIQUE DES BASES (CONSOMMATION)
• Relations génériques fondamentales
MÉNAGE (nv : N, m : N, x : R)
INDIVIDU (nv : N, m : N, ni : N,x : R)
ACHAT (Q: N, m : N,
i:
N, tag: N, v : R, q : R).• Relations annexes : dictionnaire de variables et
produits.
• Base de bases indépendantes
SECODIP-Pl, SECODIP-P2, INSEE 87, INSEE 89.
• Empilement des enquêtes INSEE par ajout de
l'attribut vague (w : N).
• Gestion de "cohortes" SECODIP sur 3 années.
8IN?A.
Institut National do la Roc:horcho Agronomique
LES APPLICATIONS
LES VUES MULTI -NOMENCLArURES
• Il existe une fonction qui associe à tout produit de la
nomenclature SECODIP un code INSEE.
• Cette fonction est une relation binaire
F Cn : N, insee : N)
• La jointure naturelle des relations ACHAT et F rend
la vue INSEE des données SECODIP.
LE SECRET STATISTIQUE
• L'attribut m est instrumental (numéro séquentiel).
• La correspondance est gérée au moyen d'une relation
intermédiaire
ÉCHANTILLON (m : N, identifiant: chaine).
Institut National do b Recherche Agronomique
LES APPLICATIONS
RECONNAISSANCE DU MODÈLE HIÉRARCHIQUE : PRINCIPE
• Exploration de l'arborescence par parcours
séquentiel du fichier séquentiel au format variable (V) IBM.
• Numérotation des sommets (segments) : parcours
canonique du graphe (haut en bas, gauche à droite) et affectation d'un indice par "génération".
• Description des segments dans une relation, image
du dictionnaire associé au modèle hiérarchique : nom, type du segment, position du champ dans le segment, longueur en octets, type de codification (ebcdic, binaire, décimal packé, ... )
• Production d'une base statique "image syntaxique"
du modèle hiérarchique : 1 relation par "génération"
S 1 (gl : N, ts : N, n v : N, x : R)
S2 (gl : N, g2. : N, ts : N, n v : N, x : R)
S3 (gl: N, g2.: N, g3: N, ts : N, nv : N, x : R)
( ts = type segment)
nv
=
numéro variable)• Production de la base : calcul relationnel piloté par
l'équipe scientifique (interprétation sémantique).
-lruàtUt Naàonal de la Recherche Agronomique
LES APPLICATIONS
LA VECTORISATION : PRINCIPE
• Les logiciels statistiques traitent des objets numériques structurés : vecteurs, matrices.
• Une relation est un ensemble.
• Exemple illustratif: échantillon den ménages décrits par g variables
•
MÉNAGE (m : N, v : N, x : R).
Algorithme de vectorisation : matrice X de terme Xij
t/ (mi, vj, x) E MÉNAGE
xij = X
==> Le terme Xij est unique si le couple (m, v) est clé
primaire de la relation à vectoriser.
• Généralisation : fonction de 3 relations qui rend un ensemble de matrices
==> notation indicée du statisticien
Institut National de la Redlerche Agronomique
LES APPLICATIONS
LES FONCTIONS ENSEl\ffiLISTES : AGRÉGATIONS
• Nombre d'individus dans l'échantillon des ménages.
• Somme des achats par ménage et par produit.
• Nombre d'enfants de moins de 14 ans
==> clause GROUP BY de la requête SELECT dans le langage SQL,
==> Projection d'espace vectoriel pour le statisticien.
LA FONCTION DE GÉNÉRALISATION : HÉRITAGE
• Introduction du poids du ménage dans la relation
ACHAT.
• Opération relationnelle de jointure.
• Dénormalisation.
-Institut National de b Recherche Agronomique
RÉSULTATS ET PERSPECTIVES
TRADUCTION DE LA SOLUTION• SUN 4/65 660 Mo au départ.
• Lecture bandes IBM labellés, format variable (V) sur
serveur externe : ANSIREAD (AFUU).
• SGBD INGRES, langage SQL.
• Développement de fonctions C :
- Primitives système de décodage des types IBM.
- Interface modèle hiérarchique (opérationnel pour
LEDA).
- fonction de vectorisation.
LES BASES EN SCIENCES SOCIALES
• Consommation: 2 panels SECODIP, 2 enquêtes
INSEE.
• Commerce extérieur de la CEE (COlVIEXT)
- 3 millions de "transactions" commerciales,
- connexion avec les enquêtes d'entreprises INSEE.
• Base de données de l'état civil ancien
(200 000 actes, un million en projet).
• Recensement général de l'agriculture au centième.
INtitut National de la Recherche Agronomique
RÉSULTATS ET PERSPECTIVES
PROFIL D'UN SGBD "STATISTIQUE"
• Efficacité du calcul relationnel aux limites :
(ensembles de plusieurs millions d'éléments)
==> Optimisation statistique
(au moins la cardinalité des relations).
==> Mécanisme de reformulation des requêtes
(query flattening).
==> Existence de plusieurs stratégies algorithmiques
avec affichage des plans d'exécution.
==> Contrôle des ressources
(==> calcul des fonctions de complexité).
• Possibilité de paramétrer le modèle physique, en
fonction de directives :
==> Données statiques ou dynamiques.
==> Cardinalités des relations en production.
==> Interrogations ponctuelles ou extraction de flots.
==> Accès simultanés ou épisodiques.
==> Nombre d'utilisateurs.
• Possibilité d'administrer la ressource disque
==> Gestion dynamique.
==> Répartition des objets ( tables, bases, espaces
temporaires de tri) sur plusieurs supports physiques.
enRA.
lnstirut National do b Recherche Agronomique
,
RESULTATS ET PERSPECTIVES
ÉVALUATION D'UN SGBD "STATISTIQUE"
• Test proposé : combinaison linéaire de deux ma tric es
carrées de dimension n • Représentation relationnelle A (i: N,
i:
N, X: R) B (i: N,i:
N, y : R) C(i :
N,i :
N, z : R) (y= X+ ÀZ)• Affichage préalable des plans d'exécution.
• Grandeurs mesurées
==> espace disque permanent et temporaire,
==> temps d'exécution.
• Test effectué avec n
=
3163 sur SUN 4/65(cardinalités > 10 millions)
• Généralisable à tout calcul matriciel.
eOOA
Institut National do b Recherche Agronomique
RÉSULTATS ET PERSPECTIVES
LA NÉCESSITÉ DE DÉNORMALISER
• Le statisticien utilise des structures numériques
définies sur des domaines complexes
==> vecteurs, matrices, "objets" multi-dimensionnels, ==> ensembles de valeurs (attribut "tag" artificiel)
==> suppression de la première forme normale.
• Le redondance des informations peut économiser des
opérations de jointure
ACHAT (m, Il ,
t,
tag. insee, v q)(l'attribut insee ne dépend que de p)
==> suppression seconde forme normale.
• Intérêt des types abstraits de données :
- calcul vectoriel, - calcul matriciel,
- surcharge des opérateurs ( +)
eIN?A.
Institut National de b Recherche Agronomique,
RESULTATS ET PERSPECTIVES
LA MIGRATION VERS LES OBJETS ?
• Nécessité d'automatiser les processus :
- primitives systèmes de reconnaissance de types,
- fonctions de conversion de modèles et de vectorisation,
- "paramétrage" du modèle physique.
• Émergence de SGBD propriétaires, construits autour
d'un moteur SQL et apportant les fonctionnalités indispensables aux applications usuelles dans des L4G propres,
===> DA..NGER !
• Attente de l'offre logicielle de SGBD orientés objets
"ouverts" :
- Prototypes: STARBURST (IBM San José)
POSTGRES (Berkeley),
- Produits
Institut National do b Recherche Agronomique
CONCLUSION
• Le modèle relationnel autorise le "downsizing" des grandes bases statistiques sur stations de travail
UNIX
SECODIP 600 Mo ---> 100 Mo
COMEXT 240 Mo ---> 50 Mo.
• Les systèmes doivent offrir les moyens
indispensables pour optimiser ( et contrôler) l'utilisation des ressources :
- directives de paramétrage du modèle physique, - optimisation des requêtes.
• Le modèle relationnel apporte des fonctionnalités
nouvelles pour les équipes de recherches en sciences économiques :
- maîtrise de la complexité,
- vues à travers des nomenclatures hétérogènes,
- empilement d'enquêtes chronologiques et spatiales, - restructuration de données hiérarchisées.