Migration de grandes bases de données statistiques des systèmes propriétaires vers les stations de travail

(1)

HAL Id: hal-01914397

https://hal.archives-ouvertes.fr/hal-01914397 Submitted on 7 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives| 4.0 International License

Migration de grandes bases de données statistiques des systèmes propriétaires vers les stations de travail

Jean-Claude Poupa, . Association Française Des Utilisateurs d’Unix Et Des Systèmes Ouverts

To cite this version:

Jean-Claude Poupa, . Association Française Des Utilisateurs d’Unix Et Des Systèmes Ouverts. Mi-gration de grandes bases de données statistiques des systèmes propriétaires vers les stations de travail. Journée AFUU-BPL : Bases de données sous UNIX, Jun 1992, Lannion, France. 27 p. �hal-01914397�

(2)

eOOA.

Institut National do la P.ochorcho Agronomique

I.N.R.A. - RENNES

L

-

5 JUIN 1992 ]

ECONOMIE RURALE BIBLIOTHEQUE

MIGRATION DE GRANDES BASES

DE DONNÉES STATISTIQUES

DES SYSTÈMES PROPRIÉTAIRES

VERS LES STATIONS DE TRAVAIL

Jean-Claude POUPA INRA

Département Économie et Sociologie rurales

65, rue de Saint-Brieuc 35042 RENNES Cedex

Tél.: 99.28.54.05

e-mail poupa@rennes.inra.fr

(3)

8JN?,\

Institut National de b Recherche Agronomique

MISSION DE L'INRA

"Organiser et exécuter toute recherche scientifique

intéressant l'agriculture et les industries qui lui sont liées ... "

8 200 salariés

22 centres régionaux de recherche 25 départements de recherche

'

LES SCIENCES SOCIALES A L'INRA

- Département d'Économie et Sociologie rurales

200 chercheurs

12 implantations régionales

- Réaliser des recherche sur l'économie du secteur agro-alimentaire et de la consommation

(4)

Institut National de la Recherche Agronomique

PLAN

• LES BASES STATISTIQUES EN

SCIENCES SOCIALES

• REPRÉSENTATION LOGIQUE DES

DONNÉES

• REPRÉSENTATION PHYSIQUE DES

DONNÉES

• LES APPLICATIONS

• RÉSULTATS ET PERSPECTIVES

(5)

Institut National do la Rechercho Agronomiquo

LES BASES STATISTIQUES

EN SCIENCES SOCIALES

LES SOURCES DE DONNÉES

• L'INRA acquiert les données auprès d'institutions

spécialisées, nationales ou communautaires : INSEE,

SECODIP, EUROSTAT, etc ...

• L'accès aux données est strictement réservé aux

équipes scientifiques autorisées.

• Les bases sont gérées sur systèmes propriétaires et

les fichiers transmis au format d'archivage sur support bande magnétique.

• Les enquêtes nationales de l'INSEE sont gérées par

le logiciel LEDA, qui utilise un modèle hiérarchique.

• Les bases sont volumineuses : de quelques dizaines à

plusieurs centaines de mégaoctets.

(6)

enRA.

lnsàrut National de la Recherche Agronomique

LES BASES STATISTIQUES

EN SCIENCES SOCIALES

L'EXEl\lPLE DE LA CONSOMMATION ALil\ŒNTAIRE

• Structure simplifiée

MÉNAGE

/

"

INDIVIDUS ACHATS

• Les panels SECODIP

- 2 panels annuels de 6 000 ménages (20 000 individus), - 5 millions d'opérations d'achats,

- 32 000 produits alimentaires,

- 52 périodes d'observations hebdomadaires, - 600 mégaoctets sur bande magnétique.

• Les enquêtes INSEE

- annuelles ou bisannuelles depuis 1965, - 5 000 à 10 000 ménages,

- 400 produits alimentaires,

- 300 000 à 800 000 opérations d'achats .

(7)

-Institut National de b Recherche Agronomique

LES BASES STATISTIQUES

EN SCIENCES SOCIALES

LES TRAITEl\ŒNTS INFORMATIQUES

• Description statistique et modélisation

économétrique,

• vue vectorielle des données,

• relations d'ordre implicites exprimées usuellement

par la notation indicée

xl!!

1,J

• contraintes du secret statistique.

LA MISE EN CORRESPONDANCE D'ENQUÊTES

• Empilement d'enquêtes annuelles et génération de

séries temporelles,

• empilement d'enquêtes sur plusieurs pays et

génération de "coupes" spatiales,

• vue des données à travers plusieurs nomenclatures

(vue INSEE des données SECODIP).

(8)

eJN?A.

Institut National de b Recherche Agronomique

LES BASES STATISTIQUES

EN SCIENCES SOCIALES

LES MOYENS INFORMATIQUES

• Réseaux locaux dans les centres de recherches,

autour d'un serveur UNIX, de stations de travail et de postes MSDOS,

• interconnexion des réseaux locaux via Transpac,

• moyens humains restreints et absence d'équipes de

développement,

• accès à des serveurs IBM externes :

INSEE, CNUSC, CIRCE,

• accès au réseau des Universités,

• logiciels : SAS, S, TSP, SPSS, ...

(9)

lnstiNt National de b Recherche Agronomique

REPRÉSENTATION LOGIQUE

DES DONNÉES

, ,

LES STRUCTURES DE DONNEES NUMERIQUES

• Le statisticien manipule des structures de données

ordonnées : vecteurs, séries temporelles, matrices, objets multidimensionnels,

• les logiciels statistiques reconnaissent des tables

avec en lignes les observations et en colonnes les variables,

V1 V2 •....•.•.••.•...•. V·

J . ... Vn

• un échantillon est défini sur un espace vectoriel de

dimension fixe.

(10)

8IN?A.

Institut National de la Recherche Aironomique

REPRÉSENTATION LOGIQUE

DES DONNÉES

LES IMAGES DE FICIDERS

• Les informations relatives à une entité sont

regroupées dans des enregistrements logiques

(segments, articles) de formats fixes donnés;

• L'unité d'entrée-sortie est l'enregistrement logique,

vue comme une chaîne d'octets;

• L'enregistrement logique est décodé par programme

(COBOL, PLl);

• Les types de données sont spécifiques aux systèmes

propriétaires

...

Code âge du commune revenu .

...

ménage chef

ebcdic binaire(l) binaire(!) décimal packé

(11)

eOOA.

REPRESENTATION LOGIQUE

DES DONNÉES

LE MODÈLE HIÉRARCHIQUE

1₁₁₁

• Logiciel LEDA de l'INSEE;

PJ23

• Une enquête classique est un graphe de plusieurs

millions de sommets;

• Un sommet représente l'enregistrement logique

associé à une entité;

• Exemple : budget des familles 1989

- 2 143 305 sommets,

- 5 générations dans l'arbre, - 34 types d'entités,

- enregistrements de longueurs variables ( 17 à 1 260

octets);

• Les variables sont décrites par un format dans un

enregistrement logique.

(12)

8IN?i\

REPRÉSENTATION LOGIQUE

DES DONNÉES

REPRÉSENTATION RELATIONNELLE SIMPLE : PRINCIPE

• Le terme Xij de la matrice X, Iième "Observation de la

ième variable, est le tuple (i, j, x) de la relation

A Ci :N,

i :

N, :,ç : R)

• La valeur y d'un achat d'un produit k effectué par le

ménage i à la période t, usuellement notée

Y7t

,est

le tuple (i, t, k, y) de la relation

B Ci : N, t: N, k : N, X : R)

• L'ajout de dimensions supplémentaires correspond à

l'ajout d'un attribut numérique entier la relation

C (w : N, s : N,

i:

N,

i :

N, x : R)

représente un ensemble d'enquêtes annuelles ( w

=

wave), sur plusieurs pays (s = space), avec

observation des variables j pour les individus i.

INRA-Sciences Sociales • 11 • 0-1 _juin I

(13)

81N?A.

lrutitut National de la Recherche Agronomique

REPRÉSENTATION LOGIQUE

_.,

DES DONNEES

CARDINALITÉ DES RELATIONS

• Valeur des achats SECODIP

ACHAT (m: N,

t:

N,

n:

N, tag: N, x = R)

card (ACHAT) - 5.106

( 5 millions d'inscriptions)

• Description des ménages de l'enquête budget des

familles de l'INSEE (1989)

10 000 ménages, 400 variables

MÉNAGE (m: N,i: N, x: R)

card (MÉNAGE)= 4.106

( 4 millions d'observations élémentaires)

• Cardinalités limitées par les coûts des enquêtes.

(14)

Institut National do la R.ochorcho Agronomique

REPRÉSENTATION PHYSIQUE

_,

DES DONNEES

LE MYTHE DÉCLARATIF

"Il suffit de déclarer les relations

sans qu'il soit nécessaire de se préoccuper des méthodes d'accès et du choix des algorithmes". • Les modèles hiérarchique et réseau sont orientés

"accès".

• Recommandations linguistiques de CODD (1970)

==> Le langage d'interrogation, basé sur la logique des

prédicats, permet d'exprimer les questions (langage

R).

==> Un langage hote (langage H) permet de fournir des

directives pour choisir le mode de représentation des relations en mémoire.

• PROTOTYPE SYSTEM R (IBM San José)

==> regroupement des pages: cluster.

• PROTOTYPE INGRES (BERKELEY)

==> choix des structures de stockage avec

ordonnancement initial.

(15)

-Institut National do b Recherche Avonomiquo

REPRÉSENTATION PHYSIQUE

DES DONNÉES

LE MYTHE DÉCLARATIF

"Il suffit de déclarer les relations

sans qu'il soit nécessaire de se préoccuper des méthodes d'accès et du choix des algorithmes".

• Les modèles hiérarchique et réseau sont orientés

"accès".

• Recommandations linguistiques de CODD (1970)

==> Le langage d'interrogation, basé sur la logique des prédicats, permet d'exprimer les questions (langage R).

==> Un langage hote (langage H) permet de fournir des directives pour choisir le mode de représentation des relations en mémoire.

• PROTOTYPE SYSTEM R (IBM San José)

==> regroupement des pages: cluster.

• PROTOTYPE INGRES (BERKELEY)

==> choix des structures de stockage avec ordonnancement initial.

(16)

eitRA.

Institut National do la Recherche Agronomique

REPRÉSENTATION PHYSIQUE

_,

DES DONNEES

LA GESTION DE LA MÉMOIRE SECONDAIRE

• Les composantes d'un vecteur et les termes d'une

matrice ne doivent pas être éparpillés sur le disque extraction type SECODIP : données sur un produit (p) pour tous les ménages et toutes les périodes.

• L'organisation séquentielle indexée est suffisante

pour gérer des données statiques

coût de stockage de la relation ACHAT (5.106 x 12)

=

60 Mo ( + pages index)

• L'organisation dynamique arborescente classique est

pénalisante dans ce contexte, et inutile

- données de la relation ACHAT : 60 Mo

pages feuilles : 60 Mo

(pages remplies, adresse logique sur 4 octets)

( + pages index).

- duplication de la clé.

(17)

eJ.N?A.

lrutitut National do la Rodiorcho Agronomique

REPRÉSENTATION PHYSIQUE

DES DONNÉES

UEXÉCUTION DES OPÉRATIONS RELATIONNELLES

• Exemple : cardinalités = 4 millions de tuples (n=222)

ACHAT 1 (m: N,

.t:

N,

n:

N, tag: N, x: R)

ACHAT 2 (m: N,

.t:

N, n: N, tag: N, y: R)

(m,

.t,

n, tag) est clé primaire unique des relations.

• Restriction : extraction des données sur un produit

- accès instantané si l'attribut p est la première clé

d'index.

- recherche dichotomique.

• Projection: suppression tag et agrégation

- balayage séquentiel (n opérations)

==> quelques minutes.

• Jointure naturelle ACHATl x ACHAT 2

- algorithme de tri-fusion: un balayage séquentiel si les deux ensembles sont ordonnés

(n opérations)

- coût d'ordonnancement d'un ensemble

n log₂n opérations

==> == 1 heure

(18)

INtitut National de la Recherche Agronomique

REPRÉSENTATION PHYSIQUE

DES DONNÉES

,

EVALUATION DE LA PUISSANCE DE CALCUL RELATIONNEL

• Analyse des fonctions de complexité;

• L'opération coûteuse est la jointure;

• Un algorithme inadapté peut aboutir à l'évaluation

d'une expression "calculable", mais avec un temps d'exécution irréaliste

machine abstraite exécutant une comparaison par microseconde (10-6 s),

- jointure naturelle des relations ACHAT 1 et ACHAT 2,

- Algorithme P_{1 :}produit cartésien des ensembles suivi d'une restriction

==> complexité O(n2) => 185 jours,

- Algorithme P₂ : ordonnancement total des ensembles

puis fusion

==> complexité O(nlogn) => 3 minutes.

• Vérification expérimentale facile.

(19)

-Institut NatioNI de la Recherc:he Agronomique

LES APPLICATIONS

STRUCTURATION LOGIQUE DES BASES (CONSOMMATION)

• Relations génériques fondamentales

MÉNAGE (nv : N, m : N, x : R)

INDIVIDU (nv : N, m : N, ni : N,x : R)

ACHAT (Q: N, m : N,

i:

N, tag: N, v : R, q : R).

• Relations annexes : dictionnaire de variables et

produits.

• Base de bases indépendantes

SECODIP-Pl, SECODIP-P2, INSEE 87, INSEE 89.

• Empilement des enquêtes INSEE par ajout de

l'attribut vague (w : N).

• Gestion de "cohortes" SECODIP sur 3 années.

(20)

8IN?A.

Institut National do la Roc:horcho Agronomique

LES APPLICATIONS

LES VUES MULTI -NOMENCLArURES

• Il existe une fonction qui associe à tout produit de la

nomenclature SECODIP un code INSEE.

• Cette fonction est une relation binaire

F Cn : N, insee : N)

• La jointure naturelle des relations ACHAT et F rend

la vue INSEE des données SECODIP.

LE SECRET STATISTIQUE

• L'attribut m est instrumental (numéro séquentiel).

• La correspondance est gérée au moyen d'une relation

intermédiaire

ÉCHANTILLON (m : N, identifiant: chaine).

(21)

Institut National do b Recherche Agronomique

LES APPLICATIONS

RECONNAISSANCE DU MODÈLE HIÉRARCHIQUE : PRINCIPE

• Exploration de l'arborescence par parcours

séquentiel du fichier séquentiel au format variable (V) IBM.

• Numérotation des sommets (segments) : parcours

canonique du graphe (haut en bas, gauche à droite) et affectation d'un indice par "génération".

• Description des segments dans une relation, image

du dictionnaire associé au modèle hiérarchique : nom, type du segment, position du champ dans le segment, longueur en octets, type de codification (ebcdic, binaire, décimal packé, ... )

• Production d'une base statique "image syntaxique"

du modèle hiérarchique : 1 relation par "génération"

S 1 (gl : N, ts : N, n v : N, x : R)

S2 (gl : N, g2. : N, ts : N, n v : N, x : R)

S3 (gl: N, g2.: N, g3: N, ts : N, nv : N, x : R)

( ts = type segment)

nv

=

numéro variable)

• Production de la base : calcul relationnel piloté par

l'équipe scientifique (interprétation sémantique).

(22)

-lruàtUt Naàonal de la Recherche Agronomique

LES APPLICATIONS

LA VECTORISATION : PRINCIPE

• Les logiciels statistiques traitent des objets numériques structurés : vecteurs, matrices.

• Une relation est un ensemble.

• Exemple illustratif: échantillon den ménages décrits par g variables

•

MÉNAGE (m : N, v : N, x : R).

Algorithme de vectorisation : matrice X de terme Xij

t/ (mi, vj, x) E MÉNAGE

xij = X

==> Le terme Xij est unique si le couple (m, v) est clé

primaire de la relation à vectoriser.

• Généralisation : fonction de 3 relations qui rend un ensemble de matrices

==> notation indicée du statisticien

(23)

Institut National de la Redlerche Agronomique

LES APPLICATIONS

LES FONCTIONS ENSEl\ffiLISTES : AGRÉGATIONS

• Nombre d'individus dans l'échantillon des ménages.

• Somme des achats par ménage et par produit.

• Nombre d'enfants de moins de 14 ans

==> clause GROUP BY de la requête SELECT dans le langage SQL,

==> Projection d'espace vectoriel pour le statisticien.

LA FONCTION DE GÉNÉRALISATION : HÉRITAGE

• Introduction du poids du ménage dans la relation

ACHAT.

• Opération relationnelle de jointure.

• Dénormalisation.

(24)

-Institut National de b Recherche Agronomique

RÉSULTATS ET PERSPECTIVES

TRADUCTION DE LA SOLUTION

• SUN 4/65 660 Mo au départ.

• Lecture bandes IBM labellés, format variable (V) sur

serveur externe : ANSIREAD (AFUU).

• SGBD INGRES, langage SQL.

• Développement de fonctions C :

- Primitives système de décodage des types IBM.

- Interface modèle hiérarchique (opérationnel pour

LEDA).

- fonction de vectorisation.

LES BASES EN SCIENCES SOCIALES

• Consommation: 2 panels SECODIP, 2 enquêtes

INSEE.

• Commerce extérieur de la CEE (COlVIEXT)

- 3 millions de "transactions" commerciales,

- connexion avec les enquêtes d'entreprises INSEE.

• Base de données de l'état civil ancien

(200 000 actes, un million en projet).

• Recensement général de l'agriculture au centième.

(25)

INtitut National de la Recherche Agronomique

RÉSULTATS ET PERSPECTIVES

PROFIL D'UN SGBD "STATISTIQUE"

• Efficacité du calcul relationnel aux limites :

(ensembles de plusieurs millions d'éléments)

==> Optimisation statistique

(au moins la cardinalité des relations).

==> Mécanisme de reformulation des requêtes

(query flattening).

==> Existence de plusieurs stratégies algorithmiques

avec affichage des plans d'exécution.

==> Contrôle des ressources

(==> calcul des fonctions de complexité).

• Possibilité de paramétrer le modèle physique, en

fonction de directives :

==> Données statiques ou dynamiques.

==> Cardinalités des relations en production.

==> Interrogations ponctuelles ou extraction de flots.

==> Accès simultanés ou épisodiques.

==> Nombre d'utilisateurs.

• Possibilité d'administrer la ressource disque

==> Gestion dynamique.

==> Répartition des objets ( tables, bases, espaces

temporaires de tri) sur plusieurs supports physiques.

(26)

enRA.

lnstirut National do b Recherche Agronomique

,

RESULTATS ET PERSPECTIVES

ÉVALUATION D'UN SGBD "STATISTIQUE"

• Test proposé : combinaison linéaire de deux ma tric es

carrées de dimension n • Représentation relationnelle A (i: N,

i:

N, X: R) B (i: N,

i:

N, y : R) C

(i :

N,

i :

N, z : R) (y= X+ ÀZ)

• Affichage préalable des plans d'exécution.

• Grandeurs mesurées

==> espace disque permanent et temporaire,

==> temps d'exécution.

• Test effectué avec n

=

3163 sur SUN 4/65

(cardinalités > 10 millions)

• Généralisable à tout calcul matriciel.

(27)

eOOA

RÉSULTATS ET PERSPECTIVES

LA NÉCESSITÉ DE DÉNORMALISER

• Le statisticien utilise des structures numériques

définies sur des domaines complexes

==> vecteurs, matrices, "objets" multi-dimensionnels, ==> ensembles de valeurs (attribut "tag" artificiel)

==> suppression de la première forme normale.

• Le redondance des informations peut économiser des

opérations de jointure

ACHAT (m, Il ,

t,

tag. insee, v q)

(l'attribut insee ne dépend que de p)

==> suppression seconde forme normale.

• Intérêt des types abstraits de données :

- calcul vectoriel, - calcul matriciel,

- surcharge des opérateurs ( +)

(28)

eIN?A.

Institut National de b Recherche Agronomique

,

RESULTATS ET PERSPECTIVES

LA MIGRATION VERS LES OBJETS ?

• Nécessité d'automatiser les processus :

- primitives systèmes de reconnaissance de types,

- fonctions de conversion de modèles et de vectorisation,

- "paramétrage" du modèle physique.

• Émergence de SGBD propriétaires, construits autour

d'un moteur SQL et apportant les fonctionnalités indispensables aux applications usuelles dans des L4G propres,

===> DA..NGER !

• Attente de l'offre logicielle de SGBD orientés objets

"ouverts" :

- Prototypes: STARBURST (IBM San José)

POSTGRES (Berkeley),

- Produits

(29)

CONCLUSION

• Le modèle relationnel autorise le "downsizing" des grandes bases statistiques sur stations de travail

UNIX

SECODIP 600 Mo ---> 100 Mo

COMEXT 240 Mo ---> 50 Mo.

• Les systèmes doivent offrir les moyens

indispensables pour optimiser ( et contrôler) l'utilisation des ressources :

- directives de paramétrage du modèle physique, - optimisation des requêtes.

• Le modèle relationnel apporte des fonctionnalités

nouvelles pour les équipes de recherches en sciences économiques :

- maîtrise de la complexité,

- vues à travers des nomenclatures hétérogènes,

- empilement d'enquêtes chronologiques et spatiales, - restructuration de données hiérarchisées.