• Aucun résultat trouvé

La recherche d'un système de gestion des données pour les sciences sociales, en amont du calcul statistique

N/A
N/A
Protected

Academic year: 2021

Partager "La recherche d'un système de gestion des données pour les sciences sociales, en amont du calcul statistique"

Copied!
18
0
0

Texte intégral

(1)

HAL Id: hal-01891737

https://hal.archives-ouvertes.fr/hal-01891737

Preprint submitted on 9 Oct 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative CommonsAttribution - NonCommercial - NoDerivatives| 4.0 International License

La recherche d’un système de gestion des données pour les sciences sociales, en amont du calcul statistique

Jean-Claude Poupa

To cite this version:

Jean-Claude Poupa. La recherche d’un système de gestion des données pour les sciences sociales, en amont du calcul statistique. 1991. �hal-01891737�

(2)

: ~ • - ·-

INRA

LABORATOIRE DE RECHERCHE SUR LA CONSOMMATION

' .

INSTITUT N4TIONAl ΠLA RECtfROf AGR(r.OMIUt;

StetiJn d'Economil II Soci:Jlogia 111,aa

\ DOCUMENTATION I

' 65, Rue de St Brieuc 35042 RENNES CEDEX Tél. : 99.28.54.OB et 09

LA RECHERCHE D'UN SYSTEME DE GESTION DES DONNEES POUR LES SCIENCES SOCIALES, EN AMONT

· DU CALCUL STATISTIQUE

J.C. POUPA INRA - Station d'économie et sociologie rurales de Rennes

Novembre 1991

PRESENTATION POUR LE GROUPE DE RENOVATION DE L'ENQUETE ALIMENTAIRE DE L'INSEE

}WD.~•EÇ~

~~N-JC.P

(3)

LA RECHERCH. E D'UN SYSTEME DE GESTION DES DONNEES POUR LES SCIENCES SOCIALES, EN AMONT DU CALCUL

STATISTIQUE

1 - Les données en Sciences sociales

2 - La modélisation des données

3 - Profil d'une solution

4 - Mise en œuvre de la solution

INRA - Laboratoire de Recherche sur la Consommation 14 Ill! 1991 (1)

(4)

MISSION au s, ein du Département d'Economie et Sociologie Rurales

- constat (1'9.87) :

- objecHf :

les solutions 1trouvées pour la gestion et le traitement des fichiers importanits relèvenit du coup par coup ... Une telle pratique a de fortes limites ...

... hannoniser, sur le plan informatique, les méthodes

d'administradon des données, assurer la ponabilité des fichiers et aboutir

à

un SYSTEME HOMOGENE DE GESTION DES BASES DE DONNEES ADAPTE AUX BESOINS

SCIENTIFIQUES DU DEPARTEMENT

INRA - Laboratoire de Recherche sur la Consommation 14 /Ill 1991 (2)

(5)

1- LES DONNKES EN SCIENCES SOCIALES

1.1. Les données ne sont généralement pas produites

à

l'INRA mais importées

• institutions nartionales - publiques: INSEE, SCEES - privées SECODIP ...

• institutions internationales - communautaires : EUROST AT - internationales : FAO

=>

les donnees sont factuelles

1.

2. Les équipes

,

effectuent principalement des traitements statistiques et voient

1

1es données dans des espaces vectoriels.

• logiciels SAS

• logiciels d'économétrie

1.

3. Une équi: pe est un ensemble de pe1 rsonnes ayant une culture mathéma.ti, que

,

commune.

INRA - Laboratoire de Recherche sur la Consommation 14 !Ill 1991 (3)

(6)

l. 4. Les bases sont volumineuses

• commerce international de la CEE (EUROSTAT) - 6 millions d'enregistrements

- 3 millions d'opéraitions d'import-export - 2 000 produits

- 200 pays partenaires - 12 pays déclarants - 13 années

- 250 Mo en entrée

• consommation alimentaire des ménages sour,ce secodip, année 1989, panel P2 - 2,5 millions d'achats

- 2G 000 produits - 52 périodes - 5 800 ménages - 20 000 individus - 270 Mo en entrée

• consommation alimentaire des ménages source INSEE, année 1987 - 300 000 ac,tes d'achats

- 400 produits - 7 000 ménages - 20 000 individus

INRA - Laboratoire de Recherche sur la Consommation 14 Ill! 1991 (4)

(7)

1. 5. Les bases

sont

structurées selon un modèle hiérarchique

=

structure

de données arborescente

• consommation alimentaire (ALIM)

menages

individus periodes

achats

• budget des ménages (BDF)

T

menages

postes

rubriques

33 branches 4 générations

INRA -Laboratoire de Recherche sur la Consommation 14 Il JI 199/ (5)

(8)

1. 6. Les bases sont gérées sur serveur central avec un système propriétaire, et des logiciels développés sur mesure

1. 7. Les équipes se heurtent à des problèmes complexes souvent non résolus

• complexité de la gestion des données hiérarchiques avec les logiciels statistiques ;

• gigantisme des tableaux rectangulaires ; (5 000 X 52) X 20 000

• difficulté de "navigation" entre nomenclatures (SECODIP, INSEE)

• constitution de séries temporelles: gestion de données de panel

=> LES LOGICIELS STATISTIQUES NE SONT PAS FAITS POUR CELA

1. 8

.

La numérisation des données textuelles n'est pas automatisée

• base de données de l'état civil ancien

• consultation de thésaurus

INRA - Laboraroire de Recherche sur la Consommation 14 I 11 I 1991 ( 6)

(9)

2- LA MODELISATION DES DONNEES

2 .1.

L'algèbre linéaire

• vecteurs définis sur des espaces vectoriels

• logiciels statistiques

2. 2.

Le

modèle hiérarchique

• structure des données récursives

• grammaire

<arbre> ::= <branche> ... <branche>

<branche>::= <arbre> <rameau terminal>

2. 3. Le modèle relationnel

• algèbre relationnelle (CODD)

• relation = sous ensemble d'un produit cartésien de domaines exemple : menage X variable

x

R

• opérations unaires ou binaires avec des relations comme opérandes, qui rendent des relations:

<p (Rl) Rl 0 R2

INRA -Laboratoire de Recherche sur la Consommation 14 Ill/ 1991 (7)

r

(10)

2. 4. Equivalences entre modèles

• matrice M = { (i, j, mij ) }

• arbre B = { (nœud 1, ... nœud n, valeur) }

2. 5. Prototype IRIS (1988)

• calcul relationnel pour administrer les données

• restitution dans des espaces vectoriels

2. 6. Complexité des algorithmes

• opérandes = ensemble de cardinalité n (n > 106 )

• exemple! ajout d'une variable descriptive d'un achat secodip

• exemple2 ajout du nombre d'individus du ménage en regard de chaque achat

• exemple3 comptage des achats par ménage et par péricxie

• résultat sin est la cardinalité de la table, il existe un algorithme dont le temps d'exécution est proportionnel à n log2n pour exécuter les opérations de jointure associées aux exemples précédents :

n = 106

=> (20 x 106

) opérations d . , . 1012 , . pro mt cartes1en => operattons

INRA - Laboratoire de Recherche sur la Consommation 14 111I 1991 (8)

(11)

2. 7. Organisation physique des données

• les données sont acquises en flots (10- 100 Mo)

• les données sont factuelles et consultées en lecture

• les données sont extraites par paquets construits au moyen de règles stables : - séries temporelles

- matrices spatio-temporelles - vecteurs d'observations

• les extractions restituent des flots qui sont exportés vers les logiciels de traitement

• les accès sont épiscx:liques, restreints la plupan du temps à une équipe

• les bases d'équipes sont généralement indépendantes

• les mises à jour éventuelles sont souvent de périodicité annuelle, avec insertion d'un flot de données

=> IL EXISTE DES MODELES PHYSIQUES ADAPTES

A CE CON1EXTE APPLICATIF

INRA - Laboratoire de Recherche sur la Consommation 14 Ill/ 1991 (9)

(12)

3- PROFIL D'UNE SOLUTION

3 .1. Calcul relationnel et calcul statistique

SGBDR

administration des données

logiciels statistiques

traitement statistique

algèbre de relations algèbre de nombres

• Ne pas confondre : - fichiers et relations -tables et relations

• Les langages de calcul relationnel ne refusent pas nécessairement des opérandes qui sont des tables n'ayant pas une structure de relation.

INRA -Laboratoire de Recherche sur la Consommation 14 Il li 1991 (10)

(13)

3. 2. Architecture matérielle requise

• Il existe un modèle physique qui permet d'installer plusieurs grandes bases de données statistiques sur une station de travail d'équipe

• Il existe des algorithmes adaptés à la restructuration de grands fichiers, images de relations (algorithme de tri-fusion, ... )

Le temps de traitement pour une jointure de k relations de cardinalité n varie proportionnellement à la quantité :

n (k log2 n

+

1) dans le pire des cas

• Machine à 10 mips, 100 instructions par ligne, n = 106

""220 k = 2"'400 secondes

k = 3:::600 secondes

3. 3.

Risques d'effondrements

• algorithmes d'accès figés et inadaptés au contexte des relations de cardinalité élevée (n > !06)

- inflation d'entrées-sorties

- croissance exponentielle du temps d'exécution algorithmes de complexité n x (n/2) k-l

k = 2 => 140 heures

k = 3 => 75 000 heures

• le choix des algorithmes est facilité par la connaissance de la cardinalité des opérandes

=> optimisation statistique

INRA -

Laboratoire

de

Recherche sur la Consommation

14 Ill! 1991 (11)

(14)

• nécessité de contrôler les ressources - ressource CPU

- ressource disque

erreur sur aroibut de jointure : attribut à 2 valeurs au lieu de la clé : n = 106 => cardinalité ::::: 1012

12

3. 4. Moyens logiciels

• logiciels statistiques

• SGBDR

• langage procédural autorisant la manipulation des données binaires et les changements de type

• système de recopie sans interprétation des fichiers binaires lus sur bande magnétique

INRA -Laboratoire de Recherche sur la Consommation 14 I 11 I 1991 ( 12)

(15)

3. 5. Machine cible

• Station de travail UNIX

• Langage C

• Ansiread (ARJU)

• sas, s

• mgres

INRA - Laboraroire

de

Recherche sur la Consommation

14 Ill! 1991 (13)

(16)

4. MISE EN ŒUVRE DE LA SOLUTION

4 .1. L'offre logicielle en calcul relationnel

• Le prototype SYSTEM R (IBM San Jose 197 5-1979) - écrit en PLl sur système IBM

- SQL/DS et DB2 - ORACLE

- a imposé le langage SQL

- ciblé sur systèmes propriétaires

• Le prototype INGRES (Berkeley 1973-1980)

- écrit en langage C à l'origine comme couche externe du système UNIX (Ritchie, Stonebraker)

- ciblé mini-ordinateur (PDPll) - langage QUEL

- langage graphique (QBF)

- développé et commercialisé à l'origine pour les systèmes VAX

INRA -Laboratoire de Recherche sur la Consommation 14 Ill/ 1991 (14)

(17)

4. 2. L'approche

SYSTEM R : ORACLE SUR SUN

(1989-1990)

• consommation élevée de ressource disque (x5)

• complexité de gestion de l'espace réservé (taille, incrément, fonction d'allocation ... )

• immobilisation de l'espace inutilisé (décroissance impossible)

• impossibilité de piloter le modèle physique (b-arbre imposé)

• risque élevé d'effondrement des performances (CPU et ES)

- algorithmes inadaptés aux opérations sur des relations de cardinalité élevée - critères d'optimisation syntaxique

- absence de contrôle des ressources

• conclusions 1989 {IRIS)

- ORACLE est inadapté à la gestion des grandes bases de données statistiques sur station de travail

- Le calcul relationnel avec ORACLE sur de grandes bases statistiques n'est possible que sur serveur central : espace temporaire élevé pour vérifier la seule unicité de clé.

- Complexité accrue pour vérifier la cohérence de la base (intégrité de référence).

INRA - Laboratoire de Recherche sur la Consommation 14 Il li 1991 (15)

(18)

• Conclusion novembre

1990

(prqjet observatoire)

L'obstacle principal pour la mise en œuvre de cette solution est technique: les machines sont suffisamment puissantes, les algorithmes existent mais il semble que l'offre logicielle du marché ne prenne par en compte ce type de besoin.

4.3. L'approche

INGRES

• Langages SQL et QUEL

• Choix du modèle physique (tas, séquentiel indexé, hachage, b-arbre)

• Gestion dynamique de la ressource disque avec banalisation des fichiers (=> possibilité d'utiliser la mémoire tertiaire)

• Gestion du modèle physique à l'intérieur des langages relationnels (initialement dans QUEL, repris dans SQL)

• Répartition multi-volumes des bases logiques et gestion d'une base de bases

• Disponibilité des types de données numériques usuels (entier, ... simple et double précision)

• comrole des ressources

• optimisation statistique

INRA - laboratoire

de

Recherche sur la Consommation

14 Ill/ 1991 (16)

Références

Documents relatifs

Actes de la recherche en sciences sociales | [lang_fr] Des petits actionnaires du système[/lang_fr] [lang_en] The small shareholders of the system[/lang_en] [lang_de] Die

L’enquête a porté sur plusieurs community organizations intervenant dans les quartiers pauvres de Boston.. Afin de dégager la spécificité de cette forme

Le fait de proposer ce service de préservation sur le long terme permet à la TGIR d’informer les communautés, et ce dès le début du projet, de l’utilité

Il est certain que les SHS se voient aujourd’hui confrontées à des réflexions déjà entamées depuis quelques années dans les sciences exactes sur l’ouverture des

18 numérique de la recherche en Sciences humaines et sociales » [17, HUMA-NUM] qui propose aux chercheurs en Sciences humaines et sociales (SHS) un accompagnement et

 Cliquez maintenant sur la cellule B4 et maintenez le bouton gauche de la souris enfoncé pendant que vous faites glisser vers le bas vers la cellule B10 (ou B9, comme B10 est

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP. IMPORTATION, PRÉPARATION DES DONNÉES, RAPPORTS ET MISE

Produire, exploiter, éditer et publier des données numériques font partie du travail quotidien des chercheurs en sciences humaines et sociales, utilisant ces documents pour