HAL Id: hal-00896022
https://hal.archives-ouvertes.fr/hal-00896022
Submitted on 1 Jan 1992
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
La circulation de l’information génétique et sa structuration sous forme d’une base de données
G. Steier
To cite this version:
G. Steier. La circulation de l’information génétique et sa structuration sous forme d’une base de
données. INRA Productions Animales, Paris: INRA, 1992, hs (hs), pp.223-227. �hal-00896022�
G. STEIER
INRA Centre de Traitement de
l’Information Génétique
78352Jouy-en-Josas
CedexLa gestion des populations
La circulation de
l’information génétique
et sa structuration sous
forme d’une base de données
Préambule.
LeDépartement
deGénétique
Animale a étéprécurseur
del’informatique
à l’INRA sousl’impulsion
de J.Poly,
B. Vissac et M. Poutous dans les années50 ;
à cetteépoque
ds réalisaient des calculs sur IBM-704 et 705 etfaisaient gérer
desfichiers importants
sur cartesperforées.
En octobre
1962,
lespremiers équipements
decalculs
internes sont installés sousforme
d’un IBM 1620qui
traite non seulement les donnéeszootechniques
maise a l ement
des données administratives.n janvier 1968, grâce
aux crédits de la nouvelle loi sur1 élevage,
est installé l’IBM360-50,
ordinateur de haut de gamme pourl’époque
carrépondant par exemple
auximportants
besoinsinformatiques d’organismes financiers
comme la Caisse desDépôts
etConsignations qui
enfut
dotée au mêmemoment.
Associés à du
personnel spécialisé regroup
dans une Unité duDépartement,
dénommée Centre de Traitement del’information génétique (CTIG),
ces moyens modernes de calculpermettaient
auDépartement
deremylir
ses missions aubénéfice
des acteurs de l’AméliorationGénétique.
Lesbiométriciens de l’INRA auront
également
accès à ce matériel avant d’être doté de moyens propres en 1979.Le
Département
degénétique
animale a doncjoué
un rôle moteur dans ledéveloppement
des moyensinformatiques
de l’Institut. Cela luipermet aujourd’hui, en partenariat
avec les Institutstechniques
etle Ministère de
l’Agriculture,
dedisposer
des outils nécessaires pour améliorer les méthodes degestion
et de sélection des
populations
d’animauxdomestiques.
Toute
organisation
durables’appuie
sur desrègles
de fonctionnement.
L’informatique appliquée
auCentre de Traitement de l’Information
Génétique
(CTIG) a lessiennes, qui, émergeant
des balbutie- mentsfragmentaires
des années60,
ontpris
corps dans l’articulation des différents traitements au cours desquinze
dernièresannées,
endépit
de l’évo-lution considérable des
puissances
de calcul et dessupports
destockage
en accès direct.Le traitement des informations
génétiques
enFrance a lieu à
plusieurs
niveauxayant
chacun ses missionsparticulières
et non concurrentiellesgrâce
au schéma
adopté.
Mais,
avant de lesdécrire,
ilapparaît opportun
deciter les
objectifs qui
ontguidé
ceuxqui
ont eu la res-ponsabilité
de faire évoluer le CTIG.Objectifs d’ordre organisationnel
Une base de données est une
supermémoire
au ser-vice des décideurs et des acteurs ; elle doit être
capable
de lesrenseigner
sur la situation actuelle etsur
l’historique
des faitsqui
l’ont concernée etqu’elle
a
enregistrés.
Les
organisations qui
fonctionnent deplus
enplus
sur la base des connaissances indirectes de la réalité doivent s’assurer de la
pertinence,
de la cohérence etde la fiabilité des
représentations
de la réalitéqu’elles manipulent
àpartir
des données stockées dans la base.Objectifs d’ordre technologique
Un
Système
de Gestion de Base de Données (SGBD) doit :- centraliser la
gestion
des données pourpermettre :
. la
suppression
desredondances,
. l’unicité de lasaisie,
. de centraliser les
contrôles,
. le partage des données en mettant en oeuvre des mécanismes de concurrence
qui permettent
àplu-
sieurs utilisateurs de
manipuler
simultanément les mêmes collections de données.-
garantir l’intégrité
des données et leur sécurité contre les erreurs demanipulations,
les pannes, lamalveillance,
et assurer la restauration dans un étatvalide,
-
permettre
la confidentialité par laprivatisation
desaccès et la
manipulation
de certainesdonnées,
- assurer
l’indépendance
données-traitement en pro-posant
des mécanismesqui permettent
à différentsprogrammes
d’applications
d’avoir différentes vuesd’une même donnée.
Objectifs d’ordre économique
L’amélioration du ratio &dquo;Etendue des services ren-
dus par les données/volume des
dépenses
de mise enoeuvre&dquo; doit être une
préoccupation permanente
àtravers :
- la durée de vie des
applications qui
découle del’indépendance
des modes destockage
et des struc-tures de
traitement,
- la
multiplication
des usages et des utilisateurs via les traitements par lots ou l’accessibilité par des pro-cessus de télécommunications courants
(minitel, micros.),
- la
disponibilité
desdonnées,
- la réduction des coûts de saisie et le renforcement des contrôles
d’intégrité
et decompatibilité,
- la mise en évidence
qu’il
existe despossibilités
deréutilisation transversale de
procédures qui peuvent
être communes à des
&dquo;types
de contrôle &dquo;à travers les différentes
espèces,
- un effort de
sémantique qui
facilite la maintenanceen
dépit
du &dquo;turn-over&dquo; des hommes oupermet
leredéploiement
de fonctions si de nouvellestechniques portent
à la redistribution desresponsabilités.
Evolution du système national de contrôle de performances
La modélisation du
système
a étéréalisée,
au début des années60,
au sein duDépartement
deGénétique Animale,
où tout sefaisait,
de la méthode de collecte des informations à la sortie desrésultats,
en
passant
par la saisie des données et l’émission deslistes-échange
avec les éleveurs. Apartir
de1968,
lesuccès de l’action attirant de nouveaux adhérents et
impliquant
des engagements financiersqui
ne pou-vaient
qu’être partagés
avec lesprofessionnels,
il y eutrépartition
des tâches avec la mise enplace
desCentres
Régionaux Informatiques
(CRI) afin que la collecte des données et la diffusion des résultats sefassent au
plus près possible
de l’éleveurgrâce
auxprogrès
del’informatique
et à la diminution des coûts.Au maître d’oeuvre
unique
succédait unecollégiali-
té de
partenaires
et d’intérêtsqu’il
fallaitcoordonner,
d’où la création duGroupe Elevage-Informatique
(GELI)
qui
validait les choixinformatiques
en fonc-tion de la
politique
définie par la Commission Nationale d’AméliorationGénétique
(CNAG) et desingénieurs-pivot.
Rattachés enmajorité
aux Institutstechniques ayant
encharge l’espèce
et laproduction
(lait ou viande)qui
leur étaientconfiées,
ces derniers devaientjouer
un rôle trèsimportant
de suivi desactions
informatiques.
Ainsi ils devaient s’assurer que les fonds investis dans lessystèmes
de traite-ment
respectaient
enqualité
et délais les normesédictées par les cahiers des
charges acceptés
en com-mun. Mais ils devaient aussi
jouer
un rôle de coordi- nation entre les acteursprofessionnels
et laRecherche pour faire évoluer les
systèmes
informa-tiques.
Les évolutions successives ont eu pour
préoccupa-
tion de faciliter le recueil de
l’information,
d’enaccroître la fiabilité et la valorisation pour l’ensemble des acteurs (de l’éleveur aux Unités de Sélection).
Au cours de ces évolutions la circulation des infor- mations
génétiques
s’esttoujours appuyée
sur 3niveaux
(figure
1) :départemental
(EtablissementDépartemental
del’Elevage), régional
(12 CRI) etnational (CTIG).
Rôle du CTIG
auniveau national
De par sa
position,
le CTIG est uneplaque
tour-nante
qui reçoit
des informations brutes des CRI et renvoie des informations élaborées et des index versles CRI et des
partenaires
nationaux et raciaux :Instituts
techniques,
Unions pour la Promotion de Races (UPRA).En 1990 le CTIG a reçu 45 millions de Vecteur Standard
Informatique
(VSI) et en aréexpédié
à peuprès
autant tout aulong
des 52 semaines de traite- ment.Pour clarifier ses
actions,
le CTIG a dû définir des standards pour :-
appréhender
les donnéesbrutes ,
ou émettre des résultats sur supportsmagnétiques
afin quel’impres-
sion décentralisée évite les coûts de
transport,
-
façonner
en standard les données brutes dans lesphases primaires,
ou les données élaborées dans lesphases ultimes,
- traiter de
façon
commune les variablesexpurgées
avant
qu’elles
soientintégrées
aux bases dedonnées,
et rendre
&dquo;publiques&dquo;
lesdescriptions
d’ensembles d’informations sous forme derépertoires
de donnéesrégulièrement
tenus àjour
etpartiellement
ou totale-ment édités à l’intention des acteurs du
système : CRI, ingénieurs-pivot, chercheurs,
informaticiens du CTIG (suivi deprojet).
Ainsi, ZOOREP11, qui
couvre le secteur &dquo;bovins-lait&dquo;,
est un document de 145 pages de 100lignes potentielles.
Standard VSI
Entre le CTIG et ses
partenaires
le support initial des informations a été la carteperforée
et, siphysi- quement
elledisparaît progressivement
au début desannées
70,
son format unitaire de 80 colonnes a été utiliséjusqu’à
laproposition
du VSIqui répondait
àun besoin de normalisation pour :
a/ formaliser les
apports
enenregistrements
fixes de128 caractères pour les données et de 164 pour les
impressions.
b/ sécuriser les
apports
en nombre par l’encadrement des donnéesgrâce
à :-
l’enregistrement
&dquo;début&dquo;qui
identifie l’émetteuret la date
d’envoi,
- des
enregistrements
&dquo;détail&dquo;qui supportent
des codes dont ladescription
estlargement diffusée,
-
l’enregistrement
&dquo;fin&dquo;qui décompte
lesenregis-
trements &dquo;détail&dquo; et assure que le nombre
d’apports
est incontesté par l’émetteur et le
récepteur ,
toutedifférence donnant lieu à un
rejet global
desapports.
c/ décrire les données
globalement,
dans un&dquo;réper-
toire de données&dquo; mis à
jour
par le CTIG pourchaque
espèce-type
de contrôle à l’occasion d’une création oud’un
aménagement
de traitement soutenu par un cahier descharges,
etindividuellement,
pour décrire les contraintesd’intégrité qui s’y
rattachent :-
plages
de valeursautorisées,
-
numériques
oualphanumériques,
-
présence obligatoire
ou facultative.Standard de mise
enforme
A
partir
des standards de format et dedescription,
on
pouvait
mettre enplace
des standards de traite- ment itératif en tableauxqui permettent
facilementl’ajout
de variables dans un code ou de modifier uneplage
de valeurs et d’obtenir en sortie un VSI Interneou VSII.
Entre les contraintes externes
imposées
par les utilisateurs et la nécessité de réduire les coûts de maintenance liés à ces évolutions externes à l’infor-matique,
le VSII est une interfacequi permet,
parexemple,
d’assurer uneergonomie
correcte mêmedans la
présentation
desrejets
auxgestionnaires
desCRI ou des
syndicats
de contrôle.Le VSII contient :
- les indicatifs normalisés pour un tri
logique,
disso-ciant ainsi le code externe de sa
séquence
naturelle dans un ensembled’apports,
- une zone de 64 bits
qui indique potentiellement
63types
d’erreurs de validité dans unapport,
- la codification de l’émetteur utilisé en cas de
rejet,
- la date d’émission pour traiter dans l’ordre chronolo-
gique d’apport,
- l’image
del’apport
à réémettre en cas derejet,
- les données en mode interne conforme à leur format de
stockage
dans la base dedonnées,
ou codéesspéci- fiquement
poursignaler
l’absence.Standard de mise à jour de la base de données
A
partir
de ceniveau,
les traitements sontplus hétérogènes
car ils doivents’adapter
à laspécificité
de
l’application
dans son cadrezootechnique.
Le standard
prend
une autre formegrâce
àl’emploi
d’ungénérateur
de programme enlangage
PL/1 : XPL.
Ce
générateur
mis aupoint
par mes soins en 1972 découle des méthodesWarnier-Corig
et duprincipe
de la
programmation &dquo;topdown&dquo; qui permet
uneplus grande
lisibilité des programmes, associée à la modu- laritéqui,
sous réserve d’une attentionparticulière
aux
interfaces, permet
l’introduction de nouveauxcodes VSII.
De
plus,
lesdescriptions
de bases de données ins- tallées dans desbibliothèques
centralisées permet- tent des mises à niveaux parsimple compilation
desprogrammes et sans remise en cause de l’existant.
Pour la mise en oeuvre sous CMS par une
procédu-
re
interactive,
le programmeur décrit le contexte deson programme :
- nombre de niveaux de rupture (ex :
syndicat,
éle-veur, animal)
- le nombre de fichiers en entrée ou écriture et pour chacun d’eux le format
(fixe, variable...), la
méthoded’accès
(séquentielle, directe,..)
A ces choix
explicites,
laprocédure ajoute
des fonc-tions
implicites qui :
- permettent des contrôles de
séquence
detraitement,
- encadrent les accès aux
modules,
- introduisent des
procédures
dereprise
de traite- ment,- documentent les sorties sur les
&dquo;post-list&dquo; d’exploita-
tion avec la date de dernière maintenance du pro- gramme
exploité,
les date et heure de début et fin detraitement,
lescomptages
sur les entrées-sorties et les ensembles traités.Le tout conduit à la mise en
place
delignes
d’inclu-sion par &dquo;%INCLUDE ...&dquo; choisis ou
imposés, qui
lorsde la
compilation
provoquerontl’appel
de modulesstockées dans une
bibliothèque
et mis à niveau enfonction des
systèmes
utilisés dans letemps : OS/VS1,MVS/SP,MVS/XA
MVS/ESA.XPL a donc introduit une
sémantique qui prépare
à la lisibilité du programme
quel qu’en
soit l’auteur etpar
conséquence
facilite lamaintenance, qu’elle
pro- vienne des évolutions desystème
oud’aménagements
suscités par les utilisateurs.
Les fichiers ont des formats standards sous forme de
&dquo;segments&dquo;
àlongueur
variable de 1536 octets aumaximum ;
le dossier d’un animal ou d’un éleveur étantcomposé
de nsegments
àprésence variable ;
seul un
premier
dit &dquo;témoin&dquo; ou &dquo;SOOO&dquo; étanttoujours présent
pourindiquer quels
segments sontprésents
àsa suite.
Ces bases ont
également
desdescriptions
centrali-sées dans des
bibliothèques auxquelles
on faitappel
par des &dquo;%INCLUDE ...&dquo;.
Cet
agencement permet l’ajout
de données et de traitementssupplémentaires
sans remettre en causeles données
déjà
stockées et nécessite une mainte-nance
allégée.
Par ailleurs ils’adaptait
sansproblè-
me à une
organisation
indexée detype VSAM ;
ilpeut
servir de
support
à une évolution facilitée vers lesorganisations
de bases relationnelles detype
DB2.Des standards d’émission des
rejets s’appuyant
surdes tables externes, des standards de communica- tions
permettant
d’extraire desdonnées,
sont autant d’élémentsqui
sont similaires à travers les diffé- rentes chaînes.Standard de contrôle de flux
Chaque
mise àjour
de base de données donne lieu à l’émission de &dquo;tableaux de sécurité&dquo;qui parviennent
à
l’ingénieur-pivot.
Ces tableaux permettent une observation des délais de
stockage
dans la basedepuis
l’événementzootechnique (naissance, pesée, etc) ;
ceci est trèsimportant quant
à laprise
encompte
dans lesindex ;
ils donnent un aperçu de la
qualité
de l’information par le % derejets
(en moyenne 1 % pour les bovins- lait) et suscitent uneenquête auprès
de l’émetteur si le seuil d’alerte est atteint.Standard de fourniture d’informations
auxchercheurs
Les
généticiens qui
ont encharge
la fourniture d’index pour la sélection desreproducteurs
sont lesdestinataires
privilégiés
des informationscollectées, passées
au crible de nombreux tests de vraisemblance et decompatibilité,
et dont ilsreçoivent
des extrac-tions selon des
rythmes
et des modalitésqu’ils
défi-nissent aux informaticiens du CTIG.
Leurs calculs
achevés,
ils retournent au CTIG des fichiersqui
servent à créer des VSI destinés auxintervenants
économiques.
Le CTIG
agit
donc &dquo;en frontal&dquo; de l’action scienti-fique,
évitant ainsi les doublons dans l’action infor-matique.
Effet des standards
surles conditions
d’exploitation
Il découle de la mise en oeuvre de standards à tous les niveaux que les
procédures
de traitement misesen oeuvre
périodiquement
par les techniciens del’exploitation (pupitreurs
etpréparateurs)
sont relati-vement
homogènes
et d’unecomplexité rapidement
assimilable.
Conclusion
En
informatique,
latechnique évolue,
lapuissance
des ordinateurs ne cesse de croître et le
prix
de lapuissance
enMips
(millions d’instructions par secon-de)
ou de l’octet stocké ne cesse de baisser.Les délais de réalisation sont
toujours trop longs ;
le
temps
écoulé entre la formulation du besoin infor-matique
et sa mise enplace
se chiffreparfois
enannées ;
dans cesconditions,
les résultats convien-nent
plus
ou moins aux utilisateurs dont les besoins ontchangé entre-temps.
C’estpourquoi
letemps
maximum entre la formulation d’un
projet
et sa miseen oeuvre ne doit pas
dépasser
18 mois. Adéfaut,
ilfaut
découper
ensous-projets entrepris
l’unaprès
l’autre.
Les programmes ont un
cycle
de vie avec des crisesde
jeunesse
et des défaillances séniles. Il faut lesentretenir,
lesmaintenir,
lesadapter,
lescorriger
deserreurs de
programmation.
Cette maintenance est coûteuse entemps
et rend les informaticiens moinsdisponibles
aupréjudice
dutemps
consacré au déve-loppement.
Il devient ainsi difficile derépondre
àtoutes les
exigences
des utilisateurs.Malgré
ces contraintes il faut noterqu’un système
cohérent d’informations est mis au service des
organi-
sations
d’élevage
et des éleveurs adhérant au contrôle deperformances.
Cesystème
n’est pasfigé,
mais lesévolutions
qu’il
a connues ont supréserver
sa cohé-rence. Des
applications
mises sous forme de base de données relationnelles comme la base de données&dquo;taureaux&dquo; matérialisent bien ces évolutions
qu’il
faut
poursuivre
avec les différentspartenaires.
Iln’y
a pas de raison pour que dans le futur les différents maîtres d’oeuvre
informatiques
concernés par les données del’élevage
ne continuent pas à oeuvrerdans ce sens.