HAL Id: hal-02810863
https://hal.inrae.fr/hal-02810863
Submitted on 6 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
De la caractérisation des données à leur transformation
Diane Le Henaff
To cite this version:
Diane Le Henaff. De la caractérisation des données à leur transformation. Ecole Technique, Mar 2011, Poitiers, France. 33 p. �hal-02810863�
De la caractérisation des
données à leur transformation
Ecole Technique du pôle Technologies 14-15-16 mars à Poitiers
Diane Le Hénaff, Ingénieur Systèmes d’information Documentaires (DV-IST)
1- Objet, information, donnée, … 2- Caractériser
3- Exemple
4- Transformer
De la caractérisation des
données à leur transformation
1
èrepartie
1- Objet, information, donnée
“The term data refers to qualitative or quantitative attributes of a variable or set of variables. Data are typically the results of
measurements and can be the basis of graphs, images, or observations of a set of variables”
Source : http://en.wikipedia.org/wiki/Data Qu’est ce qu’une donnée ?
• Une donnée est un attribut, une propriété d’un objet
• Une donnée est une unité d’information
1- Un objet
1- Un ensemble d'information
2- Caractériser
Caractériser un objet, c’est décrire l’objet avec des propriétés, des
attributs, des caractéristiques qui forment alors un ensemble de
données.
Caractériser une donnée est impropre
sauf si l’on vise à décrire encore plus
finement une unité d’information.
2- Caractériser un objet
Les polyamines sont des composés organiques possédant au moins deux fonctions amine
Une amine est un composé organique dérivé de l'ammoniac dont certains hydrogènes ont été remplacés par un groupement carboné
Un polyamine se caractérise par :
• une suite de copolymères (-CH2-CHOH-CH2-N+(CH3)2- ) de dimethylamine et d’epichlorohydrin
• présence d’ammoniac
• …
2-Caractériser une information
Une bibliothèque est un lieu (-thèque) qui regroupe des livres (biblio-)
Ce livre se caractérise par :
• un éditeur : Gallimard
• un auteur : Lane Smith
• un titre : « C’est un livre »
• un nombre de pages
• une langue d’écriture
• …
2- Prendre en compte le contexte et l’objectif
Cet objet se caractérise par :
• un assemblage de légo
• des couleurs noir, bleu, gris
• une belle harmonie avec les couleurs de la chambre de mon fils…
Ce livre se caractérise par :
• une très bonne critique
• son classement en livre jeunesse
• son sujet original sur les mérites du livre imprimé
2-Caractériser : pour quoi, pour qui, comment ?
•Retrouver l’information
•Définir l’information
•Exploiter l’information
Pour quoi
•L’utilisateur humain
•La machine
Pour qui
•En stockant les propriétés-données (avec ou sans l’objet)
•En les publiant sous différents formats et média
Comment
3- Exemple
Objectif :
je voudrais
que mon
article soit
lu par mes
pairs
3- Exemple
Je le publie
Je le rend accessible
3- Exemple
Je le décris --- Æ manuellement
3- Exemple
Il est décrit --- Æ informatiquement
On parle du format de données de
l’application (ici ProdInra).
Ce format est issu d’une modélisation intellectuelle puis
informatique (en UML)
3- Exemple
Application BDD
De l’alimentation à la restitution des données
4- Transformer
BDD XML
Tout est transformation de données
4- Transformer
SGBD relationnel
Tout est transformation de données
Caractériser un objet, un document se fait (de façon implicite)
• dans un contexte
• pour un objectif
1
èrepartie Conclusion 1/4
Concevoir un système d'information documentaire, c'est expliciter
• le contexte,
• l'objectif
et modéliser (décrire) les objets, les informations, les documents.
1
èrepartie Conclusion 2/4
La transformation des données est partout,
mais elle est cachée à l'utilisateur
1
èrepartie Conclusion 3/4
Chaque transformation a un coût humain et financier.
L’avenir est dans les systèmes économes (ie : optimisation/réduction du nbre de transformations pour un objectif donné)
1
èrepartie Conclusion 4/4
1.
Du document à l'encodage
2.
Concevoir une application documentaire
3.
L'exposition des données en OAI
4.
La réutilisation des données
De la caractérisation des
données à leur transformation
2ème partie
1- Du document à l’encodage
Je caractérise :
Type : Article -> Editorial
Titre : des bibliothèques aux archives ouvertes
Auteur : Jean-Michel Rauzier Revue : Documentaliste – SI Corps du texte :
Voici, comme chaque année à pareille époque, un numéro dans lequel les bibliothèques occupent une place plus visible que d’ordinaire – parce qu’il paraît après le congrès de l’IFLA que précéda de peu celui de l’ABF. Les bibliothèques, moteurs de la diffusion des connaissances et de la construction de la société de l’information : c’est vers l’avenir que l’IFLA avait clairement tourné sa soixante- douzième conférence, moins que jamais repliée sur la bibliothéconomie d’antan et s’affirmant désormais
résolument comme « le congrès mondial des bibliothèques et de l’information ». La bibliothèque demain… : loin de s’appesantir avec narcissisme sur un siècle d’existence, l’Association des bibliothécaires français consacrait le congrès de son centenaire à scruter le futur des
bibliothèques et du métier dans la société de l’information.
Je caractérise :
Type : Article -> Editorial
Titre : des bibliothèques aux archives ouvertes
Auteur : Jean-Michel Rauzier Revue : Documentaliste – SI Corps du texte :
Voici, comme chaque année à pareille époque, un numéro dans lequel les bibliothèques occupent une place plus visible que d’ordinaire – parce qu’il paraît après le
congrès de l’IFLA que précéda de peu celui de l’ABF.
Les bibliothèques, moteurs de la diffusion des connaissances et de la construction de la société de l’information : c’est
vers l’avenir que l’IFLA avait clairement tourné sa soixante-douzième conférence, moins que jamais repliée sur la bibliothéconomie d’antan et
s’affirmant désormais résolument comme « le congrès mondial des bibliothèques et de l’information ». La bibliothèque demain…
J’encode :
(le choix du schéma est important – voici ce qu’il ne faut pas faire)
</type production=« Article » genre=« Editorial »>
<description>
<titre langue=« FRA » role="original">
Des bibliothèques aux archives ouvertes
</titre>
<auteur>
<prenom>Jean-Michel</prenom>
<nom>Rauzier</nom>
</auteur>
…
1- Du document à l’encodage
• Relationnelle
• Native XML
• Objet, graphe, no-sql…
Quel type de BDD ?
•MCD
•UML
Quelle
modélisation ?
•Spécifique
•Standard (MODS…)
Quel format ?
2- Concevoir une application
documentaire
2- Un exemple de diagramme de classe
3- L’exposition des données en OAI
Record (Métadata) format OA
Record (Métadata) Format demandé
Métadonnées au format de l’archive ouverte
Set n°1
Fichiers texte intégral Méta données
Archive ouverte
Entrepôt OAI
nI et pr ér et ur Set n°2
Set n°3
Requête OAI (http)
• Le verbe (ici GetRecord)
• Le set de données (optionnel)
• Le format de données (obligatoire)
Transformation
XML
4- La réutilisation des données
Exemple avec les projets IraLis, Exit, E-LIS portés par CIEPI, the International Centre of Research for Information Strategy and Development
Je m’enregistre dans IraLis
4- La réutilisation des données
<rdf:RDF>
<foaf:Person rdf:about="FRLIS2192">
<foaf:familyName>Le Hénaff</foaf:familyName>
<foaf:firstName>Diane</foaf:firstName>
<foaf:mbox rdf:resource="mailto:diane.lehenaff@gmail.com"/>
<iralis:anep_classification>LIS</iralis:anep_classification>
<iralis:jcr_classification>INFORMATION SCIENCE </iralis:jcr_classification>
<skos:Collection/>
<skos:prefLabel>Diane Le-Hénaff</skos:prefLabel>
<foaf:mbox rdf:resource="mailto:"/>
</foaf:Person>
</rdf:RDF>
Ma signature telle qu’encodée en RDF dans IraLIS
4- La réutilisation des données
Je m’enregistre dans EXIT en signalant mon IraLIS
Mes publications déposées dans ELIS sont mentionnées