• Aucun résultat trouvé

POLANCO X., FRANÇOIS C., KEIM J.P (1997)

L’INFOMETRIE, UN PROGRAMME DE RECHERCHE

6. Les éléments de la chaîne infométrique

1 - Fichiers et Formats 2 - Indexation 3 - Bibliométrie 4 - Outils scientométriques 5 - Infographie 6 - Hypertexte 7 - Edition

En signalant ces différents éléments, nous voulons mettre en valeur notre approche informatique fondée sur la modularité par décomposition en programmes qui s’échangent des flux d’information (telle qu’elle est exposée en J. Ducloy, P. Charpentier, C. François, L. Grivel, “Une boîte à outils pour le traitement de l’Information Scientifique et Technique”, Actes des 4es. Journées Internationales Le Génie logiciel et ses applications. Toulouse, 9-13 Décembre 1991, p. 239-254 ). Ces programmes sont développés sous UNIX, un système multi-utilisateur et multi-tâche d’exploitation et de développement, qui grâce à son mécanisme de “pipe” permet de combiner différents outils.

1 - Fichiers et Formats

La première étape est l’élaboration des fichiers à partir desquels une analyse se fera, Ce qui implique un travail sur les formats des notices bibliographiques afin de les rendre exploitables tout au long de la chaîne. C’est donc la définition d’un format pivot unique.

L’idée fondamentale est l’utilisation du balisage de la norme SGML (Standard Generalized Markup Language) pour décrire toutes les données quelle que soit leur organisation. Une fois que toutes les données sont homogénéisées dans un format pivot unique, il est plus facile de concevoir des outils génériques utilisant les propriétés du balisage SGML.

Voir C. François, Analyse de références bibliographiques conformes à la norme ISO 2709 et conversion vers la norme SGML. Rapport de stage DESS Informatique, INIST-CNRS, ISIAL, Université de Nancy 1,1990 ; N. Dusoulier et J. Ducloy, “Processing of data and exchange of records in scientific and technical information center. Formats: what for?. Communication à CCF-UNIMARC Workshop, Florence, 5-6 juin 1991.

Annexe 1 178 2 - Indexation

Les programmes NEURODOC et SDOC ont comme «input» des mots-clés, qui sont des indicateurs du contenu des articles scientifiques.

Ces mots-clés peuvent être fournis par les notices elles-mêmes, ce qui pose le problème de leur adéquation aux besoins de ls scientométrie. Ceci implique de nous doter d’un outil d’indexation assistée par ordinateur.

Voir à ce sujet J. Royauté, L. Schmitt et E. Olivetan, “Les expériences d’indexation à l’INIST”. Actes du 15e Colloque International en Linguistique Informatique : COLING-92, Nantes, 23-28 août 1992, vol. III, p.1058-1063.

NB : Nous travaillons à ce sujet en collaboration étroite avec le programme de recherche INDEXATION qui a pour mission, sous la responsabilité de L. Schmitt, de doter à l’INIST d’outils d’aide à l’indexation.

3 - Bibliométrie

Cette étape correspond à l’application d’outils statistiques pour analyser notamment la distribution et la fréquence des données bibliographiques. L’objectif est de caractériser, à l’aide de tableaux et de graphes, la littérature scientifique dans un domaine déterminé.

On peut ainsi quantifier sa magnitude (nombre d’articles, nombre de revues), son actualité (selon la date de publication), sa localisation (selon le pays d’édition des revues scientifiques), l’importance des périodiques scientifiques (selon le nombre d’articles dont ils sont la source au cours d’une période déterminée) et la localisation des auteurs (selon leur appartenance institutionnelle).

Le traitement statistique se fait en trois étapes, utilisant un ensemble de programmes d’analyse statistique descriptive permettant de créer un fichier résultat directement exploitable en sortie papier ou sous un tableur de type EXCEL par exemple.

Première étape : création de fichiers inverses.

Seconde étape : analyse statistique des notices : 1) comptage de références ; 2) distribution par langue ; 3) distribution par pays d’affiliation des auteurs ; 4) distribution par type de document ; 5) distribution par date de publication ; 6) distribution par titres de périodiques ; 7) distribution par pays d’édition de ces titres.

Troisième étape : analyse statistique des mots-clés : 1) nombre de mots-clés ; 2) moyenne par notices ; 3) distribution des mots-clés par notices ; 4) distribution des mots-clés par fréquence.

Dans cette phase de la chaîne infométrique, on utilise des shell-script UNIX encapsulant des programmes écrits en langage C. On peut envisager l’utilisations des outils disponibles sur le marché, comme par exemple MATLAB en mathématiques,

SAS en statistiques et SPAD.N en analyse de données, et le développement d’un génie mathématique plus sophistiqué.

4 - Outils scientométriques

Ce sont les programmes NEURODOC et SDOC (voir leur fiche technique dans la section 7 de cette communication).

NEURODOC est un ensemble de modules implémentant la méthode de K-means axiales.

Voir C. François, N. Appel, G. Bloch, M. Gabsi, J. Ducloy, “NEURODOC, Nouveaux profils documentaire”, Compte rendu de fin d’étude d’une recherche financée par le Ministère de la Recherche et de la Technologie, décembre 1991; A. Lelu et C. François, “Information retrieval based on a neural unsupervised extraction of thematic fuzzy clusters”, communication à Neuro-Nîmes 92 : Les réseaux neuro- mimétiques et leurs applications, Nîmes, 2-6 novembre 1992 ; A. Lelu et C. François, “Hypertext paradigm in the field of information retrieval: a neural approach”, communication à Fourth ACM conference on Hypertext : ECHT’92, Milan (Italie), 30 novembre- 4 décembre 1992.

SDOC est un ensemble de modules implémentant la méthode des mots associés.

Voir X. Polanco, L. Schmitt, D. Besagni, L. Grivel, “A la recherche de la diversité perdue : est-il possible de mettre en évidence les éléments hétérogènes d’un front de recherche?”, Actes des journées d’étude sur Les systèmes d’information élaborées, organisées par SFBA, Ile Rousse, Corse, 6-5 juin 1991, p. 273-292 ; J. Ducloy et X. Polanco, “D’une boîte à outils à la description du domaine des Cognisciences”, Actes des journées d’étude La scientométrie en action, organisées par l’ADEST, Paris, 1-2 juin 1992, p.65-73.

5 - Infographie

C’est la représentation graphique des résultats, dans notre cas, l’élaboration de cartes comme sortie de NEURODOC et de SDOC. Les cartes NEURODOC sont construites à l’aide d’une Analyse en Composantes Principales (ACP) et affichées en Hypercard ; les cartes SDOC s’affichent sous UNIX au moyen de trois modules graphiques développés en langage C et utilisant le système de composition de documents LATEX (voir E. Nataf, Composition de page en LATEX - Création d’outils graphiques pour la scientométrie. Rapport de stage. INIST / I.U.T. de l’Université de Nancy 2, Option génie informatique. 1992).

6 - Hypertexte

La génération d’hypertextes à l’aide des logiciels Hypercard, Folio sur PC ou Zen2 sous UNIX est à considérer selon un double objectif : 1) fournir à l’utilisateur final un

2

Annexe 1 180 document hypertexte qui lui permet de naviguer dans un ensemble de références bibliographiques à partir d’une carte globale des thèmes ; 2) fournir un instrument de travail pour l’analyse scientométrique.

Voir J. Ducloy, L. Grivel, J-Ch. Lamirel, X. Polanco, L. Schmitt, “INIST’s Experience in Hyper-Document Building from Bibliographic Data Bases”. Communication à la Conférence RIAO 91- Barcelone (Spain), 2-5 Avril 1991; J. Ducloy et A. Lelu, “NEURODOC : construction d’hyperdocuments à l’aide de procédés neuronaux”. Communication à Génie Linguistique 91, Versailles, 16-17 janvier 1991 ; L. Grivel et J-Ch. Lamirel, “SDOC, A Generator of Hypertext Structures”. Communication à 2th. Coference Multimedia Information - Cambridge (UK), 15-18 july 1991).

7 - Edition

Deux voies sont possibles pour l’édition sur support papier : 1) utiliser des compooseur tels que Troff ou LATEX sous UNIX, et 2) travailler dans des environnement plus sophistiqués tels que celui du logiciel INTERLEAF qui permet de créer et d’éditer des documents structurés.