ARTheque - STEF - ENS Cachan | Représentation de la recherche scientifique et de l'innovation technologique

(1)

REPRESENTATION DE LA RECHERCHE

SCIENTIFIQUE

ET DE L'INNOVATION TECHNOLOGIQUE

Claude RICCIARDI RIGAULT TELE-UNIVERSITE (Université du Quebec)

MOTS CLES : information scientifique, recherche stratégique, base de données documentaire, analyse de texte par ordinateur, système de représentation.

RESUME : Dans un contexte de croissance et de diversification des bases de données textuelles, comment fournir aux décideurs en matière de {X)litique scientifique et technique l'information pertinente? une approche consisteàmettre en place une "chaîne de sondage" du flux d'information circulant de plus en plus en texte intégral, et à produire aux usagers, sur demande, des cartes stratégiques aisément lisibles; pour en accroître la qualité sémantique, une nouvelle recherche prend en compte l'étude de la structure des textes et de leurs représentations; en générant une base de connaissancesàpartir de la base de données, on pense pouvoir développer des outils permettant de répondre mieux encore aux besoins très divers des usagers.

ABSTRACT : Given the phenomena of growth and diversification of text databases, the context in which work Can be carried out on the general problem of producing information aids for scientific an technological decision-making evolved; an attempt has been made to produce an integrated data processing chain to monitor the f10w of full-text information circulating and to meet a demand for "custom tailored" products providing readily usable information; to enhance the semantic quality of the information, a new line of research takes into consideration the structures of the texts ; their representations should provide tools capable of respondingtathe needs of different users by the means of knowledge bases.

(2)

1. PROBLEMATIQUE

La croissance du volume de l'information scientifique et technique est connue; néanmoins, les communautés scientifiques et politiques éprouvent des difficultés importantes à disposer de l'information nécessaire à une planification efficace de leur développement en science et en technologie. Et l'acuité du problème croît au fur et à mesure que ces communautés disposent de moins de moyens.

Pour planifier, il faudrait disposer moins d'une masse d'infomlation que d'une vue globale et synthétique de ce qui se passe dans les champs de la recherche et du développement; une vue qui permette d'évaluer justement les positions respectives des différents partenaires.

Une rétlexion s'est développée depuis quelques années déjà autour des notions de "veille technologique" puis d"'observatoires de la recherche et de l'innovation"; mais ceux-ci manquent encore d'instruments.

Il s'agit de pouvoir répondre à des questions du type: sur quoi, depuis 1984, les Etat-;-Unis ou la CEE font-ils porter leurs efforts de recherche en intelligence artificielle ou en chimie des polymères? ou quels sont les acteurs (labos, etc.) impliqués? quelles sont les tendances dans tel ou tel secteur?

2. COLLECTE ET TRAITEMENT DE L'INFORMAnON

Comment obtenir l'information pertinente? On a proposé différentes formules dont celle de disposer d'observateurs humains à travers le monde mais, outre le coût, on doit déplorer dans ce cas l'inégalité de la couverture et du traitement de l'information; une autre solution consiste à explorer les traces que les laboratoires laissent de leurs activités, essentiellementàtravers les textes écrits (articles scientifiques ou brevets) qu'ils doivent produire s'ils veulent être reconnus. Ces textes sont "engrangés" dans des bases de données documentaires, de plus en plus en texte intégral, et à un rythme impressionnant: on parle de plus de quatre millions de nouveaux documents par an pour les seuls Etats-Unis, de 14 000 nouveaux brevets recensés par semaine par Derwent.

Pour répondre au problème posé, il s'agit donc de permettre aux "observatoires de la recherche et de l'innovation" dont de nombreux pays se dotent, de disposer de stations de "sondage de flux d'information". De quoi parle-t-on? de plonger une sorte de sonde "au fil de l'eau", àdes moments t l ,t2, ...tn,àmême des bases de données pour obtenir une série d"'instantanés" de ce qui se passe àces instants sur les fronts de recherche et de développement; la sonde commande une chaîne de traitement du corpus dedocument~,modules mis en série (avec bouclage possible) et permettant: l'analyse des textes, leur représentation formelle par la con.stitution de réseaux de type sémantique et leur présentation sous une forme graphique accessible aux usagers, en fonction de leursintérêl~.

(3)

corpus de textes délimités. La technique est fondée sur le fait qu'il est possible d'obtenir une représentation d'un champ en étudiant les a~sociations privilégiées d'objetsàl'intérieur d'un fichier représentatif. On étudie les co-occurrences de termes et sur la base d'un calcul de proximité, on détecte des réseaux associatifs privilégiés l . Ces réseaux de type sémantique, traduisent les problématiques portant sur les objets réels, àl'étude dans les laboratoires. L'intérêt d'une telle démarche est multiple: indépendance de tout plan de classement préétabli des sciences et des techniques, possibilité de faire apparaître des macrostructures et d'exploiter l'information issue de la base de données à différents niveaux de spécificité, capacité de travailler aussi bien en fonction des contenus que des acteurs, de générer des cartes statégiques permettant de visualiser le type et le degré de structuration des champs, en termes de cohérence interne comme d'interrelations.

3. FONCTIONNEMENT DE LA CHAINE ACTUELLE

La chaîne actuelle de traitement des textes (issue d'une collaboration entre le Centre de Sociologie de l'Innovation de l'Ecole des Mines et le CDST/CNRS) permet d'avoir une bonne idée de ce qui se passe sur les fronts de la recherche et de cerner l'innovation2.

En début de chaîne, on a développé un logiciel d'indexation assistée (Lexinet), robuste et pennettant de traiter dans un temps acceptable des masses de textes considérables; Lexinet est indépendant de tout lexique préétabli, capable de traiter diverses langues (actuellement français et anglais), divers types de documents (articles et brevets), en texte intégral "condensé" (titres et résumés), avec l'aide d'un expert humain dans un processus de validation interactive.

1. On ne mesure pas seulement la co-occurrence des termes employés (comme le proposait déjà Doyle) mais, grâceàdivers indices, leur implication mutuelle ou leur inclusion réciproque. La chaîne ainsi formée, avec un coefficient donné, est en réalité le chemin de ces réseaux qui se distinguent des réseaux sémantiques par le fait que les arcs ne reçoivent pas a priori d'interprétation sémantique mais sont définis par des coefficients de probabilité dont la propriété fondamentale est la transitivité. Par ailleurs, les réseaux sont ici générés automatiquement.

2. cf. Callon M., Courtial 1.P., Turner W., Bauin S., From translation to problernatic networks : an introduction to co-word analysis, Social science information, 22, 2, 1983.

Callon M., Law J., Rip A. eds., Texts and their Powers : Mapping the Dynamics of Science and Technology, Mac Millan, London, 1986.

(4)

logiciel d'indexation assistée

cartes stratégiques de la recherche; profils d'activité Pour favoriser l'interaction avec le demandeur, un logiciel d'aide à la "navigation" est en cours de développement; il devrait permettre à l'usager de choisir entre diverses possibilités telles que: situer une recherche sur laquelle on s'interroge par rapport aux réseaux constitués dans le domaine, ou encore obtenir les profils d'activité de différents pays ou organismes, dans des secteurs di vers et selon des niveaux de lecture variable.

Un logiciel de reformulation de question (Lexiquest), encore expérimental, proposera enfin à l'usager diverses possibilités pour préciser sa question ou encore l'élargiràdes thèmes qui lui sont associés dans la littérature présente dans la base de données, à différents niveaux d'agrégation.

On peut ainsi schématiser la chaîne de sondage de flux actuelle:

LEXINET

~(--1

MOTS- ASSOCIES ","(--cIustering et classification automatique 1

LEXIMAFFE

+-(--1

LEXIQUEST (~--- reformulation de question et aideàla navigation

4. EVOLUTION

Les techniques dont on vient de faire état permettent d'obtenir une vision utile de ce qui se passe dans les champs étudiés; néanmoins différents problèmes subsistent: l'analyse textuelle ne porte que sur les titres et les résumés des articles ou des brevets, or on s'achemine de plus en plus vers des bases de données en texte intégral qu'il serait bon d'exploiter; par ailleurs, si les représentations actuelles permettent de déceler qu'il existe dans les différents laboratoires ou pays, une problématique de recherche faisant intervenir différent~ objets en relation, elles ne permettent pas de qualifier d'une manière plus précise les opérations; on en reste àun niveau d'information trop fruste par rapport aux données originelles disponibles et aux besoins de la communauté scientifique et politique.

Nous cherchons doncàdévelopper une solution procédant d'une démarche non plus seulement statistique mais aussi sémantique qui permettra la modélisation des connaissancesàpartir des informations stockées dans les bases de données. Ceci passe néanmoins par le repérage, l'extraction des contenus et la catégorisation des concepts retenus (représentations d'objets ou d'opérations) et finit par la mise sur pied d'une interface intelligente avec les experts. La chaîne projetée permettra d'aboutir,àpartir de la base de données,àune base de connaissances exploitable par les mêmes usagers

(5)

que la précédente mais plus souple, plus pointue, plus proche des textes et donc, c'est notre hypothèse de départ, de ce qui se passe réellement dans le champ de la recherche3 .

En ce qui concerne l'extraction de contenu, on doit tirer parti de différents types de représentation, parmi lesquels on retiendra4 :

-les représentations construites à partir de certaines propriétés typographiques et de la structure physique des textes

-les représentations lexicales

-les représentations obtenues à partir de certaines caractéristiques spécifiques (statistiques, par exemple)

-les représentations construites à partir de caractéristiques linguistiques -les représentations sémiotiques

· représentations sémantiques

· représentations textuelles et intertextuelles · représentations pragmatiques

Nous devons tenir compte, non seulement de la grammaire profonde, mais aussi des structures de surface qui la reflètent dans le discours. Nous ne pouvons ignorer les problèmes de narrativité (suite ordonnée des situations et des actions -des états et des transformations- qui traverse les phrases comme les paragraphes), de mise en discours, de dispositifs comme les marques de présentation, l'argumentation, les relations entre phrases, ete.

Par ailleurs, si nous retenons le texte comme unité d'information, nous nous intéressons surtout à la représentation du contenu et de l'organisation de sous-bases définies en fonction des intérêts des demandeurs, à partir des bases

3. La tentation est grande pour plusieurs, d'exploiter cette représentation textuelle, multiple, nombreuse et sans cesse accrue des connaissances d'experts du monde entier que constituent les grandes bases de données, afin d'élaborer et d'alimenter continuement des bases de connaissances, plutôt que de poursuivre par la voie plus habituelle aux cogniticiens des démarches individuelles; nos travaux s'inscrivent dans ce contexte.

4. cf. l-G. Meunier, S. Bertrand-Gastaldy, H. Lebel, A Cali for Enhanced

Representation of Content... ,International Classification, n° l, 1987

de données textuelles et dans un flux constant d'information; les méta-structures retiennent particulièrement notre attention.

La convergence de représentations constatée à partir d'analyses sémio-linguistiques de type "greimassien" et d'approches informatiques du type des graphes conceptuels nous inciteà poursuivre cette piste. Néanmoins, nous avons estimé qu'une démarche plus pragmatique devait être conduite en parallèle qui nous conduit à explorer les possibilités d'un outil déjà existant comme Deredec, ensemble "computationnel" développé au Centre d'analyse de textes par ordinateur (ATO) de l'Université du Québec àMontréal.

(6)

L'intérêt pour nous d'un tel instrument est, entre autres, de pouvoir traiter selon un modèle unique des objets de nature linguistique ou de tout autre type, de nous situer dans une perspective où l'analyse et la représentation des textes peut déboucher sur l'établissement de bases de connaissances, d'élaborer enfin de nouveaux développements à partir d'une technique déjà éprouvée sur des corpus importants, dans des conditions réalistes5.

En effet, nous avons des contraintes de taille des corpus, de temps de traitement, de mise àjour,de mouvance éventuelle des champs et de possibilité de repérage rapide des orientations des fronts de recherche ou d'innovation. Nous devons donc tenir compte de l'existant dans un contexte de gros système d'information; nous situant dans une perspective de développement, nous devons aussi veiller à garder un équilibre entre le souhaitable et le faisable. La "chaîne" actuelle, fruste et robuste conune elle est, permet de traiter rapidement les masses énormes d'information nécessaires aux décideurs dans un temps relativement faible; tout autre système pour "intelligent" qu'il soit, devra tenir compte de ces données. A moins qu'on ne songe essentiellement à travailler sur des bases télédéchargées, "à la demande" et "sur mesure"; c'est une voie adoptée actuellement par des sociologues et des historiens des sciences.

5. RAPPORT AVEC L'EDUCATION SCIENTIFIQUE

Notre travail n'intéresse, en effet, plus le seul domaine des politiques scientifiques et techniques; conçu d'abord comme un exercice appliqué, nécessaire aux "observatoires" de la "veille technologique", il peut aussi servir jusqu'à l'épistémologie des sciences: la synthèse d'une information diffuse et nombreuse ne permet-elle pas, entre autres, de saisir la mouvance des domaines scientifiques, de questionner les frontières?

5. cf. Plante P.,Le système de programma/ion DEREDEC, Mots, 6, 1983;

La structure des données et des algorithmes en DEREDEC, Revue québécoise de linguistique, vol 14, n0_{12, 1985.}