• Aucun résultat trouvé

3. Données, instruments et techniques.

3.3. Outils linguistiques.

La chaîne linguistique-infométrique que nous avons mis en place s’appuie sur un analyseur (FASTR) [7] et sur un module d’assignation de catégories grammaticales (développé à l’INIST) pour l’étiquetage des mots de différents lexiques terminologiques [8] [13]. Ces outils permettent à partir d’une nomenclature terminologique quelconque, de repérer des termes sous leurs formes de base ou leurs formes variantes.

Nous identifions trois catégories de variations : 1) la variation flexionnelle, 2) la variation syntaxique et 3) la variation de type morpho-dérivationnelle. Chacune de ces variations pose un problème particulier pour la reconnaissance des termes. Nous mettons l’emphase sur la variation syntaxique qui est très productive. Les phénomènes de morphologie dérivationnelle sont cités à titre d’exemple et ne sont pas traités en tant que tels. Ils feront l’objet d’une étude ultérieure.

3.3.1. Variation flexionnelle.

Elle permet d’identifier pour chaque terme, les formes singulier / pluriel des noms (deficiency : deficiencies), et les formes infinitives, participe passées et gérondives des noms/verbes (acoustic test : acoustic testing). Dans les traitements que nous effectuons, chaque mot est décomposé en son lemme ou racine et sa terminaison. A chaque classe de mots correspond donc un lemme et ses différentes terminaisons.

3.3.2. Variation syntaxique.

La variation syntaxique est, avec la variation flexionnelle au centre des traitements que nous opérons. En effet, dans cette expérimentation, nous traitons trois sortes de variations syntaxiques :

(a) la variation d’insertion concerne tout mot à l’intérieur du groupe nominal, à l’exception de la plupart des mots grammaticaux. Par exemple, X ray absorption spectroscopy est associé au terme X ray spectroscopy ;

(b) la variation de coordination concerne toute forme coordonnéesde mots (adjectifs ou noms) à l’intérieur du groupe nominal. Par exemple, differential and integrated cross sections est associé au terme Differential cross section ;

(c) la variation de permutation implique tous les mots ou les groupes de mots pouvant permuter autour d’un élément pivot (prépositions ou séquences verbales). Par exemple, range of power modulation frequency est associé au terme Frequency range.

3.3.3. Variation morpho-dérivationnelle.

La variation morpho-dérivationnelle intègre dans la terminologie les phénomènes de nominalisation et d’adjectivisation. Ainsi la nominalisation de l’adjectif permet d’associer la séquence textuelle : instable combustion au terme Combustion instability ; dans les cas de nominalisation des verbes, "... promotes degration of the cellular tumor..." se trouve associé à tumor promotion et pour l’adjectivisation des noms : optic disk est équivalent au terme optical disk. En réalité, notre expérimentation ne traite pas les phénomènes de dérivation qui ne sont cités ici que pour l’exemple, elle ne traite comme nous avons dit que les variations flexionnelles (§ 3.3.1) et syntaxiques (§ 3.3.2).

4. Expérimentation.

Elle s’est déroulée en deux phases. La première, complètement automatique est le résultat brut du couplage du module d’extraction terminologique avec SDOC. Elle a permis d’obtenir, sans intervention humaine, une première classification. La deuxième phase a nécessité l’intervention d’un ingénieur documentaliste expert en physique.

Chapitre 3 45 La première étape de l’expertise a consisté à filtrer les termes du vocabulaire peu informatifs du point de vue du contenu. Il faut remarquer que la plupart des termes rejetés était des termes d’un seul mot (unitermes). Le bilan qui peut en être fait est que, outre la qualité finale de la classification, cette opération a été peu coûteuse en temps (un peu plus d’une demi-journée de travail d’expertise pour une personne). De plus, il est apparu qu’elle pourrait être automatisée de façon quasi-complète en la généralisant à l’ensemble du vocabulaire d’entrée.

Cette étape préalable d’épuration du vocabulaire a permis d’obtenir une classification en 20 thèmes principaux. Chacun de ces thèmes a pu être analysé et décrit par l’expert du domaine. Le tableau 1 donne ci-dessous le descriptif succinct de chacun de ces thèmes.

Ces thèmes ont été placés automatiquement sur une carte en fonction des critères de cohésion et de centralité propres à l’outil d’analyse infométrique SDOC. La cohésion caractérise la valeur des associations unissant les mots qui composent un thème donné. La centralité rend compte pour un thème de la valeur de ses associations avec d’autres thèmes. Ces deux mesures permettent de ranger les différents thèmes sur un plan bidimensionnel (voir figure 1) .

D’une façon générale, la carte est un indicateur de l’importance relative des thèmes par rapport à la cohésion (y) de l’information qu’ils représentent individuellement, et à la centralité (x), c’est-à-dire le rôle qu’ils jouent dans l’ensemble du domaine au moment de l’analyse. C’est aussi un moyen de représenter automatiquement les contenus de connaissance véhiculés par les documents à partir de la terminologie utilisée dans un cluster (agrégat ou amas). En résumé, ce type de carte est un outil d’aide à l’analyse de l’information.

Etude des phénomènes dus à une irradiation par particules ou rayonnement électromagnétique OPTICAL PROPERTIES COUPLINGS IONIZATION ELECTRON DENSITY PHOTOLUMINESCENCE ELECTRIC FIELDS SCATTERING THIN FILM HETEROSTRUCTURES VALENCE INTERACTIONS LAYERS ELECTRONIC STATES SURFACES MAGNETIC FIELDS PHOTONS IRRADIATION QUANTUM WELLS GROWTH

Propriétés optiques - Lasers Effets dimensionnels - Super-réseaux

SIZE

Diffusion des impuretés (en particulier l'hydrogène). Interaction particules-particules et particules-rayonnement Ionisation, transitions électroniques dans les atomes, les molécules et la matière condensée

Etudes de la densité électronique et des ondes de densité de charge

Champs électriques (influence, comportement) dans les atomes, molécules et dans la matière condensée Phénomènes de transport

Structures, propriétés des couches minces et des monocristaux

Puits quantiques et autres hétérostructures

Phénomènes relatifs à la structure électronique dans les semiconducteurs

Etudes de la photoluminescence sur des couches semiconductrices ou des puits quantiques Interaction entre particules ou quasiparticules Croissance et dépôt de couches minces

Structure et phénomènes électroniques dans la matière Etats électroniques et phénomènes électroniques de surface Influence d'un champ magnétique sur la matière condensée Interaction des atomes et des molécules avec un rayonnement électromagnétique

Puits quantiques, barrières de potentiel, confinement optique Croissance et dépôt de couches minces

Etude des phénomènes dus à une irradiation par particules ou rayonnement électromagnétique

Chapitre 3 47 Figure 1 — Carte global du domaine analysé

Il n’est pas question d’entrer ici dans des considérations plus détaillées sur la technique de construction de la carte et son mode d’emploi dans l’analyse de l’IST. Nous l’avons déjà fait à plusieurs reprises [10] [11], ainsi que nos collègues qui sont à l’origine de la méthode des mots associés [1] [2] [3]. Nous nous contenterons ici de souligner que, dans notre dispositif, la carte joue le rôle d’une surface de représentation de ces structures complexes que sont les clusters. Comme il a été expliqué (§ 3), l’emploi d’un outil de classification automatique nous permet de replacer les phénomènes linguistiques de la variation et du figement (cf. § 3.2) à l’intérieur des clusters, une fois que ces phénomènes ont été automatiquement repérés au niveau des textes eux-mêmes par les traitements informatiques linguistiques (cf. § 3.3). On verra dans la section 5 comment ces phénomènes de langue sont représentés d’une manière quantitative (suite à un calcul) et qualitative dans la structure des clusters.

5. Discussion.

Le but de cette section est de montrer l’apport que signifie la mise en œ uvre de notre hypothèse (cf. § 2); à savoir que la variation et le figement peuvent être des indicateurs linguistiques de connaissance, susceptibles d’être l’objet d’une mesure dans le cadre d’une ingénierie de l’information, et donc exploitables du point de vue infométrique. Il s’agit ici de mesurer le rôle qu’ils jouent dans les clusters et les types de clusters qu’ils privilégient. Il faut noter que les clusters sont des indicateurs des thèmes ou des centres d’intérêt autour desquels s’agrège l’information à un moment donné.

Quand on observe les termes qui ont servis à créer les clusters, on remarque que certains varient beaucoup alors que d’autres sont remarquables par leur stabilité. Que traduit ce phénomène de langue et comment lui donner une interprétation en terme d’indicateurs de connaissance ? Nous cherchons dans un premier temps à donner une explication linguistique à ces observations (§ 5.1). Ensuite, nous voulons en donner une mesure (§ 5.2), afin de pouvoir les utiliser comme indicateurs et les appliquer dans notre approche infométrique (§ 5.3). Enfin, nous tentons de réanalyser les clusters du point de vue de la variation et du figement (§§ 5.4 ; 5.5).