• Aucun résultat trouvé

Approche structurelle

L’hypertextualisation par la structure des documents

3.1 Approche structurelle

C'est à partir de documents techniques existant sous format électronique et initialement destinés à l'impression que nous envisageons de créer automatiquement des réseaux hypertextes. Cette création automatique exige de distinguer au sein des documents les futurs composants élémentaires des réseaux : les nœuds. Le problème majeur consiste alors à déterminer l'unité de ces nœuds.

Bien que la définition précise de ce que doit être un nœud hypertexte demeure floue, il est généralement admis que son contenu peut être de nature hétérogène (texte, image, son, vidéo) et que l'information qui y est présente doit être relativement "autonome". Très souvent, Le contenu d'un nœud est assimilé à une idée.

Déterminer précisément l'unité d'un nœud et donc son homogénéité oblige à nous intéresser directement à la signification de l'information que l'on manipule. Alors que le processus qui consiste à faire migrer une information d'un contexte textuel à un contexte hypertextuel en la granularisant peut paraître trivial

pour un opérateur humain (pour autant qu'il soit familiarisé avec le domaine de connaissances de l'information), il devient extrêmement complexe, voire même impossible dès qu'il s'agit de le faire exécuter par un ordinateur. Ni les travaux menés en informatique linguistique, ni les nombreuses réalisations destinées au traitement du langage naturel ne laissent entrevoir dans un proche avenir une possibilité de rendre les ordinateurs en mesure de "comprendre" toutes les informations contenues dans un texte, quelque soit le domaine de connaissances et a fortiori, de justifier d'un point de vue sémantique sa granularisation (la problèmatique de la compréhension de textes n'est pas triviale, nous orientons le lecteur vers [Ehrlich 93] [Cavazza 92] [Moch 91], pour une introduction à une telle problématique).

Pour les puristes, un bon réseau hypertexte contient de l'information créée directement sous forme de nœuds, respectant les impératifs d'autonomie sémantique et de taille, mais qui saurait tirer partie, au moyen de liens, des possibilités de navigation associative. Or, on ne peut ignorer l'existence de l'important volume d'informations d'ores et déjà disponible sur support électronique qu'il est impensable de vouloir ressaisir sous prétexte que son organisation initiale est inadéquate à une représentation hypertexte. Les outils de conversion dont sont dotés les systèmes hypertextes / hypermédias, et qui permettent d'importer des textes et des graphiques créés sous différents formats n'offrent pas une réponse satisfaisante à cette situation. Bien qu'ils évitent une ressaisie massive de l'information, ils contraignent néanmoins l'auteur à de nombreuses opérations manuelles et ne le dispensent pas d'une refonte logico-sémantique des informations pour les adapter à l'hypertexte.

Ainsi, entre l'idéale mais irréalisable granularisation à partir de l'analyse sémantique des documents électroniques existant et le mépris complet de cette

source d'information en raison de sa structuration initiale inadaptée à un usage hypertexte, existe un compromis qui s'appuie sur le découpage des documents et tenant compte de leur structure physique, reflet de la structure logique.

La structure logique d'un document concerne l'ensemble des éléments logiques de type chapitres, titres, paragraphes, énumérations, etc... utilisés lors de la rédaction. Ces éléments délimitent les parties d'un même document et jouent un rôle important dans l'organisation générale du texte.

La structure physique quant à elle, rassemble sur un support papier ou cathodique les caractéristiques typographiques et de mise en page des éléments logiques. Ces caractéristiques qui ont trait directement à la présentation du document, mettent en évidence au moyen de procédés graphiques (fontes, interlignage, cadrage, etc...) les différents éléments logiques utilisés par l'auteur. En cela, la structure physique est dédiée à une vision lecteur et permet à ce dernier une meilleure "prise en main" du document en l'aidant à accéder rapidement et directement à des zones d'information pertinentes. Elle représente une aide à la lecture, une possibilité de sélection visuelle de l'information à appréhender.

Certains documents en raison même de leur nature, ne font pas l'objet d'une structuration logique très poussée. Cela apparaît dans leur présentation et affecte la structure physique qui sera, de manière équivalente, peu élaborée. Ces documents tels que romans, chroniques, articles de presse, récits historiques ou poèmes utilisent en effet peu d'éléments logiques (chapitres, paragraphes) et la représentation graphique, minimale, est de peu d'aide pour le lecteur. Plus encore, ces documents, par les thèmes qu'ils abordent portent en eux une très forte séquentialité qui devient le gage de la cohérence de l'écrit. L'absence de structure physique suffisante et le poids de la chronologie dans le texte, limitant les possibilités de granularisation, rendent ces documents "littéraires" inadaptés à

l’hypertextualisation automatique. Conduire un processus d’hypertextualisation automatique sur de tels documents réduirait totalement les systèmes hypertextes à fonctionner comme de simples "tourne-pages" électroniques assujettis à l'indispensable linéarité des nœuds créés et rendrait inexploitables les mécanismes de navigation.

En revanche, les documents d'origine scientifique et technique traitent d'informations beaucoup moins sensibles à la dimension chronologique et font usage d'une plus grande variété d'entités logiques (titres, chapitres, sections, sous-sections, paragraphes, énumérations, formules, graphiques, etc...) qui déterminent des représentations graphiques plus précises sur lesquelles l'hypertextualisation peut s'appuyer. Dans notre cas, les documents que l'on se propose de traiter sont essentiellement techniques et se rapportent à différents projets relatifs au monde de l'électricité.

Ils concernent soit un état de l'art sur des domaines de connaissances précis (Isolement des lignes électriques aériennes à haute tension, Dossiers des Systèmes Elémentaires relatifs aux centrales nucléaires, guide d'expertise des transformateurs électriques, etc...), soit un descriptif de logiciels industriels (Code de mécanique Aster fonctionnant sur super calculateur CRAY, Plant Design Management System en C.A.O d'ingénierie). Ces documents sont toujours le fait de collectifs d'auteurs rédigeant leurs documents au moyen de logiciels de traitement de textes fonctionnant sur micro-ordinateur. C'est dans le contexte de rédaction de documents destinés au support papier que s'intègre l'hypertextualisation automatique.

En ce sens, nous ne sommes pas en situation de "documents structurés" car il n'est ici ni question de modèles de documents associés à des modèles de traitement et de présentation, ni d'éditeurs structurés. Les notions de structure

logique et physique que nous présentions plus haut sont, dans notre contexte d'étude étroitement mêlées. Nous considérons que, compte tenu de la nature technique des documents rédigés, des règles de présentation adoptées et des outils de rédaction utilisés, il est possible de déduire les différentes entités logiques présentes dans les documents et de permettre une fragmentation cohérente de l'information dans l'optique d'un portage automatique vers un réseau hypertexte.