• Aucun résultat trouvé

Représentation relationnelle de documents textuels

Hypertextualisation et Actualisation Apport du modèle relationnel

5.3 Représentation relationnelle de documents textuels

Pendant longtemps, les bases de données de type relationnel ont été destinées à des types de données précis, parfaitement structurés et ayant une sémantique précise [Codd 70] [Jault 86] [Miranda 86a] [Miranda 86b] [Miranda 91] [Gardarin 87b] [Delobel 82]. L'essentiel de la technologie des bases de données a été orientée vers la gestion de ces données de type élémentaire en négligeant les autres classes de données plus générales (mais complexes comme le texte) en raison des difficultés à identifier leurs marques de structure. Néanmoins, plusieurs chercheurs ont montré que les SGBD, prévus pour gérer des données structurées, pouvaient être avantageusement utilisés pour représenter de l'information textuelle au prix de quelques améliorations.

Les travaux de [Stonebraker 86] [Clifton 88] ont montré que les systèmes relationnels pouvaient en effet traiter des documents textuels. En intégrant les documents, ils montrent que les SGBD relationnels sont non seulement en mesure de gérer des données moins structurées mais qu'ils peuvent leur apporter des services inconnus jusque là des systèmes traditionnels d'édition de textes tels que le contrôle des concurrences, le contrôle des accès, la reprise sur panne, les possibilités d'indexation et la manipulation des documents au moyen d'un langage de requête. Cette intégration de données textuelles passe par la création de nouveaux mécanismes : chaîne de caractères à longueur variable, relations ordonnées, opérations sur les sous-chaînes, opérations de concaténation. Ces travaux ont surtout souligné la possibilité de manipuler les documents de la même manière que des données plus structurées. Ils n'introduisent pas de processus de normalisation dans la représentation du document puisque l'essentiel des travaux repose sur la représentation de l'objet atomique qu'est le mot et des opérateurs d'agrégation qui permettent de retrouver la dimension du document.

Le modèle relationnel tel qu'il a été défini par Codd est davantage un modèle orienté "données" que "liaisons" entre les données. Avec le modèle relationnel, c'est l'identification des éléments moteurs d'un monde réel qui est recherché. Bien qu'au travers des dépendances fonctionnelles, la notion de liaisons sémantiques soit présente dans le modèle relationnel, elle n'apparaît que dans le processus de normalisation des relations (c'est à cette étape que s'exprime la sémantique entre les différents attributs). Une fois la normalisation effectuée, l'interprétation sémantique des différentes relations devient difficile car aucune sémantique interrelation n'est exprimée dans le modèle relationnel.

Alors que les travaux de Stonbraker et de Clifton tendaient à monter que, fonctionnellement les SGBD relationnels existants pouvaient souffrir la comparaison avec les systèmes de gestion documentaire [BasisPlus 90][Heaulme 90], au contraire l'article de [Heather 89] montre que le modèle relationnel, d'un point de vue conceptuel, en raison de ses insuffisances à exprimer la sémantique entre les données (les associations) est inadapté pour représenter les documents textuels. L'article de Heather souligne que la représentation relationnelle d'un document textuel basée sur le mot conduit à perdre la richesse des associations existant entre les différentes entités subtiles du document textuel.

Une compagnie aérienne, une société de chemin de fer, une coopérative viticole, etc... se composent d'entités significatives (telles que les avions, les pilotes et les destinations pour les compagnies aériennes, les caves, les exploitants pour les coopératives viticoles, etc...) alors que les documents textuels se composent d'entités dont la signature est plus imprécise, c'est davantage la sémantique des associations qui est importante. De ce point de vue les modèles sémantiques de Chen (E-R) [Chen 76] et de Codd (RM/T) [Codd 79] sont plus appropriés pour représenter les documents textuels.

En effet, un document se compose d'entités de type section, sous-section, paragraphe, sous-paragraphe et note de bas de page. Des liens de type "référence croisée" permettent de relier une ou plusieurs occurrences d'une entité section, sous-section, paragraphe ou sous-paragraphe à une autre occurrence d'entité de type section, sous-section, etc...

De plus, les possibilités d'agrégation et de spécialisation utilisées dans les modèles sémantiques soulèvent le délicat problème de l'unité d'information manipulée à un instant donné. Dans le modèle relationnel, grâce à la première forme normale, cette notion d'unité est ramenée à la notion d'attribut atomique (un employé est représenté par les attributs nom, prénom, salaire, âge, un avion par les attributs type, capacité, vitesse etc...).

En ce qui concerne les documents textuels, cette notion d'unité est beaucoup plus difficile à établir. Les informations inhérentes à certains domaines (musée, médecine, politique, etc...) ne peuvent pas être totalement réduites à une représentation sous forme de champs ou d'attributs dont le contenu et l'usage sont parfaitement déterminés. Souvent, des informations pertinentes sont exprimées dans des zones texte où il est difficile de déterminer la notion d'unité (on peut par exemple associer à une sculpture ou à une peinture des éléments stables comme le nom de l'artiste, l'époque de la création, le matériau utilisé, le nom de l'œuvre, etc... mais les informations relatives au contexte de création, les rapports que l'œuvre entretient avec d'autres créations sont autant d'informations pertinentes dont la structuration est difficile).

Avec la variété des documents textuels (œuvres littéraires, articles de journaux, lettres commerciales, rapports, etc...), il est hasardeux de définir une notion d'unité qui soit indépendante de la nature du document textuel et de l'usage qui en est fait (dans le cas de correspondances commerciales, si on ramène

arbitrairement l'unité à la notion de paragraphe, on peut s'interroger sur la pertinence à "désunifier" le paragraphe consacré à la zone expéditeur, des paragraphes relatifs au corps de la lettre).

Ces différents travaux nous permettent de constater que le modèle relationnel initial est fonctionnellement trop pauvre pour gérer les entités des documents textuels dont la notion d'unité est floue et dont la sémantique est principalement exprimée dans les associations entre les entités. De ce point de vue, les modèles sémantiques corrigent les insuffisances du modèle relationnel mais leur implémentation reste plus difficile.

Mais nous avons vu que, dès que la notion d'unité est précisée (par exemple, le mot chez Stonebraker), le modèle relationnel pouvait représenter un document textuel indépendamment de la richesse sémantique des associations. Le processus d'hypertextualisation automatique permet justement de déterminer les différentes unités structurelles d'un document textuel. Une fois définies et normalisées, ces différentes unités textuelles peuvent alors être représentées sous forme de tables relationnelles. Grâce à cette représentation, nous proposons une vision "administratrice" du méta–réseau hypertexte qui permet de vérifier la cohérence de chacune des unités structurelles des documents hypertextualisés par rapport à l'ensemble du méta–réseau. Le schéma suivant résume l'actualisation locale d'un hyperdocument au moyen d'un système de gestion de bases de données relationnelles qui manipule la représentation structurelle du méta–réseau.

Système hypertexte module d’hypertextualisation Extraction des noeuds Détection des liens S G B D relationnel

figure 7 : Le processus d'actualisation du méta-réseau hypertexte

Du point de vue de l'actualisation locale des hyperdocuments d'un méta– réseau hypertexte, le modèle relationnel tel qu'il a été défini par Codd se montre suffisamment évolué pour maintenir la cohérence de chacun des hyperdocuments. En normalisant les documents hypertextualisés et les références croisées, il est possible de suivre l'évolution de chaque hyperdocument et de répondre aux questions suivantes :

- Quelles sont les entités structurelles (les nœuds) d'un hyperdocument donné ?

- Pour un hyperdocument donné, quels sont les hyperdocuments auquel il est rattaché ?

- Quels sont les hyperdocuments pour lesquels les références croisées aboutissent à des documents n'existant pas encore ? - Quel sera l'impact de la suppression de l'hyperdocument x ? - etc...