• Aucun résultat trouvé

Légende Contient Suivi de Instancié par Instance de

...

Fig. 4.1 –

Structure du Réseau de Concepts pour les références.

La construction automatique du Réseau de Concepts implique l’utilisation d’une base de connaissance et d’outils de conversion que nous allons décrire. La base de références bibliogra-phiques au format BibTEX est, pour des raisons de facilité de manipulation, convertie en sgml, grâce aux outils de la dilib (

cf.

Annexe C).

La figure 4.2 montre le format que peut avoir une référence bibliographique de la base. La première étape est sa transformation, par un outil de la dilib, en sgml. La figure 4.3 donne le résultat de cette transformation.

@ARTICLE{joseph92a,

AUTHOR = {S. H. Joseph and T. P. Pridmore},

TITLE = {Knowledge-Directed Interpretation of Mechanical Engineering Drawings},

JOURNAL = {IEEE Transactions on PAMI}, YEAR = {1992},

NUMBER = {9}, VOLUME = {14}, PAGES = {211--222}, MONTH = {September},

KEYWORDS = {segmentation, forms},

ABSTRACT = {The approach is based on item extraction} }

Fig. 4.2 –

Exemple de référence en

BibTEX

, de type

article

.

Un avantage de l’utilisation d’une base BibTEX est la facilité d’obtention de sa version physique, en passant par les outils LATEX et dvips. Nous avons écrit le programme faisant la « soustraction » physique-logique, qui extrait automatiquement les séparateurs. Cette manière de faire permet une grande souplesse dans les styles bibliographiques qu’on peut traiter : on n’est pas obligé de connaître toutes les règles d’impression selon les styles, un style inconnu se traite

<doc>

<ref>joseph92a</ref>

<author><a>S. H. Joseph</a><a>T. P. Pridmore</a></author>

<title><mot>Knowledge-Directed</mot><mot>Interpretation</mot><mot>of</mot> <mot>Mechanical</mot><mot>Engineering</mot><mot>Drawings</mot> </title>

<journal>IEEE Transactions on PAMI</journal> <year>1992</year> <number>9</number> <volume>14</volume> <pages>211--222</pages> <month>September</month> <keywords><k>segmentation</k><k>forms</k></keywords> </doc>

Fig.4.3 –

Référence

BibTEX

transformée en

sgml

.

de la même manière qu’un autre.

C’est ce que montre la figure 4.4 : il suffit de disposer de l’outil traduisant les références logiques en PostScript et des outils de traduction du format logique de départ vers le format sgmlutilisé pour pouvoir générer un Réseau de Concepts adapté à la reconnaissance de références utilisant le même style bibliographique, le tout dans le format de la base de départ.

Base de références

(BibTeX)

Extraction de la structure (champs & sous-champs)

Détection des séparateurs

Extraction des termes (instances de champs) Statistiques (occurrences & co-occurrences) Réseau de concepts SGML SGML Postscript Générique Spécifique

Fig. 4.4 –

Construction du Réseau de Concepts pour les références.

4.1.1 Influence et co-occurrence

Comment fixer les valeurs des poids des liens dans le Réseau de Concepts ? C’est lors de la réflexion sur l’exploitation des termes de la base (instances de champs appartenant à la partie générique) que l’utilisation de la co-occurrence de deux termes s’est imposée.

Dans le domaine de l’acquisition des connaissances, on tient pour acquis qu’il existe deux façons de procéder : l’une est descendante et l’autre ascendante. La descendante est dite « ono-masiologique » et part du niveau conceptuel (un modèle) pour comprendre les textes. Cette manière de faire est efficace lorsque les documents traités sont fortement structurés, mais reste silencieuse sur des connaissances non prévues. L’ascendante est dite « sémasiologique » et part des données pour construire des entités conceptuelles. La construction du Réseau de Concepts est donc qualifiable de « sémasiologique » puisqu’elle part des données contenues dans la base de références pour construire des concepts.

Dans [Frath

et al.

, 1995], les auteurs disent que pour eux «

le sens se construit

essentielle-ment grâce à une combinatoire: les constituants d'un syntagme exercent les uns sur les autres des

contraintes sémantiques qui en restreignent et donc en précisent le sens.

». Leur système d’aide à l’extraction, à partir d’un texte, d’entités conceptuelles et de relations extrait des segments ré-pétés, les simplifie, les généralise, morphologiquement (lemmatisation sommaire), puis recherche des co-occurrences de couples de mots. Ces relations sont ensuite étiquetées manuellement. Notre acception du sens est similaire : le sens d’un mot ne se précise que grâce aux autres mots (ou concepts) qui lui sont associés.

Des chercheurs analysant la compréhension humaine lors de la lecture ont mis en évidence des structures similaires à celles du Réseau de Concepts: pour Fayol [Fayol, 1992], les

schémas

désignent des « blocs » de connaissances concernant un domaine ; ils sont constitués de réseaux sémantiques dont les éléments entretiennent des relations privilégiées du fait de leurs fréquentes co-occurrences. Ainsi, pour Fayol, on peut rapprocher des éléments qui co-occurrent fréquem-ment. De plus, il fait apparaître que dans la littérature, les auteurs se réfèrent à un mécanisme d’activation, et que cette activation se répand dans les réseaux constituant les schémas. De même, Seguinous apprend [Segui, 1992] que la présentation d’un mot-stimulus active non seulement sa propre représentation lexicale, mais encore celle d’un ensemble de mots correspondant à ses voi-sins orthographiques, afin de délimiter rapidement les candidats à reconnaître lors de la lecture. En passant du cadre de la reconnaissance orthographique stricte à la reconnaissance concep-tuelle, on peut remplacer le voisinage orthographique par le voisinage conceptuel. Il dit aussi que, d’après des expériences, il est possible d’agir sur la reconnaissance d’un mot en modifiant préalablement l’état d’activation de ses voisins plus fréquents.

Dans sa thèse sur l’analyse des associations [Michelet, 1988], Michelet dit : «

la donnée des

associations les plus pertinentes d'un terme permet d'en reconstituer une dénition:

l’essence de la définition est l’association

.

». Il y dénombre quelques indices d’association fondés sur la

co-occurrence de termes

. Selon sa définition, «

un indice d'association doit fournir des

valeurs non décroissantes quand la co-occurrence augmente

». Cela se conçoit fort bien : plus deux termes apparaissent souvent

ensemble

, plus leur association est grande (dans notre cas : plus leur influence réciproque est grande). De plus, «

un indice d'association entre deux termes

ne doit pas augmenter si l'on rajoute à la base un enregistrement ne contenant que l'un des deux

termes

». Il serait en effet dommageable qu’un tel ajout modifie l’influence d’un terme sur un autre d’une telle façon : l’association de deux termes augmenterait alors que leur co-occurrence ne varierait pas.

Soit Ci le nombre d’occurrences de l’objet i dans cette base de taille N .

Soit Cij le nombre d’enregistrements de cette base où les objets i et j co-occurrent. L’indice d’équivalence :

Eij = C

2

ij

Ci× Cj