Conclusion sur la construction d’ontologie à partir de textes

de textes

LA FCA apporte une réponse formelle à la construction de concepts et la hiérarchisa-tion de ces concepts lors de la construchiérarchisa-tion d’ontologie. Sans cette aide, c’est une étape complexe à mener à la main par un expert, même s’il se place dans un environnement comme Protégé [NFM00] couplé à un raisonneur comme Pellet [PS04].

L’ontologie est construite par une démarche “bottom-up” à partir de la description d’individus et de leurs attributs. L’analyse relationnelle des concepts, en tant qu’extension à la FCA, permet de plus de prendre en compte plusieurs contextes formels et les relations binaires intra ou extra contextes entre les individus.

Les propriétés mathématiques des treillis confèrent aux concepts des propriétés défini-toires qui sont directement exploitées pour coder l’ontologie en logique de descriptions. De plus, les opérations proposées par la FCA, comme par exemple l’apposition, permettent également d’intégrer des connaissances éventuellement extérieures aux textes telle que des classes d’objets prédéfinies issues de thésaurus.

Enfin, un des points forts de cette approche réside dans sa capacité à proposer des définitions aux classes (ou concepts). C’est une tâche souvent négligée dans une ontologie dans laquelle une attention plus particulière est généralement portée à la construction de la hiérarchie de concepts. L’expérience en astronomie a montré qu’il était possible de partir d’un thésaurus et de produire des définitions pour une certain nombre des catégories du thésaurus, parfois par des conditions nécessaires, parfois par des conditions nécessaires et suffisantes. Le même processus propose également à l’expert de nouvelles classes qui

3.5. Conclusion sur la construction d’ontologie à partir de textes 49 raffinent les classes du thésaurus. Nous avons par exemple exploité ces propriétés dans le cadre de la réorganisation ou restructuration (re-engineering) d’un wiki sémantique [STNB11].

Intégrer la vision de l’expert reste un point difficile que nous aborderons dans la section 5.4.1. L’expert ne se place généralement pas au niveau de l’objet mais adopte plutôt une démarche top-down. Le treillis doit être alors vu comme l’espace des concepts possibles, laissant à l’expert la tâche de déterminer ceux qui sont les plus pertinents pour son domaine.

Il reste de nombreux travaux à faire sur la construction de l’ontologie. Si la FCA s’avère être un formalisme très puissant, les expérimentations actuelles restent très loca-lisées. Seule une toute petite partie de l’information des textes est extraite et exploitée pour construire les contextes formels, que ce soit des informations de type attribut ou relationnel. C’est donc une question sur le passage à l’échelle d’une telle approche et, nous le verrons en section 4 des défis pour la préparation des textes.

Chapitre 4

Synthèse sur la préparation des

documents

Comme le montre le schéma sur l’extraction de connaissances 1.1, la fouille de données intervient après une étape essentielle de préparation des données. [BCM05] est une collec-tion d’articles éclairant les différentes étapes du processus. Nous abordons donc dans ce chapitre les questions liées à la préparation des textes. Ces questions s’inscrivent dans la problématique du traitement automatique de la langue (TAL), mais avec une visée par-tielle et robuste. Compte tenu de la diversité des approches, du coût humain et en temps très important pour la mise en adéquation de ces méthodes à un domaine particulier, il faut voir les travaux et les questions que je soulève dans ce chapitre comme autant de collaborations possibles avec des équipes dont c’est le coeur d’activité.

Exploité par les travaux en psycholinguistique [Bib92], les premières connaissances ac-cessibles à partir des textes sont les connaissances linguistiques. Hearst [Hea04] souligne cependant que le résultat d’un processus de fouille de textes ne peut se limiter à l’obser-vation de cooccurrences et que les obserl’obser-vations de nature linguistique ne suffisent pas aux experts en attente de connaissances sur leur domaine :

« If we extrapolate from data mining (as practiced) on numerical data to data mi-ning from text collections, we discover that there already exists a field engaged in text data mining : corpus-based computational linguistics ! Empirical computational linguistics computes statistics over large text collections in order to discover useful patterns. These patterns are used to inform algorithms for various subproblems within natural language processing, such as part-of-speech tagging, word sense disambiguation, and bilingual dic-tionary creation ([Arm94]).

It is certainly of interest to a computational linguist that the words "prices, prescrip-tion, and patent" are highly likely to co-occur with the medical sense of "drug" while "abuse, paraphernalia, and illicit" are likely to co-occur with the illegal drug sense of this word ([CL91]). This kind of information can also be used to improve information retrieval algorithms. However, the kinds of patterns found and used in computational linguistics are not likely to be what the general business community hopes for when they use the term text data mining. » [Hea04]

4.1 Constitution de corpus

4.1.1 Collecter les textes

La constitution du corpus pour la fouille de textes est une étape essentielle dans la-quelle les pratiques et les méthodes sont aussi importantes que les outils. Par outils, nous entendons bien sûr, les travaux classiques issus de la recherche d’information pour l’in-terrogation de bases documentaires et la sélection de documents mais aussi les différentes méthodes de catégorisation, de classification et de cartographie qui sont toujours très uti-lisées pour découvrir des tendances dans certains domaines. L’approche statistique dite « des mots associés » a permis la réalisation d’outils comme leximappe ou sdoc alors que d’autres approches exploitent des techniques neuronales [Koh84, LTS03].

Une caractéristique commune à la plupart de ces travaux est la robustesse des tech-niques mises en œuvre et leur capacité à traiter de très gros volumes de données ou de textes. L’analyse se fait à un niveau très superficiel. L’unité couramment exploitée est le mot ou le mot-clé et la notion de sens n’est pas vraiment pertinente au profit de la notion de pouvoir discriminant.

La classification peut être vue comme un moyen d’augmenter la cohésion d’un corpus. Ainsi, d’un corpus global sur l’agriculture, on peut distinguer des sous-ensembles de textes traitant plus particulièrement des questions liées à la croissance du maïs ou liées à la conservation et au transport du maïs. De même, en bibliométrie, la classification construit des réseaux d’auteurs, d’institutions ou de manifestations scientifiques qui peuvent être exploités pour contraindre ou augmenter un ensemble de textes initialement constitué.

Ce niveau d’analyse, bien qu’assez pauvre du point de vue sémantique permet néan-moins de structurer un domaine. Ces techniques sont utilisées en veille technologique ou en intelligence économique. Elles sont peu coûteuses à mettre en œuvre et polyvalentes. Certaines méthodes, comme les cartes de Kohonen multi points de vue [LTS03] sont ap-préciées pour leur lisibilité. L’expert en charge de l’analyse se sert alors de classes comme d’un support pour formuler des phrases explicatives, voire des hypothèses qu’il pourra vérifier en accédant directement aux textes. L’échelle – le nombre de documents pris en compte et le nombre de classes générées – conditionne bien évidemment la qualité de cette analyse.

L’homogénéïté d’un corpus est un atout mais également un écueil. Selon les types de textes, les informations, voire même les connaissances qui en sont extraites, sont de natures différentes. Les textes didactiques, comme par exemple le précis de Géomorpho-logie déjà cité précédemment, contiennent les définitions des notions importantes et bien établies dans un domaine mais, en contrepartie, ces informations sont mises à jour avec une périodicité longue, lors d’une nouvelle édition ou d’une nouvelle parution. Les articles scientifiques font, quant à eux, référence à de nombreuses connaissances implicites mais s’inscrivent dans un monde en évolution permanente : les objets manipulés dans ces textes sont rarement associés à leurs hyperonymes ou à leurs catégories, cela fait partie de la connaissance commune. La terminologie peut être fluctuante, les conditions d’expérimen-tation très diverses et les résultats rapportés peuvent également être contradictoires. Les thésaurus, bien que construits de façon informelle, structurent un domaine par exemple, en introduisant des catégories et une hiérarchie entre ces catégories. Ces différentes

res-4.2. Les bases de connaissances terminologiques 53

Dans le document Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances (Page 55-60)