La FCA comme processus continu de conceptualisation

5.3 La FCA au cœur d’un processus continu, itératif et interactif

5.3.1 La FCA comme processus continu de conceptualisation

L’idée maîtresse ici est de garder la structure formelle de treillis issue de la FCA comme élément central du processus d’extraction de connaissances. Cela suppose donc d’une part, de préserver à tout moment, le lien entre le treillis et l’ontologie représentée dans un langage de représentation des connaissances et d’autre part de préserver le lien entre les informations/annotations en entrée de la FCA et la conceptualisation souhaitée. Du point de vue de la dimension cognitive du processus de construction d’ontologie, c’est un cadre volontairement restrictif mais qui devrait permettre la définition de nouvelles opérations et de nouveaux outils pour la construction et l’enrichissement d’ontologies s’appuyant sur des bases formelles. L’utilisateur ou l’expert du domaine est alors sollicité pour évaluer la pertinence des concepts du treillis avant qu’ils ne soient traduits en logique de descriptions.

La construction d’ontologie à partir de textes a fait l’objet de très nombreux travaux. Parmi les plus proches de nos travaux, il faut citer les travaux de Maedche et Staab [MS00b, MS01b, MS01a] pour lesquels la FCA est utilisée comme méthode de concep-tualisation. Placé au cœur d’un processus continu, il faut s’intéresser à la modification et à l’évolution des ontologies. L’évolution des ontologies peut se voir sous différents angles et depuis 2004, plusieurs travaux ont classifié les différentes évolutions possibles [Sto04, FPA06, Kle04]. Ainsi, dans le cadre du web sémantique, la dimension distribuée des ontologies posent des problèmes que [Kle04] divise en deux grandes classes : les problèmes liés au langage dans lequel l’ontologie est représentée ou les problèmes liés à l’organisation de l’ontologie avec notamment des différences liés à la conceptualisation (“concept scope” et “model coverage”) ou à l” ’explication” (paradigme pour la description des concepts, définition des concepts et notamment identification des concepts atomiques. . . ). [FPA06] propose un état de l’art très complet sur l’évolution des ontologies et sur les raisons qui motivent cette évolution.

Dans ce projet, toutes ces dimensions ne sont pas prises en compte, l’objectif étant d’accorder les différentes étapes liées à l’extraction de connaissances et à rendre traçable ce processus. Quelques éléments de réflexion nous permettent d’étayer ce projet.

5.3. La FCA au cœur d’un processus continu, itératif et interactif 77 Définition d’opérations pour la modification du contexte formel

Il ne peut être construit qu’un seul et unique treillis à partir d’un contexte formel. Aussi, si l’on veut modifier le treillis (fusionner des concepts, séparer un concept en deux concepts distincts. . . ), il faut en modifier le contexte formel. La difficulté pour l’expert en charge de ces modifications est de savoir comment modifier le contexte formel. Bien que sous une forme encore très simpliste, une première ébauche de ce travail a été proposée dans [BTN10] (voir section 3.4.4). L’expert est sollicité pour évaluer la pertinence des concepts, tant du point de vue de son extension que de son intension. Il lui est alors proposé de corriger le contexte formel pour que le treillis résultat s’accorde mieux avec ses attentes en créant ou en supprimant des propriétés associées à un seul objet ou à un ensemble d’objets. Le but est maintenant de pouvoir définir un ensemble d’opérations d’un peu plus “haut niveau”, répondant à des besoins utilisateurs du type (la liste n’est pas exhaustive) :

– L’objet xi ne devrait pas figurer dans l’extension du conceptCj; – L’attribut ai devrait être partagé par tous les objets du concept Cj; – Le conceptCi etCj devraient ne constituer qu’un seul et même concept.

Ces questions se traduisent en une ou plusieurs opérations élémentaires sur le contexte formel telles qu’introduites dans [BTN10], opérations qui nécessiteront parfois des inter-actions avec l’expert pour qu’il fournisse des informations additionnelles si nécessaires. Incrémentalité dans la construction de treillis

Du point de vue de l’analyse formelle de concepts, plusieurs travaux se sont intéressés à la construction incrémentale des treillis. Ces algorithmes répondent aux situations où de nouvelles propriétés ou de nouveaux objets sont ajoutés au contexte formel. Nous avons évoqué en section 3.1.1 l’algorithme incrémental de Godin [GM94] qui évite que le treillis ne soit recalculé dans son intégralité ; l’algorithme calcule les modifications à apporter au treillis initial. [VM01] propose une généralisation des algorithmes incrémentaux pour la construction de treillis.

Si ces algorithmes peuvent être le point de départ de notre réflexion pour placer la FCA dans un contexte d’enrichissement continu, le problème à résoudre est bien différent et plus complexe, notamment parce que la relation d’incidenceI peut être modifiée pour des attributs ou des objets déjà existants.

Sujet de thèse : La thèse vise à définir un processus où l’humain et la machine sont amenés à coopérer pour extraire des connaissances à partir de différentes ressources. L’enjeu est qu’à tout moment, les méthodes automatiques (et formelles) d’extraction de connaissances puissent être appelées et que les connaissances ainsi extraites puissent être mises en accord avec des connaissances déjà extraites. L’humain doit donc pouvoir corriger ou enrichir l’ontologie à tout moment. Dans la plupart des approches, lorsque la phase de conceptualisation est réalisée par un outil automatique, l’humain intervient après cette phase et adapte la conceptualisation à sa perception du domaine en utilisant un éditeur d’ontologie. Il a alors assez peu de contraintes formelles si ce n’est celle de respecter la cohérence logique de la base de connaissances.

L’extraction de connaissances est un processus itératif et interactif composé de plu-sieurs étapes. L’interaction est souvent associée à l’évaluation où l’on demande aux experts du domaine d’interpréter et de valider les patrons extraits par la phase de fouille de don-nées. En réalité, l’extraction de connaissances se fait par essai-erreur et la correction des erreurs supposent généralement d’observer et de modifier les étapes antérieures à la fouille de données, comme la sélection du corpus ou la préparation des données. Nous souhai-tons concevoir ces modifications comme une modification de l’annotation des textes. Ainsi, l’annotation sémantique guide la construction d’ontologie et inversement, l’ontologie guide l’annotation sémantique.

L’approche développée dans cette thèse exploite des méthodes formelles pour l’extrac-tion de connaissances. Elle doit définir un processus continu d’extracl’extrac-tion de connaissances reposant sur les travaux développés dans l’équipe Orpailleur. En effet, la thèse de Rokia Bendaoud exploite l’analyse formelle de concepts pour construire une conceptualisation du domaine à partir de textes. Après validation par les experts cette conceptualisation est transformée en une ontologie codée en logique de descriptions. Un prototype met en œuvre cette méthode et a été expérimenté en astronomie, en microbiologie et sur le do-maine de la cuisine dans le contexte du projet Taaable. Le point fort d’une telle approche formelle est que le processus de conceptualisation guidé par les ressources du corpus est moins coûteux en temps et moins subjectif. Cependant, un tel processus souffre également de points faibles. Nous nous concentrerons sur trois d’entre eux :

– Comment les approches formelles comme la FCA peuvent prendre en compte l’in-teraction avec les experts ? En effet, un expert peut interagir assez librement avec un wiki ou un wiki sémantique mais cette interaction n’est pas nécessairement com-patible avec la structuration formelle proposée. Pourtant, la structure formelle doit être maintenue à jour puisque c’est elle qui garantit que de nouveaux textes, de nouvelles ressources ou de nouvelles interactions peuvent être prises en compte à tout moment. C’est aussi au travers de cette structure formelle que peut se faire le lien avec l’annotation sémantique.

– L’annotation sémantique est à la base des wikis sémantiques. Dans un système continu d’extraction de connaissances, l’annotation est utilisée pour l’extraction de connaissance, notamment pour la construction d’un contexte formel. En retour, les connaissances extraites doivent permettre d’annoter plus finement les documents. Au cours des itérations successives, certaines annotations doivent être supprimées et d’autres mises à jour pour permettre l’évolution de l’ontologie.

– Le prototype pour la conceptualisation doit pouvoir s’insérer dans une chaine de traitement construite autour d’un wiki sémantique. Les textes sont donc des res-sources de ce wiki. Les processus de traitement automatique de la langue ainsi que d’analyse formelle de concepts seront alors définis comme des modules. De même, un processus devra transformer la conceptualisation proposée par la FCA en une ontologie en prenant en compte les contraintes, notamment en terme d’expressivité, imposées par cet environnement.

La thèse se déroulera dans le contexte du projet Kolflow, un projet ANR de 3 ans et demi qui vient de débuter.

5.3. La FCA au cœur d’un processus continu, itératif et interactif 79

Dans le document Fouille de textes : des méthodes symboliques pour la construction d'ontologies et l'annotation sémantique guidée par les connaissances (Page 83-86)