Phase de construction de RTO appliquée en RI

4.1 Définition d’un cycle de maintenance supervisée de RTO

4.1.1 Phase de construction de RTO appliquée en RI

Conformément à nos convictions quant à l’influence de l’application sur le processus de modélisation, la phase de construction de la RTO nécessite de connaître au préalable les besoins de l’utilisateur de façon à ce que le système se fonde ensuite sur une ressource adé- quate et puisse apporter une aide pertinente pour la tâche d’interrogation. Par définition, les besoins de l’utilisateur sont intimement liés à la nature des éléments qu’il sera amené à manipuler lors d’une phase de RI ultérieure. On voit alors apparaître une situation d’inter-

dépendance : la phase de modélisation se fonde sur les besoins applicatifs de l’utilisateur, qui ne sont exprimables - dans le cas d’une application de RI sémantique - qu’en fonction des concepts manipulés. Pour remédier à ce problème, il est possible d’intégrer comme sources de connaissance au processus de construction de RTO les documents à indexer d’une part, un (ou plusieurs) expert(s) du domaine2_{d’autre part.}

La méthode de modélisation que nous choisissons de suivre est une approche interac- tive de construction de RTO à partir de textes, sujet que nous avons précédemment abordé en 1.3.3.2. Cette méthode, présentée dans [Aussenac-Gilles et al., 2008], est issue de la vo- lonté d’exploiter au mieux un ensemble de documents relatifs au domaine à modéliser. Elle met notamment en jeu des outils de traitement automatique du langage sur le corpus de documents qui permettent à l’ontographe3_{de dégager des indices en faveur de la création} de certains concepts et/ou relations. Tenants de l’hypothèse selon laquelle tout corpus tex- tuel n’est qu’une source partielle de connaissances, les auteurs proposent alors de recourir à un spécialiste du domaine à modéliser, uniquement lorsque nécessaire (car son intervention s’avère souvent coûteuse).

Figure 4.2 —Méthode de construction de RTO selon [Aussenac-Gilles et al., 2008]

Comme on peut le voir sur la figure 4.2, la méthode de construction présuppose la créa- tion préalable d’un corpus de documents représentatifs du domaine. Dans un contexte de 2_{Nous rappelons que du fait de leurs trop grandes différences, nous étudions uniquement les moteurs de}

recherche sémantique spécifiques à un domaine, et non les moteurs génériques.

3_{On utilisera ce terme pour désigner l’ingénieur de la connaissance responsable de la construction de la}

RI sémantique, il semble naturel que ce corpus inclue au moins les textes qui sont ame- nés à être indexés. La phase d’analyse linguistique, entièrement automatique, peut faire appel à plusieurs outils de type extracteur de termes ou de relations (voir 1.3.3.1) et permet d’obtenir des candidats terme et/ou relation (i.e. des groupes de mots ou des patrons lexico-syntaxiques réapparaissant régulièrement et témoins potentiels de la présence d’un concept ou d’une relation sémantique) ainsi que des informations fréquentielles et contex- tuelles associées. A l’aide de ces indications et en accord avec le point de vue du (des) spécia- liste(s), l’ontographe peut alors entreprendre le processus de conceptualisation afin de créer progressivement les concepts du domaine et les relier entre eux par les relations séman- tiques appropriées. Les heuristiques de construction de la RTO peuvent suivre trois axes : une démarche ascendante rassemble les concepts entre eux selon les points communs qu’ils partagent, une démarche descendante les organise selon des critères de différenciation (là encore dépendant de l’application) et une démarche centrifuge part des concepts centraux (généralement les plus simples à trouver) pour découvrir les concepts voisins à travers les relations transverses (i.e. non taxonomiques). Pour converger plus rapidement vers une RTO en adéquation avec les besoins applicatifs, la méthode présentée par Aussenac-Gilles et ses collègues préconise d’utiliser les trois types de démarches sans pour autant contraindre l’ontographe à respecter un ordre d’application. L’étape suivante, la normalisation, permet de vérifier que la ressource construite respecte certains principes théoriques (voir 1.3.1) et de la corriger si besoin est. Les étapes d’analyse linguistique, de normalisation sémantique et de formalisation peuvent s’appliquer cycliquement, tant qu’un résultat satisfaisant n’est pas atteint. Enfin la dernière phase, la formalisation, consiste à stocker la RTO résultante sous un format donné (e.g. RDF, SKOS, OWL . . . ), à choisir selon son degré d’expressivité et, de façon plus générale, des besoins applicatifs.

Nous souhaitons ici souligner deux points importants dans cette méthode de construction. Tout d’abord, celle-ci a pour avantage d’envisager la tâche de modélisation comme un processus à double sens : l’ontographe doit non seulement effectuer un travail de dépouille- ment des données (extraites de l’analyse des documents du corpus ou d’entretiens avec un expert) pour enrichir le modèle, mais il doit aussi s’assurer que la RTO respecte certains critères de bonne structuration, issus de besoins de modélisation spécifiques. Or, il est im- portant, pour un outil de construction, de proposer une navigation multidirectionnelle entre la RTO, les besoins de modélisation et le corpus. Comme il est difficile, dans un contexte gé- nérique, de représenter explicitement les besoins applicatifs motivant la construction d’une RTO, la méthodologie proposée par Aussenac et ses collègues n’approfondit pas la problé- matique de représentation et d’utilisation de ces besoins. Ces constatations nous amènent au deuxième point que nous souhaitons aborder à propos de cette méthode de construction : bien qu’elle suive une approche cyclique, la méthode ne détaille pas explicitement les conditions à remplir par le modèle pour qu’il puisse être considéré comme terminé. Dans la prochaine sous-section, nous allons présenter une méthode de construction et/ou maintenance4_{de RTO pour une tâche d’indexation sémantique ; cette méthode se fonde no-} tamment sur une représentation explicite et une utilisation des besoins applicatifs en terme d’entités termino-ontologiques reconnues au cours de l’étape d’indexation sémantique.

4_{La méthode est principalement axée sur le processus de maintenance, mais peut être facilement adaptée à}

Dans le document Modélisation de connaissances à partir de textes pour une recherche d'information sémantique (Page 120-123)