Construction à partir de textes - La Ressource Termino-Ontologique, carrefour pluridisciplinair

1.2 La Ressource Termino-Ontologique, carrefour pluridisciplinaire

1.3.3 Construction à partir de textes

Nous classerons les méthodes de construction de RTO selon le critère du degré d’inter- vention de l’utilisateur : tandis que la première approche préfère automatiser le processus autant que faire se peut et considère l’ingénieur de la connaissance comme un opérateur de validation, la seconde privilégie l’étude des interactions possibles entre le système et l’utilisateur qui peut influencer à sa guise l’orientation du modèle en cours de construction. Notre tour d’horizon des travaux en relation avec cette problématique n’a pas pour préten- tion d’être exhaustif. Nous conseillons le lecteur en quête de plus de détails de se référer à [Cimiano, 2006] et à [Aussenac-Gilles, 2005].

9_{Si A, B sont deux mots, la distance de Levenshtein d est le nombre minimal de remplacements, ajouts et}

1.3.3.1 Approche automatique

Les motivations principales de l’Ontology Learning sont à chercher dans l’avènement du WS. En effet, le WS nécessite de disposer de nombreuses ontologies afin de représen- ter de façon consensuelle les méta-données de pages Web traitant de sujets très différents. Dans cette optique, l’Ontology Learning cherche à optimiser les coûts en temps et en ressources des tâches critiques de construction et de maintenance d’ontologie. Le but recherché est d’automatiser autant que possible ces processus par le biais de techniques issues de l’apprentissage et de l’exploitation de textes en tant que sources de connaissance.

On peut considérer la succession des différentes phases du processus d’Ontology Lear- ning comme un cycle de bootstrap. Les étapes sont au nombre de 4, aucune n’étant obliga- toire [Maedche, 2002] :

– import et réutilisation de ressources existances (voir 1.3.2)

– extraction d’ontologie qui permet de construire une première ébauche d’ontologie – réduction (ontology pruning) pour supprimer des concepts inutiles dans l’ontologie – raffinage pour obtenir des concepts et des relations spécifiques

Comme nous nous sommes détourné de l’idée de réutiliser des ontologies, nous n’abor- derons pas la problématique d’ontology pruning dont l’objectif principal consiste à réduire une ressource trop générale à sa partie utile pour la modélisation. Nous allons donc nous focaliser sur les étapes d’extraction et de raffinage d’ontologie.

Pour une meilleure compréhension, nous séparons les techniques d’apprentissage utili- sées pour l’extraction d’ontologie en 3 groupes selon la nature des objets proposés à l’utilisateur en sortie : concepts, relations taxonomiques, relations transverses.

Extraction de concepts La plupart des techniques destinées à dégager un ensemble de

concepts sont fondées sur le repérage en corpus des termes prégnants du domaine et leur rapprochement sémantique. La première phase fait appel à des outils destinés à l’extraction de termes (e.g. Acabit ou Nomino). Parmi eux, certains logiciels comme Syn- tex [Bourigault et al., 2005] ou Yatea [Aubin et Hamon, 2006] supposent une analyse syn- taxique préalable du corpus afin de regrouper les mots en syntagmes. A l’inverse, d’autres extracteurs comme ANA [Enguehard et Pantera, 1994] préfèrent s’affranchir des contraintes linguistiques (eg disposer d’une grammaire de la langue) en utilisant des techniques d’apprentissage sur des listes de termes préalables.

Une fois les termes repérés, des mesures fréquentielles peuvent ensuite être appliquées pour faire émerger les plus importants. Une première mesure consiste à compter le nombre d’occurrences en corpus de chaque candidat-terme (fréquence). Or il se trouve que certains termes peu fréquents peuvent aussi avoir un intérêt dans la définition de concepts. Parmi les méthodes issues de la Recherche d’Information, la mesure du TF-IDF (Term Frequency- Inverse Document Frequency) est fondée sur l’intuition que les termes les plus intéres- sants sont ceux apparaissant souvent mais dans un nombre restreint de documents du corpus [Salton et Buckley, 1988]. Formellement, on l’exprime de la façon suivante :

TF_IDF(t) =c f(t) ∗log |D| d f(t)

avec c f(t)la fréquence en corpus du terme t et d f(t)le nombre de documents dans lesquels apparaît le terme. Pour évaluer l’importance d’un terme dans un domaine particulier, les travaux de [Velardi et al., 2001] ou de [Drouin, 2003] proposent de comparer sa fréquence en corpus avec sa fréquence dans des corpus généralistes10_{; ils montrent qu’une méthodologie} reposant sur ce principe permet de mieux recenser les termes peu fréquents mais intéres- sants. En termes d’évaluation, il est impossible de juger une approche plus efficace que les autres, tant les résultats peuvent différer selon le corpus d’étude et/ou l’objectif applicatif de la ressource ontologique en cours de construction.

Extraction de relations taxonomiques L’objectif de cette étape consiste à ordonner au-

tant que possible les concepts découverts sous forme d’un arbre taxinomique qui forme le squelette de l’ontologie à modéliser. Là encore, on peut distinguer deux types d’approches. L’approche statistique est fondée sur les valeurs de co-occurrence des termes pris deux à deux, c’est-à-dire l’apparition simultanée de deux termes dans une même fenêtre de texte. L’intuition suivie est que deux concepts fortement co-occurrents ont une pro- babilité plus grande d’être proches dans la taxonomie. On peut citer comme exemples d’application l’introduction de la matrice de co-occurrence entre tous les termes extraits avec [Maedche, 2002], la mise au point de règles fondées sur la co-occurrence des termes pour un système multi-agent [Ottens, 2007] ou l’emploi de probabilités conditionnelles d’occurrence avec [Sanderson et Croft, 1999].

L’approche linguistique consiste à utiliser des patrons lexico-syntaxiques d’extraction. L’idée, introduite par [Hearst, 1992], est de retrouver des relations de subsomption entre concepts en projetant sur le corpus sous forme d’expressions régulières les constructions syntaxiques attendues autour de certains termes représentatifs de l’hyperonymie : par exemple, la détection du patron "SN1ou tout autre SN2" dans la phrase "On pourra s’y rendre

indifféremment en voiture ou tout autre moyen de transport" permet de déduire que le concept

Automobile, dénoté par le terme "voiture", est une forme de moyen de transport. Diffé-

rents outils ont exploité avec succès cette idée, comme Prométhée [Morin, 1999] ou Camé- léon [Séguéla, 2001].

Extraction de relations non taxonomiques Du fait de sa nature, ce processus peut être

traité par les mêmes techniques permettant l’extraction de relations taxonomiques. Toute- fois, subsiste un problème : il faut également pouvoir déterminer le type de chaque relation trouvée entre deux candidats termes. L’attitude adoptée par la plupart des applications face à ce problème délicat (et souvent résolu avec difficulté par ce genre d’approches) consiste à utiliser la co-occurrence pour rechercher un terme qui se retrouverait régulièrement aux alentours du couple de termes co-occurrents. Des hypothèses sur la nature syntaxique du terme désignant la relation peuvent également améliorer la convergence vers un terme par- ticulier [Kavalec et al., 2004].

10_{Cette démarche est aussi suivie par [Volz et al., 2003] dans le but contraire, à savoir écarter tout concept dont}

1.3.3.2 Approche interactive

Même si les techniques utilisées sont sensiblement les mêmes, plusieurs travaux comme [Aussenac-Gilles et al., 2008] préfèrent se différencier de l’approche précédente. En effet, les outils employés, essentiellement issus du domaine du Traitement Automatique de la Langue Naturelle (TALN), traitent de façon variée (statistique, syntaxique. . . ) des don- nées de type linguistique dans le but de suggérer des rapprochements à vocation séman- tique. Toutefois, les partisans d’une approche interactive estiment que le passage au niveau sémantique n’est possible que par l’interprétation des résultats par un (ou plusieurs) opé- rateur(s) humain(s). Si l’approche automatique permet d’envisager la construction rapide d’ontologies relativement vastes à peu de frais, les structures sémantiques obtenues res- tent relativement superficielles (notamment au niveau du nombre de relations transverses découvertes). A l’inverse, l’approche interactive travaille en collaboration avec l’utilisateur afin d’obtenir des ontologies de taille moins importante mais bien plus riches par leur sé- mantique. On voit donc que selon la taille du domaine et le niveau de précision des détails à modéliser, chacune des deux approches sera plus ou moins recommandée.

Par conséquent, cette mouvance préfère mettre l’accent sur l’adéquation entre l’utilisateur et le système et sur la complémentarité de différentes méthodes plutôt que sur leur automatisation. Dans ce but, les connaissances à modéliser seront puisées dans un corpus de textes caractéristiques du domaine ainsi que dans celles d’un (ou plusieurs) expert(s) du(des) domaine(s) [Aussenac-Gilles, 2005]. Contrairement à l’approche automatique pour laquelle l’expert tient un rôle de simple validateur en fin de traitements, l’approche interactive intègre sa présence dès le début du processus de construction ontologique. On peut alors considérer que ce processus se décompose en deux grandes phases successives :

– le recueil d’indices est principalement opéré par les méthodes de TALN appliquées au corpus et l’ingénieur de la connaissance y joue un rôle "mineur" (celui de choisir comment constituer le corpus)

– la synthèse manuelle des résultats accorde à l’ingénieur une place prépondérante puisqu’il est chargé d’intégrer les résultats de la phase précédente en accord avec les connaissances d’un (ou plusieurs) expert(s)

Naturellement, ces deux phases peuvent s’enchaîner de façon cyclique et il n’est pas néces- saire que tous les résultats des outils de TALN soient directement exploités par l’ingénieur de la connaissance. Celui-ci peut, selon ses besoins, se focaliser sur un sous-ensemble des résultats, commencer la modélisation d’une partie de l’ontologie, revenir aux données d’en- trée pour vérifier la pertinence de la modélisation, et exploiter les autres résultats au cours d’une itération ultérieure du cycle.

Dans ce paradigme, on soulignera l’importance capitale que revêt l’articulation entre le niveau lexical et le niveau sémantique. En effet, dans le cas d’une approche supervisée, les choix du modélisateur sur la façon de rendre compte du sens contextuel d’un terme dans l’univers conceptuel influencent fortement la structure de l’ontologie résultante. Pour une démarche entièrement automatisée, ce sont uniquement des seuils sur des critères numé- riques qui évaluent l’intérêt d’un élément linguistique en vue de la création potentielle d’un (plusieurs) concept(s) dénoté(s) par cet élément.

1.3.4 Maintenance

Dans le document Modélisation de connaissances à partir de textes pour une recherche d'information sémantique (Page 39-43)