Les approches non terminologiques

3.2 Méthodologies de construction

N

Réseau termino-ontologique

Unités lexicales issues des outils de TAL Termino-concepts Représentent un sens du ou des termes associés

Ebauche d'ontologie

3.2 Méthodologies de construction

3.2.2 Les approches non terminologiques

3.3 Conclusion . . . . 31

N

o u s avons vu que les ontologies sont un formalisme de représentation des

connais-sances très en vogue depuis les quinze dernières années. Mais si leur utilisation au

sein de la mouvance du web sémantique est bien établie, la constitution des ontologies

est une tâche reconnue comme difficile.

Ce chapitre est structuré en deux parties, la première fera écho au chapitre précédent en

présentant des techniques qui permettent d’extraire les éléments du texte pouvant servir

lors de la conceptualisation, la seconde partie est consacrée à l’étude des stratégies de

COT, illustrée par des outils.

3.1 Comment extraire les éléments remarquables des

textes ?

Dans cette section nous faisons l’inventaire des familles de méthodes qui peuvent être

envisagées pour aider la conceptualisation dans le processus de COT. Nous pouvons

distinguer les approches dites « directes » (ou à base de patrons), qui travaillent au

niveau des connaissances exprimées explicitement dans le texte (comme les définitions),

des approches « indirectes » qui tentent d’extraire des connaissances tacites disséminées

dans les textes.

3.1.1 Approches directes

Il existe dans les textes certaines formes régulières qui constituent des indices d’une

relation d’hyperonymie, par exemple « Les chats, les chiens, les poissons rouges et autres

3 Des textes à l’ontologie

animaux domestiques, etc. ». L’utilisation de ces formes a été popularisée par Hearst

(Hearst, 1992), qui proposa des patrons d’extraction de l’hyperonymie. D’une manière

générale, les patrons d’extraction sont dépendants de la langue dans laquelle est écrit

le texte ; ils peuvent servir dans la COT à repérer les relations de subsomption, mais

également les relations spécialisées (Morin,1999;Séguéla,2000;Pantel et Pennacchiotti,

2006;Aussenac-Gilles et Jacques, 2008), des axiomes et des règles (Völker et al.,2008).

Ces patrons produisent des résultats peu nombreux mais de bonne qualité, selon la

nature du texte. Toutefois s’il existe des formes génériques qui expriment l’hyperonymie,

il en va autrement des patrons spécialisés qui dépendent du domaine. La reconnaissance

des entités nommées repose également sur des patrons : on repère un nouveau nom de

personne quand on identifie un nom propre inconnu dans un contexte suffisamment

caractéristique des noms de personnes.

Les approches directes explicitent le contenu textuel. Dans le cas de la recherche

d’hyperonymie, les résultats sont généralement fiables mais peu nombreux (selon la

nature du texte ; par exemple un texte encyclopédique, qui contient beaucoup de

définitions, permettra de repérer plus de relations d’hyperonymie qu’un corpus de

dépêches de presse (Jacques et Aussenac-Gilles, 2006)). Les approches à base de

patrons sont également utilisées dans le repérage des candidats-termes (Daille, 2003;

Aubin et Hamon, 2006). Cependant, une approche seulement linguistique se révèle

insuffisante pour évaluer la qualité des candidats-termes retrouvés. Il est nécessaire de

filtrer les résultats à l’aide d’une mesure statistique.

3.1.2 Approches indirectes

Nous appelons « indirectes » les approches qui regroupent des éléments qui ne sont pas

explicitement reliés dans le texte. Certaines de ces approches produisent des classes

d’éléments qu’il est ensuite possible d’organiser hiérarchiquement. Elles reposent toutes

sur l’hypothèse distributionnelle (Harris et al., 1989) qui suppose que des éléments

distincts apparaissant dans des contextes (cf infra) similaires ont des chances d’être en

relation sémantique et peuvent être regroupés.

L’application de l’hypothèse distributionnelle nécessite de cerner de manière préalable

la nature des éléments que l’on souhaite regrouper. Ceux-ci peuvent être définis de

manière plus ou moins linguistique : les documents (en recherche d’information), les

phrases (par exemple pour le résumé automatique), les mots, les syntagmes, les sujets,

etc.

Il convient ensuite de définir le contexte, c’est-à-dire la nature et la taille de

l’envi-ronnement textuel à prendre en compte pour le calcul de la similarité entre mots. De

manière symétrique au choix des éléments nous pouvons considérer des contextes plus

ou moins linguistiques, comme une fenêtre de mots, une phrase, un document, une

relation syntaxique (Hindle, 1990), etc. Un contexte syntaxique demandera forcément

3.2 Méthodologies de construction

plus de ressources qu’une fenêtre de mots, notamment la disponibilité d’un analyseur

syntaxique pour la langue des textes.

Une fois que l’on sait repérer les éléments et leur contexte, il devient possible de

regrouper tous les contextes associés à un élément dans une liste ou un vecteur. Une

fois les listes de contextes constituées il est possible, si l’on se donne un critère de

similarité (qui peut être booléen), de mesurer une proximité entre deux listes. Ainsi

il est naturel de regrouper des éléments dont la distance entre listes de contextes est

inférieure à un seuil déterminé.

Une fois les éléments regroupés en classes il serait souhaitable d’organiser ces classes en

hiérarchies. Nous distinguons les approches ascendantes et les approches descendantes.

Les premières visent à regrouper de petites classes en classes plus volumineuses par

agrégation, tandis que les approches descendantes tentent de partitionner de

volumi-neuses classes en ensembles plus petits. L’analyse de concepts formels est un autre

paradigme de regroupement qui s’inscrit dans le cadre des approches indirectes, que

nous détaillerons dans le chapitre suivant.

3.2 Méthodologies de construction

o u s ^{avons vu que les ontologies sont un formalisme de représentation des}

F i g u r e 3 . 1 : ^Terminae