• Aucun résultat trouvé

LisaDiJorio Mise`ajourautomatiqued’ontologiebas´eesurlesmotifsfr´equents M´emoiredeStagedeMaster U niversit´e M ontpellier II

N/A
N/A
Protected

Academic year: 2022

Partager "LisaDiJorio Mise`ajourautomatiqued’ontologiebas´eesurlesmotifsfr´equents M´emoiredeStagedeMaster U niversit´e M ontpellier II"

Copied!
45
0
0

Texte intégral

(1)

Acad´emie de Montpellier

U n i v e r s i t ´ e M o n t p e l l i e r I I

— Sciences etTechniques duLanguedoc —

M´ emoire de Stage de Master

Sp´ecialit´e : Recherche en Informatique

Mention : Informatique, Math´ematiques, Statistiques

effectu´e au laboratoire LIRMM/INFO

sous la direction de Lylia Abrouk, Dani`ele H´erin et Maguelonne Teisseire

Mise ` a jour automatique d’ontologie bas´ ee sur les motifs fr´ equents

par

Lisa Di Jorio

Soutenu le 20 juin 2007

(2)

Table des mati` eres

Remerciements 3

Introduction 5

1 Etat de l’art 7

1.1 Les ontologies . . . 8

1.2 Processus g´en´erique d’enrichissement d’ontologies . . . 9

1.3 Construction et mise `a jour des ontologies . . . 10

1.3.1 Extraction des termes . . . 10

1.3.2 Placement par fouille de donn´ees . . . 12

1.4 Motivations et objectifs . . . 13

1.4.1 Discussion des travaux existants . . . 13

1.4.2 Objectifs . . . 15

1.4.3 Approche propos´ee . . . 16

2 Proposition 19 2.1 Un formalisme pour les ontologies . . . 20

2.1.1 Ontologie . . . 20

2.1.2 Voisinage . . . 22

2.2 Outils pour l’enrichissement d’ontologies . . . 22

2.2.1 Rapprochement des motifs des concepts de l’ontologie . . . 22

2.2.2 Recherche de relations labellis´ees . . . 25

2.2.3 Placement des ´el´ements . . . 28

2.3 SPOntoExpander . . . 30

3 Mise en œuvre et exp´erimentations 32 3.1 Approche de la mise en œuvre . . . 33

3.2 Impl´ementation et outils . . . 34

3.2.1 Le pr´etraitement . . . 34

3.2.2 La fouille de donn´ees . . . 35

3.2.3 Enrichissement de l’ontologie . . . 35

3.3 Exp´erimentations sur donn´ees r´eelles . . . 35

3.3.1 L’ontologie et le corpus . . . 35

3.3.2 R´esultats . . . 36

Conclusion 38

A Comparaison des travaux ´etudi´es 43

(3)

B R´esultat d’exp´erimentation 44

C Diagramme des classes 45

(4)

Remerciements

Ce travail n’aurait pu se d´erouler dans de si bonnes conditions sans l’aide de quelques personnes que je tiens `a remercier.

Tout d’abord, je remercie Maguelonne Teisseire qui a pris le temps de m’encadrer et de diriger mes recherches. Je remercie ´egalement Dani`ele H´erin, pour m’avoir accord´e sa confiance, Lylia Abrouk pour sa disponibilit´e et son encadrement, ainsi qu’Anne Laurent pour les divers ´echanges que nous avons eues.

J’adresse un remerciement particulier `a C´eline Fiot, pour ses nombreuses relectures, ainsi que ses commentaires enrichissants concernant ma proposition.

Enfin, je souhaite remercier l’ensemble de l’´equipe TATOO pour son accueil et sa convivialit´e.

(5)

Introduction

Les nombreuses utilisations du Web ont conduit `a une explosion des donn´ees stock´ees et par cons´equent ont rendu difficile l’acc`es `a l’information. Ainsi, des techniques ont ´et´e d´evelopp´ees afin d’acc´eder automatiquement `a une information pertinente. Ces diff´erents outils, regroup´es afin de constituer un ´el´ement majeur du Web S´emantique, n´ecessitent une formalisation des contenus ainsi que l’ajout d’une description s´emantique r´ealis´ee g´en´eralement par des m´eta-donn´ees. Les ontologies, l’un des mod`eles de repr´esentation de connaissances les plus utilis´ees, r´epond `a cette probl´ematique.

Elles organisent les connaissances en fonction du domaine d’application consid´er´e et sont constitu´ees de concepts li´es par des relations incluant une taxonomie. Face `a l’´evolution permanente du web, un probl`eme crucial est la mise `a jour r´eguli`ere des ontologies sous peine que celles-ci ne deviennent obsol`etes. Cette maintenance est g´en´eralement r´ealis´ee manuellement.

Dans ce contexte, de nombreux travaux se sont int´eress´es `a ´elaborer un processus automatique d’enrichissement. H´elas, les solutions existantes n’arrivent pas `a s’abstraire d’une ´etroite et perma- nente intervention humaine. Par ailleurs, ces pr´ec´edentes propositions s’appuient g´en´eralement sur une connaissance a priori, externe au corpus, qui peut ˆetre structurelle (organisation des documents du corpus) ou s´emantique (dictionnaire de synonymes ou de relations). Or ces connaissances com- pl´ementaires requi`erent ´egalement une mise `a jour r´eguli`ere, r´ealis´ee elle aussi manuellement.

Afin de mettre en œuvre une d´emarche automatique ne n´ecessitant qu’une validation finale comme intervention de l’expert, nous proposons d’adopter une technique de fouille de donn´ees et plus particuli`erement la recherche de motifs s´equentiels. En effet, `a l’instar des m´ethodes statistiques ou des r`egles d’association utilis´ees pour extraire les ´el´ements nouveaux destin´es `a l’enrichissement, les motifs s´equentiels permettent d’identifier les termes fr´equents et fortement corr´el´es au sein d’un corpus de textes. Ils offrent de plus le double avantage d’identifier de fa¸con efficace les connaissances communes `a de grandes sources de documents textuels h´et´erog`enes, et d’extraire ces connaissances en int´egrant la structure intrins`eque des documents sans requ´erir de ressources ext´erieures, contrai- rement aux approches bas´ees sur une analyse syntaxique.

D’autre part, tout comme les r`egles d’association, les motifs s´equentiels mettent en ´evidence des corr´elations ainsi que des relations entre les termes. Mais, grˆace `a la prise en compte du s´equen- cement des mots et des phrases dans les textes, les motifs s´equentiels permettent une analyse plus fine. De nombreuses extensions ont ´egalement ´et´e d´evelopp´ees qui permettront un certain nombre d’am´eliorations et de raffinements au moment de l’extraction des termes candidats.

Le processus d’enrichissement que nous proposons est automatique, `a la diff´erence des m´ethodes existantes pour lesquelles un traitement manuel subjectif doit ˆetre r´ealis´e par les experts a priori. Dans notre d´emarche, l’ajout des concepts et des relations dans l’ontologie se fait directement `a partir de l’analyse automatique des motifs s´equentiels d´ecouverts. Plus pr´ecis´ement, nous proposons d’utiliser

(6)

une technique de fouille de donn´ees structur´ees afin d’enrichir automatiquement une ontologie en lui ajoutant d’une part de nouveaux concepts et d’autre part en mettant en ´evidence des relations, s´emantiquement identifi´ees, entre eux. Notre m´ethode d’enrichissement consiste en trois grandes

´etapes. Tout d’abord, des motifs s´equentiels, c’est-`a-dire des s´equences fr´equentes, sont extraits

`a partir de documents Web relatifs au domaine d´ecrit par l’ontologie. Nous obtenons alors des s´equences de mots fr´equemment associ´es dans un certain ordre, dans le contexte documentaire que nous exploitons. Ensuite, grˆace `a la mise en œuvre de deux mesures, nous rapprochons ces mots candidats pour l’enrichissement des concepts d´ej`a pr´esents dans l’ontologie. Enfin, ces nouveaux termes sont reli´es `a la structure de celle-ci et ces relations sont ´etiquet´ees s´emantiquement. A la fin de ce processus, l’ontologie enrichie contient de nouveaux concepts, ainsi que de nouvelles relations, clairement sp´ecifi´ees. Les premiers r´esultats obtenus sur une ontologie du domaine de l’eau sont concluants et nous permettent d’envisager de nombreuses perspectives.

Ainsi nous obtenons une m´ethode efficace et automatique pour enrichir les ontologies, permettant : 1. d’extraire des termes candidats `a partir de documents textuels h´et´erog`enes, sans apport de

connaissances ext´erieures,

2. de placer de nouveaux concepts dans l’ontologie,

3. d’ajouter de nouvelles relations entre ces concepts et/ou ceux pr´e-existants,

4. de nommer pr´ecis´ement chacune de ces relations en lui attribuant un label, sans intervention humaine.

Ce rapport est organis´e de la fa¸con suivante : nous pr´esentons dans le chapitre 1 les diff´erentes m´ethodes qui existent pour r´epondre aux besoins constants d’enrichissement des ontologies `a partir de donn´ees textuelles et d´eveloppons nos motivations. Dans le chapitre 2, nous introduisons notre contribution, en commen¸cant par une proposition de d´efinition formelle d’une ontologie. Puis nous d´etaillons les mesure nous permettant de rattacher de nouveaux termes `a l’ontologie, qu’ils corres- pondent `a des concepts ou `a des relations, ainsi que les algorithmes que nous avons d´evelopp´es afin d’automatiser le processus d’enrichissement. Le chapitre 3 pr´esente ensuite les r´esultats d’exp´erimen- tations conduites sur l’enrichissement d’une ontologie du domaine de l’eau. Enfin, nous concluons ce rapport par le bilan des apports de notre contribution ainsi que par la pr´esentation rapide de quelques perspectives ouvertes par notre travail.

(7)

Chapitre 1

Etat de l’art

1.1 Les ontologies . . . . 8

1.2 Processus g´en´erique d’enrichissement d’ontologies . . . . 9

1.3 Construction et mise `a jour des ontologies . . . . 10

1.3.1 Extraction des termes . . . . 10

1.3.2 Placement par fouille de donn´ees . . . . 12

1.4 Motivations et objectifs . . . . 13

1.4.1 Discussion des travaux existants . . . . 13

1.4.2 Objectifs . . . . 15

1.4.3 Approche propos´ee . . . . 16

(8)

L’´evolution des capacit´es de stockage a g´en´er´e un grand besoin d’organisation, afin de permettre

`a l’utilisateur une meilleure manipulation des donn´ees. C’est ce que r´ealise le Web 2.0, ou Web S´emantique, grˆace `a la segmentation en couche des documents, de leur structure et de leur contenu.

Les deux premi`eres couches servent `a d´ecrire et identifier les pages Web dans une syntaxe com- mune. La troisi`eme couche fournit un cadre g´en´eral pour la standardisation des m´eta-donn´ees, don- n´ees d´ecrivant d’autres donn´ees. C’est `a partir de la quatri`eme couche que les donn´ees peuvent ˆetre repr´esent´ees de fa¸con g´en´erique et compr´ehensible par tous, humains et machines. Cette couche cor- respond `a l’ontologie du domaine, et permet de d´ecrire et partager des informations, en organisant les termes d’un vocabulaire pr´ecis en notions g´en´erales appell´ees “concepts” et “relations”. Enfin, les deux derni`eres couches ont pour but de valider et de manipuler l’information.

Nous nous int´eressons dans ce rapport `a la quatri`eme couche, commun´ement d´esign´ee sous le nom de “vocabulaire ontologique”. Dans ce chapitre, nous expliquerons dans un premier temps de quelles fa¸cons sont d´efinies les ontologies dans les diff´erents travaux. Dans un second temps, nous identifions dans le processus g´en´erique d’enrichissement d’ontologies deux ´etapes distinctes : l’ex- traction d’´el´ements `a partir de documents textes, et le placement de ces ´el´ements.

Nous analysons `a la section 1.3.1 les m´ethodes utilis´ees pour l’extraction des termes candidats

`a l’enrichissement, puis `a la section 1.3.2 de quelle mani`ere la fouille de donn´ees intervient dans le placement des nouveaux termes. Dans la derni`ere partie, section 1.4.1, nous discutons les limites des m´ethodes ´etudi´ees, avant d’identifier et justifier clairement les objectifs et motivations de notre travail.

1.1 Les ontologies

Un vocabulaire contrˆol´e est une liste de termes associ´es `a un domaine et partag´es par une communaut´e. Si cette liste est organis´ee de mani`ere hi´erarchique selon une relation is-a entre les niveaux, alors nous obtenons unetaxonomie. Si de plus on ajoute a priori des relations binaires entre termes de la taxonomie, alors celle-ci devient unth´esaurus.

Une ontologie est un mod`ele plus ´evolu´e que le th´esaurus, permettant une repr´esentation des connaissances au travers de la description g´en´erique d’entit´es via des concepts et des relations taxo- nomiques et non taxonomiques qui les lient. Le terme“ontologie”d´esigne des outils ou repr´esentations utilis´es dans de nombreux domaines tels que la philosophie, la linguistique ou encore l’intelligence artificielle, ce qui les rend difficile `a d´efinir de fa¸con absolue, quelque soit le domaine.

En informatique, et plus pr´ecis´ement dans le cadre du Web S´emantique, les ontologies sont une description des notions (ou principes, concepts) et des liens (ou relations) entre elles, offrant le double avantage d’organiser, structurer, ´echanger de l’information, et d’ˆetre lisible par l’humain et la machine.

Les ontologies peuvent alors ˆetre vues comme un mod`ele conceptuel. Ainsi, selon Gruber, ”une ontologie est la formalisation explicite d’une conceptualisation” [Gru93]. Bien que g´en´erique, cette d´efinition est utilis´ee par diff´erentes communaut´es qui s’accordent sur les bases des ontologies : elles mettent en œuvre des concepts ou entit´es d´ecrivant des objets du monde r´eel, une hi´erarchie entre ces concepts, ainsi que les relations non taxonomiques qui les lient.

Par exemple, consid´erons l’environnement. L’air, l’eau et les ˆetres vivants composent l’environ- nement ; de plus, les ˆetres vivants consomment de l’eau. La figure 1.1 illustre cette ontologie, avec

(9)

Environnement

Air Eau

Etres vivants Consommer

Fig. 1.1 – Exemple d’ontologie

les concepts repr´esent´es par les rectangles et les relations associatives par les ellipses.

Une ontologie est une mod´elisation de connaissances g´en´eriques. Elle peut ˆetre instanci´ee en une repr´esentation d’entit´es r´eelles du monde. Cette instance constitue alors une base de connaissances.

Par exemple, le lion appel´e“Simba”est une instance du concept“Lion”ou du concept plus g´en´e- rique“Animal”, et non un concept en lui-mˆeme. Contrairement `a certains syst`emes d’enrichissement d’ontologie [NH04] qui les peuplent avec des instances, les transformant ainsi en base de connais- sance, nous consid´ererons dans le pr´esent rapport l’ontologie comme une conceptualisation et non une instanciation du monde.

1.2 Processus g´ en´ erique d’enrichissement d’ontologies

La construction manuelle d’une ontologie s’av`ere ˆetre un travail fastidieux et coˆuteux, car il n´e- cessite l’identification des concepts et relations potentiels, puis de leur insertion dans l’ontologie. Les mˆemes probl´emes se posent dans le cas de la maintenance d’une ontologie, qui consiste en l’ajout, la modification ou la suppression de concepts/relations. Ces op´erations sont, comme la construction, le plus souvent r´ealis´es manuellement. Il apparaˆıt donc n´ecessaire de d´evelopper des outils pour l’acqui- sition et la mise `a jour automatique des ontologies. En effet, les informations ´evoluant rapidement quelque soit le domaine mod´elis´e, les ontologies existantes doivent ´evoluer afin d’int´egrer les nouvelles connaissances et ainsi refl´eter le mieux possible la r´ealit´e du moment. Or les volumes d’information

`a mod´eliser sont d’une telle taille qu’une mise `a jour manuelle est d´esormais impossible. Dans ce rapport, nous nous int´eresserons plus particuli`erement `a l’enrichissement d’ontologie, c’est-`a-dire `a l’ajout de nouveaux concepts et relations.

La figure 1.2 sch´ematise les ´etapes de ce processus g´en´eral. Les nouvelles connaissances sont contenues dans les donn´ees, les documents textuels ´etant g´en´eralement privili´egi´es car ils contiennent la s´emantique recherch´ee. Une premi`ere ´etape consiste donc `a construire un corpus textuel concernant le domaine consid´er´e. Ce corpus est ensuite pr´etrait´e : les mots seront repr´esent´es sous leur forme la plus g´en´erique (lemmatisation). Il s’agit ensuite d’identifier parmi ces mots les termes candidats `a l’enrichissement, termes suceptibles de correspondre `a des ´el´ements nouveaux de l’ontologie, avant de les rattacher `a l’ontologie.

Chacune des m´ethodes existantes diff`erent principalement en deux axes : les ´el´ements de l’on- tologie qu’elles mettent `a jour (concept ou relation), ainsi que la technique d’extraction de termes, bas´ees sur des outils statistique ou syntaxique (section 1.3.1).

(10)

Extraction de termes

Corpus

Ontologie Ensemble de

termes

Concept de l’ontologie

Terme de document Nouveau concept

Fig. 1.2 – Le processus g´en´eral de mise `a jour d’ontologie

1.3 Construction et mise ` a jour des ontologies

De nombreux travaux ont ´et´e consacr´es `a l’enrichissement d’ontologie `a partir de corpus textuels.

Dans cette section, nous d´etaillerons les diff´erentes approches rencontr´ees durant la phase de s´election des termes. L’ensemble des principales m´ethodes statistiques et syntaxiques, ainsi que les diff´erences qui les caract`erisent sont pr´esent´ees `a la section 1.3.1. Nous verrons ensuite que les travaux proposant un placement automatique des nouveaux ´el´ements utilisent des techniques de fouille de donn´ees. Nous expliquerons donc les principes de la fouille de donn´ees, puis la mani`ere dont ces techniques sont employ´ees dans un contexte de placement.

1.3.1 Extraction des termes

Les m´ethodes statistiques s´electionnent les termes candidats `a l’enrichissement en fonction de leur distribution au sein du corpus grˆace `a l’utilisation de diff´erentes mesures. La plus simple consiste `a compter le nombre d’apparitions d’un terme au sein d’un corpus. Afin d’extraire les termes candidats

`a partir d’un ensemble de dictionnaires, [PGF04] conserve uniquement les termes apparaissant dans plus de trois d´efinitions d’un mˆeme mot. L’utilisateur se voit ainsi retourner un ensemble, pr´esent´e sous la forme {mot de la d´efinition, mots apparaissant plus de trois fois dans la d´efinition}. Cet ensemble est ensuite utilis´e comme support de mise `a jour.

Dans [XKPS02], les auteurs utilisent une extension de la mesure tf.idf [RJ88] qui permet de calculer l’importance d’un terme dans un document par rapport `a l’ensemble des documents. Cette nouvelle mesure, adapt´ee `a un corpus de documents classifi´es selon leur domaine, permet de statuer sur la pertinence d’un terme en fonction des classes. Apr`es s´election des termes les plus repr´esentatifs de chaque classes, [XKPS02] d´etectent les coocurences de ses termes. Pour cela, ils comparent plusieurs mesures statistiques afin de d´eterminer la mesure de s´election la plus performante dans un contexte d’enrichissement d’ontologie.

Cependant, si un terme apparaˆıt fr´equemment seul, il ne sera pas d´etect´e par la mesure d’infor- mation mutuelle car il ne pourra pas ˆetre associ´e `a un autre terme. C’est pourquoi [VMF01] d´efinit une mesure appel´ee “Pertinence du domaine” afin d’extraire les termes propres `a un domaine en

(11)

prenant en compte la distribution d’un terme sur le corpus en fonction de sa distribution par rapport

`a un domaine. Bien que les exp´erimentations montrent que les termes d´etect´es sont majoritairement repr´esentatifs, tous les termes pertinents ne sont pas extraits.

Afin de s´electionner les termes apparaissant fr´equemment pr`es des labels de concepts de l’on- tologie [FS02], utilise ´egalement des matrices de cooccurrences dans le but d’identifier les termes candidats. Ainsi, ce travail recherche les mots apparaissant ensemble dans une suite de mots de longueur fix´ee par l’utilisateur.

Les m´ethodes statistiques permettent la mise en ´evidence des termes fr´equents ou paire de termes li´es dans le corpus, grˆace `a diff´erentes mesures. Une m´ethode alternative couramment rencontr´ee dans la litt´erature est la m´ethode syntaxique. Cette m´ethode d´etecte des associations de termes diff´erentes des m´ethodes statistique, car elles se basent sur les fonctions grammaticales et non la distribution des termes. En effet, ces m´ethodes ´emettent l’hypoth`ese suivante : les d´ependances grammaticales refl`etent des d´ependances s´emantiques. Extraire les termes li´es par la syntaxe revient alors `a trouver des termes li´es par une s´emantique. Il s’agit alors de d´eterminer la fonction grammaticale d’un mot ou d’un groupe de mots au sein d’une phrase.

Dans [Ben06], [RPRJ00], le verbe reliant deux substantifs, c’est-`a-dire le sujet et le compl´ement, labellise une relation s´emantique entre les deux concepts du sujet et du compl´ement. Les auteurs constituent donc pour chaque phrase la liste des triplets (Sujet, Verbe, Compl´ement) : les termes ex- traits appartiennent donc au sujet et au compl´ement, et ont comme label de relation suppos´e le verbe qui les lie. Cependant, le nombre de couples extraits reste trop ´elev´e et contient souvent du bruit.

Une solution consiste `a s´electionner les couples dont au moins un terme est fr´equent dans le corpus en utilisant une des m´ethodes statistiques pr´esent´ees pr´ecedemment. N´eanmoins, [Ben06] ne place aucun concept ou relation au sein de l’ontologie : une liste des couples de concepts accompagn´es des verbes les liant fr´equemment est propos´ee `a l’utilisateur comme un support `a un enrichissement manuel. [RPRJ00] utilise un dictionnaire pr´ecisant le type de l’acteur et du receveur des verbes po- tentiellement relation. Si le verbe n’est pas list´e ou si l’un des concepts reli´e ne correspond pas, les

´el´ements sont ´elimin´es.

La plupart des analyseurs syntaxiques utilis´es sont coupl´es `a un module permettant de reconnaˆıtre les noms propres ou les dates ainsi qu’`a un module de r´ecup´eration des informations sp´ecifiques `a un domaine permettant de rep´erer les instances d’un concept.

Pour [MS00a], toute d´ependance grammaticale induit potentiellement une relation. Ainsi, tous les couples de concepts li´es par une fonction grammaticale seront retenus. Par exemple, `a partir de la phrase“L’hˆotel Formule1 de Montpellier est tr`es propre”, le couple (Hˆotel, Ville) sera constitu´e, puisque le mot“de”induit une relation potentielle entre “Formule 1” et “Montpellier” et donc les concepts concern´es.

[Hea92] introduit l’id´ee d’expressions r´eguli`eres syntaxiques afin d’extraire des relations s´eman- tiques et taxonomiques. La m´ethode implique que le syst`eme comporte une liste exhaustive des expressions r´eguli`eres qu’il doit extraire ; cette liste est manuellement constitu´ee.

[XKPS02] remplacent la partie manuelle du processus par l’utilisation des relations de synony- mies1, hyperonymies2 et hyponymie3 d’un r´eseau lexical et s´emantique allemand et constituent les

1Rapport de proximit´e s´emantique entre des mots d’une mˆeme langue

2Relation s´emantique hi´erarchique entre les mots : le sens du premier englobe le second

3Le sens du premier est incluse dans le sens du second

(12)

expressions en se basant sur les segments de texte o`u apparaissent les termes s´electionn´es.

[MS00b] utilisent les patrons syntaxiques lors de la fouille d’un dictionnaire afin de constituer des relations taxonomiques entre concepts : le mot d´efini constitue le concept, et les termes de la d´efinition des concepts candidats. L’approche est originale car les patrons sont ´etablis au niveau des concepts et non des termes, ce qui va permettre un enrichissement directement cibl´e sur les concepts mais ne permet pas de nommer les relations ajout´ees.

[VMF01] regroupe les syntagmes4 ayant le mˆeme pr´efixe afin de proposer des relations taxono- miques `a l’utilisateur. Par exemple, les syntagmes “carte de cr´edit”et“carte t´el´ephonique”produiront le concept “carte” avec “cr´edit” et “t´el´ephonique” en sous-concepts.

1.3.2 Placement par fouille de donn´ees

Si les m´ethodes pr´esent´ees plus haut permettent d’extraire les termes “int´eressants” d’un corpus, il faut par la suite identifier ses termes comme ´etant des concepts ou des relations, afin de les placer au sein de l’ontologie. Pour cela, il existe deux m´ethodes : soit les termes extraits sont directement consid´er´es comme des concepts candidats, le terme repr´esentant alors le label du concept, soit les termes sont vus comme des“instances”de concepts. Dans le cas ou les termes sont consid´er´es comme des concepts, les approches de placement automatique utilisent des techniques de fouilles de donn´ees.

La fouille de donn´ees est une ´etape du processus d’extraction de connaissances qui consiste

`a d´ecouvrir de nouvelles connaissances au sein de grandes quantit´es de donn´ees. Les premi`eres op´erations de ce processus correspondent `a la transformation des donn´ees avant de pouvoir appliquer des algorithmes de fouille de donn´ees.

La fouille permet alors d’extraire des sch´emas qui mod´elisent ou synth´etisent l’information conte- nue dans les donn´ees. Ces sch´emas sont ensuite analys´es, interpr´et´es et valid´es. Selon les besoins et objectifs de la fouille, les sch´emas sont extraits par diff´erentes techniques :

• laclassification, dont le but est d’affecter des donn´ees `a des classes pr´ealablement d´efinies ;

• le clustering (ou segmentation) permet de partitionner les donn´ees en sous-ensembles (ou groupes) de telle mani`ere que la similarit´e entre les donn´ees d’un mˆeme cluster et la dissimilarit´e entre diff´erents clusters soient les plus grandes possibles ;

• la description des donn´ees peut ˆetre r´ealis´ee `a l’aide des r`egles d’association ou des mo- tifs s´equentiels, qui permettent d’extraire des corr´elations tenant ou non compte d’une notion d’ordre ;

Certaines techniques de fouille de donn´ees ont ´et´e utilis´ees dans un contexte d’enrichissement dans le but de placer au sein de l’ontologie les ´el´ements candidats.

Les techniques de classification permettent de rapprocher des concepts candidats ou des docu- ments de concepts existant grˆace `a des classes ´etablies a priori. [NH04] constituent ainsi une base de connaissances en classant chaque document textuel en fonction des concepts de l’ontologie. Le nombre de termes par document ´etant trop important, les auteurs utilisent la mesure de gain d’infor- mation [DBMM04] afin d’extraire les termes les plus repr´esentatifs d’un document. Chaque document est alors associ´e `a un vecteur de fr´equences d’apparition des termes, puis une distance d´etermine de quel concept ce document est le plus proche. Le processus aboutit `a la cr´eation d’une base de connaissances compos´ee de documents li´es `a un concept de l’ontologie existante [HK00].

4Groupe de mots dont la combinaison produit un sens unique

(13)

Le clustering consiste `a classer des documents ou termes candidats en fonction de classes non d´etermin´ees a priori. Ces m´ethodes permettent de regrouper des termes en fonction de leur occurrence au sein du corpus. L’id´ee est que des termes fr´equemment cooccurrents ont de fortes chances d’ˆetre reli´es par une relation s´emantique.

[PGF04] utilise une technique de clustering (PDDP [Bol98]) afin de regrouper les termes similaires au sein d’un mˆeme groupe par dispersion des“mots par document”. Chaque cluster constitue alors un groupe de concepts possiblement li´es et sera propos´e `a l’utilisateur comme des candidats possibles

`a l’enrichissement. [AAHM00] applique une technique de clustering sur le sens d’un mot en utilisant les signatures th´ematiques des concepts. Ces signatures sont construites en calculant la fr´equence d’apparition des termes dans les diff´erentes collections de documents. Les techniques de clustering servent ensuite `a mesurer le chevauchement des signatures th´ematiques pour diff´erents sens d’un mot.

Appliqu´ees `a des documents textuels, les r`egles d’association r´ev`elent les ensembles de mots fr´e- quemment li´es. Elles s’av`erent tr`es utiles pour la d´ecouverte de relations car elles mettent en ´evidence des concepts fr´equemment li´es et les implications existant entre eux au sein d’un corpus. De plus, [SA97] proposent un algorithme efficace permettant d’int´egrer une taxonomie existante lors de la d´e- couverte de concepts candidats, ce qui permet de placer les r`egles trouv´ees au bon niveau hi´erarchique d’une ontologie. Apr`es avoir regroup´e les concepts par paires en utilisant une m´ethode syntaxique, [MS00b] cr´eent les combinaisons des diff´erents concepts, puis applique l’algorithme [SA97], afin de d´eduire le placement de relations non taxonomiques et non nomm´ees dans l’ontologie.

[Ben06] est l’un des rares travaux proposant de nommer les relations potentielles. Comme dans [MS00b], des r`egles d’association sont recherch´ees parmi les paires de concepts pr´ecedemment ex- traits. Mais contrairement `a cette approche qui consid`ere toutes les combinaisons possibles de concepts potentiels, dans [Ben06] seuls le sujet et l’objet de la phrase constituent une paire, les verbes les reliant dans la phrase ´etant m´emoris´es. L’extraction de r`egles d’association permet alors de s´electionner les paires de concepts les plus pertinentes afin de les proposer `a l’utilisateur accom- pagn´e des verbes associ´es comme des labels de relation, l’insertion finale dans l’ontologie se faisant manuellement.

[SHB06] proposent la construction d’un noyau d’ontologie `a partir de documents textuels grˆace

`a la m´ethodologie OnTex [GS03]. Bas´ee sur l’analyse de concepts formelle, OnTex guide l’utilisateur dans le processus de construction d’ontologie, s’assurant qu’il consid`ere bien tous les choix possibles.

Les relations non taxonomiques sont ensuite extraites en utilisant la technique de [MS00a], l’utilisateur devant les nommer au fur et `a mesure de leur d´ecouverte.

1.4 Motivations et objectifs

1.4.1 Discussion des travaux existants

Les m´ethodes statistiques reposent sur la distribution des termes dans le corpus, mesur´ee selon diff´erentes d´efinitions. Cependant, les seules approches par comptage ne permettent pas de d´etecter les associations de termes, et par cons´equent les relations ´eventuelles.

La d´etection de cooccurrences de deux termes r´esout ce probl`eme en d´ecouvrant les mots appa- raissant r´eguli`erement ensemble. Dans ce cas, il est n´ecessaire de d´efinir la longueur d’une suite de mots ou “fenˆetrage” dans laquelle deux termes doivent apparaˆıtre. Cette taille, fix´ee par l’utilisateur, d´eterminera les associations de concepts extraites. Cependant, l’´evaluation du meilleur fenˆetrage est difficile et il n’existe aucune ´etude comparative concernant la d´efinition de la taille de fenˆetre op- timale. D’autre part, la plupart des travaux consid`erent la cooccurrence uniquement au sein d’une

(14)

mˆeme phrase. Cela signifie que les concepts cooccurrant souvent l’un apr`es l’autre mais dans des phrases s´epar´ees ne seront pas d´etect´es.

Par ailleurs, la d´etection de cooccurrences ne suffit pas `a d´eceler la s´emantique d’une relation. En effet, les travaux bas´es sur cette approche constituent une matrice de cooccurrence puis extraient des termes en relation en analysant statistiquement cette structure. Les concepts sont ensuite regroup´es grˆace `a des m´ethodes de clustering, mais le placement au sein de l’ontologie reste `a la charge de l’utilisateur, tout comme le nommage des relations. Ces deux points constituent les inconv´enients majeurs des techniques statistiques et soulignent leur manque d’automatisation et de pr´ecision.

C’est pourquoi de nombreux travaux proposent la m´ethode syntaxique, fond´es sur l’utilisation d’un analyseur syntaxique, d’un module de reconnaissance d’entit´es nomm´ees, et d’un syst`eme de d´etection de d´ependances grammaticales afin de s´electionner les nouveaux ´el´ements de l’ontologie.

L’´etape de l’analyse linguistique repr´esente une partie importante de la m´ethode, puisqu’elle aboutit `a la s´election des concepts candidats. Cependant, ces m´ethodes supposent que les documents analys´es ont tous la mˆeme structure, les corpus analys´es dans les travaux ´etudi´es ´etant des dictionnaires ou des fiches techniques.

Plusieurs syst`emes consid`erent que les verbes ´etiqu`etent une relation. Les m´ethodes d’analyse syntaxique permettent de d´etecter le sujet et l’objet des phrases consid´er´ees, le verbe est alors consid´er´e comme un label de relation liant les concepts sujet et objet de la phrase. Certains travaux ne permettent pas le placement automatique des relations d´ecouvertes, et proposent directement la liste de ces labels de relation `a l’expert. D’autres consid`erent un dictionnaire de relations d´ecrivant le concept de sujet et d’objet attendu. L’inconv´enient d’un tel syst`eme est la d´ependance `a ce dictionnaire, qu’il sera difficile d’´elaborer et de maintenir. Finalement, cela suppose une description manuelle de la s´emantique, et n’all`ege pas r´eellement la tˆache de l’expert.

Les autres tavaux s’int´eressant aux relations conceptuelles les d´etectent et les placent au sein de l’ontologie, mais ne permettent pas d’extraire les labels associ´es `a ces relations. Cependant, les deux mod`eles pr´esent´es supposent syst´ematiquement qu’un verbe est une relation, et qu’une relation ne peut ˆetre d´ecrite que par un verbe. Cela n’est pas forc´ement vrai : un nom peut ´egalement d´ecrire une relation, par exemple le nom“repas”plutˆot que le verbe“manger”peut d´esigner une relation entre un concept acteur tel qu’un animal et un concept receveur comme une plante.

Les trois techniques de fouille de donn´ees couramment rencontr´ees dans le cadre de l’enrichisse- ment d’ontologies sont la classification, le clustering et les r`egles d’association. La classification et le clustering s’effectuent au niveau conceptuel, permettant de rapprocher de nouveaux concepts `a des concepts existants, ou encore de regrouper des concepts s´emantiquement proches. Cependant, il n’est pas possible de cr´eer des relations, ni mˆeme de les nommer. L’ajout de ces nouveaux concepts au sein de l’ontologie est donc une tˆache laiss´ee `a l’expert.

Les travaux utilisant les r`egles d’association ajoutent un niveau suppl´ementaire de filtrage sur les concepts en ne s´electionnant que les termes fr´equemment li´es et permettent le placement au- tomatique des relations au bon niveau d’abstraction. La fouille est ainsi directement effectu´ee au niveau des concepts et non au niveau des termes. Cependant, tout comme les m´ethodes syntaxiques, une intervention humaine est n´ecessaire pour d´efinir s´emantiquement les relations d´ecouvertes et les nommer. Avec ce type de m´ethodes, deux ´etapes sont n´ecessaires pour l’enrichissement : la s´election des concepts, effectu´ee dans les travaux ´etudi´es par des m´ethodes syntaxiques, et le placement des concepts via les techniques de fouille de donn´ees. Il n’existe `a notre connaissance pas de travaux utilisant l’extraction de motifs ou de r`egles directement sur le corpus, ramenant ainsi le processus `a une seule ´etape.

(15)

1.4.2 Objectifs

Dans le cadre de ce travail, nous proposons d’utiliser la fouille de donn´ees et plus particuli`erement la recherche de motifs s´equentiels afin de mettre en place un mod`ele d’enrichissement automatique d’ontologie. En effet, les travaux ´etudi´es r´ev`elent un manque d’automatisation, puisqu’aucune des techniques existantes ne couvre l’int´egralit´e du processus : identifier de nouveaux concepts et relations

`a partir de documents textuels, puis les placer au sein d’une ontologie existante de fa¸con automatique.

Nous proposons donc un processus r´epondant aux limites cit´ees plus haut articul´e autour de trois axes :

• Extraction des termes repr´esentatifs d’un domaine

• Identification de nouveaux concepts et des relations les liant

• Placement de ces ´el´ements au sein de l’ontologie

Nous tirons avantage du passage `a l’echelle que permettent les techniques de fouille de donn´ees, qui sont g´en´eralement appliqu´ees sur de gros corpus. De plus, le processus d’extraction des termes candidats `a l’enrichissement ainsi que la proposition de placement pourra ˆetre effectu´ee de fa¸con totalement automatique.

En particulier, les motifs s´equentiels, extension des r`egles d’association prenant en compte une notion d’ordre, nous permettront de conserver l’ordre d’apparition des mots ainsi que leur cooccur- rences dans les mˆemes phrases. Contrairement aux m´ethodes statistiques, nous pourrons ainsi acc´eder

`a une information plus fine, et d´eduire les relations s´emantiques refl´et´ees par la structures des motifs.

De plus, l’extraction de motifs ne n´ecessite qu’un pr´etraitement consistant en une lemmatisation des mots, et rendant le processus ind´ependant de la langue du corpus.

De plus, il a ´et´e d´emontr´e dans [JLT06] que les motifs permettent l’extraction efficace de termes repr´esentatifs de grandes sources de documents textuels h´et´erog`enes. En effet, les algorithmes per- mettant la d´ecouverte de motifs s´equentiels offrent le passage `a l’´echelle et permettent d’analyser plus de documents que les m´ethodes syntaxiques car ils ne requi`erent aucun module d’analyse linguistique.

Les syst`emes n´ecessitant l’intervention d’un expert entraˆınent une certaine subjectivit´e, concer- nant le nom des relations ou encore le placement des concepts. Un traitement automatis´e grˆace aux motifs s´equentiels nous permet de r´eduire consid´erablement cette subjectivit´e, puisque nous conser- vons les mots fr´equemment employ´es, c’est `a dire le langage commun `a une majorit´e d’auteurs du domaine.

Si la correspondance entre une r`egle d’association et une ontologie est intuitive (un concept implique un autre concept, ce qui montre une relation entre les deux concepts), ce n’est pas le cas pour les motifs s´equentiels. Il s’agira alors de d´efinir dans quelle mesure un motif peut ˆetre corr´el´e

`a la structure d’une ontologie. Cela n’est possible que si le rˆole des concepts et des relations est clairement identifi´e. Les diff´erentes d´efinitions rencontr´ees dans la litt´erature ´etant trop g´en´eriques ou trop sp´ecifiques, il est n´ecessaire de poser une d´efinition formelle, r´epondant `a notre contexte et coh´erente avec les pr´ecedentes.

Nous proposons d’exploiter tous les avantages cit´es dans un processus semi-automatique. Notre syst`eme permet de rattacher de nouveaux concepts `a l’ontologie via des relations nomm´ees. L’onto- logie enrichie sera ensuite retourn´ee `a l’expert qui validera les ajouts. La section suivante d´ecrit la d´emarche g´en´erale, ainsi qu’une introduction `a la notion de motifs s´equentiels.

(16)

1.4.3 Approche propos´ee

Avant de d´ecrire notre proposition, nous d´efinissons les notions associ´ees `a l’extraction de motifs s´equentiels. Initialement introduit dans [AS95], les motifs s´equentiels d´esignent l’ensemble des en- chaˆınements d’ensembles d’items, couramment associ´es sur une p´eriode de temps donn´ee.

SoitOun ensemble d’objetsoet un ensembleI d’items stock´es dans une base de donn´eeDB. Chaqueenregistrement Ecorrespond `a un triplet (id-objet,id-date,itemset) qui caract´erise la liste des items associ´es `a l’objet identifi´e parid-obj `a la date id-date.

Un itemset est un ensemble non vide d’items de I not´e (i1, i2, ..., in), o`u ij est un item. Une s´equence s est d´efinie comme une liste ordonn´ee non vide d’itemset qui sera not´ee < s1s2...sn >

o`usj est un itemset. Unen-s´equence est une s´equence de taillen, c’est-`a-dire compos´ee denitems.

Exemple 1. La s´equence S=<(a)(b c)(d)(e)> repr´esente l’enregistrement successif des items a, puisbet c ensemble, ensuite seulement l’itemd et finalement l’iteme.S est une 5-s´equence.

Soit S et S deux s´equences de donn´ees respectivement ´egales `a < s1s2 ... sn > et < s1s2 ...

sm >. S est incluse dans S si et seulement s’il existe des entiers a1 < a2 < ... < an tels que s1 ⊆sa1, s2⊆sa2 ,... sn⊆san. On dit ´egalement ques est unesous-s´equence des.

Exemple 2. La s´equence S =<(b)(e)> est une sous-s´equence deS car (b)⊆(b c) et (e)⊆(e).

Par contre<(b)(c)> n’est pas une sous-s´equence de<(b c)>, ni l’inverse.

Les enregistrements de la base sont regroup´es par objets et ordonn´es chronologiquement, d´efi- nissant ainsi dess´equences de donn´ees. Un objetosupporteune s´equenceS, si et seulement siS est incluse dans la s´equence de donn´ees de cet objet. Lesupport(ou fr´equence) d’une s´equence est alors d´efini comme le pourcentage d’objets de la baseDB qui supportent S. Une s´equence est dite fr´equentesi son support est au moins ´egal `a une valeur minimaleminSupsp´ecifi´ee par l’utilisateur.

Unes´equence candidate est une s´equence potentiellement fr´equente.

La recherche de motifs s´equentiels dans une base de s´equences telle que DB consiste alors `a trouver toutes les s´equences maximales (non incluses dans d’autres) dont le support est sup´erieur `a minSup. Chacune de ces s´equences fr´equentes maximales est un motif s´equentiel.

Plusieurs algorithmes efficaces ont ´et´e propos´es [AS95, MCP98, Zak01, DJJK+06] pour l’extrac- tion de motifs s´equentiels. De nombreuses extensions ont ´egalement ´et´e propos´ees, afin de permettre, par exemple, la prise en compte de contraintes temporelles [MPT04, FLT07], ou la recherche incr´e- mentale de motifs [MPT03].

Les motifs s´equentiels ont ´et´e introduits initialement dans un contexte commercial, les items correspondant alors aux produits d’un supermarch´e, les objets `a des client et les itemsets `a la liste des produits achet´es `a une date donn´ee.

Dans notre contexte, les objets correspondent `a des documents. Une date est repr´esent´ee par une ou plusieurs phrases, et un item par un mot. Le tableau Tab. 1.1 r´ecapitule les correspondances entre la d´efinition g´en´erique des motifs et notre contexte.

Formalisme Base de donn´ees en´erique documentaires

objet document

date une ou plusieurs phrases

items mots lemmatis´es

Tab. 1.1 – Utilisation des motifs s´equentiels pour l’analyse d’une base de donn´ees textuelles

(17)

Exemple 3. Si nous fixons qu’une phrase ´equivaut `a une date, alors si la s´equence < (habitat) (environnement lacustre) (crue) (innondation)> est support´ee par un document, cela signifie que dans ce document, une phrase contient le mot “habitat” puis les mots “environnement” et “lacustre” dans une phrase suivante, puis une autre des phrases suivantes contient le mot “crue”, puis encore une autre phrase contient le mot “innondation”.

C4

C3 C2

C1 Perturbation atmosph´erique

Orage

Pluie

Averse

Entraˆıne

Fig. 1.3 – Exemple d’ontologie

Dans la suite de cet article, nous conserverons l’appellation items lorsque nous ´evoquerons les termes candidats extraits grˆace aux motifs s´equentiels.

Exemple 4. Le terme “pluie” d´esigne un concept de l’ontologie figure 2.1 et “entraˆıne” un label de relation de l’ontologie, alors que “provoquer” ou “innondation” sont des items du motif s´equentiel

<(pluie)(provoquer innondation)>.

Notre d´emarche consiste `a fouiller un corpus de documents afin d’en extraire des s´equences de termes apparaissant fr´equemment. Ces motifs s´equentiels sont ensuite eux-mˆeme analys´es afin d’identifier les items repr´esentant de nouveaux concepts et les items labellisant des relations entre ces concepts.

Pour r´ealiser ce processus, partant d’un corpus de textes et aboutissant `a l’ajout de nouveaux

´el´ements dans l’ontologie, nous r´ealisons quatre ´etapes, r´esum´ees sur la figure 1.4.

Tout d’abord, les documents sont pr´epar´es afin d’en extraire les motifs s´equentiels. L’ensemble de ces motifs ayant un impact important sur la suite du processus, ils doivent contenir des informations pertinentes. Les mots des textes sont lemmatis´es, c’est-`a-dire remplac´es par leur forme g´en´erique : par exemple, les verbes sous leur forme conjugu´ee seront remplac´es par leur forme infinitive, les mots au pluriel par leur forme au singulier, etc. Apr`es cette lemmatisation, les mots des documents sont des items parmi lesquels nous recherchons les termes candidats `a l’enrichissement. Pour cela, les motifs s´equentiels sont extraits `a l’aide de l’algorithme VPSP [DJJK+06].

La deuxi`eme ´etape de notre approche consiste ensuite `a rapprocher de l’ontologie les items composant les motifs s´equentiels et identifi´es comme termes candidats pour l’enrichissement. Ainsi, partant de l’ontologie, nous rapprochons les items des motifs s´equentiels du voisinage d’un terme ou d’un concept d´ej`a pr´esent dans l’ontologie. Pour r´ealiser ce rapprochement, nous avons d´efini la proximit´e d’un concept, section 2.2.1.

Une fois les items rapproch´es de l’ontologie, il est n´ecessaire de les placer en tant que nouveau terme et/ou concept ou bien en tant que nouvelle relation. Cette troisi`eme ´etape est pr´esent´ee dans

(18)

G´en´erer RAL Elaguer RAL

(m) o (n) (g) i (h) Placement

ONTOLOGIE

Lemmatisation G´en´eration du jeu de donn´ees

100 010 Extraction de motifs s´equentiels

ENSEMBLE DE DOCUMENTS

<s1s2s3>

<s4s5s6>

Recherche des rapprochements

V1(m n o) V2(g h i)

2

3 4

1

Fig. 1.4 – Processus g´en´eral

la section 2.2.2. A partir de triplets compos´es de deux items et d’un concept de l’ontologie duquel ils ont ´et´e rapproch´es, nous construisons desr`egles d’association labellis´ees. Ces r`egles nous permettent de d´eterminer parmi les deux items si l’un d’eux est une relation, auquel cas, les deux items sont plac´es dans l’ontologie afin de l’enrichir.

Il peut arriver que quelques items ne soient pas rattach´es `a l’ontologie faute de relation entre eux et un concept existant. Dans ce cas, nous fournissons `a l’expert qui valide l’enrichissement la liste des items non rattach´es ainsi que les voisinages auxquels ils appartiennent, afin qu’il puisse prendre la d´ecision du placement final.

(19)

Chapitre 2

Proposition

2.1 Un formalisme pour les ontologies . . . . 20

2.1.1 Ontologie . . . . 20

2.1.2 Voisinage . . . . 22

2.2 Outils pour l’enrichissement d’ontologies . . . . 22

2.2.1 Rapprochement des motifs des concepts de l’ontologie . . . . 22

2.2.2 Recherche de relations labellis´ees . . . . 25

2.2.3 Placement des ´el´ements . . . . 28

2.3 SPOntoExpander . . . . 30

(20)

L’´etude des travaux existant r´ev`elent que les m´ethodes d’enrichissement actuelles ne couvrent pas le processus dans son int´egralit´e. De plus, les techniques de fouille de donn´ees, lorsqu’elles sont utilis´ees, n’interviennent qu’`a la fin du processus.

C’est pourquoi nous proposons dans ce chapitre un formalisme pour les ontologies (section 2.1), ainsi qu’une m´ethode d’enrichissement compl`ete bas´ee sur des motifs s´equentiels extraits d’un en- semble de documents textuels. Nous r´ealisons un post-traitement qui peut ˆetre divis´e en deux ´etapes : la recherche de rapprochements, section 2.2.1, puis de relations labellis´ees, section 2.2.2.

La table 2.1 r´ecapitule l’ensemble des notations utilis´ees dans ce chapitre :

L’ensemble des concepts C

Un concept c

L’ensemble des termes T

Un terme t

Une ontologie O

Le voisinage d’un concept co Vco

La proximit´e entre deux concepts c0 et c1 P rox(c0, c1) Une relation de labelientre un concept c0 et un conceptc1 c0 i c1 Le niveau de relationientre deux conceptsc0 et c1 RLi(c0, c1)

L’ensemble des relations R

Une s´equence S

Un itemset s

Un item i

La fr´equence d’une s´equence s F req(s)

La fr´equence minimale minF req

La proximit´e minimale minP rox

Tab. 2.1 – Table des notations

2.1 Un formalisme pour les ontologies

2.1.1 Ontologie

La formalisation explicite des concepts d’un domaine et de leurs relations sous la forme d’une ontologie est r´ealis´ee de fa¸con diff´erente selon les communaut´es. La plupart d’entre elles consid`erent qu’une ontologie est constitu´ee d’un ensemble de concepts et d’un ensemble de relations entre ces concepts. Cependant, il est impossible d’enrichir une ontologie `a l’aide de motifs sans identifier for- mellement le rˆole des concepts et des relations. Or, les d´efinitions rencontr´ees dans la litt´erature sont soit trop g´en´erales [SHB06], soit trop sp´ecifiques [Her05]. C’est pourquoi nous d´ecrivons formellement une ontologie ainsi que les ´el´ements qui la composent dans la d´efinition 1

D´efinition 1. Soient C un ensemble de concepts, T un ensemble de termes, Rc un ensemble de relations (entre concepts),Rtun ensemble de relations (entre termes) etLun ensemble de labels de relations (´etiquette s´emantique permettant de nommer une relation). L’ontologie O est d´efinie par

(21)

le tuple :

O={C,T,Rc,Rt,L, <c, ftc, frc, G}

tel que :

• <c C × C est la relation d’ordre partiel sur C d´efinissant la hi´erarchie entre les concepts,

<c (c1, c2) signifiec1 est plus g´en´eral quec2

• ftc :C → T est la fonction d’association d’un terme pr´ef´er´e `a un concept

• frc :Rc → C × C est la signature d’une fonction associative entre concepts

• F :T → C est la fonction permettant d’acceder `a un concept `a partir d’un terme

Par la suite, lorsque nous d´esignerons un concept de l’ontologie, nous utiliserons l’un de sestermes associ´es. Ce terme sera alors le terme pr´ef´er´e de ce concept. Pour d´esigner la s´emantique d’une relation entre deux concepts, nous parlerons delabel de relation.

Exemple 5. La figure 2.1 repr´esente un ´echantillon de l’ontologie concernant les perturbations atmosph´eriques. Les concepts sont repr´esent´es par des rectangles, les termes par des diamants et les relations par des ellipses.

C4

C3 C2

C1

Entraˆıne

Perturbation atmosph´erique

Orage Averse

Pluie

Bruine Terme

Terme pr´ef´er´e Concept

Relation

Relation Hi´erarchie

Fig. 2.1 – Exemple d’ontologie

L’ensemble des conceptsCregroupe{C1, C2, C3, C4}, l’ensemble des termes estT={Perturbation atmosph´erique, Orage, Averse, Pluie, Bruine}, et l’ensemble des relationsRcest constitu´e d’une seule relation, de labelEntraˆıne. Le terme “Perturbation atmosph´erique” est le terme pr´ef´er´e du concept C1 : lorsque nous d´esignons le concept C1, nous d´esignons tous les ph´enom`enes de perturbations atmosph´eriques. L’existence d’une relationfrc(Entrane) = (C2, C4) signifie que l’orage entraˆıne la pluie.

L’utilisation des fonctions de r´ef´erence permettent de passer d’un terme `a un concept. Ainsi, F(Averse) =C3, et inversement F1(C3) =Averse.

La hi´erarchie des concepts <c est indiqu´ee par les fl`eches simples et sp´ecifie que, par exemple, le concept C2 repr´esentant le conceptOrage est un sous-concept de c1 d´esignant les Perturbations atmosph´eriques, qui sera qualifi´e de p`ere du concept C2. Dans la suite de ce rapport, lorsque nous parlons du conceptC2, nous d´esignons le terme pr´ef´er´e du conceptC2, soit F1(C2) =Orage.

Notre m´ethode se d´eroule en plusieurs ´etapes, dont la premi`ere consiste `a s´electionner et rappro- cher les items suceptibles de devenir des ´el´ements de l’ontologie. Nous proposons de nous baser sur la structure de l’ontologie existante afin de d´efinir l’ensemble des voisins d’un concept donn´e.

(22)

2.1.2 Voisinage

Le voisinage d’un concept repr´esente alors l’ensemble des concepts li´es `a ce concept soit par une relation taxonomique, soit par une relation associative. Le label des relations impliquantco font

´egalement partie du voisinage deco. La section suivante d´ecrit plus en d´etail la notion de voisinage.

D´efinition 2. Soitco un concept appartenant `a l’ontologie, le voisinageVco deco est d´efini comme l’ensemble des conceptsc et des relations r tels que :

∀c∈ Vco,∃r⊆ R |frc(r) = (co, c) ∨ frc(r) = (c, co)∨<c (co, c)∨<c(c, co)

Exemple 6. Le voisinage du concept “Orage” de la figure 2.1 estVorage ={“Pluie”, “Perturbation at- mosph´erique”, “entraˆıne”}, carfrc(entraˆıne)=(“Orage”, “Pluie”), et<c(“Perturbation atmosph´erique”,

“Orage”).

Cette notion nous permettra par la suite d’associer les termes candidats extraits grˆace aux motifs s´equentiels aux termes et concepts d´ej`a pr´esents dans l’ontologie. Pour ce faire, nous proposons deux mesures. La premi`ere, appel´ee mesure de“proximit´e minimale”rapprochant les items des motifs s´equentiels de l’ontologie. La seconde mesure, “niveau de relation” d´etermine le rˆole d’un item en tant que concept, ou en tant que relation.

2.2 Outils pour l’enrichissement d’ontologies

2.2.1 Rapprochement des motifs des concepts de l’ontologie

La recherche de voisinage constitue l’´etape suivante du processus d’enrichissement, une fois les termes candidats extraits du corpus. Selon notre approche, le voisinage d’un conceptco est constitu´e de tous les concepts li´es `aco par une relation, ainsi que de ces relations.

Dans un premier temps, nous constituons les voisinages de chaque concept connu de l’ontologie pr´esent comme item dans un ou plusieurs motifs s´equentiels. Ces voisinages sont constitu´es en utilisant les items des motifs s´equentiels ainsi qu’une mesure de pertinence, laproximit´e, qui indique le degr´e de voisinage entre un terme et un item.

La proximit´e indique la proportion de documents qui abordent le terme co et l’item i, soit dans la mˆeme phrase, soit dans des phrases diff´erentes. Si un nombre de documents ´elev´es abordent le termeco et l’itemi, alors il est probable queisoit un terme ou une relation du voisinage deco. D´efinition 3. Soient S un motif s´equentiel, iun item de cette s´equence etco, item de S, diff´erent de i, terme de l’ontologie. La proximit´e de l’item i comme un terme ou un label de relation du voisinage deco est d´efini par :

P rox(co, i) = max

max( F req([(i co)])

F req([(co)]) ,F req([(i co)]) F req([(i)]) ),

max( F req([(i)(co)])

F req([(co)]) ,F req([(i)(co)]) F req([(i)]) ),

max( F req([(cF req([(co)(i)])

o)]) ,F req([(cF req([(i)])o)(i)]))

Afin de ne pas subir l’influence de l’ordre des mots lors de cette ´etape, puisque nous cherchons des apparitions conjointes d’items, nous devons comparer les fr´equences d’apparition de ces items `a la

(23)

fois dans une mˆeme phrase et dans des phrases successives. De plus, afin de prendre en consid´eration l’influence des items l’un par rapport `a l’autre, nous calculons la meilleure proportion de fr´equences conjointes, marquant les cooccurrences, par rapport `a la fr´equence d’apparition de chaque item, seul.

Exemple 7. La table 2.2 montre les s´equences extraites `a partir d’un ensemble de documents. Les motifs s´equentiels sont repr´esent´es en gras : ce sont les s´equences fr´equentes maximales.

Motif s´equentiel F req S´equence F req

[(pluie innondation provoquer)] 0.4 [(pluie innondation)] 0.5

[(pluie innondation)(provoquer)] 0.3 [(pluie)(innondation)] 0.5

[(pluie)(innondation provoquer)] 0.3 [(innondation)(pluie)] 0.6

[(pluie)(innondation)(provoquer)] 0.2 [(pluie provoquer)] 0.5

[(pluie provoquer)(innondation)] 0.5 [(pluie)(provoquer)] 0.5

[(pluie)(provoquer)(innondation)] 0.3 [(provoquer)(pluie)] 0.5

[(innondation)(pluie)(provoquer)] 0.5 [(pluie)] 1

[(provoquer)(pluie)(innondation)] 0.3 [(innondation)] 0.7

[(provoquer)(pluie innondation)] 0.4 [(provoquer)] 0.7

[(innondation)(provoquer)(pluie)] 0.3

[(innondation provoquer)(pluie)] 0.3

[(innondation)(provoquer pluie)] 0.2

Tab. 2.2 – S´equences extraites

Cette mesure de proximit´e nous permet de rapprocher les items appartenant aux motifs s´equen- tiels des concepts de l’ontologie. En effet, un item d’un motif peut ˆetre le terme pr´ef´er´e d’un concept co de l’ontologie. Dans ce cas, tous les items de la s´equence sont susceptibles d’appartenir au voisi- nage du conceptco.

L’item“pluie” est d´ej`a pr´esent dans l’ontologie, repr´esent´ee par la figure 2.1 en tant que concept.

Calculons la proximit´e de “pluie” et “innondation”.

P rox(pluie, innondation) =max

max( F req([(pluie innondation)])

F req([(innondation)]) ,F req([(pluie innondation]) F req([(pluie)]) ),

max( F req([(pluie)(innondation)])

F req([(innondation)]) ,F req([(pluie)(innondation]) F req([pluie]) ),

max( F req([(innondation)(pluie)])

F req([(innondation)]) ,F req([(innondation)(pluie)]) F req([(pluie)]) )

= max(max(0.5 0.7,0.5

1 ), max(0.5 0.7,0.5

1 ), max(0.6 0.7,0.5

1 ))

= max(0.71,0.71,0.86) = 0.86 Calculons la proximit´e entre “pluie” et “provoquer” :

P rox(pluie, provoquer) = max

max( F req([(pluie provoquer)])

F req([(provoquer)]) ,F req([(pluie provoquer]) F req([(pluie)]) ),

max( F req([(pluie)(provoquer)])

F req([(provoquer)]) ,F req([(pluie)(provoquer]) F req([pluie]) ),

max( F req([(provoquer)(pluie)])

F req([(provoquer)]) ,F req([(provoquer)(pluie)]) F req([(pluie)]) )

(24)

= max(max(0.5 0.7,0.5

1 ), max(0.5 0.7,0.5

1 ), max(0.5 0.7,0.5

1 ))

= max(0.71,0.71,0.71) = 0.71

L’indice de proximit´e, ainsi que la construction des voisinages sont r´ealis´es par l’algorithmeGener- Prox. Partant d’un ensemble de motifs s´equentiels, d’un ensemble de concepts connus et d’un seuil de proximit´e minimale fix´e par l’utilisateur, l’algorithmeGener-Prox teste toutes les combinaisons de proximit´es entre un terme de l’ontologieco et les items de la s´equence dans lequel il apparaˆıt (lignes 3-4). Si ce taux est sup´erieur au seuil de proximit´e minimale, alors il est ajout´e `a la liste des voisins deco (lignes 5-6). Ceci est effectu´e pour chaque motif s´equentiel.

L’ensemble V regroupe l’ensemble des voisinages identifi´es. Les ´el´ements qui le composent sont des couples(item i, P rox(co, i)), regroup´es par conceptco. Ainsi, l’ensembleV retourn´e sera de la formeV={Vc0,Vc1, ...,Vcn}o`u chaqueVci est de la formeVci ={(item i1, P rox(ci, i1)), ...,(item in, P rox(ci, in))}

Algorithme 1 : Gener-Prox

Entr´ees : Ensemble de motifs s´equentiels S, L’arbre pr´efix´e des motifs PSP, L’ontologie O

minP roxle niveau de voisinage minimal fix´e par l’utilisateur

Sorties: Constitution de l’ensembleV des relations de proximit´e V ←∅

1

pour tous less∈S faire

2

pour tous les co∈ C tels queco∈sfaire

3

pour tous les i∈s tels quei6=co faire

4

si P rox(co, i)≥minP roxalors

5

Vco ←−i

6

fin

7

fin

8

V ←− Vco

9

fin

10

fin

11

retourner V

12

Exemple 8. Les s´equences repr´esent´ees en gras dans le tableau de la figure 2.2 sont des motifs s´equentiels. L’algorithme 1 testera successivement les proximit´es suivantes :

– P rox(P luie, Innondation) = 0.86 – P rox(P luie, P rovoquer) = 0.71

Il apparaˆıt que la proximit´e de l’item “pluie” avec les items “innondation” et “provoquer” est assez

´elev´ee. Comme le terme“pluie”est un concept de l’ontologie de la figure 2.1, ces deux items peuvent donc ˆetre rattach´es au voisinage de ce terme. Toutefois `a ce stade nous ignorons si ces items sont des relations ou des concepts. Si le seuil de proximit´e minimale est fix´e `a 0.5, alors l’ensemble V={Vpluie}, avecVpluie={(Innondation,0.86) (P rovoquer,0.71)}, sera constitu´e.

(25)

2.2.2 Recherche de relations labellis´ees

Une fois les voisinages trouv´es, il s’agit d’associer les items `a l’ontologie, soit en tant que nouveau terme et/ou concept, soit en tant que label d’une relation. Pour cela, nous utilisons deux outils, un indice du niveau de relation et des r`egles d’association labellis´ees.

La d´efinition duniveau de relation,RL, est fond´ee sur l’hypoth`ese suivante : lorsqu’un document aborde deux concepts li´es par une relation, il est fr´equent d’employer le label de la relation en mˆeme temps que l’un des deux concepts.

Afin de calculer leniveau de relation entre deux concepts, nous proposons la mesureRL.

D´efinition 4. Soit co un terme tel queVco ∈ V, iet j ∈ des items deVco tel que idiff´erent de j, alors le niveau de relation (Relationship Level)de l’item icomme un label de relation entre co et j est d´efini par :

RLi(co, j) =max

F req([(i j co)]) F req([(j co)])

F req([(co)(i j)]) F req([(co)(j)])

F req([(co i)(j)]

F req([(co)(j)])

F req([(j)(i co)]) F req([(j)(co)])

F req([(j i)(co)]

F req([(j)(co)])

Le niveau de relation repr´esente la proportion de documents qui, ayant employ´e les termesco et j, ont employ´eidans la mˆeme phrase quecoouj. Cette proportion peut ˆetre consid´er´ee comme une sorte de confiance, puisqu’elle repr´esente la probabilit´e maximale que i apparaisse en mˆeme temps queco sachantj ou en mˆeme temps quej sachantco.

Exemple 9. A partir des motifs de la figure 2.2, nous pouvons calculer :

RLprovoquer(pluie, innondation) =max

F req([(provoquer innondation pluie)]) F req([(innondation pluie)])

F req([(pluie provoquer)(innondation)]) F req([(pluie)(innondation)])

F req([(pluie)(provoquer innondation)]) F req([(pluie)(innondation)

F req([(innondation provoquer)(pluie)]) F req([(innondation)(pluie)

F req([(innondation)(provoquer pluie)]) F req([(innondation)(pluie)

=max(0.40.5,0.50.5,0.30.5,0.30.5,0.20.5)

=max(0.8,1,0.6,0.5,0.33) = 1 Et :

Références

Documents relatifs

Programmation fonctionnelle en Prolog: expressions arithm ´etiques Programmation imp ´erative en Prolog: pseudo-pr ´edicats open, write, ... Programmation logique dans un autre

Universit´ e d’Orl´ eans 4 Novembre 2011 D´ epartement de Math´ ematiques.. M1MA06 G´ eom´ etrie

On note O le centre du cercle circonscrit au triangle.. Faire une gure représentant les données

Ici, au regard de la définition de la matrice M, on peut s’intéresser à la résolution d’un système en tirant parti de la structure en bloc de

— Il s’agit essentiellement d’une ´evidence, on se permettra ne pas aller jusqu’au plus profond d’une preuve impitoyablement rigoureuse.. Les intervalles J k qui sont vides

ldentifier d partir du document 3, deux risques auxquels No6mie est confront6e dr la crdche et indiquer pour chacun un exemple de situation de travail qui les

❏ M´ ethode 7.— Dans le cas de la recherche de la r´esistance ´equivalente d’un r´eseau dipolaire entre les

[r]