LisaDiJorio Miseàjourautomatiqued’ontologiebaséesurlesmotifsfréquents MémoiredeStagedeMaster U niversité M ontpellier II

(1)

Acad´emie de Montpellier

U n i v e r s i t ´ e M o n t p e l l i e r I I

— Sciences etTechniques duLanguedoc —

M´ emoire de Stage de Master

Sp´ecialit´e : Recherche en Informatique

Mention : Informatique, Math´ematiques, Statistiques

effectu´e au laboratoire LIRMM/INFO

—

sous la direction de Lylia Abrouk, Dani`ele H´erin et Maguelonne Teisseire

Mise ` a jour automatique d’ontologie bas´ ee sur les motifs fr´ equents

par

Lisa Di Jorio

Soutenu le 20 juin 2007

(2)

Table des mati` eres

Remerciements 3

Introduction 5

1 Etat de l’art 7

1.1 Les ontologies . . . 8

1.2 Processus g´en´erique d’enrichissement d’ontologies . . . 9

1.3 Construction et mise `a jour des ontologies . . . 10

1.3.1 Extraction des termes . . . 10

1.3.2 Placement par fouille de donn´ees . . . 12

1.4 Motivations et objectifs . . . 13

1.4.1 Discussion des travaux existants . . . 13

1.4.2 Objectifs . . . 15

1.4.3 Approche propos´ee . . . 16

2 Proposition 19 2.1 Un formalisme pour les ontologies . . . 20

2.1.1 Ontologie . . . 20

2.1.2 Voisinage . . . 22

2.2 Outils pour l’enrichissement d’ontologies . . . 22

2.2.1 Rapprochement des motifs des concepts de l’ontologie . . . 22

2.2.2 Recherche de relations labellis´ees . . . 25

2.2.3 Placement des ´el´ements . . . 28

2.3 SPOntoExpander . . . 30

3 Mise en œuvre et exp´erimentations 32 3.1 Approche de la mise en œuvre . . . 33

3.2 Impl´ementation et outils . . . 34

3.2.1 Le pr´etraitement . . . 34

3.2.2 La fouille de donn´ees . . . 35

3.2.3 Enrichissement de l’ontologie . . . 35

3.3 Expérimentations sur données réelles . . . 35

3.3.1 L’ontologie et le corpus . . . 35

3.3.2 R´esultats . . . 36

Conclusion 38

A Comparaison des travaux ´etudi´es 43

(3)

B R´esultat d’exp´erimentation 44

C Diagramme des classes 45

(4)

Remerciements

Ce travail n’aurait pu se d´erouler dans de si bonnes conditions sans l’aide de quelques personnes que je tiens `a remercier.

Tout d’abord, je remercie Maguelonne Teisseire qui a pris le temps de m’encadrer et de diriger mes recherches. Je remercie également Danièle Hérin, pour m’avoir accordé sa confiance, Lylia Abrouk pour sa disponibilité et son encadrement, ainsi qu’Anne Laurent pour les divers échanges que nous avons eues.

J’adresse un remerciement particulier `a C´eline Fiot, pour ses nombreuses relectures, ainsi que ses commentaires enrichissants concernant ma proposition.

Enfin, je souhaite remercier l’ensemble de l’´equipe TATOO pour son accueil et sa convivialit´e.

(5)

Introduction

Les nombreuses utilisations du Web ont conduit à une explosion des données stockées et par conséquent ont rendu difficile l’accès à l’information. Ainsi, des techniques ont été développées afin d’accéder automatiquement à une information pertinente. Ces différents outils, regroupés afin de constituer un élément majeur du Web Sémantique, nécessitent une formalisation des contenus ainsi que l’ajout d’une description sémantique réalisée généralement par des méta-données. Les ontologies, l’un des modèles de représentation de connaissances les plus utilisées, répond à cette problématique.

Elles organisent les connaissances en fonction du domaine d’application considéré et sont constituées de concepts liés par des relations incluant une taxonomie. Face à l’évolution permanente du web, un problème crucial est la mise à jour régulière des ontologies sous peine que celles-ci ne deviennent obsolètes. Cette maintenance est généralement réalisée manuellement.

Dans ce contexte, de nombreux travaux se sont intéressés à élaborer un processus automatique d’enrichissement. Hélas, les solutions existantes n’arrivent pas à s’abstraire d’une étroite et permanente intervention humaine. Par ailleurs, ces précédentes propositions s’appuient généralement sur une connaissance a priori, externe au corpus, qui peut être structurelle (organisation des documents du corpus) ou sémantique (dictionnaire de synonymes ou de relations). Or ces connaissances com- plémentaires requièrent également une mise à jour régulière, réalisée elle aussi manuellement.

Afin de mettre en œuvre une démarche automatique ne nécessitant qu’une validation finale comme intervention de l’expert, nous proposons d’adopter une technique de fouille de données et plus particulièrement la recherche de motifs séquentiels. En effet, à l’instar des méthodes statistiques ou des règles d’association utilisées pour extraire les éléments nouveaux destinés à l’enrichissement, les motifs séquentiels permettent d’identifier les termes fréquents et fortement corrélés au sein d’un corpus de textes. Ils offrent de plus le double avantage d’identifier de fa¸con efficace les connaissances communes à de grandes sources de documents textuels hétérogènes, et d’extraire ces connaissances en intégrant la structure intrinsèque des documents sans requérir de ressources extérieures, contrairement aux approches basées sur une analyse syntaxique.

D’autre part, tout comme les règles d’association, les motifs séquentiels mettent en évidence des corrélations ainsi que des relations entre les termes. Mais, grâce à la prise en compte du séquen- cement des mots et des phrases dans les textes, les motifs séquentiels permettent une analyse plus fine. De nombreuses extensions ont également été développées qui permettront un certain nombre d’améliorations et de raffinements au moment de l’extraction des termes candidats.

Le processus d’enrichissement que nous proposons est automatique, à la différence des méthodes existantes pour lesquelles un traitement manuel subjectif doit être réalisé par les experts a priori. Dans notre démarche, l’ajout des concepts et des relations dans l’ontologie se fait directement à partir de l’analyse automatique des motifs séquentiels découverts. Plus précisément, nous proposons d’utiliser

(6)

une technique de fouille de données structurées afin d’enrichir automatiquement une ontologie en lui ajoutant d’une part de nouveaux concepts et d’autre part en mettant en évidence des relations, sémantiquement identifiées, entre eux. Notre méthode d’enrichissement consiste en trois grandes

étapes. Tout d’abord, des motifs séquentiels, c’est-à-dire des séquences fréquentes, sont extraits

à partir de documents Web relatifs au domaine décrit par l’ontologie. Nous obtenons alors des séquences de mots fréquemment associés dans un certain ordre, dans le contexte documentaire que nous exploitons. Ensuite, grâce à la mise en œuvre de deux mesures, nous rapprochons ces mots candidats pour l’enrichissement des concepts déjà présents dans l’ontologie. Enfin, ces nouveaux termes sont reliés à la structure de celle-ci et ces relations sont étiquetées sémantiquement. A la fin de ce processus, l’ontologie enrichie contient de nouveaux concepts, ainsi que de nouvelles relations, clairement spécifiées. Les premiers résultats obtenus sur une ontologie du domaine de l’eau sont concluants et nous permettent d’envisager de nombreuses perspectives.

Ainsi nous obtenons une méthode efficace et automatique pour enrichir les ontologies, permettant : 1. d’extraire des termes candidats à partir de documents textuels hétérogènes, sans apport de

connaissances ext´erieures,

2. de placer de nouveaux concepts dans l’ontologie,

3. d’ajouter de nouvelles relations entre ces concepts et/ou ceux pr´e-existants,

4. de nommer pr´ecis´ement chacune de ces relations en lui attribuant un label, sans intervention humaine.

Ce rapport est organisé de la fa¸con suivante : nous présentons dans le chapitre 1 les différentes méthodes qui existent pour répondre aux besoins constants d’enrichissement des ontologies à partir de données textuelles et développons nos motivations. Dans le chapitre 2, nous introduisons notre contribution, en commen¸cant par une proposition de définition formelle d’une ontologie. Puis nous détaillons les mesure nous permettant de rattacher de nouveaux termes à l’ontologie, qu’ils correspondent à des concepts ou à des relations, ainsi que les algorithmes que nous avons développés afin d’automatiser le processus d’enrichissement. Le chapitre 3 présente ensuite les résultats d’expérimen- tations conduites sur l’enrichissement d’une ontologie du domaine de l’eau. Enfin, nous concluons ce rapport par le bilan des apports de notre contribution ainsi que par la présentation rapide de quelques perspectives ouvertes par notre travail.

(7)

Chapitre 1

Etat de l’art

1.1 Les ontologies . . . . 8

1.2 Processus g´en´erique d’enrichissement d’ontologies . . . . 9

1.3 Construction et mise `a jour des ontologies . . . . 10

1.3.1 Extraction des termes . . . . 10

1.3.2 Placement par fouille de donn´ees . . . . 12

1.4 Motivations et objectifs . . . . 13

1.4.1 Discussion des travaux existants . . . . 13

1.4.2 Objectifs . . . . 15

1.4.3 Approche propos´ee . . . . 16

(8)

L’évolution des capacités de stockage a généré un grand besoin d’organisation, afin de permettre

à l’utilisateur une meilleure manipulation des données. C’est ce que réalise le Web 2.0, ou Web Sémantique, grâce à la segmentation en couche des documents, de leur structure et de leur contenu.

Les deux premières couches servent à décrire et identifier les pages Web dans une syntaxe com- mune. La troisième couche fournit un cadre général pour la standardisation des méta-données, don- nées décrivant d’autres données. C’est à partir de la quatrième couche que les données peuvent être représentées de fa¸con générique et compréhensible par tous, humains et machines. Cette couche correspond à l’ontologie du domaine, et permet de décrire et partager des informations, en organisant les termes d’un vocabulaire précis en notions générales appellées “concepts” et “relations”. Enfin, les deux dernières couches ont pour but de valider et de manipuler l’information.

Nous nous intéressons dans ce rapport à la quatrième couche, communément désignée sous le nom de “vocabulaire ontologique”. Dans ce chapitre, nous expliquerons dans un premier temps de quelles fa¸cons sont définies les ontologies dans les différents travaux. Dans un second temps, nous identifions dans le processus générique d’enrichissement d’ontologies deux étapes distinctes : l’extraction d’éléments à partir de documents textes, et le placement de ces éléments.

Nous analysons à la section 1.3.1 les méthodes utilisées pour l’extraction des termes candidats

à l’enrichissement, puis à la section 1.3.2 de quelle manière la fouille de données intervient dans le placement des nouveaux termes. Dans la dernière partie, section 1.4.1, nous discutons les limites des méthodes étudiées, avant d’identifier et justifier clairement les objectifs et motivations de notre travail.

1.1 Les ontologies

Un vocabulaire contrôlé est une liste de termes associés à un domaine et partagés par une communauté. Si cette liste est organisée de manière hiérarchique selon une relation is-a entre les niveaux, alors nous obtenons unetaxonomie. Si de plus on ajoute a priori des relations binaires entre termes de la taxonomie, alors celle-ci devient unthésaurus.

Une ontologie est un modèle plus évolué que le thésaurus, permettant une représentation des connaissances au travers de la description générique d’entités via des concepts et des relations taxonomiques et non taxonomiques qui les lient. Le terme“ontologie”désigne des outils ou représentations utilisés dans de nombreux domaines tels que la philosophie, la linguistique ou encore l’intelligence artificielle, ce qui les rend difficile à définir de fa¸con absolue, quelque soit le domaine.

En informatique, et plus précisément dans le cadre du Web Sémantique, les ontologies sont une description des notions (ou principes, concepts) et des liens (ou relations) entre elles, offrant le double avantage d’organiser, structurer, échanger de l’information, et d’être lisible par l’humain et la machine.

Les ontologies peuvent alors être vues comme un modèle conceptuel. Ainsi, selon Gruber, ”une ontologie est la formalisation explicite d’une conceptualisation” [Gru93]. Bien que générique, cette définition est utilisée par différentes communautés qui s’accordent sur les bases des ontologies : elles mettent en œuvre des concepts ou entités décrivant des objets du monde réel, une hiérarchie entre ces concepts, ainsi que les relations non taxonomiques qui les lient.

Par exemple, considérons l’environnement. L’air, l’eau et les êtres vivants composent l’environnement ; de plus, les êtres vivants consomment de l’eau. La figure 1.1 illustre cette ontologie, avec

(9)

Environnement

Air Eau

Etres vivants Consommer

Fig. 1.1 – Exemple d’ontologie

les concepts repr´esent´es par les rectangles et les relations associatives par les ellipses.

Une ontologie est une modélisation de connaissances génériques. Elle peut être instanciée en une représentation d’entités réelles du monde. Cette instance constitue alors une base de connaissances.

Par exemple, le lion appelé“Simba”est une instance du concept“Lion”ou du concept plus géné- rique“Animal”, et non un concept en lui-même. Contrairement à certains systèmes d’enrichissement d’ontologie [NH04] qui les peuplent avec des instances, les transformant ainsi en base de connaissance, nous considérerons dans le présent rapport l’ontologie comme une conceptualisation et non une instanciation du monde.

1.2 Processus g´ en´ erique d’enrichissement d’ontologies

La construction manuelle d’une ontologie s’avère être un travail fastidieux et coûteux, car il né- cessite l’identification des concepts et relations potentiels, puis de leur insertion dans l’ontologie. Les mêmes problémes se posent dans le cas de la maintenance d’une ontologie, qui consiste en l’ajout, la modification ou la suppression de concepts/relations. Ces opérations sont, comme la construction, le plus souvent réalisés manuellement. Il apparaˆıt donc nécessaire de développer des outils pour l’acqui- sition et la mise à jour automatique des ontologies. En effet, les informations évoluant rapidement quelque soit le domaine modélisé, les ontologies existantes doivent évoluer afin d’intégrer les nouvelles connaissances et ainsi refléter le mieux possible la réalité du moment. Or les volumes d’information

à modéliser sont d’une telle taille qu’une mise à jour manuelle est désormais impossible. Dans ce rapport, nous nous intéresserons plus particulièrement à l’enrichissement d’ontologie, c’est-à-dire à l’ajout de nouveaux concepts et relations.

La figure 1.2 schématise les étapes de ce processus général. Les nouvelles connaissances sont contenues dans les données, les documents textuels étant généralement priviliégiés car ils contiennent la sémantique recherchée. Une première étape consiste donc à construire un corpus textuel concernant le domaine considéré. Ce corpus est ensuite prétraité : les mots seront représentés sous leur forme la plus générique (lemmatisation). Il s’agit ensuite d’identifier parmi ces mots les termes candidats à l’enrichissement, termes suceptibles de correspondre à des éléments nouveaux de l’ontologie, avant de les rattacher à l’ontologie.

Chacune des méthodes existantes diffèrent principalement en deux axes : les éléments de l’ontologie qu’elles mettent à jour (concept ou relation), ainsi que la technique d’extraction de termes, basées sur des outils statistique ou syntaxique (section 1.3.1).

(10)

Extraction de termes

Corpus

Ontologie Ensemble de

termes

Concept de l’ontologie

Terme de document Nouveau concept

Fig. 1.2 – Le processus général de mise à jour d’ontologie

1.3 Construction et mise ` a jour des ontologies

De nombreux travaux ont été consacrés à l’enrichissement d’ontologie à partir de corpus textuels.

Dans cette section, nous détaillerons les différentes approches rencontrées durant la phase de sélection des termes. L’ensemble des principales méthodes statistiques et syntaxiques, ainsi que les différences qui les caractèrisent sont présentées à la section 1.3.1. Nous verrons ensuite que les travaux proposant un placement automatique des nouveaux éléments utilisent des techniques de fouille de données. Nous expliquerons donc les principes de la fouille de données, puis la manière dont ces techniques sont employées dans un contexte de placement.

1.3.1 Extraction des termes

Les méthodes statistiques sélectionnent les termes candidats à l’enrichissement en fonction de leur distribution au sein du corpus grâce à l’utilisation de différentes mesures. La plus simple consiste à compter le nombre d’apparitions d’un terme au sein d’un corpus. Afin d’extraire les termes candidats

à partir d’un ensemble de dictionnaires, [PGF04] conserve uniquement les termes apparaissant dans plus de trois définitions d’un même mot. L’utilisateur se voit ainsi retourner un ensemble, présenté sous la forme {mot de la définition, mots apparaissant plus de trois fois dans la définition}. Cet ensemble est ensuite utilisé comme support de mise à jour.

Dans [XKPS02], les auteurs utilisent une extension de la mesure tf.idf [RJ88] qui permet de calculer l’importance d’un terme dans un document par rapport à l’ensemble des documents. Cette nouvelle mesure, adaptée à un corpus de documents classifiés selon leur domaine, permet de statuer sur la pertinence d’un terme en fonction des classes. Après sélection des termes les plus représentatifs de chaque classes, [XKPS02] détectent les coocurences de ses termes. Pour cela, ils comparent plusieurs mesures statistiques afin de déterminer la mesure de sélection la plus performante dans un contexte d’enrichissement d’ontologie.

Cependant, si un terme apparaˆıt fréquemment seul, il ne sera pas détecté par la mesure d’information mutuelle car il ne pourra pas être associé à un autre terme. C’est pourquoi [VMF01] définit une mesure appelée “Pertinence du domaine” afin d’extraire les termes propres à un domaine en

(11)

prenant en compte la distribution d’un terme sur le corpus en fonction de sa distribution par rapport

à un domaine. Bien que les expérimentations montrent que les termes détectés sont majoritairement représentatifs, tous les termes pertinents ne sont pas extraits.

Afin de sélectionner les termes apparaissant fréquemment près des labels de concepts de l’ontologie [FS02], utilise également des matrices de cooccurrences dans le but d’identifier les termes candidats. Ainsi, ce travail recherche les mots apparaissant ensemble dans une suite de mots de longueur fixée par l’utilisateur.

Les méthodes statistiques permettent la mise en évidence des termes fréquents ou paire de termes liés dans le corpus, grâce à différentes mesures. Une méthode alternative couramment rencontrée dans la littérature est la méthode syntaxique. Cette méthode détecte des associations de termes différentes des méthodes statistique, car elles se basent sur les fonctions grammaticales et non la distribution des termes. En effet, ces méthodes émettent l’hypothèse suivante : les dépendances grammaticales reflètent des dépendances sémantiques. Extraire les termes liés par la syntaxe revient alors à trouver des termes liés par une sémantique. Il s’agit alors de déterminer la fonction grammaticale d’un mot ou d’un groupe de mots au sein d’une phrase.

Dans [Ben06], [RPRJ00], le verbe reliant deux substantifs, c’est-à-dire le sujet et le complément, labellise une relation sémantique entre les deux concepts du sujet et du complément. Les auteurs constituent donc pour chaque phrase la liste des triplets (Sujet, Verbe, Complément) : les termes extraits appartiennent donc au sujet et au complément, et ont comme label de relation supposé le verbe qui les lie. Cependant, le nombre de couples extraits reste trop élevé et contient souvent du bruit.

Une solution consiste à sélectionner les couples dont au moins un terme est fréquent dans le corpus en utilisant une des méthodes statistiques présentées précedemment. Néanmoins, [Ben06] ne place aucun concept ou relation au sein de l’ontologie : une liste des couples de concepts accompagnés des verbes les liant fréquemment est proposée à l’utilisateur comme un support à un enrichissement manuel. [RPRJ00] utilise un dictionnaire précisant le type de l’acteur et du receveur des verbes potentiellement relation. Si le verbe n’est pas listé ou si l’un des concepts relié ne correspond pas, les

éléments sont éliminés.

La plupart des analyseurs syntaxiques utilisés sont couplés à un module permettant de reconnaˆıtre les noms propres ou les dates ainsi qu’à un module de récupération des informations spécifiques à un domaine permettant de repérer les instances d’un concept.

Pour [MS00a], toute dépendance grammaticale induit potentiellement une relation. Ainsi, tous les couples de concepts liés par une fonction grammaticale seront retenus. Par exemple, à partir de la phrase“L’hôtel Formule1 de Montpellier est très propre”, le couple (Hôtel, Ville) sera constitué, puisque le mot“de”induit une relation potentielle entre “Formule 1” et “Montpellier” et donc les concepts concernés.

[Hea92] introduit l’idée d’expressions régulières syntaxiques afin d’extraire des relations séman- tiques et taxonomiques. La méthode implique que le système comporte une liste exhaustive des expressions régulières qu’il doit extraire ; cette liste est manuellement constituée.

[XKPS02] remplacent la partie manuelle du processus par l’utilisation des relations de synony- mies¹, hyperonymies² et hyponymie³ d’un r´eseau lexical et s´emantique allemand et constituent les

1Rapport de proximité sémantique entre des mots d’une même langue

2Relation s´emantique hi´erarchique entre les mots : le sens du premier englobe le second

3Le sens du premier est incluse dans le sens du second

(12)

expressions en se basant sur les segments de texte où apparaissent les termes sélectionnés.

[MS00b] utilisent les patrons syntaxiques lors de la fouille d’un dictionnaire afin de constituer des relations taxonomiques entre concepts : le mot défini constitue le concept, et les termes de la définition des concepts candidats. L’approche est originale car les patrons sont établis au niveau des concepts et non des termes, ce qui va permettre un enrichissement directement ciblé sur les concepts mais ne permet pas de nommer les relations ajoutées.

[VMF01] regroupe les syntagmes⁴ ayant le même préfixe afin de proposer des relations taxonomiques à l’utilisateur. Par exemple, les syntagmes “carte de crédit”et“carte téléphonique”produiront le concept “carte” avec “crédit” et “téléphonique” en sous-concepts.

1.3.2 Placement par fouille de donn´ees

Si les méthodes présentées plus haut permettent d’extraire les termes “intéressants” d’un corpus, il faut par la suite identifier ses termes comme étant des concepts ou des relations, afin de les placer au sein de l’ontologie. Pour cela, il existe deux méthodes : soit les termes extraits sont directement considérés comme des concepts candidats, le terme représentant alors le label du concept, soit les termes sont vus comme des“instances”de concepts. Dans le cas ou les termes sont considérés comme des concepts, les approches de placement automatique utilisent des techniques de fouilles de données.

La fouille de donn´ees est une ´etape du processus d’extraction de connaissances qui consiste

à découvrir de nouvelles connaissances au sein de grandes quantités de données. Les premières opérations de ce processus correspondent à la transformation des données avant de pouvoir appliquer des algorithmes de fouille de données.

La fouille permet alors d’extraire des schémas qui modélisent ou synthétisent l’information conte- nue dans les données. Ces schémas sont ensuite analysés, interprétés et validés. Selon les besoins et objectifs de la fouille, les schémas sont extraits par différentes techniques :

• laclassification, dont le but est d’affecter des données à des classes préalablement définies ;

• le clustering (ou segmentation) permet de partitionner les données en sous-ensembles (ou groupes) de telle manière que la similarité entre les données d’un même cluster et la dissimilarité entre différents clusters soient les plus grandes possibles ;

• la description des données peut être réalisée à l’aide des règles d’association ou des motifs séquentiels, qui permettent d’extraire des corrélations tenant ou non compte d’une notion d’ordre ;

Certaines techniques de fouille de données ont été utilisées dans un contexte d’enrichissement dans le but de placer au sein de l’ontologie les éléments candidats.

Les techniques de classification permettent de rapprocher des concepts candidats ou des documents de concepts existant grâce à des classes établies a priori. [NH04] constituent ainsi une base de connaissances en classant chaque document textuel en fonction des concepts de l’ontologie. Le nombre de termes par document étant trop important, les auteurs utilisent la mesure de gain d’information [DBMM04] afin d’extraire les termes les plus représentatifs d’un document. Chaque document est alors associé à un vecteur de fréquences d’apparition des termes, puis une distance détermine de quel concept ce document est le plus proche. Le processus aboutit à la création d’une base de connaissances composée de documents liés à un concept de l’ontologie existante [HK00].

4Groupe de mots dont la combinaison produit un sens unique

(13)

Le clustering consiste à classer des documents ou termes candidats en fonction de classes non déterminées a priori. Ces méthodes permettent de regrouper des termes en fonction de leur occurrence au sein du corpus. L’idée est que des termes fréquemment cooccurrents ont de fortes chances d’être reliés par une relation sémantique.

[PGF04] utilise une technique de clustering (PDDP [Bol98]) afin de regrouper les termes similaires au sein d’un même groupe par dispersion des“mots par document”. Chaque cluster constitue alors un groupe de concepts possiblement liés et sera proposé à l’utilisateur comme des candidats possibles

à l’enrichissement. [AAHM00] applique une technique de clustering sur le sens d’un mot en utilisant les signatures thématiques des concepts. Ces signatures sont construites en calculant la fréquence d’apparition des termes dans les différentes collections de documents. Les techniques de clustering servent ensuite à mesurer le chevauchement des signatures thématiques pour différents sens d’un mot.

Appliquées à des documents textuels, les règles d’association révèlent les ensembles de mots fré- quemment liés. Elles s’avèrent très utiles pour la découverte de relations car elles mettent en évidence des concepts fréquemment liés et les implications existant entre eux au sein d’un corpus. De plus, [SA97] proposent un algorithme efficace permettant d’intégrer une taxonomie existante lors de la dé- couverte de concepts candidats, ce qui permet de placer les règles trouvées au bon niveau hiérarchique d’une ontologie. Après avoir regroupé les concepts par paires en utilisant une méthode syntaxique, [MS00b] créent les combinaisons des différents concepts, puis applique l’algorithme [SA97], afin de déduire le placement de relations non taxonomiques et non nommées dans l’ontologie.

[Ben06] est l’un des rares travaux proposant de nommer les relations potentielles. Comme dans [MS00b], des règles d’association sont recherchées parmi les paires de concepts précedemment extraits. Mais contrairement à cette approche qui considère toutes les combinaisons possibles de concepts potentiels, dans [Ben06] seuls le sujet et l’objet de la phrase constituent une paire, les verbes les reliant dans la phrase étant mémorisés. L’extraction de règles d’association permet alors de sélectionner les paires de concepts les plus pertinentes afin de les proposer à l’utilisateur accom- pagné des verbes associés comme des labels de relation, l’insertion finale dans l’ontologie se faisant manuellement.

[SHB06] proposent la construction d’un noyau d’ontologie `a partir de documents textuels grˆace

à la méthodologie OnTex [GS03]. Basée sur l’analyse de concepts formelle, OnTex guide l’utilisateur dans le processus de construction d’ontologie, s’assurant qu’il considère bien tous les choix possibles.

Les relations non taxonomiques sont ensuite extraites en utilisant la technique de [MS00a], l’utilisateur devant les nommer au fur et `a mesure de leur d´ecouverte.

1.4 Motivations et objectifs

1.4.1 Discussion des travaux existants

Les méthodes statistiques reposent sur la distribution des termes dans le corpus, mesurée selon différentes définitions. Cependant, les seules approches par comptage ne permettent pas de détecter les associations de termes, et par conséquent les relations éventuelles.

La détection de cooccurrences de deux termes résout ce problème en découvrant les mots apparaissant régulièrement ensemble. Dans ce cas, il est nécessaire de définir la longueur d’une suite de mots ou “fenêtrage” dans laquelle deux termes doivent apparaˆıtre. Cette taille, fixée par l’utilisateur, déterminera les associations de concepts extraites. Cependant, l’évaluation du meilleur fenêtrage est difficile et il n’existe aucune étude comparative concernant la définition de la taille de fenêtre op- timale. D’autre part, la plupart des travaux considèrent la cooccurrence uniquement au sein d’une

(14)

même phrase. Cela signifie que les concepts cooccurrant souvent l’un après l’autre mais dans des phrases séparées ne seront pas détectés.

Par ailleurs, la détection de cooccurrences ne suffit pas à déceler la sémantique d’une relation. En effet, les travaux basés sur cette approche constituent une matrice de cooccurrence puis extraient des termes en relation en analysant statistiquement cette structure. Les concepts sont ensuite regroupés grâce à des méthodes de clustering, mais le placement au sein de l’ontologie reste à la charge de l’utilisateur, tout comme le nommage des relations. Ces deux points constituent les inconvénients majeurs des techniques statistiques et soulignent leur manque d’automatisation et de précision.

C’est pourquoi de nombreux travaux proposent la méthode syntaxique, fondés sur l’utilisation d’un analyseur syntaxique, d’un module de reconnaissance d’entités nommées, et d’un système de détection de dépendances grammaticales afin de sélectionner les nouveaux éléments de l’ontologie.

L’étape de l’analyse linguistique représente une partie importante de la méthode, puisqu’elle aboutit à la sélection des concepts candidats. Cependant, ces méthodes supposent que les documents analysés ont tous la même structure, les corpus analysés dans les travaux étudiés étant des dictionnaires ou des fiches techniques.

Plusieurs systèmes considèrent que les verbes étiquètent une relation. Les méthodes d’analyse syntaxique permettent de détecter le sujet et l’objet des phrases considérées, le verbe est alors considéré comme un label de relation liant les concepts sujet et objet de la phrase. Certains travaux ne permettent pas le placement automatique des relations découvertes, et proposent directement la liste de ces labels de relation à l’expert. D’autres considèrent un dictionnaire de relations décrivant le concept de sujet et d’objet attendu. L’inconvénient d’un tel système est la dépendance à ce dictionnaire, qu’il sera difficile d’élaborer et de maintenir. Finalement, cela suppose une description manuelle de la sémantique, et n’allège pas réellement la tâche de l’expert.

Les autres tavaux s’intéressant aux relations conceptuelles les détectent et les placent au sein de l’ontologie, mais ne permettent pas d’extraire les labels associés à ces relations. Cependant, les deux modèles présentés supposent systématiquement qu’un verbe est une relation, et qu’une relation ne peut être décrite que par un verbe. Cela n’est pas forcément vrai : un nom peut également décrire une relation, par exemple le nom“repas”plutôt que le verbe“manger”peut désigner une relation entre un concept acteur tel qu’un animal et un concept receveur comme une plante.

Les trois techniques de fouille de données couramment rencontrées dans le cadre de l’enrichissement d’ontologies sont la classification, le clustering et les règles d’association. La classification et le clustering s’effectuent au niveau conceptuel, permettant de rapprocher de nouveaux concepts à des concepts existants, ou encore de regrouper des concepts sémantiquement proches. Cependant, il n’est pas possible de créer des relations, ni même de les nommer. L’ajout de ces nouveaux concepts au sein de l’ontologie est donc une tâche laissée à l’expert.

Les travaux utilisant les règles d’association ajoutent un niveau supplémentaire de filtrage sur les concepts en ne sélectionnant que les termes fréquemment liés et permettent le placement automatique des relations au bon niveau d’abstraction. La fouille est ainsi directement effectuée au niveau des concepts et non au niveau des termes. Cependant, tout comme les méthodes syntaxiques, une intervention humaine est nécessaire pour définir sémantiquement les relations découvertes et les nommer. Avec ce type de méthodes, deux étapes sont nécessaires pour l’enrichissement : la sélection des concepts, effectuée dans les travaux étudiés par des méthodes syntaxiques, et le placement des concepts via les techniques de fouille de données. Il n’existe à notre connaissance pas de travaux utilisant l’extraction de motifs ou de règles directement sur le corpus, ramenant ainsi le processus à une seule étape.

(15)

1.4.2 Objectifs

Dans le cadre de ce travail, nous proposons d’utiliser la fouille de données et plus particulièrement la recherche de motifs séquentiels afin de mettre en place un modèle d’enrichissement automatique d’ontologie. En effet, les travaux étudiés révèlent un manque d’automatisation, puisqu’aucune des techniques existantes ne couvre l’intégralité du processus : identifier de nouveaux concepts et relations

`a partir de documents textuels, puis les placer au sein d’une ontologie existante de fa¸con automatique.

Nous proposons donc un processus répondant aux limites citées plus haut articulé autour de trois axes :

• Extraction des termes repr´esentatifs d’un domaine

• Identification de nouveaux concepts et des relations les liant

• Placement de ces ´el´ements au sein de l’ontologie

Nous tirons avantage du passage à l’echelle que permettent les techniques de fouille de données, qui sont généralement appliquées sur de gros corpus. De plus, le processus d’extraction des termes candidats à l’enrichissement ainsi que la proposition de placement pourra être effectuée de fa¸con totalement automatique.

En particulier, les motifs séquentiels, extension des règles d’association prenant en compte une notion d’ordre, nous permettront de conserver l’ordre d’apparition des mots ainsi que leur cooccurrences dans les mêmes phrases. Contrairement aux méthodes statistiques, nous pourrons ainsi accéder

à une information plus fine, et déduire les relations sémantiques reflétées par la structures des motifs.

De plus, l’extraction de motifs ne nécessite qu’un prétraitement consistant en une lemmatisation des mots, et rendant le processus indépendant de la langue du corpus.

De plus, il a été démontré dans [JLT06] que les motifs permettent l’extraction efficace de termes représentatifs de grandes sources de documents textuels hétérogènes. En effet, les algorithmes permettant la découverte de motifs séquentiels offrent le passage à l’échelle et permettent d’analyser plus de documents que les méthodes syntaxiques car ils ne requièrent aucun module d’analyse linguistique.

Les systèmes nécessitant l’intervention d’un expert entraˆınent une certaine subjectivité, concernant le nom des relations ou encore le placement des concepts. Un traitement automatisé grâce aux motifs séquentiels nous permet de réduire considérablement cette subjectivité, puisque nous conser- vons les mots fréquemment employés, c’est à dire le langage commun à une majorité d’auteurs du domaine.

Si la correspondance entre une règle d’association et une ontologie est intuitive (un concept implique un autre concept, ce qui montre une relation entre les deux concepts), ce n’est pas le cas pour les motifs séquentiels. Il s’agira alors de définir dans quelle mesure un motif peut être corrélé

à la structure d’une ontologie. Cela n’est possible que si le rôle des concepts et des relations est clairement identifié. Les différentes définitions rencontrées dans la littérature étant trop génériques ou trop spécifiques, il est nécessaire de poser une définition formelle, répondant à notre contexte et cohérente avec les précedentes.

Nous proposons d’exploiter tous les avantages cités dans un processus semi-automatique. Notre système permet de rattacher de nouveaux concepts à l’ontologie via des relations nommées. L’ontologie enrichie sera ensuite retournée à l’expert qui validera les ajouts. La section suivante décrit la démarche générale, ainsi qu’une introduction à la notion de motifs séquentiels.

(16)

1.4.3 Approche propos´ee

Avant de décrire notre proposition, nous définissons les notions associées à l’extraction de motifs séquentiels. Initialement introduit dans [AS95], les motifs séquentiels désignent l’ensemble des en- chaˆınements d’ensembles d’items, couramment associés sur une période de temps donnée.

SoitOun ensemble d’objetsoet un ensembleI d’items stockés dans une base de donnéeDB. Chaqueenregistrement Ecorrespond à un triplet (id-objet,id-date,itemset) qui caractérise la liste des items associés à l’objet identifié parid-obj à la date id-date.

Un itemset est un ensemble non vide d’items de I noté (i₁, i₂, ..., i_n), où i_j est un item. Une séquence s est définie comme une liste ordonnée non vide d’itemset qui sera notée < s₁s₂...s_n >

oùs_j est un itemset. Unen-séquence est une séquence de taillen, c’est-à-dire composée denitems.

Exemple 1. La séquence S=<(a)(b c)(d)(e)> représente l’enregistrement successif des items a, puisbet c ensemble, ensuite seulement l’itemd et finalement l’iteme.S est une 5-séquence.

Soit S^′ et S deux séquences de données respectivement égales à < s^′₁s^′₂ ... s^′_n > et < s₁s₂ ...

s_m >. S^′ est incluse dans S si et seulement s’il existe des entiers a₁ < a₂ < ... < a_n tels que s^′₁ ⊆s_a1, s^′₂⊆s_a2 ,... s^′_n⊆s_an. On dit ´egalement ques^′ est unesous-s´equence des.

Exemple 2. La s´equence S^′ =<(b)(e)> est une sous-s´equence deS car (b)⊆(b c) et (e)⊆(e).

Par contre<(b)(c)> n’est pas une sous-s´equence de<(b c)>, ni l’inverse.

Les enregistrements de la base sont regroupés par objets et ordonnés chronologiquement, défi- nissant ainsi desséquences de données. Un objetosupporteune séquenceS, si et seulement siS est incluse dans la séquence de données de cet objet. Lesupport(ou fréquence) d’une séquence est alors défini comme le pourcentage d’objets de la baseDB qui supportent S. Une séquence est dite fréquentesi son support est au moins égal à une valeur minimaleminSupspécifiée par l’utilisateur.

Uneséquence candidate est une séquence potentiellement fréquente.

La recherche de motifs séquentiels dans une base de séquences telle que DB consiste alors à trouver toutes les séquences maximales (non incluses dans d’autres) dont le support est supérieur à minSup. Chacune de ces séquences fréquentes maximales est un motif séquentiel.

Plusieurs algorithmes efficaces ont été proposés [AS95, MCP98, Zak01, DJJK⁺06] pour l’extraction de motifs séquentiels. De nombreuses extensions ont également été proposées, afin de permettre, par exemple, la prise en compte de contraintes temporelles [MPT04, FLT07], ou la recherche incré- mentale de motifs [MPT03].

Les motifs séquentiels ont été introduits initialement dans un contexte commercial, les items correspondant alors aux produits d’un supermarché, les objets à des client et les itemsets à la liste des produits achetés à une date donnée.

Dans notre contexte, les objets correspondent à des documents. Une date est représentée par une ou plusieurs phrases, et un item par un mot. Le tableau Tab. 1.1 récapitule les correspondances entre la définition générique des motifs et notre contexte.

Formalisme Base de données générique documentaires

objet ↔ document

date ↔ une ou plusieurs phrases

items ↔ mots lemmatis´es

Tab. 1.1 – Utilisation des motifs s´equentiels pour l’analyse d’une base de donn´ees textuelles

(17)

Exemple 3. Si nous fixons qu’une phrase équivaut à une date, alors si la séquence < (habitat) (environnement lacustre) (crue) (innondation)> est supportée par un document, cela signifie que dans ce document, une phrase contient le mot “habitat” puis les mots “environnement” et “lacustre” dans une phrase suivante, puis une autre des phrases suivantes contient le mot “crue”, puis encore une autre phrase contient le mot “innondation”.

C₄

C₃ C₂

C₁ Perturbation atmosph´erique

Orage

Pluie

Averse

Entraˆıne

Dans la suite de cet article, nous conserverons l’appellation items lorsque nous évoquerons les termes candidats extraits grâce aux motifs séquentiels.

Exemple 4. Le terme “pluie” d´esigne un concept de l’ontologie figure 2.1 et “entraˆıne” un label de relation de l’ontologie, alors que “provoquer” ou “innondation” sont des items du motif s´equentiel

<(pluie)(provoquer innondation)>.

Notre démarche consiste à fouiller un corpus de documents afin d’en extraire des séquences de termes apparaissant fréquemment. Ces motifs séquentiels sont ensuite eux-même analysés afin d’identifier les items représentant de nouveaux concepts et les items labellisant des relations entre ces concepts.

Pour r´ealiser ce processus, partant d’un corpus de textes et aboutissant `a l’ajout de nouveaux

éléments dans l’ontologie, nous réalisons quatre étapes, résumées sur la figure 1.4.

Tout d’abord, les documents sont préparés afin d’en extraire les motifs séquentiels. L’ensemble de ces motifs ayant un impact important sur la suite du processus, ils doivent contenir des informations pertinentes. Les mots des textes sont lemmatisés, c’est-à-dire remplacés par leur forme générique : par exemple, les verbes sous leur forme conjuguée seront remplacés par leur forme infinitive, les mots au pluriel par leur forme au singulier, etc. Après cette lemmatisation, les mots des documents sont des items parmi lesquels nous recherchons les termes candidats à l’enrichissement. Pour cela, les motifs séquentiels sont extraits à l’aide de l’algorithme VPSP [DJJK⁺06].

La deuxième étape de notre approche consiste ensuite à rapprocher de l’ontologie les items composant les motifs séquentiels et identifiés comme termes candidats pour l’enrichissement. Ainsi, partant de l’ontologie, nous rapprochons les items des motifs séquentiels du voisinage d’un terme ou d’un concept déjà présent dans l’ontologie. Pour réaliser ce rapprochement, nous avons défini la proximité d’un concept, section 2.2.1.

Une fois les items rapprochés de l’ontologie, il est nécessaire de les placer en tant que nouveau terme et/ou concept ou bien en tant que nouvelle relation. Cette troisième étape est présentée dans

(18)

G´en´erer RAL Elaguer RAL

(m) o (n) (g) i (h) Placement

ONTOLOGIE

Lemmatisation Génération du jeu de données

100 010 Extraction de motifs s´equentiels

ENSEMBLE DE DOCUMENTS

<s₁s₂s₃>

<s₄s₅s₆>

Recherche des rapprochements

V₁(m n o) V₂(g h i)

2

3 4

1

Fig. 1.4 – Processus g´en´eral

la section 2.2.2. A partir de triplets composés de deux items et d’un concept de l’ontologie duquel ils ont été rapprochés, nous construisons desrègles d’association labellisées. Ces règles nous permettent de déterminer parmi les deux items si l’un d’eux est une relation, auquel cas, les deux items sont placés dans l’ontologie afin de l’enrichir.

Il peut arriver que quelques items ne soient pas rattachés à l’ontologie faute de relation entre eux et un concept existant. Dans ce cas, nous fournissons à l’expert qui valide l’enrichissement la liste des items non rattachés ainsi que les voisinages auxquels ils appartiennent, afin qu’il puisse prendre la décision du placement final.

(19)

Chapitre 2

Proposition

2.1 Un formalisme pour les ontologies . . . . 20

2.1.1 Ontologie . . . . 20

2.1.2 Voisinage . . . . 22

2.2 Outils pour l’enrichissement d’ontologies . . . . 22

2.2.1 Rapprochement des motifs des concepts de l’ontologie . . . . 22

2.2.2 Recherche de relations labellis´ees . . . . 25

2.2.3 Placement des ´el´ements . . . . 28

2.3 SPOntoExpander . . . . 30

(20)

L’étude des travaux existant révèlent que les méthodes d’enrichissement actuelles ne couvrent pas le processus dans son intégralité. De plus, les techniques de fouille de données, lorsqu’elles sont utilisées, n’interviennent qu’à la fin du processus.

C’est pourquoi nous proposons dans ce chapitre un formalisme pour les ontologies (section 2.1), ainsi qu’une méthode d’enrichissement complète basée sur des motifs séquentiels extraits d’un ensemble de documents textuels. Nous réalisons un post-traitement qui peut être divisé en deux étapes : la recherche de rapprochements, section 2.2.1, puis de relations labellisées, section 2.2.2.

La table 2.1 r´ecapitule l’ensemble des notations utilis´ees dans ce chapitre :

L’ensemble des concepts C

Un concept c

L’ensemble des termes T

Un terme t

Une ontologie O

Le voisinage d’un concept c_o V_co

La proximit´e entre deux concepts c₀ et c₁ P rox(c0, c₁) Une relation de labelientre un concept c₀ et un conceptc₁ c₀ i c₁ Le niveau de relationientre deux conceptsc₀ et c₁ RL_i(c₀, c₁)

L’ensemble des relations R

Une s´equence S

Un itemset s

Un item i

La fr´equence d’une s´equence s F req(s)

La fr´equence minimale minF req

La proximit´e minimale minP rox

Tab. 2.1 – Table des notations

2.1 Un formalisme pour les ontologies

2.1.1 Ontologie

La formalisation explicite des concepts d’un domaine et de leurs relations sous la forme d’une ontologie est réalisée de fa¸con différente selon les communautés. La plupart d’entre elles considèrent qu’une ontologie est constituée d’un ensemble de concepts et d’un ensemble de relations entre ces concepts. Cependant, il est impossible d’enrichir une ontologie à l’aide de motifs sans identifier formellement le rôle des concepts et des relations. Or, les définitions rencontrées dans la littérature sont soit trop générales [SHB06], soit trop spécifiques [Her05]. C’est pourquoi nous décrivons formellement une ontologie ainsi que les éléments qui la composent dans la définition 1

Définition 1. Soient C un ensemble de concepts, T un ensemble de termes, R_c un ensemble de relations (entre concepts),Rtun ensemble de relations (entre termes) etLun ensemble de labels de relations (étiquette sémantique permettant de nommer une relation). L’ontologie O est définie par

(21)

le tuple :

O={C,T,R_c,R_t,L, <_c, f_tc, f_rc, G}

tel que :

• <_c C × C est la relation d’ordre partiel sur C d´efinissant la hi´erarchie entre les concepts,

<c (c₁, c₂) signifiec₁ est plus g´en´eral quec₂

• f_tc :C → T est la fonction d’association d’un terme préféré à un concept

• f_rc :R_c → C × C est la signature d’une fonction associative entre concepts

• F :T → C est la fonction permettant d’acceder `a un concept `a partir d’un terme

Par la suite, lorsque nous désignerons un concept de l’ontologie, nous utiliserons l’un de sestermes associés. Ce terme sera alors le terme préféré de ce concept. Pour désigner la sémantique d’une relation entre deux concepts, nous parlerons delabel de relation.

Exemple 5. La figure 2.1 représente un échantillon de l’ontologie concernant les perturbations atmosphériques. Les concepts sont représentés par des rectangles, les termes par des diamants et les relations par des ellipses.

C₄

C₃ C₂

C₁

Entraˆıne

Perturbation atmosph´erique

Orage Averse

Pluie

Bruine Terme

Terme préféré Concept

Relation

Relation Hi´erarchie

L’ensemble des conceptsCregroupe{C₁, C₂, C₃, C₄}, l’ensemble des termes estT={Perturbation atmosphérique, Orage, Averse, Pluie, Bruine}, et l’ensemble des relationsR_cest constitué d’une seule relation, de labelEntraˆıne. Le terme “Perturbation atmosphérique” est le terme préféré du concept C₁ : lorsque nous désignons le concept C₁, nous désignons tous les phénomènes de perturbations atmosphériques. L’existence d’une relationf_rc(Entrane) = (C₂, C₄) signifie que l’orage entraˆıne la pluie.

L’utilisation des fonctions de référence permettent de passer d’un terme à un concept. Ainsi, F(Averse) =C₃, et inversement F⁻¹(C₃) =Averse.

La hiérarchie des concepts <_c est indiquée par les flèches simples et spécifie que, par exemple, le concept C₂ représentant le conceptOrage est un sous-concept de c₁ désignant les Perturbations atmosphériques, qui sera qualifié de père du concept C₂. Dans la suite de ce rapport, lorsque nous parlons du conceptC₂, nous désignons le terme préféré du conceptC₂, soit F⁻¹(C₂) =Orage.

Notre méthode se déroule en plusieurs étapes, dont la première consiste à sélectionner et rapprocher les items suceptibles de devenir des éléments de l’ontologie. Nous proposons de nous baser sur la structure de l’ontologie existante afin de définir l’ensemble des voisins d’un concept donné.

(22)

2.1.2 Voisinage

Le voisinage d’un concept représente alors l’ensemble des concepts liés à ce concept soit par une relation taxonomique, soit par une relation associative. Le label des relations impliquantc_o font

également partie du voisinage dec_o. La section suivante décrit plus en détail la notion de voisinage.

Définition 2. Soitc_o un concept appartenant à l’ontologie, le voisinageVco dec_o est défini comme l’ensemble des conceptsc et des relations r tels que :

∀c∈ Vco,∃r⊆ R |f_rc(r) = (co, c) ∨ f_rc(r) = (c, co)∨<_c (co, c)∨<_c(c, co)

Exemple 6. Le voisinage du concept “Orage” de la figure 2.1 estV_orage ={“Pluie”, “Perturbation atmosph´erique”, “entraˆıne”}, carf_rc(entraˆıne)=(“Orage”, “Pluie”), et<_c(“Perturbation atmosph´erique”,

“Orage”).

Cette notion nous permettra par la suite d’associer les termes candidats extraits grâce aux motifs séquentiels aux termes et concepts déjà présents dans l’ontologie. Pour ce faire, nous proposons deux mesures. La première, appelée mesure de“proximité minimale”rapprochant les items des motifs séquentiels de l’ontologie. La seconde mesure, “niveau de relation” détermine le rôle d’un item en tant que concept, ou en tant que relation.

2.2 Outils pour l’enrichissement d’ontologies

2.2.1 Rapprochement des motifs des concepts de l’ontologie

La recherche de voisinage constitue l’étape suivante du processus d’enrichissement, une fois les termes candidats extraits du corpus. Selon notre approche, le voisinage d’un conceptc_o est constitué de tous les concepts liés àc_o par une relation, ainsi que de ces relations.

Dans un premier temps, nous constituons les voisinages de chaque concept connu de l’ontologie présent comme item dans un ou plusieurs motifs séquentiels. Ces voisinages sont constitués en utilisant les items des motifs séquentiels ainsi qu’une mesure de pertinence, laproximité, qui indique le degré de voisinage entre un terme et un item.

La proximité indique la proportion de documents qui abordent le terme c_o et l’item i, soit dans la même phrase, soit dans des phrases différentes. Si un nombre de documents élevés abordent le termec_o et l’itemi, alors il est probable queisoit un terme ou une relation du voisinage dec_o. Définition 3. Soient S un motif séquentiel, iun item de cette séquence etco, item de S, différent de i, terme de l’ontologie. La proximité de l’item i comme un terme ou un label de relation du voisinage dec_o est défini par :

P rox(c_o, i) = max







max( F req([(i c^o)])

F req([(c^o)]) ,F req([(i c^o)]) F req([(i)]) ),

max( F req([(i)(co)])

F req([(co)]) ,F req([(i)(co)]) F req([(i)]) ),

max( ^{F req([(c}_{F req([(c}^o^)(i)])

o)]) ,^{F req([(c}F req([(i)])^o^)(i)]))







Afin de ne pas subir l’influence de l’ordre des mots lors de cette étape, puisque nous cherchons des apparitions conjointes d’items, nous devons comparer les fréquences d’apparition de ces items à la

(23)

fois dans une même phrase et dans des phrases successives. De plus, afin de prendre en considération l’influence des items l’un par rapport à l’autre, nous calculons la meilleure proportion de fréquences conjointes, marquant les cooccurrences, par rapport à la fréquence d’apparition de chaque item, seul.

Exemple 7. La table 2.2 montre les séquences extraites à partir d’un ensemble de documents. Les motifs séquentiels sont représentés en gras : ce sont les séquences fréquentes maximales.

Motif s´equentiel F req S´equence F req

[(pluie innondation provoquer)] 0.4 [(pluie innondation)] 0.5

[(pluie innondation)(provoquer)] 0.3 [(pluie)(innondation)] 0.5

[(pluie)(innondation provoquer)] 0.3 [(innondation)(pluie)] 0.6

[(pluie)(innondation)(provoquer)] 0.2 [(pluie provoquer)] 0.5

[(pluie provoquer)(innondation)] 0.5 [(pluie)(provoquer)] 0.5

[(pluie)(provoquer)(innondation)] 0.3 [(provoquer)(pluie)] 0.5

[(innondation)(pluie)(provoquer)] 0.5 [(pluie)] 1

[(provoquer)(pluie)(innondation)] 0.3 [(innondation)] 0.7

[(provoquer)(pluie innondation)] 0.4 [(provoquer)] 0.7

[(innondation)(provoquer)(pluie)] 0.3

[(innondation provoquer)(pluie)] 0.3

[(innondation)(provoquer pluie)] 0.2

Tab. 2.2 – S´equences extraites

Cette mesure de proximité nous permet de rapprocher les items appartenant aux motifs séquen- tiels des concepts de l’ontologie. En effet, un item d’un motif peut être le terme préféré d’un concept c_o de l’ontologie. Dans ce cas, tous les items de la séquence sont susceptibles d’appartenir au voisinage du conceptc_o.

L’item“pluie” est déjà présent dans l’ontologie, représentée par la figure 2.1 en tant que concept.

Calculons la proximit´e de “pluie” et “innondation”.

P rox(pluie, innondation) =max







max( F req([(pluie innondation)])

F req([(innondation)]) ,F req([(pluie innondation]) F req([(pluie)]) ),

max( F req([(pluie)(innondation)])

F req([(innondation)]) ,F req([(pluie)(innondation]) F req([pluie]) ),

max( F req([(innondation)(pluie)])

F req([(innondation)]) ,F req([(innondation)(pluie)]) F req([(pluie)]) )







= max(max(0.5 0.7,0.5

1 ), max(0.5 0.7,0.5

1 ), max(0.6 0.7,0.5

1 ))

= max(0.71,0.71,0.86) = 0.86 Calculons la proximit´e entre “pluie” et “provoquer” :

P rox(pluie, provoquer) = max







max( F req([(pluie provoquer)])

F req([(provoquer)]) ,F req([(pluie provoquer]) F req([(pluie)]) ),

max( F req([(pluie)(provoquer)])

F req([(provoquer)]) ,F req([(pluie)(provoquer]) F req([pluie]) ),

max( F req([(provoquer)(pluie)])

F req([(provoquer)]) ,F req([(provoquer)(pluie)]) F req([(pluie)]) )







(24)

= max(max(0.5 0.7,0.5

1 ), max(0.5 0.7,0.5

1 ))

= max(0.71,0.71,0.71) = 0.71

L’indice de proximité, ainsi que la construction des voisinages sont réalisés par l’algorithmeGener- Prox. Partant d’un ensemble de motifs séquentiels, d’un ensemble de concepts connus et d’un seuil de proximité minimale fixé par l’utilisateur, l’algorithmeGener-Prox teste toutes les combinaisons de proximités entre un terme de l’ontologiec_o et les items de la séquence dans lequel il apparaˆıt (lignes 3-4). Si ce taux est supérieur au seuil de proximité minimale, alors il est ajouté à la liste des voisins dec_o (lignes 5-6). Ceci est effectué pour chaque motif séquentiel.

L’ensemble V regroupe l’ensemble des voisinages identifiés. Les éléments qui le composent sont des couples(item i, P rox(co, i)), regroupés par conceptc_o. Ainsi, l’ensembleV retourné sera de la formeV={Vc0,Vc1, ...,Vcn}où chaqueVci est de la formeVci ={(item i₁, P rox(ci, i₁)), ...,(item i_n, P rox(c_i, i_n))}

Algorithme 1 : Gener-Prox

Entrées : Ensemble de motifs séquentiels S, L’arbre préfixé des motifs PSP, L’ontologie O

minP roxle niveau de voisinage minimal fix´e par l’utilisateur

Sorties: Constitution de l’ensembleV des relations de proximit´e V ←∅

1

pour tous less∈S faire

2

pour tous les c_o∈ C tels quec_o∈sfaire

3

pour tous les i∈s tels quei6=c_o faire

4

si P rox(co, i)≥minP roxalors

5

Vco ←−i

6

fin

7

fin

8

V ←− V_co

9

fin

10

fin

11

retourner V

12

Exemple 8. Les séquences représentées en gras dans le tableau de la figure 2.2 sont des motifs séquentiels. L’algorithme 1 testera successivement les proximités suivantes :

– P rox(P luie, Innondation) = 0.86 – P rox(P luie, P rovoquer) = 0.71

Il apparaˆıt que la proximit´e de l’item “pluie” avec les items “innondation” et “provoquer” est assez

élevée. Comme le terme“pluie”est un concept de l’ontologie de la figure 2.1, ces deux items peuvent donc être rattachés au voisinage de ce terme. Toutefois à ce stade nous ignorons si ces items sont des relations ou des concepts. Si le seuil de proximité minimale est fixé à 0.5, alors l’ensemble V={Vpluie}, avecVpluie={(Innondation,0.86) (P rovoquer,0.71)}, sera constitué.

(25)

2.2.2 Recherche de relations labellis´ees

Une fois les voisinages trouvés, il s’agit d’associer les items à l’ontologie, soit en tant que nouveau terme et/ou concept, soit en tant que label d’une relation. Pour cela, nous utilisons deux outils, un indice du niveau de relation et des règles d’association labellisées.

La définition duniveau de relation,RL, est fondée sur l’hypothèse suivante : lorsqu’un document aborde deux concepts liés par une relation, il est fréquent d’employer le label de la relation en même temps que l’un des deux concepts.

Afin de calculer leniveau de relation entre deux concepts, nous proposons la mesureRL.

Définition 4. Soit c_o un terme tel queVco ∈ V, iet j ∈ des items deVco tel que idifférent de j, alors le niveau de relation (Relationship Level)de l’item icomme un label de relation entre c_o et j est défini par :

RL_i(c_o, j) =max







F req([(i j c^o)]) F req([(j c^o)])

F req([(co)(i j)]) F req([(c^o)(j)])

F req([(co i)(j)]

F req([(co)(j)])

F req([(j)(i c^o)]) F req([(j)(co)])

F req([(j i)(c^o)]

F req([(j)(c^o)])







Le niveau de relation représente la proportion de documents qui, ayant employé les termesc_o et j, ont employéidans la même phrase quec_oouj. Cette proportion peut être considérée comme une sorte de confiance, puisqu’elle représente la probabilité maximale que i apparaisse en même temps quec_o sachantj ou en même temps quej sachantc_o.

Exemple 9. A partir des motifs de la figure 2.2, nous pouvons calculer :

RL_provoquer(pluie, innondation) =max







F req([(provoquer innondation pluie)]) F req([(innondation pluie)])

F req([(pluie provoquer)(innondation)]) F req([(pluie)(innondation)])

F req([(pluie)(provoquer innondation)]) F req([(pluie)(innondation)

F req([(innondation provoquer)(pluie)]) F req([(innondation)(pluie)

F req([(innondation)(provoquer pluie)]) F req([(innondation)(pluie)







=max(^0.4_0.5,^0.5_0.5,^0.3_0.5,^0.3_0.5,^0.2_0.5)

=max(0.8,1,0.6,0.5,0.33) = 1 Et :