• Aucun résultat trouvé

Construction d’ontologies à partir de textes

N/A
N/A
Protected

Academic year: 2022

Partager "Construction d’ontologies à partir de textes"

Copied!
75
0
0

Texte intégral

(1)

Construction d’ontologies à partir de textes

Nathalie Aussenac-Gilles IRIT – CSC

ingénierie des connaissances [email protected]

(2)

Thème et objectifs

Thème :

 Méthode et outils pour la construction de modèles conceptuels à partir de textes

Objectifs :

 Montrer les enjeux pour les recherches sur la modélisation conceptuelle de la problématique des ontologies

Clarifier les caractéristiques des différents paradigmes

Placer le débat au niveau des modèles et de leurs contenus

Importance de l’usage et des applications

 Présenter un panorama d’outils et une méthode

(3)

Plan

1.

Ontologies et textes à BDA : motivations

2.

Différentes facettes de la modélisation conceptuelle

3.

Ressources terminologiques et ontologiques : définitions

4.

Construire des modèles conceptuels à partir de textes

(4)

1. Motivations

Convergence des objets de recherche

Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances

Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels

Ateliers de génie logiciel étendus pour représenter des ontologies

ER ou UML pour représenter des ontologies

ex : ICOM http://www.cs.man.ac.uk/~franconi/icom/

atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML.

(5)

1. Motivations

Croisements du côté des applications

Frontières moins nettes entre types d’applications

 Ex : PICSEL : ontologie pour accéder à des serveurs de BD

 BD semi-structurées pour la mémoire d’entreprise

 Mise en forme de business rules au sein d’un SI

Utilisation des ontologies pour organiser, structurer des données

 Ex : faut-il une ontologie ou une BD pour organiser une bibliographie ?

 « Ontologie » désigne une hiérarchie de termes, une base de données lexicales ou

(6)

1. Motivations

Poser les bases pour un débat

Confusion ou perplexité au niveau des applications

 Face à un besoin d’entreprise : ontologie ou schéma E/R ou UML ?

 Confusion entre la question des langages et la question de la nature de chacun de ces modèles

Situer le débat au niveau de la modélisation conceptuelle

 Statut des modèles

 Ancrage et fondements des connaissances

(7)

1. Motivations

L’invasion des ontologies

Tout est-il ontologie ?

Retour sur la définition

Retour sur les prétentions affichées

Panorama sur les ressources terminologiques et ontologiques

Des ontologies « à tout faire »

Des prétentions … aux usages

Ce que permet la formalisation (cf. BD déductive ?)

Formaliser pour affiner le sens

Formaliser pour vérifier

Formaliser pour raisonner

Ce que permet une dimension lexicale

Des termes pour communiquer

Des termes pour localiser des concepts ou des connaissances

(8)

Plan

1.

Ontologies et textes à BDA : motivations

2.

La modélisation conceptuelle en question

a. Réponses possibles en matière de modélisation

b. Différentes facettes de la modélisation conceptuelle

3.

Ressources terminologiques et ontologiques : définitions

4.

Construire des modèles conceptuels à partir de textes

(9)

2. Modélisation conceptuelle en question

Modéliser, c’est répondre à des besoins

 Modèles comme support au dialogue

 Modèles comme spécification de code

 Eventail de contraintes sur les modèles

Modéliser, c’est représenter

 Primitives conceptuelles (méta-modèle)

 « Langage » de représentation

Modéliser, c’est sélectionner les « bonnes connaissances »

 Méthodes pour analyser, identifier, décrire

 Outils d’aide

(10)

Facettes de la modélisation

Fondements des modèles

Fonder des modèles sur l’introspection, l’analyse

d’organigrammes et des normes (formes normalisées)

L’approche BD

Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états …

Approche ontologique formelle et philosophique

Fonder des modèles sur l’analyse de l’activité et des savoir- faire individuels ou collectifs mis en œuvre

L’approche IC (ergonomie et sociologie)

Fonder des modèles sur l’usage des connaissances tel qu’il est révélé par le langage, avec le consensus minimal que cela

suppose

Approche développée dans ce tutoriel

(11)

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques

a. Définitions

b. Enjeux de la formalisation

4. Construire des modèles conceptuels à partir de textes

(12)

3.a. Ressources terminologiques et ontologiques : définitions

Une gamme de produits construits pour accéder aux connaissances via la langage

Thésaurus (recherche documentaire et RI)

Terminologies (aide à la rédaction, traduction)

Base de connaissances terminologiques (formation, modélisation d’un corpus)

Ontologies (systèmes à base de connaissances,

agents sur le web, …)

(13)

Thesaurus

Thésaurus SRLF et de la SFAR

hémopéritoine

(14)

Ontologie : définition

Modèles des connaissances d’un domaine : ontologie du domaine

… pertinentes pour une application, une tâche donnée : ontologie régionale

Application de principes de normalisation, de « bonne construction »

Conceptualisation sous forme de réseau sémantique (concepts, relations) + axiomes

Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une

ontologie, c’est aussi décider d’une manière d’être et d’exister des objets.

(15)

Liens

Hiérarchie de relation Hiérarchie de concepts

Ontologie

ETAT_PATHOLOGIQUE

ETAT_PATHOLOGIQUE_LOCAL LESION

adénopathie

épanchement

épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique

LESION (LOCALISATION) ANATOMIE

LOCALISATION à_côté_de

à_l'extérieur_de au_dessus_de

au_niveau_de ANATOMIE

ANA_TISSU_ENVEL capsule

duremère mésentère peau

péritoine

hémopéritoine : « épanchement hématique localisé au niveau du péritoine »

épanchement hématique (au_niveau_de) péritoine

Concept défini

(16)

Hiérarchie de relations Hiérarchie de concepts

Ontologie

LESION

épanchement fracture

LESION (LOCALISATION) SITUATION

LOCALISATION à_côté_de

à_l'extérieur_de au_dessus_de

au_niv_de

SITUATION angle base bord

SITUATION (OBJET) ANATOMIE_OBJET OBJET DE ANATOMIE_OBJET

OS crâne

fracture à la base du crâne

fracture (au_niveau_de) base (DE) crâne

Liens

Concept défini

(17)

Thesaurus vs. Ontologie

Thesaurus

Contenu :

Descripteurs, mots-clés

Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi»

Utilisé par un agent humain (documentaliste, spécialiste)

pour indexer des documents

Ontologie

Contenu

Une taxinomie des concepts, une taxinomie de relation

Des « rôles »

Décrite dans un langage de représentation des connaissances et exploitée par un système informatique

Possibilité de comparer et de classer des concepts

Capacité générative

Inférences

(18)

Le modèle des données d’une BCT

DOCUMENT2 Service YYY --- Unité1.2

Service XXX ---

relation conceptuelle

Fragments de Textes

Unité 1.1

DOCUMENT1 Service XXX

#Document définition --- ---

attributs ----

contextes de validité

Concepts

#Top

dossier de spécification document de projet.

document de

spécification détaillée informations linguistiques Termes

(19)

3.b. Ontologies : enjeux de la formalisation

Capacité d’expression

Exemple : projet PICSEL, LRI

Partie terminologique

 Concepts organisés en hiérarchie, définis par leurs relations (cns ou père + prop.spécifiques)

(DEF-CONCEPT chercheur (and personnel-recherche

(ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade) (ALL encadre Thésard)))

 Contraintes :

Relations d’exclusion entre concepts de base

EquipementCulturel equipementSportif 

Typage des rôles : (ALL encadre Thésard) dans définition Chercheur

(20)

3.b. Ontologies : enjeux de la formalisation

Capacité d’expression

Partie déductive

 Relations autres que unaires et binaires :

R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1), lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2),

lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart),

dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2)

 Relations disjonctives : autant de règles que d’alternatives

ProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié)

ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y)

 Relations inverses

 Raccourci d’enchaînement de rôles

(21)

3.b. Ontologies : enjeux de la formalisation

Capacité d’expression

Expression de requêtes

SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l), lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p)

Calcul de plans de requête

Vérifier la satisfiabilité

Substituer chaque terme de la requête par sa définition logique, c’est-à- dire par toutes ses spécialisations possibles -> plusieurs requêtes

disjonctives

Réécriture de chaque requête conjonctive (même principe) à partir de la réécriture de chacun des atomes -> identification des faits correspondants

Affinement de requêtes

Repérage de conflits

Exploitation de la hiérarchie pour généraliser

Calcul de requête satisfiable à partir de requêtes insatisfiables par généralisation de concepts

(22)

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques

4. Construire des modèles conceptuels à partir de textes a. Justification

b. Panorama d’outils pour l’analyse de textes

c. Une méthode à travers une étude de cas : le projet verre

(23)

4 - Construire des modèles à partir de textes Justification

Pourquoi recourir aux textes ?

 Sources de connaissances (partagées et stabilisées à l’écrit)

 Améliorent la lisibilité et la maintenance des modèles

 Complémentaires de l’expertise humaine

Gain de temps, réduction des coûts

Quels textes ? Nature et contenu des corpus

 Ensemble de textes choisis en fonction de l’application et de leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.)

 Documents techniques, documents didactiques,

retranscriptions d’entretiens, informations échangées par réseaux …

(24)

Quels outils d’analyse de textes pour la construction de modèles conceptuels ?

Logiciels de traitement automatique des langues : TAL

« Partir des textes pour mieux y revenir »

Textes

Système d’information Traitant des textes

tal2 Modèle

tal1

(25)

Problématique du traitement de l’information textuelle

système

L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal

(hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin.

texte

épanchement hématique (au_niveau_de) péritoine

Ressource

ANATOMIE

LESION LOCALISATION

hémopéritoine

CONCEPT

terme

(26)

Traitement de l’information textuelle

sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée

sevrage (OBJET) Noradrénaline

RTO

système

texte

sevrage en noradrénaline sevrage de la noradrénaline sevrage Adj? [de|en] la? noradrénaline

sevré de noradrénaline

noradrénaline être Adv? sevré sevrage_Noradrénaline

CONCEPT

termes

patrons

(27)

Panorama de logiciels pour extraire et structurer

Une typologie fonctionnelle :

1. Extraction de concordances :

YAKWA, SATO

2. Extraire des candidats termes. ex : Syntex, NOMINO, ANA 3. Extraire des relations candidates. Ex: Prométhée, Caméléon 4. Extraire des constructions prédicats / arguments : ASIUM,

SVET’LAN

Autres typologies

 Méthodes linguistique / méthodes statistiques

 Construction de RTO / mise à jour de RTO

 Phase d’amorçage / phase d’enrichissement

Rappel : il ne s’agit pas de construction automatique…

(28)

1 . Extraction de concordances

Fonction : pour un patron donné, présenter toutes les occurrences rassemblées

Niveau d’annotation du corpus

corpus « nu » : uniquement forme (suite de mots)

corpus étiqueté : patrons morpho-syntaxique. Exemples :

{nom}+{verbe « être » indicatif}+{article indéfini}

{pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+

{déterminant démonstratif}+{Nom}

activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps ,

connaissances en distinguant le |modèle |conceptuel du modèle opérationnel

du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle

originale , de créer un |modèle |cognitif du futur système

(29)

Exemple de logiciel d’exploration de corpus : Yakwa

Principes

 Requêtes basées sur la syntaxe et la sémantique

 Nécessite une corpus étiqueté (Tree Tagger analyseur syntaxique)

Utilisation pour la recherche de relations entre concepts

 Aller chercher des indices lexicaux (marqueurs) de relations sémantiques pour organiser les concepts

 Lien avec Caméléon : utilisation de marqueurs génériques pour relations EST-UN et PARTIE-DE

(30)

Création de

requêtes

(31)

Interprétation des résultats

(32)

Fonction : extraction et tri automatiques de candidats termes

CT : séquence susceptible d’être retenue comme étiquette de concept

Méthodes d’extraction

statistiques

segments répétés

information mutuelle

morpho-syntaxiques

repérage de patrons

analyse syntaxique partielle

Critères de tris numériques

fréquence d’occurrences dans le corpus

productivité : nombre de CT plus complexes dont le CT est constituant

2 . Extraction de termes

(33)

Syntex : analyse syntaxique et construction d’un réseau de syntagmes

En entrée : un corpus étiqueté

Dans chaque phrase, à chaque mot est associée une étiquette morphosyntaxique (Cordial, TreeTager)

En sortie : 1) un corpus analysé syntaxiquement

Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément d’objet, épithète, …) entre les mots

En sortie : 2) un réseau de syntagmes

 1) De chaque phrase, extraction de syntagmes verbaux, nominaux, adjectivaux

 2) Pour l’ensemble du corpus, construction d’un réseau de syntagmes structuré par les relations Tête et Expansion

(34)

1) Analyse syntaxique

Le chat de Marie mange une petite souris.

Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.

Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.

OBJ SUJ

Etiquetage morphosyntaxique

Analyse syntaxique

(35)

2) Construction d’un réseau de syntagmes

L’ érosion attaque un plan de faille

SUJ OBJ

attaquer un plan de faille

plan de faille

faille

T

T E

E

plan : nom  plan de faille : syntagme nominal

attaquer : verbe  attaquer un plan de faille : syntagme verbal

T : tête

E : expansion

Extraction de syntagmes

plan attaquer

(36)

2) Construction d’un réseau de syntagmes

attaquer

~ pénéplaine ~ pente raide ~ plan de faille

~ roche sédimentaire ~ section anticlinale ~ table karstique

faille escarpement de ~

ligne de ~ plan de ~ T

plan

~ de cisaillement ~ de diaclase ~ de faille

~ de glissement ~ de schistosité ~ de stratification T

E

(37)

Données de l’analyse distributionnelle

agent de l’état agent de l’état agent de l’état agent

agent agent

formation professionnelle formation professionnelle formation professionnelle formation

formation formation état

professionnel

( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ )

( bénéficier , SUJ )

( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ )

( bénéficier , SUJ )

( agent de l’état bénéficier , DE ) ( agent bénéficier , DE )

( bénéficier , DE )

( agent de l’état bénéficier , DE ) ( agent bénéficier , DE )

( bénéficier , DE ) ( agent , DE )

( formation , ADJ )

Termes Contextes

(38)

Mesures de similarité

Contextes pour le terme : murmure vésiculaire

Termes pour le contexte : ( patient présenter , OBJ ) ( abolir , OBJ )

( abolir à gauche , OBJ ) ( abolition , DE )

( diminuer , OBJ )

( diminuer à gauche , OBJ ) ( diminution , DE )

( percevoir , OBJ )

amyotrophie détresse

douleur

douleur thoracique dyspnée

fièvre fracture hématome Syndrome

productivité = 7 productivité = 9

Productivité d’un terme, d’un contexte

(39)

3 . Extraction de relations : Caméleon

La notion de marqueur :

 Eléments lexico-syntaxiques permettant de repérer une relation conceptuelle

Hypothèses :

 Une même relation peut s’exprimer par différents marqueurs

 Les relations peuvent dépendre du corpus

 Les marqueurs peuvent dépendre du corpus

Corpus étiqueté en entrée, hypothèses de relations en sortie

Modèle conceptuel enrichi de relations conceptuelles

(40)

Ajuster les marqueurs

Sélectionner des relations et des marqueurs génériques ex : hypéronymie (est-un) :

Det N1 est Det N2 (qui, adj, p.passé, p.présent)

Tous les N2 sauf det N1

Det N1 comme det N2

Les évaluer en corpus

Les adapter au corpus pour réduire le bruit et le silence

Identifier patrons et relations spécifiques au corpus

Par projection de couples de termes

Par observation de contextes

Par observation des résultats de Syntex

 On construit une base de marqueurs adaptés au corpus

(41)

Phrases qui

contiennent la forme et qui peuvent contenir une relation

(hypothèses) Formule qui

définit le marqueur

Termes en relation que peuvent

indiquer des concepts reliés

Répérer des relations lexicales

(42)

Repérage de relations

avec Caméléon

Des hypothèses de relations aux

Relations conceptuelles

(43)

Plan

1. Ontologies et textes à BDA : motivations

2. Différentes facettes de la modélisation conceptuelle

3. Ressources terminologiques et ontologiques

4. Construire des modèles conceptuels à partir de textes a. Justification

b. Panorama d’outils pour l’analyse de textes

c. Une méthode appliquée à une étude de cas : le projet verre

(44)

Construire des modèles à partir de texte Principes

Exploiter les textes

 Partir des textes comme sources et supports de connaissances

 Utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes et statistiques

 Plonger le modèle conceptuel dans son contexte linguistique : conserver un lien du modèle vers les textes

Poids de l’application

 L’ontologie est construite pour une application.

 L’application s’inscrit dans une pratique (domaine)

 L’ingénieur de la connaissance est un médiateur.

(45)

L’ontologue au centre

Ressource Termino- Ontologique Application

Domaine

Textes tal

Ressources existantes

Utilisateur u

Ontologue o

Spécialistes

s s

(46)

Une autre vue sur la méthode

Modèle

Documents Techniques

Outils d’Analyse de Textes

2. Appliquer des outils d’analyse de textes

3. Structurer et normaliser les données

4. Formaliser dans un modèle

1. Constituer un corpus

(47)

1. Constitution du corpus

Choisir des documents

 Compromis entre représentativité (sujet, genre textuel) ET taille

 Trouver les documents les plus pertinents pour l’application

 Mettre les documents au bon format

 Evaluer leur pertinence

Décider de la manière de les traiter

 Identifier les groupes homogènes : type de document, sujet

 Rendre compte de connaissances communes ou différenciées

Opportunisme : découpage en sous-corpus

(48)

Constitution du corpus

Vocabulaire générique du verre Livre

Vocabulaire

technique : procédés du verre textile

10 chapitres 104132 mots

Brevets

Vocabulaire technique des dépôts de brevets 13 brevets

61272 mots

Veille

Vocabulaire de la finance et

économie

7 mois articles AFP 91658 mots

563 noms et 59 SN

Entre 93 et 98% des SV et SN et

plus de la moitié des mots simples sont propres à chaque sous-corpus.

caractérisation rapide de la nature de ces vocabulaires

(49)

2 . Etude terminologique

Documents techniques

Eléments d’ontologie

Outils d’analyse de textes

Yakwa Syntex

Extraction de termes mis en relation par Syntex

Recherche de relations à l’aide de patrons avec Yakwa

Fiches terminologiques dans Terminae et fiches Concept- terminologique dans Excel

Liée à la normalisation

Terminae

(50)

Représentation dans Terminae

(51)

3 . Normalisation

Interprétation sémantique du contenu des textes

guidée par l’expertise et les besoins de l’application

 Il est utopique (et coûteux) de vouloir TOUT tirer des textes et seulement des textes.

 Structurer => Fixer un point de vue lié à l’application

3 types d’activités

 Regroupements, généralisations, spécialisations

 Mêmes données, exploitées selon trois points de vue.

(52)

Recommandations pour la normalisation

A.

Des principes d’analyse des textes

B.

Une démarche générale pour définir et organiser des concepts (en 5 points)

C.

Des principes de normalisation

(53)

A - Principes d’analyse des textes

Deux axes pour caractériser les tâches effectuées

 Axe texte/modèle

Data-driven : du texte au modèle (dépouillement)

Model-driven (fouille, recherche ciblée)

Manufacturing Processes

top Textile glass

concepts InventionsFinance concepts

Processes

Materials

Products

Glass Fiber

Glass Yarn manufacturing Processes

Glass Yarnn Fiberizing

Corpus

Résultats du TAL

Axe « parcours au sein du modèle »

Ascendant : regroupement, abstraction

Descendant : spécialisation, raffinement de concepts

Centrifuge : rayonnement autour de concepts centraux

Des principes empiriques

(54)

B - Démarche générale pour définir et organiser des concepts

1. Repérage de concepts centraux. Etude des termes synonymes associés (démarche centrifuge)

2. Organisation hiérarchique : concepts spécifiques (fils) et génériques (pères) des concepts centraux, relation EST_UN (démarche descendante et ascendante).

3. Étude des autres types de relations associés à ce concept

à partir de séquences de Syntex (démarche des textes vers le modèle)

Mise en forme des marqueurs correspondants et recherche avec Yakwa de couples de concepts reliés par cette relation (du modèle vers les textes)

4. Organisation des résultats dans TERMINAE

5. Validation partielle par l’expertise

(55)

C - Principes de normalisation

Justifier la place d’un concept dans l’ontologie par les relations qu’il entretient avec les autres concepts

Concept ou instance

Différenciation des concepts

Unicité de définition

Homogénéité de point de vue

Cohérence des descriptions

Critères de normalisation

Point commun entre 1 concept et son père

Différence entre 1 concept et son père

Points communs entre 1 concept et ses frères

Différences entre un concept et ses frères

Représentation à l’aide des relations et de l’héritage

(56)

2 - Spécialisation et généralisation d’un concept

Exploitation des relations tête/expansion (on cherche les mots dont

« process » est en tête) ;

fiberizing process, manufacturing process, industrial process, etc

Exploitation des verbes et formes nominales

Gérondifs : coating, drawings, moulding, Manufacturing, fiberizing, washing, bushings

Étude des voisins dans Syntex et observation des contextes qu’ils partagent.

Process et processing

Repérage de marqueurs spécifiques au corpus de la relation générique/spécifique, comme EST-UN, TYPE-DE

Process of manufacturing + Nom complément

process of manufacturing the glass yarns

process for manufacturing thin profiles process for manufacturing the granules

(57)

2 et 3 - Etude des relations autour d’un concept

Des relations lexicales aux relations sémantiques

 Déterminer les concepts reliés et le type des relations

 Les représenter à l’aide de rôles ou de relations EST-UN

 Décider des propriétés des relations : héritage, …

Des relations à une hiérarchie de concepts

 Différencier des concepts selon des critères homogènes : corps solide/corps liquide, différents processus de

fabrication …

 Relations révèlent des critères de différentiation

 Ajout de concepts non terminologiques

(58)

Contenu du modèle

PROCESS

ManufacturingProcess

Washing Scraps

Manufacturing GlassYarns

DRAWING

PROCESS CONVERSION INTO SALEABLE PRODUCTS

GLASS

MANUFACTURING PROCESS

Moulding Process

PressMoulding Process WashingScrapsSteps

SheetMoulding Process

Manufacturing ThinProfiles

OpenLayUp MouldingProcess ReinforcedReactionInjection

MouldingProcess ReinforcedPlastic

MouldingProcess CompositeMoulding

Process InjectionMoulding

Process Separating

FibresOfYarns Unwinding

GlassYarns

DippingSheet OfGlassFibres

HotShaping

HeatingSheet

ReCirculating Solvent Transferring

Resine

Feeding Adding

Circulating Scraps Collecting

Drying WashedScraps Detecting

PROCESS

ManufacturingProcess

Washing Scraps

Manufacturing GlassYarns

DRAWING

PROCESS CONVERSION INTO SALEABLE PRODUCTS

GLASS

MANUFACTURING PROCESS

Moulding Process

PressMoulding Process WashingScrapsSteps

SheetMoulding Process

Manufacturing ThinProfiles

OpenLayUp MouldingProcess ReinforcedReactionInjection

MouldingProcess ReinforcedPlastic

MouldingProcess CompositeMoulding

Process InjectionMoulding

Process Separating

FibresOfYarns Unwinding

GlassYarns

DippingSheet OfGlassFibres

HotShaping

HeatingSheet

ReCirculating Solvent Transferring

Resine

Feeding Adding

Circulating Scraps Collecting

Drying WashedScraps Detecting

PROCESS

ManufacturingProcess

Washing Scraps

Manufacturing GlassYarns

DRAWING

PROCESS CONVERSION INTO SALEABLE PRODUCTS

GLASS

MANUFACTURING PROCESS

Moulding Process

PressMoulding Process WashingScrapsSteps

SheetMoulding Process

Manufacturing ThinProfiles

OpenLayUp MouldingProcess ReinforcedReactionInjection

MouldingProcess ReinforcedPlastic

MouldingProcess CompositeMoulding

Process InjectionMoulding

Process Separating

FibresOfYarns Unwinding

GlassYarns

DippingSheet OfGlassFibres

HotShaping

HeatingSheet

ReCirculating Solvent Transferring

Resine

Feeding Adding

Circulating Scraps Collecting

Drying WashedScraps Detecting

(59)

Première structuration dans Excel

(60)

4 . Formalisation

Nature de la formalisation

 Traduction en logique (concept = ensemble de relations, conditions nécessaires et suffisantes pour sa définition)

 Vérification de l’unicité des définitions

TERMINAE :

• Représentation des connaissances en logique de description

• Formats d’exportation standards (OIL, RDFs)

Jusqu’où formaliser ?

• Revenir à la demande

• Introduction de concepts, relations et règles pour optimiser la représentation et l’utilisation qui en est faite (ex : requêtes)

(61)

Fibre de verre

(62)

Conclusion

Apport des ontologies

Fondements ontologiques

Formalisation

Capacité de raisonnement

Standards pour la représentation des connaissances

Apport des ontologies à composante terminologique

Retour vers les textes

Documentation

Acquérir des connaissances à partir de textes

Méthodes éprouvées

Outils mieux adaptés et plus disponibles

Fondements des modèles s’appuyant sur les usages et les connaissances écrites, stabilisées d’un domaine

(63)

Perspective : mise à jour de modèles conceptuels

Maintenance d’un modèles, d’une ontologie

Retour d’expérience

Mise à jour du corpus de référence

La trace

Il peut y avoir une distance importante entre les résultats des outils et le modèle de type RTO

corpus  Termes ? MC

Le corpus est un des éléments de documentation d’un modèle

Termes de la RTO : « pont » entre le réseau de concepts et le corpus

Garder la trace des choix de validation et de modélisation (positifs et négatifs)

Incrémentalité

Utiliser la RTO construite pour faciliter l’analyse du nouveau corpus: par les outils de TAL et par l’ontologue

(64)

Des recherches à poursuivre

Les applications « en vraie grandeur » sont nécessaires pour faire avancer les recherches

 La notion d’ontologie est intrinsèquement liée à celle d’application, d’usage

 Tester la faisabilité

 Identifier les verrous

 Retour sur investissement : mettre en place des expériences pour mesurer le ratio : coût /gain

Remise en question des ontologies ?

(65)

Bibliographie

Acquisition à partir de textes

Bourigault D., Aussenac-Gilles N., Charlet J. Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d’Intelligence Artificielle (RIA). Numéro spécial sur les Terminologies. Slodzian M. (Ed.). Paris : Hermès. A paraître en 2004.

Aussenac-Gilles N., Biébow B., Szulman S., Modélisation du domaine par une méthode fondée sur l’analyse de corpus. In Ingénierie des Connaissances. R. Teullier, P. Tchounikine et J. Charlet Eds. Paris : Eyrolles. A paraître en 2003.

Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles TALN2003, 11-14 juin 2003, Batz-sur-mer, pp. 27-47

Projet Verre

N. Aussenac-Gilles and A. Busnel. Méthode de construction à partir de textes d’une ontologie du domaine de l’industrie de la fibre de verre. Rapport final, contrat de recherche entre IRIT et Saint-Gobain Recherche. Rapport Interne IRIT/2002-28-R. Sept. 2002.

PICSEL

Reynaud C, M.C. Rousset, B. Safa (2002). Construction de médiateurs pour intégrer des sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. N°1. Vol. 1 Cépaduès- Editions.

Modélisation conceptuelle

http://www.semanticweb.org/

Engle P. Data modelling, left and right. The Data Administration Newsletter. 2003. http://www.TDAN.com/

Guizzardi G., Herre H., Wagner G., On the General Ontological Foudationsof Conceptual Modeling. Proc. Of 21th Int.

Conf. On Conceptual Modeling (ER2002). Berlin : SpringerVerlag, LNCS. 2002.

Références

Documents relatifs

Nous pouvons remarquer que le corpus recettes donne deux fois plus de concepts que le corpus C87_C98, pour un nombre de mots similaire.. Nous remarquons que le gros corpus

Dans ce chapitre nous avons mesuré la qualité des treillis sur le domaine de l’astronomie selon deux axes : la pertinence des attributs et des concepts formels pour le domaine, le

Distinguer ces trois plans permet de d´efinir de mani`ere plus rigoureuse les entit´es manipul´ees (termes vs. concepts, relations lexicales vs. conceptuelles) et de mieux comprendre

Si on estime que l’identification des objets dans le texte peut être aussi bruitée que l’annotation des propriétés ou attributs, de par la dualité du treillis entre extension

Pour cela, l’analyse formelle de con- cepts (AFC) et l’analyse relationnelle de concepts (ARC) permettent de partir d’un ensemble d’objets décrits par leurs attributs et de

Pour cela nous allons extraire tous les triplets (S,V,C) grâce à un analyseur syntaxique partiel des textes. Ensuite avec l’extraction des motifs fréquents nous ne gardons que

Cet article présente une méthode semi-automatique de construction d’ontologie à partir de corpus de textes sur un domaine spécifique.. Cette mé- thode repose en premier lieu sur

La premiere m´ethode construit la hi´erarchie de concepts (noyau d’ontologie) avec une m´ethode for- melle, l’ACF, puis elle repr´esente chaque classe d’objets c´elestes dans