Construction d’ontologies à partir de textes
Nathalie Aussenac-Gilles IRIT – CSC
ingénierie des connaissances [email protected]
Thème et objectifs
Thème :
Méthode et outils pour la construction de modèles conceptuels à partir de textes
Objectifs :
Montrer les enjeux pour les recherches sur la modélisation conceptuelle de la problématique des ontologies
Clarifier les caractéristiques des différents paradigmes
Placer le débat au niveau des modèles et de leurs contenus
Importance de l’usage et des applications
Présenter un panorama d’outils et une méthode
Plan
1.
Ontologies et textes à BDA : motivations
2.
Différentes facettes de la modélisation conceptuelle
3.
Ressources terminologiques et ontologiques : définitions
4.
Construire des modèles conceptuels à partir de textes
1. Motivations
Convergence des objets de recherche
Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances
Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels
Ateliers de génie logiciel étendus pour représenter des ontologies
ER ou UML pour représenter des ontologies
ex : ICOM http://www.cs.man.ac.uk/~franconi/icom/
atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML.
1. Motivations
Croisements du côté des applications
Frontières moins nettes entre types d’applications
Ex : PICSEL : ontologie pour accéder à des serveurs de BD
BD semi-structurées pour la mémoire d’entreprise
Mise en forme de business rules au sein d’un SI
Utilisation des ontologies pour organiser, structurer des données
Ex : faut-il une ontologie ou une BD pour organiser une bibliographie ?
« Ontologie » désigne une hiérarchie de termes, une base de données lexicales ou
1. Motivations
Poser les bases pour un débat
Confusion ou perplexité au niveau des applications
Face à un besoin d’entreprise : ontologie ou schéma E/R ou UML ?
Confusion entre la question des langages et la question de la nature de chacun de ces modèles
Situer le débat au niveau de la modélisation conceptuelle
Statut des modèles
Ancrage et fondements des connaissances
1. Motivations
L’invasion des ontologies
Tout est-il ontologie ?
Retour sur la définition
Retour sur les prétentions affichées
Panorama sur les ressources terminologiques et ontologiques
Des ontologies « à tout faire »
Des prétentions … aux usages
Ce que permet la formalisation (cf. BD déductive ?)
Formaliser pour affiner le sens
Formaliser pour vérifier
Formaliser pour raisonner
Ce que permet une dimension lexicale
Des termes pour communiquer
Des termes pour localiser des concepts ou des connaissances
Plan
1.
Ontologies et textes à BDA : motivations
2.
La modélisation conceptuelle en question
a. Réponses possibles en matière de modélisation
b. Différentes facettes de la modélisation conceptuelle
3.
Ressources terminologiques et ontologiques : définitions
4.
Construire des modèles conceptuels à partir de textes
2. Modélisation conceptuelle en question
Modéliser, c’est répondre à des besoins
Modèles comme support au dialogue
Modèles comme spécification de code
Eventail de contraintes sur les modèles
Modéliser, c’est représenter
Primitives conceptuelles (méta-modèle)
« Langage » de représentation
Modéliser, c’est sélectionner les « bonnes connaissances »
Méthodes pour analyser, identifier, décrire
Outils d’aide
Facettes de la modélisation
Fondements des modèles
Fonder des modèles sur l’introspection, l’analyse
d’organigrammes et des normes (formes normalisées)
L’approche BD
Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états …
Approche ontologique formelle et philosophique
Fonder des modèles sur l’analyse de l’activité et des savoir- faire individuels ou collectifs mis en œuvre
L’approche IC (ergonomie et sociologie)
Fonder des modèles sur l’usage des connaissances tel qu’il est révélé par le langage, avec le consensus minimal que cela
suppose
Approche développée dans ce tutoriel
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques
a. Définitions
b. Enjeux de la formalisation
4. Construire des modèles conceptuels à partir de textes
3.a. Ressources terminologiques et ontologiques : définitions
Une gamme de produits construits pour accéder aux connaissances via la langage
Thésaurus (recherche documentaire et RI)
Terminologies (aide à la rédaction, traduction)
Base de connaissances terminologiques (formation, modélisation d’un corpus)
Ontologies (systèmes à base de connaissances,
agents sur le web, …)
Thesaurus
Thésaurus SRLF et de la SFAR
hémopéritoine
Ontologie : définition
Modèles des connaissances d’un domaine : ontologie du domaine
… pertinentes pour une application, une tâche donnée : ontologie régionale
Application de principes de normalisation, de « bonne construction »
Conceptualisation sous forme de réseau sémantique (concepts, relations) + axiomes
Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une
ontologie, c’est aussi décider d’une manière d’être et d’exister des objets.
Liens
Hiérarchie de relation Hiérarchie de concepts
Ontologie
ETAT_PATHOLOGIQUE
ETAT_PATHOLOGIQUE_LOCAL LESION
adénopathie …
épanchement
épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique
LESION (LOCALISATION) ANATOMIE
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de …
au_niveau_de ANATOMIE
…
ANA_TISSU_ENVEL capsule
duremère mésentère peau
…
péritoine
hémopéritoine : « épanchement hématique localisé au niveau du péritoine »
épanchement hématique (au_niveau_de) péritoine
Concept défini
Hiérarchie de relations Hiérarchie de concepts
Ontologie
LESION
épanchement fracture
LESION (LOCALISATION) SITUATION
LOCALISATION à_côté_de
à_l'extérieur_de au_dessus_de …
au_niv_de …
SITUATION angle base bord
SITUATION (OBJET) ANATOMIE_OBJET OBJET … DE … ANATOMIE_OBJET
OS crâne
fracture à la base du crâne
fracture (au_niveau_de) base (DE) crâne
Liens
Concept défini
Thesaurus vs. Ontologie
Thesaurus
Contenu :
Descripteurs, mots-clés
Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi»
Utilisé par un agent humain (documentaliste, spécialiste)
pour indexer des documents
Ontologie
Contenu
Une taxinomie des concepts, une taxinomie de relation
Des « rôles »
Décrite dans un langage de représentation des connaissances et exploitée par un système informatique
Possibilité de comparer et de classer des concepts
Capacité générative
Inférences
Le modèle des données d’une BCT
DOCUMENT2 Service YYY --- Unité1.2
Service XXX ---
relation conceptuelle
Fragments de Textes
Unité 1.1
DOCUMENT1 Service XXX
#Document définition --- ---
attributs ----
contextes de validité
Concepts
#Top
dossier de spécification document de projet.
document de
spécification détaillée informations linguistiques Termes
3.b. Ontologies : enjeux de la formalisation
Capacité d’expression
Exemple : projet PICSEL, LRI
Partie terminologique
Concepts organisés en hiérarchie, définis par leurs relations (cns ou père + prop.spécifiques)
(DEF-CONCEPT chercheur (and personnel-recherche
(ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade) (ALL encadre Thésard)))
Contraintes :
Relations d’exclusion entre concepts de base
EquipementCulturel equipementSportif
Typage des rôles : (ALL encadre Thésard) dans définition Chercheur
3.b. Ontologies : enjeux de la formalisation
Capacité d’expression
Partie déductive
Relations autres que unaires et binaires :
R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1), lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2),
lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart),
dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2)
Relations disjonctives : autant de règles que d’alternatives
ProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié)
ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y)
Relations inverses
Raccourci d’enchaînement de rôles
3.b. Ontologies : enjeux de la formalisation
Capacité d’expression
Expression de requêtes
SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l), lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p)
Calcul de plans de requête
Vérifier la satisfiabilité
Substituer chaque terme de la requête par sa définition logique, c’est-à- dire par toutes ses spécialisations possibles -> plusieurs requêtes
disjonctives
Réécriture de chaque requête conjonctive (même principe) à partir de la réécriture de chacun des atomes -> identification des faits correspondants
Affinement de requêtes
Repérage de conflits
Exploitation de la hiérarchie pour généraliser
Calcul de requête satisfiable à partir de requêtes insatisfiables par généralisation de concepts
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques
4. Construire des modèles conceptuels à partir de textes a. Justification
b. Panorama d’outils pour l’analyse de textes
c. Une méthode à travers une étude de cas : le projet verre
4 - Construire des modèles à partir de textes Justification
Pourquoi recourir aux textes ?
Sources de connaissances (partagées et stabilisées à l’écrit)
Améliorent la lisibilité et la maintenance des modèles
Complémentaires de l’expertise humaine
Gain de temps, réduction des coûts
Quels textes ? Nature et contenu des corpus
Ensemble de textes choisis en fonction de l’application et de leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.)
Documents techniques, documents didactiques,
retranscriptions d’entretiens, informations échangées par réseaux …
Quels outils d’analyse de textes pour la construction de modèles conceptuels ?
Logiciels de traitement automatique des langues : TAL
« Partir des textes pour mieux y revenir »
Textes
Système d’information Traitant des textes
tal2 Modèle
tal1
Problématique du traitement de l’information textuelle
système
L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal
(hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin.
texte
épanchement hématique (au_niveau_de) péritoine
Ressource
ANATOMIE
LESION LOCALISATION
hémopéritoine
CONCEPT
terme
Traitement de l’information textuelle
sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée
sevrage (OBJET) Noradrénaline
RTO
système
texte
sevrage en noradrénaline sevrage de la noradrénaline sevrage Adj? [de|en] la? noradrénaline
sevré de noradrénaline
noradrénaline être Adv? sevré sevrage_Noradrénaline
CONCEPT
termes
patrons
Panorama de logiciels pour extraire et structurer
Une typologie fonctionnelle :
1. Extraction de concordances :
YAKWA, SATO
2. Extraire des candidats termes. ex : Syntex, NOMINO, ANA 3. Extraire des relations candidates. Ex: Prométhée, Caméléon 4. Extraire des constructions prédicats / arguments : ASIUM,
SVET’LAN
Autres typologies
Méthodes linguistique / méthodes statistiques
Construction de RTO / mise à jour de RTO
Phase d’amorçage / phase d’enrichissement
Rappel : il ne s’agit pas de construction automatique…
1 . Extraction de concordances
Fonction : pour un patron donné, présenter toutes les occurrences rassemblées
Niveau d’annotation du corpus
corpus « nu » : uniquement forme (suite de mots)
corpus étiqueté : patrons morpho-syntaxique. Exemples :
{nom}+{verbe « être » indicatif}+{article indéfini}
{pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+
{déterminant démonstratif}+{Nom}
activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps ,
connaissances en distinguant le |modèle |conceptuel du modèle opérationnel
du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle
originale , de créer un |modèle |cognitif du futur système
Exemple de logiciel d’exploration de corpus : Yakwa
Principes
Requêtes basées sur la syntaxe et la sémantique
Nécessite une corpus étiqueté (Tree Tagger analyseur syntaxique)
Utilisation pour la recherche de relations entre concepts
Aller chercher des indices lexicaux (marqueurs) de relations sémantiques pour organiser les concepts
Lien avec Caméléon : utilisation de marqueurs génériques pour relations EST-UN et PARTIE-DE
Création de
requêtes
Interprétation des résultats
Fonction : extraction et tri automatiques de candidats termes
CT : séquence susceptible d’être retenue comme étiquette de concept
Méthodes d’extraction
statistiques
segments répétés
information mutuelle
morpho-syntaxiques
repérage de patrons
analyse syntaxique partielle
Critères de tris numériques
fréquence d’occurrences dans le corpus
productivité : nombre de CT plus complexes dont le CT est constituant
2 . Extraction de termes
Syntex : analyse syntaxique et construction d’un réseau de syntagmes
En entrée : un corpus étiqueté
Dans chaque phrase, à chaque mot est associée une étiquette morphosyntaxique (Cordial, TreeTager)
En sortie : 1) un corpus analysé syntaxiquement
Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément d’objet, épithète, …) entre les mots
En sortie : 2) un réseau de syntagmes
1) De chaque phrase, extraction de syntagmes verbaux, nominaux, adjectivaux
2) Pour l’ensemble du corpus, construction d’un réseau de syntagmes structuré par les relations Tête et Expansion
1) Analyse syntaxique
Le chat de Marie mange une petite souris.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
OBJ SUJ
Etiquetage morphosyntaxique
Analyse syntaxique
2) Construction d’un réseau de syntagmes
L’ érosion attaque un plan de faille
SUJ OBJ
attaquer un plan de faille
plan de faille
faille
T
T E
E
plan : nom plan de faille : syntagme nominal
attaquer : verbe attaquer un plan de faille : syntagme verbal
T : tête
E : expansion
Extraction de syntagmes
plan attaquer
2) Construction d’un réseau de syntagmes
attaquer
~ pénéplaine ~ pente raide ~ plan de faille
~ roche sédimentaire ~ section anticlinale ~ table karstique
faille escarpement de ~
ligne de ~ plan de ~ T
plan
~ de cisaillement ~ de diaclase ~ de faille
~ de glissement ~ de schistosité ~ de stratification T
E
Données de l’analyse distributionnelle
agent de l’état agent de l’état agent de l’état agent
agent agent
formation professionnelle formation professionnelle formation professionnelle formation
formation formation état
professionnel
( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ )
( bénéficier , SUJ )
( bénéficier de formation professionnelle , SUJ ) ( bénéficier de formation, SUJ )
( bénéficier , SUJ )
( agent de l’état bénéficier , DE ) ( agent bénéficier , DE )
( bénéficier , DE )
( agent de l’état bénéficier , DE ) ( agent bénéficier , DE )
( bénéficier , DE ) ( agent , DE )
( formation , ADJ )
Termes Contextes
Mesures de similarité
Contextes pour le terme : murmure vésiculaire
Termes pour le contexte : ( patient présenter , OBJ ) ( abolir , OBJ )
( abolir à gauche , OBJ ) ( abolition , DE )
( diminuer , OBJ )
( diminuer à gauche , OBJ ) ( diminution , DE )
( percevoir , OBJ )
amyotrophie détresse
douleur
douleur thoracique dyspnée
fièvre fracture hématome Syndrome
productivité = 7 productivité = 9
Productivité d’un terme, d’un contexte
3 . Extraction de relations : Caméleon
La notion de marqueur :
Eléments lexico-syntaxiques permettant de repérer une relation conceptuelle
Hypothèses :
Une même relation peut s’exprimer par différents marqueurs
Les relations peuvent dépendre du corpus
Les marqueurs peuvent dépendre du corpus
Corpus étiqueté en entrée, hypothèses de relations en sortie
Modèle conceptuel enrichi de relations conceptuelles
Ajuster les marqueurs
Sélectionner des relations et des marqueurs génériques ex : hypéronymie (est-un) :
Det N1 est Det N2 (qui, adj, p.passé, p.présent)
Tous les N2 sauf det N1
Det N1 comme det N2
Les évaluer en corpus
Les adapter au corpus pour réduire le bruit et le silence
Identifier patrons et relations spécifiques au corpus
Par projection de couples de termes
Par observation de contextes
Par observation des résultats de Syntex
On construit une base de marqueurs adaptés au corpus
Phrases qui
contiennent la forme et qui peuvent contenir une relation
(hypothèses) Formule qui
définit le marqueur
Termes en relation que peuvent
indiquer des concepts reliés
Répérer des relations lexicales
Repérage de relations
avec Caméléon
Des hypothèses de relations aux
Relations conceptuelles
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques
4. Construire des modèles conceptuels à partir de textes a. Justification
b. Panorama d’outils pour l’analyse de textes
c. Une méthode appliquée à une étude de cas : le projet verre
Construire des modèles à partir de texte Principes
Exploiter les textes
Partir des textes comme sources et supports de connaissances
Utiliser des techniques et outils d’analyse de corpus basés sur des principes linguistes et statistiques
Plonger le modèle conceptuel dans son contexte linguistique : conserver un lien du modèle vers les textes
Poids de l’application
L’ontologie est construite pour une application.
L’application s’inscrit dans une pratique (domaine)
L’ingénieur de la connaissance est un médiateur.
L’ontologue au centre
Ressource Termino- Ontologique Application
Domaine
Textes tal
Ressources existantes
Utilisateur u
Ontologue o
Spécialistes
s s
Une autre vue sur la méthode
Modèle
Documents Techniques
Outils d’Analyse de Textes
2. Appliquer des outils d’analyse de textes
3. Structurer et normaliser les données
4. Formaliser dans un modèle
1. Constituer un corpus
1. Constitution du corpus
Choisir des documents
Compromis entre représentativité (sujet, genre textuel) ET taille
Trouver les documents les plus pertinents pour l’application
Mettre les documents au bon format
Evaluer leur pertinence
Décider de la manière de les traiter
Identifier les groupes homogènes : type de document, sujet
Rendre compte de connaissances communes ou différenciées
Opportunisme : découpage en sous-corpus
Constitution du corpus
Vocabulaire générique du verre Livre
Vocabulaire
technique : procédés du verre textile
10 chapitres 104132 mots
Brevets
Vocabulaire technique des dépôts de brevets 13 brevets
61272 mots
Veille
Vocabulaire de la finance et
économie
7 mois articles AFP 91658 mots
563 noms et 59 SN
Entre 93 et 98% des SV et SN et
plus de la moitié des mots simples sont propres à chaque sous-corpus.
caractérisation rapide de la nature de ces vocabulaires
2 . Etude terminologique
Documents techniques
Eléments d’ontologie
Outils d’analyse de textes
Yakwa Syntex
Extraction de termes mis en relation par Syntex
Recherche de relations à l’aide de patrons avec Yakwa
Fiches terminologiques dans Terminae et fiches Concept- terminologique dans Excel
Liée à la normalisation
Terminae
Représentation dans Terminae
3 . Normalisation
Interprétation sémantique du contenu des textes
guidée par l’expertise et les besoins de l’application
Il est utopique (et coûteux) de vouloir TOUT tirer des textes et seulement des textes.
Structurer => Fixer un point de vue lié à l’application
3 types d’activités
Regroupements, généralisations, spécialisations
Mêmes données, exploitées selon trois points de vue.
Recommandations pour la normalisation
A.
Des principes d’analyse des textes
B.
Une démarche générale pour définir et organiser des concepts (en 5 points)
C.
Des principes de normalisation
A - Principes d’analyse des textes
Deux axes pour caractériser les tâches effectuées
Axe texte/modèle
Data-driven : du texte au modèle (dépouillement)
Model-driven (fouille, recherche ciblée)
Manufacturing Processes
top Textile glass
concepts InventionsFinance concepts
Processes
Materials
Products
Glass Fiber
Glass Yarn manufacturing Processes
Glass Yarnn Fiberizing
Corpus
Résultats du TAL
Axe « parcours au sein du modèle »
Ascendant : regroupement, abstraction
Descendant : spécialisation, raffinement de concepts
Centrifuge : rayonnement autour de concepts centraux
Des principes empiriques
B - Démarche générale pour définir et organiser des concepts
1. Repérage de concepts centraux. Etude des termes synonymes associés (démarche centrifuge)
2. Organisation hiérarchique : concepts spécifiques (fils) et génériques (pères) des concepts centraux, relation EST_UN (démarche descendante et ascendante).
3. Étude des autres types de relations associés à ce concept
• à partir de séquences de Syntex (démarche des textes vers le modèle)
• Mise en forme des marqueurs correspondants et recherche avec Yakwa de couples de concepts reliés par cette relation (du modèle vers les textes)
4. Organisation des résultats dans TERMINAE
5. Validation partielle par l’expertise
C - Principes de normalisation
Justifier la place d’un concept dans l’ontologie par les relations qu’il entretient avec les autres concepts
Concept ou instance
Différenciation des concepts
Unicité de définition
Homogénéité de point de vue
Cohérence des descriptions
Critères de normalisation
Point commun entre 1 concept et son père
Différence entre 1 concept et son père
Points communs entre 1 concept et ses frères
Différences entre un concept et ses frères
Représentation à l’aide des relations et de l’héritage
2 - Spécialisation et généralisation d’un concept
Exploitation des relations tête/expansion (on cherche les mots dont
« process » est en tête) ;
fiberizing process, manufacturing process, industrial process, etc
Exploitation des verbes et formes nominales
Gérondifs : coating, drawings, moulding, Manufacturing, fiberizing, washing, bushings
Étude des voisins dans Syntex et observation des contextes qu’ils partagent.
Process et processing
Repérage de marqueurs spécifiques au corpus de la relation générique/spécifique, comme EST-UN, TYPE-DE
Process of manufacturing + Nom complément
process of manufacturing the glass yarns
process for manufacturing thin profiles process for manufacturing the granules
2 et 3 - Etude des relations autour d’un concept
Des relations lexicales aux relations sémantiques
Déterminer les concepts reliés et le type des relations
Les représenter à l’aide de rôles ou de relations EST-UN
Décider des propriétés des relations : héritage, …
Des relations à une hiérarchie de concepts
Différencier des concepts selon des critères homogènes : corps solide/corps liquide, différents processus de
fabrication …
Relations révèlent des critères de différentiation
Ajout de concepts non terminologiques
Contenu du modèle
PROCESS
ManufacturingProcess
Washing Scraps
Manufacturing GlassYarns
DRAWING
PROCESS CONVERSION INTO SALEABLE PRODUCTS
GLASS
MANUFACTURING PROCESS
Moulding Process
PressMoulding Process WashingScrapsSteps
SheetMoulding Process
Manufacturing ThinProfiles
OpenLayUp MouldingProcess ReinforcedReactionInjection
MouldingProcess ReinforcedPlastic
MouldingProcess CompositeMoulding
Process InjectionMoulding
Process Separating
FibresOfYarns Unwinding
GlassYarns
DippingSheet OfGlassFibres
HotShaping
HeatingSheet
ReCirculating Solvent Transferring
Resine
Feeding Adding
Circulating Scraps Collecting
Drying WashedScraps Detecting
PROCESS
ManufacturingProcess
Washing Scraps
Manufacturing GlassYarns
DRAWING
PROCESS CONVERSION INTO SALEABLE PRODUCTS
GLASS
MANUFACTURING PROCESS
Moulding Process
PressMoulding Process WashingScrapsSteps
SheetMoulding Process
Manufacturing ThinProfiles
OpenLayUp MouldingProcess ReinforcedReactionInjection
MouldingProcess ReinforcedPlastic
MouldingProcess CompositeMoulding
Process InjectionMoulding
Process Separating
FibresOfYarns Unwinding
GlassYarns
DippingSheet OfGlassFibres
HotShaping
HeatingSheet
ReCirculating Solvent Transferring
Resine
Feeding Adding
Circulating Scraps Collecting
Drying WashedScraps Detecting
PROCESS
ManufacturingProcess
Washing Scraps
Manufacturing GlassYarns
DRAWING
PROCESS CONVERSION INTO SALEABLE PRODUCTS
GLASS
MANUFACTURING PROCESS
Moulding Process
PressMoulding Process WashingScrapsSteps
SheetMoulding Process
Manufacturing ThinProfiles
OpenLayUp MouldingProcess ReinforcedReactionInjection
MouldingProcess ReinforcedPlastic
MouldingProcess CompositeMoulding
Process InjectionMoulding
Process Separating
FibresOfYarns Unwinding
GlassYarns
DippingSheet OfGlassFibres
HotShaping
HeatingSheet
ReCirculating Solvent Transferring
Resine
Feeding Adding
Circulating Scraps Collecting
Drying WashedScraps Detecting
Première structuration dans Excel
4 . Formalisation
Nature de la formalisation
Traduction en logique (concept = ensemble de relations, conditions nécessaires et suffisantes pour sa définition)
Vérification de l’unicité des définitions
• TERMINAE :
• Représentation des connaissances en logique de description
• Formats d’exportation standards (OIL, RDFs)
•
Jusqu’où formaliser ?
• Revenir à la demande
• Introduction de concepts, relations et règles pour optimiser la représentation et l’utilisation qui en est faite (ex : requêtes)
Fibre de verre
Conclusion
Apport des ontologies
Fondements ontologiques
Formalisation
Capacité de raisonnement
Standards pour la représentation des connaissances
Apport des ontologies à composante terminologique
Retour vers les textes
Documentation
Acquérir des connaissances à partir de textes
Méthodes éprouvées
Outils mieux adaptés et plus disponibles
Fondements des modèles s’appuyant sur les usages et les connaissances écrites, stabilisées d’un domaine
Perspective : mise à jour de modèles conceptuels
Maintenance d’un modèles, d’une ontologie
Retour d’expérience
Mise à jour du corpus de référence
La trace
Il peut y avoir une distance importante entre les résultats des outils et le modèle de type RTO
corpus Termes ? MC
Le corpus est un des éléments de documentation d’un modèle
Termes de la RTO : « pont » entre le réseau de concepts et le corpus
Garder la trace des choix de validation et de modélisation (positifs et négatifs)
Incrémentalité
Utiliser la RTO construite pour faciliter l’analyse du nouveau corpus: par les outils de TAL et par l’ontologue
Des recherches à poursuivre
Les applications « en vraie grandeur » sont nécessaires pour faire avancer les recherches
La notion d’ontologie est intrinsèquement liée à celle d’application, d’usage
Tester la faisabilité
Identifier les verrous
Retour sur investissement : mettre en place des expériences pour mesurer le ratio : coût /gain
Remise en question des ontologies ?
Bibliographie
Acquisition à partir de textes
Bourigault D., Aussenac-Gilles N., Charlet J. Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d’Intelligence Artificielle (RIA). Numéro spécial sur les Terminologies. Slodzian M. (Ed.). Paris : Hermès. A paraître en 2004.
Aussenac-Gilles N., Biébow B., Szulman S., Modélisation du domaine par une méthode fondée sur l’analyse de corpus. In Ingénierie des Connaissances. R. Teullier, P. Tchounikine et J. Charlet Eds. Paris : Eyrolles. A paraître en 2003.
Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles TALN2003, 11-14 juin 2003, Batz-sur-mer, pp. 27-47
Projet Verre
N. Aussenac-Gilles and A. Busnel. Méthode de construction à partir de textes d’une ontologie du domaine de l’industrie de la fibre de verre. Rapport final, contrat de recherche entre IRIT et Saint-Gobain Recherche. Rapport Interne IRIT/2002-28-R. Sept. 2002.
PICSEL
Reynaud C, M.C. Rousset, B. Safa (2002). Construction de médiateurs pour intégrer des sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. N°1. Vol. 1 Cépaduès- Editions.
Modélisation conceptuelle
http://www.semanticweb.org/
Engle P. Data modelling, left and right. The Data Administration Newsletter. 2003. http://www.TDAN.com/
Guizzardi G., Herre H., Wagner G., On the General Ontological Foudationsof Conceptual Modeling. Proc. Of 21th Int.
Conf. On Conceptual Modeling (ER2002). Berlin : SpringerVerlag, LNCS. 2002.