Normalisation de l’ontologie - Ingénierie de notre ontologie selon la méthode ARCHONTE

Partie 3 : Extraction Automatique des Compétences d’Entreprises

10.3 Ingénierie de notre ontologie selon la méthode ARCHONTE

10.3.3 Normalisation de l’ontologie

Une ontologie est une représentation formelle des éléments conceptuels et de leurs relations constitutifs d’un domaine de connaissances. Il ne s’agit pas de représen- ter et de modéliser une expertise ou des processus cognitifs des personnes. Il s’agit d’une modélisation d’un domaine qui correspond à un champ de pratique. C’est pourquoi l’étape de normalisation est primordiale dans le processus de construction de l’ontologie. C’est une normalisation linguistique qui permet un choix des termes dans un contexte de référence. Il ne suffit pas de détecter qu’un terme dans le corpus exprime une connaissance. Il faut établir laquelle et contraindre l’utilisa- teur à un engagement sémantique en introduisant une normalisation sémantique des termes manipulés dans l’ontologie. Pour passer des unités linguistiques extraites à des concepts ontologiques primitifs, il faut d’une part dégager la signification des uni- tés extraites et d’autre part la déterminer suffisamment et précisément, pour définir un concept primitif possédant une signification non contextuelle. La normalisation sémantique est basée sur une sémantique différentielle qui détermine le signifié des unités linguistiques en termes de traits différentiels.

Dans notre ontologie, le processus de la normalisation est effectué en deux étapes : la première consiste à identifier automatiquement une série des termes candidats de l’ontologie avec l’outil d’indexation SMART. Ce dernier permet de proposer une liste de termes ordonnés selon leur fréquence d’apparition dans le corpus. La deuxième étape consiste à valider et à ressortir une autre série de termes en présentant des exemples de notre corpus à des experts du domaine de la mécanique pour donner une signification précise aux termes de l’ontologie. Nous avons travaillé avec des experts du domaine sur un protocol expérimental. Nous avons cherché à partir de leurs réponses quel concept générique pouvait être inclus suite à cette confronta- tion. Nous avons rencontré des problèmes d’ambiguité des termes, de synonymie et d’opposition, ou des difficultés de termes intra-linguistiques. Ainsi avec nos experts, les traits sémantiques qui déterminent le sens des termes (sème) ne sont pas forcé-

10.3. Ingénierie de notre ontologie selon la méthode ARCHONTE 127 ment les mêmes. Cette problématique a été abordée par le recours à la méthode des juges1_{. C’est une mesure pour évaluer la cohérence des réponses des juges (experts}

du domaine). La fiabilité est fondée sur la corrélation ou l’analyse de la variance. Ce sont des indices qui permettent d’évaluer dans quelle mesure les avis des différents juges sont les mêmes, exprimés en écart par rapport à leur connaissance et à leur représentation mentale de l’objet qui fait référence au concept.

Pour justifier la construction de l’étape de normalisation et afin d’avoir une ontologie composée d’une structure de concepts et de relations organisée selon des principes linguistiques, nous avons travaillé sur le choix des termes comme c’est indiqué ci- dessus, pour éviter toute ambigüité de sens des termes. La structure du réseau des concepts est un arbre, nous avons travaillé sur la signification que doit posséder chaque nœud en fonction de sa position dans l’arbre (en appliquant le paradigme différentiel proposé par [9]). Cette analyse a été faite avec nos experts pour expliquer en fonction des voisins, les identités et les différences qui définissent chaque nœud, comme décrit dans la section 9.2.1 :

– Le principe de communauté avec le père – Le principe de différence avec le père – Le principe de différence avec les frères – Le principe de communauté avec les frères

Pour chaque concept, ces questions ont fait l’objet de discussions entre les experts du domaine et l’analyste, pour valider ou non le choix de ce concept. Le résultat final est une ontologie différentielle basée sur la sémantique de la signification (associer à chaque concept une signification linguistique).

10.3.4 Formalisation de l’ontologie

C’est le passage de la sémantique de la signification à la sémantique de la désignation. Cette étape est cruciale pour rapprocher l’effectivité calculatoire de l’intelligibilité conceptuelle. L’objectif est de doter chaque concept de l’ontologie interprétative d’une référence. Pour justifier l’étape de la formalisation on a ajouté des propriétés à chaque concept (métaphysiques, structurants, parataxiques) qui caractérise les différentes manières de penser. Au premier niveau, on trouve des concepts très abstraits, introduits pour structurer le reste de l’ontologie. Ce niveau est inspiré du modèle conceptuel des compétences des entreprises. Ces concepts reposent sur un premier niveau de modélisation de la compétence. Le deuxième niveau contient les concepts de base du domaine que l’on utilise pour structurer les connaissances. Au troisième niveau on trouve des concepts qui servent à désigner des objets du domaine dans un monde énumératif. La formalisation de l’ontologie différentielle correspond à une instanciation des concepts précédents et le choix d’une référence respectant les contraintes fixées par le concept ainsi instancié. Par exemple dans l’ontologie métier, le concept usinage instancie le concept technologie. Ces deux derniers concepts parataxiques instancient eux même un

Figure 10.5 – Formalisation de l’ontologie différentielle

concept structurant qui est trace du domaine technologique.

On a ajouté dans cette phase de normalisation une relation d’association entre les concepts qui permet de lier deux concepts. Par exemple des concepts de qualités et de performance des produits peuvent décrire des traces de ressources techniques. C’est l’avantage de cette relation d’association qui permet de renvoyer à d’autres concepts, ce qui est important par la suite dans la phase de recherche et d’extraction. L’analyse de la même phrase peut conduire à détecter la présence de deux (ou plusieurs) concepts.

10.3.5 Opérationnalisation de l’ontologie

C’est l’élaboration d’une version de l’ontologie exploitable informatiquement où la signification des concepts se traduit par des calculs ou des inférences. L’ontologie computationnelle est construite dans le langage OWL (Ontology Web Language) avec l’outil Protégé2_{. Ce langage fournit des primitives de modélisation permettant}

de déclarer les ontologies et d’exprimer précisément leur sémantique. C’est l’outil formel pour contraindre la syntaxe ontologique (figure 10.6).

10.4 Conclusion

Nous avons présenté les principaux outils et méthodes de construction des ontologies parmi lesquels nous avons effectué notre choix. Nous avons construit une ontologie des traces de compétences des entreprises dans le domaine de la mécanique suivant la méthode ARCHONTE tout en respectant les différentes primitives cogni- tives, à partir de notre corpus (collection de site web des entreprises). Une question importante reste à résoudre : comment exploiter cette ontologie pour mener des in- férences et répondre à des requêtes sur la spécification d’une trace des compétences d’une entreprise donnée ?

10.4. Conclusion 129

Chapitre 11

Extraction de compétences

11.1 Présentation de l’application

Comme nous l’avons mentionné dans le chapitre 5 de l’état de l’art, le système d’extraction des traces des compétences des entreprises à partir de leur site (UNI- COMP) est basé sur le système de traitement linguistique Unitex. Unitex permet de traiter un corpus textuel pour l’indexation de motifs morphosyntaxiques, la recherche d’expressions figées, la production de concordances et l’étude statistique des résultats. Un aperçu des ressources développées lors du traitement d’un texte est donné en figure 11.1:

Figure 11.1 – L’application UNITEX

Le panneau à gauche présente le corpus prétraité après avoir effectué le découpage en phrases. On voit la liste de tous les tokens (au milieu) avec les fréquences d’apparition, ainsi que les unités linguistiques (à droite) traitées par les

dictionnaires de mots simples et de mots composés. La dernière colonne représente les unités linguistiques qui n’ont pas été retrouvées dans les dictionnaires. Unitex est utilisé comme analyseur pour effectuer un prétraitement et une lemmatisation des mots, pour ajouter des synonymes, pour détecter la négation, pour ajouter des classes sémantiques aux mots, et enfin et surtout pour l’extraction, la construction et la recherche des grammaires locales complexes.

En extraction d’information, la détection au sein d’un texte de la présence d’un concept issu d’une ontologie n’est pas une condition suffisante pour délimiter et confirmer l’information pertinente. Des phénomènes linguistiques peuvent biaiser le sens des mots et un même mot peut prendre deux sens différents selon son contexte d’utilisation. Pour lever cette ambigüité contextuelle, en complément à l’ontologie, nous aurons recours à l’utilisation de patrons linguistiques implémentés par le sys- tème UNITEX. La section suivante présente l’approche adoptée pour l’acquisition des patrons d’extraction.

11.2 Acquisition semi-automatique de patrons d’extrac-

Dans le document Dispositifs de recherche et de traitement de l'information en vue d'une aide à la constitution de réseaux d'entreprises (Page 139-145)