• Aucun résultat trouvé

Partie 3 : Extraction Automatique des Compétences d’Entreprises

10.2 Choix de méthodologie : ARCHONTE

Comme nous l’avons vu dans le chapitre 4 de l’état de l’art sur les ontologies, peu de méthodologies proposent réellement de guider l’ingénieur des connaissances pour organiser les connaissances d’un domaine et les liens entre concepts. La plupart de ces méthodes reposent sur une intuition quant à la manière de modéliser le domaine ou sur l’avis d’un expert, et excluent une possibilité de construire les concepts de l’ontologie à partir d’une réalité observée qui peut être décrite dans un langage. Le choix de la méthode d’ingénierie d’ontologie doit répondre à d’autres exigences : les textes composant le corpus ne suivent aucune structure standard ; la sémantique du vocabulaire utilisé est très liée au domaine métier (vocabulaire contextualisé) ; la structure linguistique des textes est parfois absente ; L’ensemble de ces facteurs induisent de forts risques d’ambiguïté. De plus, le choix de la méthode doit prendre en compte le fait que nous ne nous appuyons sur aucune ontologie initiale. Pour répondre à ces critères, notre choix s’est fixé sur la méthode ARCHONTE de Bachimont [9]. ARCHONTE est la méthodologie qui propose

l’approche la plus structurée et la plus complète en vue de maîtriser la spécification de la sémantique des termes, ce qui est indispensable pour traiter la problématique d’ambigüité lors du processus ultérieur d’extraction.

Selon B. Bachimont, « Une ontologie est une représentation linguistique et formelle des concepts d’un domaine pour un contexte applicatif. L’aspect linguistique renvoie au fait que les concepts sont tirés de la langue du domaine et doivent rester intelligibles pour les spécialistes. L’aspect formel renvoie au fait que les concepts doivent être manipulables par la machine et produire un comportement prédictible. ». Plusieurs chercheurs [64] [72] [61] ont pu démontrer que le concept d’ontologie permet d’analyser et de traiter le savoir dans un domaine en modélisant les concepts pertinents. Les ontologies, comme ressource sémantique, sont utilisées pour aider à l’exploration de corpus. Souvent l’information pertinente se présente dans le voisinage d’un concept particulier du domaine traité, ce qui nécessite une exploration conceptuelle du texte pour la localiser. L’ontologie a notamment pour rôle de valider les entités informationnelles identifiées dans le texte. Dans notre travail, compte tenu de l’absence d’ontologie répondant réellement au be- soin, il a été nécessaire d’en construire une concernant les compétences d’entreprises. Le contenu du site web d’une entreprise est caractérisé par un vocabulaire extrêmement spécifique qui dépend directement de la réalité et du domaine de l’entreprise. Qui est-elle ? Qu’est ce qu’elle produit ? Qu’est ce qu’elle a de spécifique ? C’est un langage particulier qui n’a pas de consensus établi sur la définition des termes employés. Par exemple, sur les sites web des entreprises, le terme "haute qualité" peut se référer aux produits fabriqués par l’entreprise, comme il peut se référer aux moyens matériels ou immatériels utilisés pour réaliser un tel produit, ou à la compétence humaine qui est intervenue dans le processus de la production. Pour permettre une description efficace et dépourvue d’ambigüité sur les compétences d’une entreprise, une modélisation qui tient compte de la réalité (ce que veut exprimer l’entreprise et la façon de le faire) et un minimum de standardisation du langage sont nécessaires.

10.2.1 Normalisation sémantique et principes différentiels

La normalisation sémantique consiste à rendre explicite le sens des expressions linguistiques du domaine. Il s’agit d’en faire des primitives du domaine. Être une primitive, c’est posséder une signification non contextuelle permettant par composition de déterminer la signification des formulations l’employant. Il faut donc identifier les notions élémentaires à partir desquelles l’ensemble des connaissances du domaine sont construites. Cette théorie attribue un sens aux termes grâce à la définition de traits sémantiques génériques et spécifiques. Ces traits permettent de fixer le cadre interprétatif, en fonction de l’objectif que s’est donné l’ingénieur des connaissances et d’obtenir une primitive exploitable. C’est une affectation des

10.2. Choix de méthodologie : ARCHONTE 117 termes aux sens qui tient compte de la variation de ces derniers dans le contexte textuel. La structuration de ces sens, en fonction des identités et des différences qu’elles partagent, permet de passer à « l’ontologie différentielle ».

Ce paradigme différentiel associe à chaque unité linguistique les unités voisines de la langue (celles qui sont utilisées en même temps qu’elle dans les contextes d’usage). Le résultat de l’application de ce paradigme différentiel est une ontologie différentielle, une structure de concepts et de relations organisée selon des principes linguistiques à partir des connaissances du domaine exprimées dans le corpus. Pour la construction de cette ontologie, B. Bachimont propose de définir quatre principes fondamentaux différentiels [9] :

– Le principe de communauté avec le père : il faut expliciter en quoi le fils est identique au père qui le subsume.

– Le principe de différence avec le père : il faut expliciter en quoi le fils est différent du père qui le subsume. Puisqu’il existe, c’est donc qu’il est distinct du père.

– Le principe de différence avec les frères : il faut expliciter la différence de la notion considérée avec chacune des notions sœurs car toute notion doit se distinguer des ses sœurs sinon il n’y aurait pas lieu de la définir.

– Le principe de communauté avec les frères : il faut expliciter la communauté entre la notion considérée et chacune des notions sœurs. Ce principe de com- munauté doit être différent du principe de communauté existant avec le parent. Si nous prenons l’unité parente est "être humain", les unités filles sont homme et femme. Ces unités partagent le fait d’être des humains. Mais cette propriété ne permet pas de définir en quoi sont différents les hommes et les femmes. On choisit alors comme principe de communauté la sexualité où l’on peut attribuer à homme le trait masculin et à femme le trait féminin. Ces deux traits sont mutuellement exclusifs car ce sont deux valeurs possibles d’une même propriété.

Dans les deux derniers principes, il ne faut pas seulement savoir caractériser les différences entre les notions filles mais également savoir en quoi ces notions filles sont semblables. A la fin de cette étape, on obtient une taxinomie de notions. Le processus de normalisation sémantique permet de passer d’un terme candidat à une notion dont le sens est invariable et par conséquent à une primitive représentant une connaissance du domaine à modéliser.

10.2.2 Formalisation des connaissances

La deuxième étape de la méthodologie ARCHONTE est la formalisation. C’est la définition des concepts selon une sémantique formelle et extensionnelle. C’est le passage de la dimension linguistique et interprétative de la taxinomie des termes l’ontologie référentielle à l’ontologie formelle composée de concepts dont le sens est décontextualisé. Ces concepts sont liés à un ensemble de référents dans le monde qui caractérise les connaissances du domaine. Cet ensemble est appelé l’extension du concept qui peut subir des opérations ensemblistes, telles que la réunion, l’inter-

section... qui vont permettre de composer de nouveaux sens et donc de nouveaux concepts formels. C’est l’idée derrière la notion d’engagement ontologique comme l’énonce [9] :

"Respecter le sens d’un concept, c’est s’engager à ce que lui correspond une Ex- tension d’objets existants dans l’univers d’interprétation. Il s’agit donc bien d’un engagement ontologique, puisque c’est l’existence d’objets qui est prescrite par le sens du concept."

Cette ontologie formelle permet de définir les contraintes logiques liées à une notion, afin de les reformuler en prédicats logiques pour les intégrer de manière cohérente dans une ontologie référentielle. Cette étape permet aussi de formaliser les relations qui existent entre les concepts en définissant leur arité et les ensembles d’extensions de concepts qu’elles relient.

10.2.3 Opérationnalisation

L’opérationnalisation consiste à traduire l’ontologie référentielle dans un langage compréhensif par la machine pour manipuler les connaissances du domaine. On doit donc utiliser des mécanismes et un langage opérant sur des représentations de l’on- tologie. En effet, un système informatique ne peut pas manipuler des concepts en fonction de leur interprétation sémantique. Il ne peut exploiter les concepts que sous la forme de règles formelles et d’opérations logiques (comparaison, fusion...). Ces opérations peuvent être de plusieurs sortes en fonction du formalisme de re- présentation choisi. C’est une définition d’une sémantique computationnelle pour chaque concept de l’ontologie qui sera vu comme le résultat d’un ensemble d’infé- rences et de calculs.

Après cette dernière étape d’opérationnalisation, l’ontologie finale peut être intégrée dans un système manipulant l’ensemble des connaissances du domaine. Elle entrera aussi dans un processus de test pour évaluer sa performance face au besoin de l’uti- lisateur.

Dans la section suivante, nous allons détailler la façon dont nous avons appliqué cette méthodologie pour l’ingénierie de l’ontologie de trace de compétences.

10.3

Ingénierie de notre ontologie selon la méthode AR-