• Aucun résultat trouvé

Comme les travaux d’annotation présentés, nous voulons faire correspondre une description avec des concepts d’un domaine, c’est-à-dire annoter ces descriptions avec ces concepts. Cependant, nous faisons face à un enjeu supplémentaire : nous voulons des annotations compréhensibles. Cela signifie que le processus d’annotation ne peut pas être une boîte noire. En effet, dans certains cas, un concept (besoin utilisateur) exprimé par un utilisateur de Wepingo peut n’être

3.3 Positionnement de notre travail par rapport à l’état de l’art 31

associé à aucune description. Le cas échéant, Wepingo se doit tout de même de proposer des produits à l’utilisateur. Des descriptions annotées positivement doivent donc être trouvées pour tous les concepts cibles, correspondant à une satisfac-tion totale ou partielle du besoin. Cette objectif rend notre travail tout à fait particulier.

Aucune des approches citées, prises isolément, n’est une solution à notre problème. Les travaux générant une ontologie extraient seulement des éléments ontologiques, reconnus par l’intermédiaire des termes qui les dénotent, dans les textes. Ces techniques sont inapplicables car les textes sur lesquels nous travaillons n’incluent pas les noms des concepts cibles, qui sont trop spécifiques pour être mentionnés.

Les textes que nous traitons sont des descriptions d’entités. Ils évoquent donc des caractéristiques d’objets. De ce fait, les informations intéressantes à extraire des textes ne sont pas des entités nommées. Elles dépendent du domaine considéré. De plus, la structure de la description n’est pas exploitable. Les textes ne sont pas structurés.

Les deux approches appliquant des techniques de raisonnement [Petasis et al. 2013, Yelagina & Panteleyev 2014] sont les travaux les plus proches de notre problématique. En effet, ils cherchent à extraire de textes des informations qui n’y sont pas explicitées. Pour cela, ils peuplent tout d’abord l’ontologie avec les informations exprimées dans les textes. Par la suite, l’application de définitions connues au préalable permettent d’inférer les informations recherchées mais non explicitées dans les textes. Dans notre cas, cette idée de processus en deux étapes pourrait être appropriée. Il nous manque cependant les définitions des concepts cibles. Il nous faudra les apprendre. Apprendre des définitions des concepts cibles semble par ailleurs être une bonne idée pour éviter l’opacité des annotations. En effet, cela permettrait de comprendre les raisons des annotations positives et négatives et de les raffiner si besoin. Les approches qui génèrent des définitions formelles de concepts à partir de textes ne sont toutefois pas directement applicables dans notre contexte. En effet, certaines d’entre elles [Völker et al. 2007, Ma & Distel 2013b] se basent sur un contenu textuel exprimant des définitions. Or ce n’est pas le cas de nos descriptions de produits. En revanche, les autres approches [Lehmann & Hitzler 2010, Chitsaz 2013] se basent sur (1) des faits décrits dans une ontologie et sur (2) des exemples positifs et négatifs d’un concept pour apprendre la définition de celui-ci. Dans notre cas, les faits ontologiques (1) peuvent être extraits des documents. Quand des informations manquent dans les documents, ces faits peuvent être complétés à partir de ressources externes. Pour les exemples (2), il nous est possible de demander des annotations manuelles au concepteur du système, expert du domaine.

Nous allons donc utiliser une ontologie de domaine qui servira à la fois de support pour intégrer tout un ensemble de données d’un même domaine au sens général du terme et pour raisonner dessus. Les données intégrées proviendront des documents

32 État de l’art : Annotation sémantique, peuplement et enrichissement d’ontologie étudiés et seront complétées par des informations externes provenant du Web des données. Ces informations caractériseront les entités décrites sous la forme d’assertions de propriété (peuplement d’ontologie). De plus, pour pouvoir raisonner sur les concepts cibles, nous les introduirons dans l’ontologie sous la forme de classes, que nous appellerons classes cibles (enrichissement d’ontologie). Annoter un document décrivant une entité avec un concept cible revient alors à instancier la classe cible correspondante. Il nous faut donc trouver si l’entité décrite dans le document est une instance d’une certain classe cible ou non. Si c’est le cas, la classe cible fera l’objet d’une annotation positive et si ce n’est pas le cas, négative. Pour résoudre ce

problème de peuplement d’ontologie, nous devons comprendre précisément ce à quoi les classes cibles correspondent, c’est-à-dire connaître leurs définitions. Celles-ci sont nécessaires pour être capable de formuler des réponses aux utilisateurs même quand leurs besoins ne peuvent être totalement satisfaits.

Nous faisons l’hypothèse qu’un expert du domaine n’est pas en mesure de fournir des définitions précises des concepts cibles mais qu’en revanche, il est capable d’étiqueter des documents, qui seront ensuite utilisés pour apprendre automatiquement la

définition de chaque concept cible.

En résumé, le positionnement précédent signifie que nous devons combiner plusieurs processus pour résoudre notre problématique :

• un processus d’extraction d’assertions (instances) de propriété caractérisant les entités à traiter et l’ajout de ces entités et des assertions de propriété associées dans l’ontologie,

• un processus d’apprentissage automatique de définitions de concepts, qui seront apprises grâce à des exemples annotés (positifs et négatifs) pour chaque concept cible et grâce à l’ontologie peuplée avec les caractéristiques (assertions) des entités,

• un processus de raisonnement pour appliquer les définitions de concepts. Grâce aux définitions des concepts cibles apprises, il sera possible d’inférer quelles entités sont instances de quels concepts cibles, ce qui permettra d’annoter ces entités avec les concepts dont elles sont instances.

Conclusion

Ce chapitre a dressé un état de l’art des travaux d’annotation sémantique de documents ainsi que d’enrichissement et de peuplement d’ontologie. Nous avons positionné notre travail par rapport à ces travaux. Nous en avons ainsi déduit un ensemble de processus à exécuter pour répondre au problème. Le chapitre suivant décrit l’approche proposée mettant en œuvre ces processus pour répondre à la problématique.

Chapitre 4

Une approche de peuplement et