• Aucun résultat trouvé

Recherche Sémantique d’Information sur le Web

III.2 Outils d’annotation sémantique

Les systèmes d’annotation sémantique sont classés en fonction des méthodes utilisées. Il ya deux grandes catégories qui sont les méthodes basée modèle et les méthodes basées sur l’apprentissage.

Le système « Annotea » développé par le W3C est un environnement collaboratif pour l’annotation manuelle des documents web, les annotations peuvent être des commentaires, des explications, le format de Annotea est RDF, le type de document pouvant être annotés se limite aux documents structurés HTML/XML, le projet fournit dans Xpointer une méthode qui localise les annotations dans le document, Xpointer étant une recommandation du W3C qui identifie des fragments de ressources URIs [Mar,2005]. Annotea est intégré dans nombre d’outils d’annotation : «Amaya » et «Annozilla ».

Un autre système « Mangrove » permet aussi d’effectuer une annotation manuelle, Il fournit à l’utilisateur l’interface pour créer des balises de documents HTML et associer des étiquettes d’annotations aux textes.

Pour l’annotation semi automatique, nous citons le Framework « OntoMat », une implémentation de SCREAM (Semi automatic CREAtion of Metadata). Il offre un navigateur Web pour afficher la page annotée et fournit quelques fonctions utilisateur adaptées pour l’annotation manuelle [Han,2003]. OntoMat, utilise le système d’extraction d’information (IE) « Amilcare », l’utilisateur annote un document servant d’exemple et le système apprend comment reproduire l’annotation de l’utilisateur, pour pouvoir suggérer des annotations pour de nouveaux documents, c’est une annotation par apprentissage.

Aussi nous avons le système d’annotation « MnM » [Var,2002] qui intègre une ontologie pour l’annotation et repose sur l’outil linguistique d’extraction d’information « GATE ». Ce système fournit l’environnement pour annoter manuellement un corpus d’apprentissage, , il stocke les documents balisés en tant que versions étiquetées de l’original, plutôt que les formats RDF du Web Sémantique.

Il inclut un navigateur HTML pour afficher les documents et avec le fonctionnement d’un navigateur d’ontologie. Une force de MnM est qu’il fournit des APIs ouvertes pour se connecter aux serveurs d’ontologie et pour intégrer les outils d’extraction de l’information.

Chapitre III : Recherche sémantique sue le Web Basée systèmes multi agents

____________________________________________________________________________

67

« Armadillo » est un système pour la création non supervisée des bases de connaissances à partir d’entrepôt et l’annotation de documents [Cir,2001]. Il utilise la redondance d’information dans des entrepôts pour amorcer l’apprentissage d’exemples choisis par l’utilisateur. L’extraction d’information est utilisée pour généraliser ces exemples et pour trouver de nouveaux faits.

La confirmation par plusieurs sources (documents) est alors exigée pour vérifier la qualité des données saisies. Après confirmation, l’apprentissage peut être lancé une nouvelle fois. Ce processus peut être répété jusqu’à ce que l’utilisateur soit satisfait de la qualité d’information issue après l’apprentissage. Armadillo utilise des techniques, comme les recherches basées sur des mots clés et l’outil « Amilcare » d’extraction de l’information.

La plateforme KIM (Knowledge Information Management), est une infrastructure qui fournit un ensemble de services dont un module d’annotation sémantique automatisé. Ce processus se base sur l’architecture d’ingénierie de texte GATE (General Architecture for Text Engineering), une plate-forme d’ingénierie linguistique qui offre les ressources nécessaires à la réalisation d’un moteur d’extraction d’information générique.

Les auteurs [Bor,2003] définissent les caractéristiques et les besoins du service d’annotation de la plateforme KIM par :

• Le système d’annotation sémantique requiert, l’usage d’une ontologie de haut niveau qui structure en relations les classes des entités nommées génériques.

• L’usage d’un langage de description telle que RDF(S), et OWL Lite, pour maintenir l’efficacité d’expressivité et du raisonnement.

• Le stockage de l’ontologie et de la KB se fait dans un repository SESAME Rdf. • La recherche utilise une version améliorée de LUCENE basé mots clés.

L’architecture de la plateforme KIM, comporte l’ontologie KIMO, inspirée des ressources comme OpenCyc, WordNet 1.7, et DOLCHE, cette ontologie définit environ 200 classes d’entités d’ordre général, et 100 attributs et relations.

Les descriptions sémantiques des entités et de leurs relations sont tenues dans une base de connaissances qui regroupe environ 80000 entités, concernant 50000 lieux, 282 pays et 4700 villes avec des descriptions des montagnes , des rivières, des mers et des océans les plus communs. Aussi la KB définit les plus importante organisations comme UN, NATO, OPEC etc. au total nous avons environ 8400 instances d’organisations définies dans cette KB, et pour chaque entité extraite du texte il est établi:

____________________________________________________________________________ Chapitre III : Recherche sémantique sue le Web

Basée systèmes multi agents

____________________________________________________________________________

68

• Un lien vers l’instance spécifique dans la base de connaissance.

L’ontologie KIMO et la base de connaissances, sont maintenues par l’exploitation des technologies et les standards du web sémantique, à savoir les langages RDF(S), les middlewares, et des raisonneurs. Les autres composants de l’infrastructure KIM, sont l’API KIM server, une interface permettant diverses méthodes d’accès, et un explorateur de base de connaissances.

Les modules de l’API KIM server fournissent les services d’annotation sémantique, de gestion documentaire basée GATE, d’indexation et de recherche. L’évaluation et les performances des testes sont encourageant, en effet, les mesures de précision et de rappel obtenus sur un corpus de 100 documents, par rapport à l’annotation manuelle sont proches (de l’ordre de 84%).

Une autre conception d'une démarche d’annotation sémantique est décrite dans [Thi,2010], dans cette description les auteurs révèlent une dépendance entre une méthode d’annotation et le niveau structurel du corpus documentaire, à savoir des textes libres, structurés ou semi structurés. Ce projet vise à annoter sémantiquement à l'aide d'une ontologie et de manière automatique non supervisée , une collection de documents hétérogènes comportant des parties structurés et des parties libres, l'ontologie comporte une composante lexicale où chaque concept est accompagné de plusieurs labels, d’un ensemble d’entités nommées, et des termes d domaine d écrivant les instances de concepts.

La démarche consiste à repérer des termes, des entités nommées ou des concepts dans les nœuds d’un arbre DOM (Document Objet Model) qui décrit la structure d’un document (HTML /XML). Les termes ou les entités nommées extraits sont rapprochés des termes ou labels de l’ontologie lexicale pour identifier les concepts candidats. Le mécanisme exploite la proximité structurelle des nœuds instances pour déduire la possibilité d’existence des relations sémantique.

L’architecture comporte trois composantes, l’extraction de termes et enrichissement de la composante lexicale ontologique, l’annotation des nœuds constituant l’arbre DOM, et la formulation de requête à l’aide de métadonnées.