• Aucun résultat trouvé

Comme nous l’avons vu en premi`ere partie, les travaux et les r´esultats sur la contextuali-sation s´emantique de ressources sont nombreux. La baisse des coˆuts de calcul et de stockage a permis de d´evelopper de nombreux projets, qui sont autant d’outils d’enrichissement, sur lesquels s’appuyer pour approfondir ces travaux. Ainsi, il est int´eressant de continuer `a ex-plorer plus en avant l’impact des r´eseaux de neurones sur les repr´esentations. Notamment transposer le travail de repr´esentation neuronale de documents, pr´esent´e en (2.5), sur un es-pace conceptuel. Ainsi, en entraˆınant des r´eseaux sur des projections de concepts, on devrait ˆetre capable de classifier de mani`ere automatique des documents dans une ontologie. Les applications de la s´emantique de la donn´ee sont nombreuses, mais la cr´eation d’ontologies sp´ecifiques dans le secteur professionnel est encore une tˆache lourde et peu r´epandue. La simplification de cette tˆache est un travail important qui permettra d’exploiter au mieux le potentiel de la s´emantique des donn´ees.

Conclusion

Nous avons donc pr´esent´e la th´eorie autour de la s´emantique de la donn´ee, et parti-culi`erement des ontologies. Nous avons rappel´e les diff´erentes m´ethodes de repr´esentation d’un document. Nous avons constat´e la complexit´e de la cr´eation d’ontologie, et nous avons propos´e une approche s’appuyant sur l’algorithme de Graph Of Words d´evelopp´e par Mi-chalis Vazirgiannis puis un usage de ressources s´emantiques externes, inspir´e des travaux de Farah Harrathi, afin de produire une annotation s´emantique de documents sp´ecialis´es de mani`ere simplifi´ee.

Dans un second temps, nous avons appliqu´e cette m´ethode dans un exercice d’information retrieval et l’avons ´evalu´ee `a l’aide d’un moteur de recherche. Nous avons ainsi pu mettre en ´evidence son int´erˆet tout en remarquant les limites de la recherche de documents pour l’´evaluation de l’enrichissement s´emantique effectu´e.

63

64 CONCLUSION

Annexe A

Langage et repr´ esentation -XML/RDF

Un exemple de description RDF dans le langage XML. Ici1, la description d’un certain Eric Miller. On distingue plusieurs cat´egories et sous-cat´egories. foaf est un formalisme d’ontologie RDF permettant de d´ecrire des individus et des relations entre individus.

1 <rdf:RDF>

66 ANNEXE A. LANGAGE ET REPR ´ESENTATION - XML/RDF

Annexe B

XML et Graphes

On voit sur cette image les liens entre un document xml et un arbre.

FigureB.1 – Liens entre Graphes et XML.

Source :https://www.geeksforgeeks.org/xml-parsing-python/

67

68 ANNEXE B. XML ET GRAPHES

Annexe C

Sch´ ema d´ etaillant les concepts de pr´ ecision et rappel

Figure C.1 – Source :https://commons.wikimedia.org/wiki/File:Precisionrecall.

svg

69

70ANNEXE C. SCH ´EMA D ´ETAILLANT LES CONCEPTS DE PR ´ECISION ET RAPPEL

Annexe D

Configuration d’ElasticSearch

D.1 Configuration des indexes

Figure D.1 – Configuration des index. Le t´emoin `a gauche et celui enrichi par annotation s´emantique `a droite

71

72 ANNEXE D. CONFIGURATION D’ELASTICSEARCH

D.2 Structure des requˆ etes

FigureD.2 – Structure des requˆetes envoy´ees au moteur de recherche. `A gauche, la requˆete t´emoins, `a droite, la requette de l’index annot´e s´emantiquement.

Le champquestionrepr´esente la question fournie au moteur de recherche apr`es traitement.

On remarque que pour la version annot´ee, on valorise les concepts et les mots clefs.

Annexe E

5 from n l t k . stem import WordNetLemmatizer

6 from tqdm import tqdm

74 ANNEXE E. D ´ETAIL D’IMPL ´EMENTATION DU CODE

E.2. EXTRACTION DES MOTS CLEFS 75

76 ANNEXE E. D ´ETAIL D’IMPL ´EMENTATION DU CODE

E.3. EXTRACTION DES CONCEPTS 77

78 ANNEXE E. D ´ETAIL D’IMPL ´EMENTATION DU CODE

E.3. EXTRACTION DES CONCEPTS 79

80 ANNEXE E. D ´ETAIL D’IMPL ´EMENTATION DU CODE

108 f o r i d x in range( s i z e ) :

109 i = 0

110 s e t w o r d = s e t( c o n c e p t d i c t [ k e y l i s t [ i d x ] ] )

111 while i < s i z e :

112 i f i != i d x :

113 c o n c e p t l i s t d i s j o i n t . e x t e n d (

114 s e t w o r d . u n i o n (s e t( c o n c e p t d i c t [ k e y l i s t [ i ] ] ) ) )

115 i += 1

116 c o n c e p t l i s t d i s j o i n t = l i s t(

117 s e t( c o n c e p t l i s t d i s j o i n t ) s e t( c o n c e p t l i s t i n t e r ) )

118

119 d a t a = {

120 ” f i l e n a m e ”: f i l e n a m e ,

121 ” c o n c e p t s ”: l i s t(s e t( c o n c e p t l i s t i n t e r + c o n c e p t l i s t d i s j o i n t ) ) ,

122 ” keyword ”: keywords ,

123 ” doc ”: doc [” d o c w o r d s ”]

124 }

125 # e n v o i s d e s r s u l t a t s dans E l a s t i c S e a r c h

126 e s c l i e n t . i n d e x ( ES INDEX , ES TYPE , id=d o c i d , body=d a t a )

127 128

129 i f n a m e == m a i n :

130 main ( )

Annexe F

Une exemple de fichier CACM

On pr´esente ici le contenu du fichierCACM-1410 de la base CACM.

1 I n t e r a r r i v a l S t a t i s t i c s f o r Time S h a r i n g Systems

82 ANNEXE F. UNE EXEMPLE DE FICHIER CACM

29 1604 5 1410

30 1951 5 1410

31 2373 5 1410

32 1224 6 1410

33 1410 6 1410

34 1410 6 1410

35 1410 6 1410

36 1604 6 1410

37 1751 6 1410

38 1810 6 1410

39 1951 6 1410

40 2374 6 1410

Bibliographie

[1] Jeffrey Pennington, Richard Socher, and Christopher Manning. Glove : Global vectors for word representation. InProceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543. Association for Compu-tational Linguistics, 2014.

[2] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. CoRR, abs/1301.3781, 2013.

[3] Farah Harrathi, Catherine Roussey, Sylvie CALABRETTO, Lo¨ıc Maisonnasse, and Mohamed Mohsen Gammoudi. Indexation s´emantique des documents multilingues. In INFORSID, editor, 27`eme Congr`es INFORSID, pages 31–50, Toulouse, France, May 2009.

[4] Kuyoro Shade O., Ibikunle Frank A, and Abel Samuel B. Information retrieval : An overview.International Journal of Advanced Research in Computer Science, 3(5), Sept-Oct 2012.

[5] Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web. Scientific Ame-rican, 284(5) :34–43, May 2001.

[6] Khadim Drame. Contribution to ontology building and to semantic information retrie-val : application to medical domain. Theses, Universit´e de Bordeaux, December 2014.

[7] Thomas R. Gruber. Toward principles for the design of ontologies used for knowledge sharing. InInternational Journal of Human-Computer Studies, pages 907–928. Kluwer Academic Publishers, 1993.

[8] Rudi Studer, V. Richard Benjamins, and Dieter Fensel. Knowledge engineering : Prin-ciples and methods. Data Knowl. Eng., 25 :161–197, 1998.

[9] Nathalie Aussenac-Gilles. Donner du sens `a des documents semi-structur´es : de la construction d’ontologies `a l’annotation s´emantique. In Lisette Calderan, Pascale Laurent, H´el`ene Lowinger, and Jacques Millet, editors,Le document num´erique `a l’heure du web, Sciences et techniques de l’information, pages 105–140. ADBS, 2012. Chapitre 05 : Donner du sens `a des documents semi-structur´es : de la construction d’ontologies

`

a l’annotation s´emantique.

83

84 BIBLIOGRAPHIE [10] Nicola Guarino, Daniel Oberle, and Steffen Staab. What is an ontology ? pages 1–17,

05 2009.

[11] Fran¸cois Rousseau and Michalis Vazirgiannis. Main core retention on graph-of-words for single-document keyword extraction. In Allan Hanbury, Gabriella Kazai, Andreas Rauber, and Norbert Fuhr, editors,Advances in Information Retrieval, pages 382–393, Cham, 2015. Springer International Publishing.

[12] Zellig S. Harris. Distributional structure. WORD, 10(2-3) :146–162, 1954.

[13] Lo¨ıc Maisonnasse, Catherine Roussey, Sylvie Calabretto, and Farah Harrathi. Approche statistique versus approche linguistique pour l’indexation s´emantique des documents multilingues. Document num´erique, 14(2) :193–214, 2011.

[14] George K. Zipf.The Psycho-Biology of Language. An Introdution to Dynamic Philology.

The MIT Press, 1965.

[15] Gerard Salton and Christopher Buckley. Term-weighting approaches in automatic text retrieval. Inf. Process. Manage., 24(5) :513–523, August 1988.

[16] Robert Speer, Joshua Chin, and Catherine Havasi. Conceptnet 5.5 : An open multilin-gual graph of general knowledge. CoRR, abs/1612.03975, 2016.

[17] T. Fawcett. Roc graphs : Notes and practical considerations for researchers. Technical report, HP Laboratories, 2004.

Documents relatifs