• Aucun résultat trouvé

Web sémantique, web de données, web 3.0, quel usage dans les bases de données et les moteurs de recherche ?

1.1 Le web sémantique : un terme à clarifier

1.1.4 Web sémantique, web de données, web 3.0, quel usage dans les bases de données et les moteurs de recherche ?

Pour avoir une idée de l'utilisation de ces différentes expressions, nous avons analysé le corpus de quatre bases de données (ScienceDirect ; Sage journals online ; Web of science et Cairn) et des moteurs de recherche Google et Google scholar. Parmi ces bases de données, trois contiennent essentiellement des revues anglophones, tandis que la dernière est francophone. Le but était, d'une part, d'analyser la répartition d'usage des expressions (Semantic web, linked data, web 3.0, web of data, Linked open data, web de données et web sémantique) dans ces bases de données, et d’autre part, d'analyser leur répartition dans le temps et cela selon trois intervalles. Le premier se situe entre 1994 et 2000, le deuxième entre 2001 et 2005 et le troisième entre 2006 et 2016. La répartition en trois périodes s'appuie sur l'évolution historique du web sémantique vue par son fondateur Tim Berners Lee. La première période « 1994-2000 » est liée à la première feuille de route élaborée par Tim Berners Lee. La deuxième « 2001 -2005 » est liée au premier article publié par Tim Berners Lee sur le web sémantique. Et la dernière « 2006-2016 » est due à l'apparition de

12 « Le Web va changer de dimension », entretien avec Tim Berners-Lee par Marie-Laure Théodule. La Recherche, 2007, n° 413, p. 34-38

l'expression « Linked data » pour la première fois dans un article de Tim Berners Lee.

Les trois bases de données anglophones (web of science ; Sciencedirect et Sage journals) ont la particularité de contenir une large collection de revues scientifiques dans des domaines différents y compris en sciences de l'information et de la communication. La base de données Cairn qui a pour particularité de couvrir des revues scientifiques en français, contient elle aussi des articles dans le domaine de l'information et de la communication. En ce qui concerne le moteur de recherche Google, il est actuellement le moteur de recherche le plus utilisé par les usagers du web pour publier

et diffuser de l'information. Selon Comscore Inc13, pour le mois de février 2016, 16.8 trillion de

requêtes ont été soumises vers les cinq principaux sites de recherche d'information en ligne : Google 64 %; Microsoft (Bing) 21.4 %; Yahoo 12,2 %; Ask network 1.6 % et AOL 0.9%.

En ce qui concerne le moteur de recherche Google scholar, qui permet d'effectuer des recherches sur des travaux universitaires, en plus d'être un outil de recherche convivial pour les étudiants [Cothran, 2011], une étude publié dans le magazine « Nature » a montré qu'il est l'outil le plus utilisé par les chercheurs pour faire des recherches sur des réseaux sociaux académiques [Van Noorden, 2014]. Par le biais des moteurs de recherche spécifiques à chaque base de données, nous avons effectué une recherche en utilisant les expressions exactes suivantes en texte intégral: semantic web, linked

data, linked open data et web 3.0 dans les bases de données (web of science14, ScienceDirect15 et

Sage journals16) ; nous avons ajouté à celles-ci les deux expressions web de données et web

sémantique dans la base de données « Cairn »17. Cette recherche a été repartie sur les trois périodes

définies précédemment. Le même protocole de recherche a été utilisé avec Google et Google scholar mais cette fois en utilisant les sept expressions utilisées dans les 4 bases, et sans répartition dans le temps, parce que ces moteurs de recherche ne permettent pas de faire une recherche par intervalle de temps. La recherche a été fait le 13 janvier 2017.

Les résultats sont affichées sous forme des diagrammes. (voir figures ci-dissous). Une description détaillée de ces résultats est donnée dans l'annexe I.

13 Étude menée par: « ComScore Releases February 2016 U.S. Descktop Search Engine Rankings », Comscore Inc, [enligne] <https://www.comscore.com/Insights/Rankings/comScore-Releases-February-2016-US-Desktop-Search-Engine-Rankings> (consulté le 16/05/2017).

14 Cette base signale la littérature scientifique mondiale dans tous les domaines. L'ensemble du contenu est constitué du dépouillement de plus de 10 000 périodiques et de plus de 110 000 actes de conférences. Les plus vieux articles remontent à 1900.

15 Permet l'accès aux 2500 revues de l'éditeur Elsevier. Collection pluridisciplinaire.

16 Permet l'accès au texte intégral de plus de 500 revues éditées par Sage Publications en sciences humaines et sociales.

17 Nous avons ajouté les deux expressions web sémantique et web de données parce que la base de données Cairn contient des articles en langue française.

Figure 1.6 : Nombre de documents pour chaque terme recherché dans la base de données : Cairn

Figure 1.4 : Nombre de documents pour chaque terme recherché dans la base de données : ScienceDirect

Figure 1.5: Nombre de documents pour chaque terme recherché dans la base de données : Sage journals

Figure 1.3 : Nombre de documents pour chaque terme recherché dans la base de données : Web of science

Les résultats montrent que l'expression « semantic web » est la plus utilisée dans les trois bases de données anglophones et dans le moteur de recherche Google Scholar. De même, l'expression « web sémantique » est la plus employée dans la base de données Cairn. Cela signifie que l'expression « semantic web » est la plus utilisée dans les publications scientifiques et académiques

(1994-Figure 1.8: Résultats de recherche sur Google scholar

Figure 1.7: Résultats de recherche sur Google

Figure 1.9 : Répartition des résultats dans les trois bases de données : web of science, ScienceDirect et Sage

2016). D'autre part, l'augmentation de l'utilisation de ce terme pourrait être dû à son émergence comme une nouvelle technique pour la gestion et la diffusion de l'information sur le web, dans beaucoup de domaines : la recherche d'information , la représentation des connaissances, le développement des ontologies, l'intelligence artificielle, le data mining etc. [Ding, 2010].

Il est intéressant de remarquer que l'expression « linked data » apparaît en premier dans le moteur de recherche Google, et en deuxième dans les bases de données étudiées et dans Google Scholar. Plus précisément, dès l'année 2006 l'utilisation de l'expression « linked data » commence à s'accroître pour dépasser celle de l'expression « semantic web » dans la base de données « Sage journal » (voir figure 1.5). L'usage de l'expression « linked data » par les chercheurs résulte de son utilisation par Tim Berners Lee pour la première fois en 2006. Cette expression est utilisée pour clarifier les objectifs visés par cette nouvelle génération du web. Autrement dit, l'expression « linked data » est utilisée pour lever l’ambiguïté contenue dans l'expression «semantic web ». Finalement les résultats ont montré que l'expression « semantic web » est la plus utilisée dans les bases de données scientifiques et dans Google scholar, tandis que l'expression « linked data » est la plus utilisée dans le moteur de recherche Google.

Les expressions « Linked open data », « Web of data » et « Web 3.0 » apparaissent surtout dans la troisième période étudiée (2006-2016). L'expression « Linked open data », parue en troisième dans les bases de données (web of science, ScienceDirect et Sage), est utilisée par Tim Berners Lee en 2006. Il s'agit du web de données liées et ouvertes (Linked open data), notion que nous abordons dans le chapitre 6.

Une fois le web sémantique présenté, nous abordons dans la section suivante la question de la représentation des connaissances au sein du web sémantique. Nous commençons par un retour historique sur les modèles des représentations graphiques à l'origine de la structure du web sémantique.

1.2 Le web sémantique : une nouvelle approche pour la représentation