Les projets de Linked Enterprise Data (LED)

1. PLONGEE AU CŒUR DES NOTIONS

1.3. Identifier numériquement, dans quel contexte et pour quel

1.3.4. Les projets de Linked Enterprise Data (LED)

Ici, et pour parfaire notre plongée au cœur des notions, nous allons explorer succinctement les projets de données liées, voire de web de données mis en place côté privé, dans les organisations à but lucratif. Cette optique est intéressante dans notre développement car elle montre comment il est possible de tirer profit de ces

137_{<indecs> rdd Consortium. <indecs> rdd White Paper, a standard Rights Data Dictionary . 2002. [en ligne]} Disponible sur http://www.doi.org/topics/indecs-rdd-white-paper-may02.pdf [consulté le 19/07/2017]

138_{RDA/ONIX est « un cadre commun pour la catégorisation des ressources selon leur contenu et leur présentation}

matérielle, afin de faciliter les échanges et la réutilisation des descrip tions de ressources entre les deux communautés »

RDA et ONIX. BnF. RDA (Ressources : Description et Accès). [en ligne] Disponible sur

http://www.bnf.fr/fr/professionnels/rda/s.rda_objectifs.html [consulté le 14/08/2017]

139_DOI. _Factsheet, _The _indecs _framework. _[en _ligne] _Disponible _sur

https://www.doi.org/factsheets/indecs_factsheet.html [consulté le 19/07/2017] 140_{VAN HOOLAND, Seth. VERBORGH, Ruben. Op. Cit.}

141_{VAN HOOLAND, Seth, DE WILDE, Max, VERBORGH, Ruben, STEINER, Thomas, VAN DE WALLE, Rik.} Exploring Entity Recognition and Disambiguation for Cultural Heritage Collections. Literary and Linguistics Computing, 2014. 18p. [en ligne] Disponible sur http://freeyourmetadata.org/publications/named-entity-recognition.pdf [consulté le 19/07/2017]

technologies et d’une gestion de l’information optimisée non seulement dans un cadre « culturel » et open-source mais également dans le cadre entrepreneurial. Le cloisonnement des domaines met généralement un frein aux bénéfices exploitables d’une technologie quand chacun développe ses projets dans son coin et que les innovations et les bonnes pratiques ne sont pas « transectorielles ».

Le LED correspond en réalité à l’utilisation des technologies du web de données dans le cadre des besoins strictement internes à une entreprise. Les données produites en entreprise sont, par essence, hétérogènes. Elles sont issues d’une prolifération d’application métiers qui bourgeonnent à l’heure où la dématérialisation est bien entamée mais pas toujours selon des logiques records

management. Auparavant, il était facile de construire un système logiciel pour

n’importe quoi, un produit, un besoin, mais maintenant que l’exigence de vitesse de réactivité s’est accrue il devient lourd de produire et de gérer ces mêmes logiciels.143

Les processus métiers ne sont pas forcément eux-mêmes très efficaces et il peut exister des incohérences et des doublons dans les données. L’objectif du LED est donc de fluidifier l’expérience utilisateur, perturber le moins possible les applications métier et créer de nouveaux services et outils de consultation.144

En outre, les valeurs du LED sont davantage axées sur la sécurité des données qu’elles ne le sont sur le web et dans le cas des institutions culturelles, car beaucoup de décisions cruciales sont prises uniquement sur l’information reçue. L’information critique au succès des entreprises est plus difficile à trouver, intégrer et utiliser. Les entreprises doivent plus que jamais développer leur agilité, ce qui implique également une agilité des systèmes. Ici, il est donc question de la survie même de l’entreprise dans son environnement économique et concurrentiel. Les enjeux sont donc équivalents, sinon plus forts, que ceux des institutions culturelles qui gèrent la connaissance.

Organisation des connaissances en entreprise

« La clé du LED repose dans la capacité à réutiliser les données des différentes applications qui constituent le système d’information, tout en respectant les besoins métier particuliers qui justifient l’existence de bases de données diverses. De la même manière que sur le web de données ouvert, on va construire une interopérabilité basée sur des liens, et non sur l’adoption d’un format unique ou d’un dénominateur commun. »145

Il y a une tension fondamentale en entreprise entre la vue globale et les vues locales. La représentation des données change avec son propriétaire, c’est ce qui rend la question de l’interopérabilité si épineuse. Les approches logicielles et organisationnelles abordées pour gérer cette question peuvent être de plusieurs types 146: les entrepôts de données basés sur des bases de données relationnelles, constituant des réceptacles que l’on peut interroger ; les approches MDM (Master

Data Management) que nous avions évoquées plus haut concernant l’architecture de

données, correspondant à une approche holistique de la donnée d’entreprise ; les réceptacles de métadonnées, utilisées comme des liens entre les différentes sources

143_{ALLEMANG, Dean. Dans WOOD, David. Linking Enterprise Data. Springer, 2010. Chapitre “Semantic Web} and the Linked Data Enterprise”. p3-23.

144_{BERMЀS, Emmanuelle, ISAAC, Antoine, POUPEAU, Gautier. Op. Cit.} 145_{Ibid. p159}

de métadonnées (flexibles, mais souvent construite avec des formats propriétaires) ; les vocabulaires contrôlés que nous avions également vus ; ou encore le Natural

Language Processing, forme simple d’extraction de concepts. L’étape d’indexation

sur laquelle repose tout le système est cependant souvent manuelle, et soumise à la bonne volonté du producteur de la donnée. En effet, l’une des manières de s’assurer d’un traitement optimisé de la donnée d’entreprise serait de garantir que l’action de création soit directement et intimement liée à celle de son partage. « […] à l’entrée

dans la vie active d’une génération qui a grandi avec Wikipédia, de plus en plus de techniciens se rendent compte qu’ils ne peuvent pas faire l’économie de cet effort

[de rendre leurs données accessibles et partageables] . Une minute d’effort de

partager l’information résulte en des heures de gagnées en utilisant l’expertise des collègues »147.

Ces propos sont à nuancer cependant à la lumière d’autres arguments, d’une part ceux de Cory Doctorow148, d’autre part de ceux de Catherine Legg149. En effet, l’attribution de métadonnées par son producteur, l’indexation manuelle, le nommage et enfin la publication ne sont peut-être pas la manière la plus sûre d’obtenir des jeux de données propres et interopérables dans tous les cas. Selon Doctorow, les gens peuvent mentir, être feignants ou stupides, ils ne se connaissent pas eux-mêmes et les guides ne sont jamais neutres150_{. Enfin, l’idée que la donnée ne peut pas être}

mieux décrite que par son producteur est symptomatique de l’approche Cartésienne de la notion de sens, qui, nous le verrons, n’est pas ce qui fonctionne le mieux en termes de données liées et web de données, bien au contraire.151

L’identification en LED

Ici, plus que jamais, l’ensemble des entités doivent être identifiées par des URI. L’unicité des URI reste un élément central du système. Ils peuvent même, dans certains cas, supplanter l’utilisation de référentiels communs152_{. Le schéma de}

l’identification doit rendre compte des liens et dépendances entre les niveaux de granularité, et doit être extensible. Le choix des URI http ici permettrait de garantir que les identifiants soient actionnables avec de simples outils web, et présenter une nouvelle source de possibilité pour le data management au sein de l’entreprise.

Le LED nous apprend donc ici une chose essentielle : l’homogénéisation n’est pas forcément un prérequis qu’il faut à tout prix réaliser. L’idée serait de pouvoir relier des données, métadonnées, ontologies très hétérogènes qui potentiellement se recoupent les unes les autres, tout en exploitant les spécificités de chacun et en créant des passerelles d’équivalence. Même au niveau des identifiants, cela peut s’avérer utile : cet idéal utopique de vouloir trouver un identifiant parfait, qui satisferait toutes les exigences, ne serait même peut-être pas une bonne chose, puisqu’il signifierait l’abandon de spécialisations qui, en entreprise en tout cas, conditionnent l’efficacité de celles-ci dans certains domaines métier.

147_Ibid.

148_{DOCTOROW, Cory. Metacrap: Putting the torch to seven straw-men of the meta-utopia. 2001. [en ligne]} Disponible sur https://www.well.com/~doctorow/metacrap.htm [consulté le 06/07/2017]

149_{LEGG, Catherine. Op. Cit.} 150_{DOCTOROW, Cory. Op. Cit.}

151_{Nous pourrons nous reporter à la partie 3 de ce mémoire pour développer ces arguments.} 152_{BERMЀS, Emmanuelle, ISAAC, Antoine, POUPEAU, Gautier. Op. Cit.}

Conclusion de la partie 1

Cette partie aura donc exploité plusieurs points qui aboutissent sur les constatations suivantes :

 Les identifiants, ou devrions nous dire, les méthodes d’identification, sont clairement la pierre angulaire de tous les systèmes de gestion des connaissances, quels qu’ils soient, car les entités ont besoin d’être nommées, localisées, contextualisée, pour ne serait-ce qu’exister,

 Ils prennent des formes différentes et sont souvent responsables de la réussite et de la praticité d’un système, puisqu’ils touchent à l’accès et à l’existence même des données sur le réseau,

 Les institutions culturelles et les entreprises ont des valeurs et des objectifs différents mais les moyens de les atteindre peuvent se recouper et s’enrichir l’un l’autre, (c’est pourquoi il est intéressant de développer des études de cas sur les deux types de structure),

 Les modèles de données et outils sont divers, complexes, mais de ce fait adaptables aux besoins précis des organisations. Ils évoluent rapidement et doivent en conséquence faire l’objet d’une veille sérieuse à ce sujet,

 Il est possible de créer des systèmes hybridant différentes méthodes, outils, solutions qui permettent de réussir cette adaptation et construire des systèmes personnalisés,

 Les identifiants et leur gestion permettent en outre de prendre la « température » des systèmes et d’évaluer leur réussite potentielle au niveau global, car les soucis surgissent toujours à l’accroissement du nombre de données gérées.

Avec ces notions, nous sommes mieux préparés à aborder les aspects techniques que nous verrons dans la partie 2, ainsi que les études de cas et recommandations et bonnes pratiques rassemblées dans la partie 3 de ce mémoire. Si le panorama est dense, il permettra au moins de comprendre l’étendue des possibilités qu’offrent les données liées et le web.

Dans le document Identifier dans l'écosystème informationnel Une réflexion autour des approches d'identification et leurs problématiques économiques, techniques et culturelles (Page 61-65)