• Aucun résultat trouvé

1.3 Analyser et adapter les outils existants

1.3.1 Les outils

En début de thèse il nous a été fixé un champ très large de réflexion englobant les trois axes

de valorisation du patrimoine documentaire : GED (Gestion Electronique des Documents),

recherche floue, documentation structurée ; gestion des connaissances ; veille.

L’étude du fonctionnement informationnel de la structure que nous venons d’exposer et le

point réalisé à l’issue, ont rendu saillantes des problématiques de structuration des

connaissances, valorisant ainsi l’articulation des deux premiers axes initialement proposés. En

est ressortie en point central, l’hypothèse : « valoriser le patrimoine documentaire par une

complémentarité avec des bases de connaissances orientées métiers ». Cette hypothèse n’a

pas été sans soulever la question de son articulation avec les outils existants ou sur le point de

l’être, comme l’outil de recherche floue Verity K2 présenté quelques paragraphes plus haut.

Nous avons donc vu notre participation à la recette et au déploiement de cet outil, comme

l’occasion d’amorcer ce questionnement, par l’étude approfondie de ses fonctionnalités

susceptibles de permettre l’évolution des bases de données actuelles vers des bases de

connaissances. Cette étude qui s’est voulue prendre en compte de façon globale les

problématiques soulevées lors de l’état des lieux du système a notamment porté sur des

interrogations concernant les ressources linguistiques.

46

1.3.1.1 Typologie

Notre travail s’appuyant sur l’outil de recherche floue Verity K2, nous allons directement

passer à sa présentation succincte, afin de mieux comprendre nos orientations. Verity K2 fait

parti d’un panel large de moteurs de recherche offerts sur le marché actuellement et dont nous

avons retenu trois principales catégories.

1.3.1.1.1 Les moteurs de recherche statistiques

Tous les moteurs sont statistiques, mais certains mettent en œuvre de façon prioritaire des

méthodes de calcul statistiques basées sur l’occurrence et la co-occurrence des mots dans le

texte, comparés à sa fréquence dans le corpus. Des algorithmes différents peuvent servir pour

la recherche des documents et pour générer des taxonomies. Ils ne contiennent généralement

pas de dictionnaires de langues et la plupart se disent indépendants de la langue des

documents. Ce type d’outil peut être adapté à des grands corpus hétérogènes ou aux sites

Internet des grandes entreprises lorsque l’on estime que les requêtes d’utilisateurs sont

difficiles à prévoir, ce qui exclut la construction de taxonomies destinées à orienter les

requêtes. Ils sont par conséquent peu adaptés à des corpus métiers (ex : les requêtes sont

ciblées ; les documents peuvent contenir plusieurs termes sans rendre pour autant le document

pertinent pour une requête sur l’un d’entre eux…).

1.3.1.1.2 Les moteurs de recherche sémantiques (ou

linguistiques)

Les moteurs dits sémantiques tentent d'intégrer le sens du langage au processus de recherche.

A cette fin, ils s'appuient sur des dictionnaires, voire des thésaurus spécialisés pour le

traitement de thématiques particulières. Parmi les traitements d’ordre linguistique mis en

œuvre, ceux basés sur la morphologie et la syntaxe sont présents dans tous les systèmes

actuels, mais la sémantique peut jouer un rôle plus ou moins important. Ils utilisent des

méthodes statistiques, ici non prépondérantes, pour accélérer le traitement des textes ou le

calcul de pertinence. Ils sont particulièrement adaptés aux corpus métiers contenant des

termes précis et ciblés. Cela implique que soient gérés de façon rigoureuse les thésaurus,

47

réseaux sémantiques, dictionnaires métiers, référentiels, taxonomies et concepts nécessaires,

initialement ou non intégrés à l’outil.

1.3.1.1.3 Les assistants (ou fédérateurs) de

requêtes

Ces applications apportent une première réponse à la problématique des requêtes en langage

naturel. Reposant sur des fonctions d'analyse linguistique, elles interprètent la requête dans

des langages propres aux outils de recherche. Ces logiciels ne font généralement pas la

recherche par eux-mêmes, mais s’appuient sur des moteurs de recherche ou s’interfacent avec

les solutions logicielles présentées plus haut par le biais de contrats. Le but est de pouvoir

utiliser un grand nombre de sources internes ou externes par une interface unique.

1.3.1.2 Principes

L’outil de recherche floue Verity K2 rentre dans la catégorie des outils sémantiques ou

linguistiques. De façon schématique, les outils linguistiques fonctionnent sur les opérations

suivantes (Ivanciuc Deniau, 2003 ; Lefèvre, 2000) :

- Niveau d’analyse morphologique et lexicale : segmentation, lemmatisation ;

- Niveau d’analyse syntaxique : étiquetage, extraction des groupes nominaux ;

- Niveau d’analyse sémantique : filtrage des concepts, classification automatique,

résumé automatique.

Nous ne souhaitons pas aborder ces fonctionnalités dans le détail, ne pensant pas que cela

apporte réellement une valeur ajoutée.

Il faut ici bien comprendre que l’outil de recherche floue a été installé au plan de la DIN dans

l’espoir d’apporter une réponse aux problèmes de la GED Sérapis : temps de réponse

considérables, requêtes quasi limitées à la référence exacte du document, … et d’offrir un

mode de recherche plus instinctif de type « Google ». Or, un premier paradoxe apparaît : le

principe de l’outil de recherche floue est de s’alimenter de texte puisqu’il va indexer à plat

tous les mots de textes qu’il trouve et rechercher dans cet index. En l’absence de classification

on peut craindre un bruit énorme, mais surtout, quelle en est la crédibilité lorsque la majeure

partie des documents est au format image ? On voit d’ores et déjà que la réflexion sur l’utilité

48

et les potentialités de l’outil a été amorcée mais guère approfondie. L’idée des responsables

documentaires est alors que nos travaux s’adaptent au final à cet outil ou plus tard, à celui mis

en place dans le projet SDIN. A nous maintenant de voir ce qui peut être envisageable.