• Aucun résultat trouvé

5.4.1 Hiérarchisation des résultats

Suite à la composition d’une requête par l’utilisateur, la hiérarchisation des documents présentés en liste résultat est la première fonctionnalité d’assistance à la recherche d’information mise en œuvre par les moteurs de recherche. En effet, les critères de hiérarchisation peuvent être considérés comme

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

111 des aides à la sélection puisque les utilisateurs des SRI ont naturellement tendance à privilégier les résultats qui viennent en tête de liste, voire à se contenter de ceux présents dans la première page.

Nous ne reviendrons pas ici sur les critères de hiérarchisation d’un moteur de recherche puisqu’ils ont déjà été abordés dans la section consacrée aux pertinences système et utilisateur. En effet, ces critères de pertinence sont les critères de base que va utiliser le système pour hiérarchiser les documents qu’il retourne.

Cependant, il est important de noter que dans un contexte scientifique, il peut être intéressant pour un utilisateur de pouvoir modifier ces critères de hiérarchisation :

• Un critère de rareté plutôt qu’un critère d’occurrence pour privilégier les documents où l’occurrence d’un terme est faible peut aider à mettre à jour des rapports de causalité scientifique ;

• Un critère d’éloignement des termes plutôt qu’un critère de proximité ;

• Un critère de position des termes inversé ;

• Un critère inversé d’occurrence relative à la longueur du document.

Ces inversions de critères visent à trouver des termes qui n’occupent pas de position centrale dans les documents, mais dont la présence « périphérique » peut révéler l’implication de concepts à laquelle on ne s’attendait pas dans des phénomènes scientifiques.

5.4.2 Regroupement (clustering)

Les clusters sont des agrégats de documents considérés comme proches d’un point de vue lexical, et donc conceptuel. La proximité des documents est calculée par des outils de traitement automatique du langage tels que nous les avons vus (l’extraction des termes des documents ou des syntagmes issus d’un texte) et de « text-mining » (analyse du nombre d’occurrences d’un terme, du nombre de cooccurrences de plusieurs termes et de la fréquence d’apparition des termes dans un ensemble de documents) [1, Hérigault]. Ce sont ces technologies qui permettent la constitution automatique et

« libre » d’agrégats (« cluster » en anglais) de termes ou de concepts. Cette construction automatique est donc indépendante de tout « plan de classement » préexistant [2, Vuillequiez].

Compris de ce point de vue conceptuel, le clustering a pour objectif de regrouper des documents selon des similarités de contenu.

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

112 Mais le clustering peut aussi regrouper les documents selon d’autres critères tels que :

• Le type de documents (documents pédagogiques, articles scientifiques, mémoires) ;

• Le format de documents (textes, vidéos, images, etc.).

Cette technique de regroupement permet d’atteindre les objectifs suivants [7, Nie] :

• Les réponses du système sont regroupées plutôt que mises en liste individuellement. L’avantage de cette présentation de résultats est que l’utilisateur peut avoir une idée globale des résultats que le système a trouvés assez rapidement.

• Si un document est pertinent à une requête, alors les documents similaires ont plus de chance d’être pertinents aussi. Ainsi, le clustering peut être aussi vu comme un moyen d’expansion de requête par similarité de contenu.

• Le nombre de clusters, par rapport au nombre de documents, est beaucoup plus petit. Ainsi, on peut accélérer le processus de recherche et de sélection : si l’utilisateur, relativement à un terme de recherche, sait qu’il a besoin d’accéder à des résumés d’articles scientifiques ou à des documents pédagogiques, il ira beaucoup plus vite en passant par la fonctionnalité de regroupement.

Par ailleurs, en construisant automatiquement des classes à partir des agrégats de termes, la méthode de regroupement est un potentiel outil de découverte scientifique permettant de mettre à jour la coprésence non repérée de concepts scientifiques dans les documents. Le clustering est une forme d’aide intelligente à la recherche d’information par traitement sémantique des documents.

5.4.3 Les facettes

Souvent, après avoir lancé une recherche, les utilisateurs, s’ils ne sont pas satisfaits des premiers résultats, ont trois options possibles :

• Trier la liste de résultats avec des fonctions de classement des résultats de recherche (par date, par auteur ou par ordre alphabétique, par langue) ;

• Aller de document en documents dans la liste résultats au risque de se « perdre » ;

• Reformuler la requête.

Or, sachant que le modèle le plus répandu de recherche d’information chez les utilisateurs repose sur une requête comprenant « un ou deux mots clefs » en langage naturel, il est important de leur donner les moyens d’affiner le résultat d’une première recherche.

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

113 Les facettes de recherche permettent précisément à l’utilisateur de filtrer les résultats de sa recherche selon un ensemble de critères propres à son organisation. Ainsi, on peut distinguer [1, Hérigault] :

• Les facettes propres à l’organisation et à son modèle de connaissance éventuellement représenté dans le système par un référentiel. Dans notre cas par exemple :

o Échelle d’observation (segmentaire, plurisegmentaire, etc.) ; o Discipline (crânien, viscéral, etc.) ;

o Etc.

• Les facettes génériques (métadonnées descriptives) : o Date de publication (ou modification) des résultats ; o Type de documents ;

o Source d’origine ; o Langue ;

o Etc.

• Les facettes relatives aux processus de l’organisation : o Code projet de recherche ;

o Code discipline ; o Code produit ; o Etc.

• Les facettes sémantiques dont les valeurs sont automatiquement extraites du document et de ses métadonnées : d’informations avec une grande fluidité. Elles sont généralement présentées en complément ou à côté d’une liste de résultats.

Les utilisateurs peuvent alors les sélectionner, contraindre ou élargir le champ initial de leur recherche (en cela, elles reprennent souvent partiellement les critères de recherche avancée).

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

114 Les facettes sont interactives en ce sens que :

• Le nombre de résultats répondant à la fois à la requête effectuée et à la facette, est affiché.

• L’utilisateur peut directement observer les résultats de sa sélection sur la liste résultat attenante.

Elles sont une aide d’autant plus efficace à l’affinage des résultats qu’ils indiquent le nombre de résultats associés à chacune de leur valeur. L’utilisateur peut ainsi progresser avec moins d’incertitude et anticiper sur l’effort de filtrage qu’il lui restera à fournir.

• La sélection d’une facette supplémentaire va affiner la requête courante en appliquant le critère lié à la facette en plus des critères déjà sélectionnés, pour ne présenter que les résultats pertinents par rapport à la réunion de toutes ces facettes ;

• L’utilisateur peut désélectionner les facettes qu’il a préalablement sélectionnées.

La recherche par facette est un compromis intéressant entre la recherche totalement « libre » et l’utilisation parfois fastidieuse des critères de recherche. C’est une façon de faire faire une recherche avancée à un utilisateur, sans qu’il ne s’en rende compte, en lui faisant sélectionner ou désélectionner les facettes (ou filtres) de recherche. En rendant les conséquences de ces sélections immédiatement observables dans la liste résultat, les facettes peuvent constituer un tableau de bord intéressant pour l’utilisateur.

L’intérêt des facettes est aussi de refléter l’organisation de l’entreprise, son activité, son langage, ses objectifs constituant ainsi un univers familier et donc propice à la recherche pour les utilisateurs.

Ces facettes enrichissent la navigation en liant les concepts selon d’autres aspects, et elles permettent d’améliorer la pertinence des résultats en augmentant le niveau de spécificité des requêtes. Pour y parvenir, les facettes peuvent elles-mêmes être subdivisées en sous-facettes pour enrichir les critères de filtrage. Par exemple, la facette « Organe » d’un domaine peut se diviser en « Organe selon la région du corps » ou « Organes selon la fonction.