• Aucun résultat trouvé

3.2 Les modèles de recherche d’information classiques

3.2.1 Le modèle Booléen

3.2.3 Le modèle Probabiliste . . . 79

3.3 Le contexte de la santé . . . . 82

3.3.1 La recherche d’information textuelle en Santé . . . 83 3.3.2 La recherche d’information au sein de données cliniques . . . 86

L’omniprésence de l’Internet et du Web dans notre société actuelle fait de la Recherche d’Information (RI) une notion très largement répandue. D’un point de vue scientifique, celle-ci ne se limite cependant pas à la recherche de ressources Web et sa mise en application s’intègre dans une cadre plus large que celui du développement de moteurs de recherche sur le Web.

Dans une vision purement historique et épurée de considération technique et/ou scienti-fique, la RI tire ses racines des premières tentatives d’organisation d’informations destinées à faciliter leur récupération. C’est donc avec la création des premières bibliothèques que les pré-mices de la RI ont vu le jour. L’utilisation d’index permettant de catégoriser le contenu de ces bibliothèques est alors devenue la norme. Avec l’arrivée des ordinateurs et la création automa-tisée de ces derniers la RI a connu un essor important.

La notion de RI en tant que domaine de recherche telle que nous la connaissons aujour-d’hui est apparue dans les années 1950 notamment sous l’impulsion de pionnier tels que Allen KENT qui publie en 1955 les métriques phares de précision et de rappel [87] ou encore Joseph BECKER et Robert HAYES qui publient le premier livre sur la RI [88].

Aujourd’hui, la notion de RI évolue dans un univers de recherche très vaste. Elle a pris diverses formes et a donné naissance à de nouvelles problématiques de recherche. Il convient donc de fixer les limites de ce domaine de recherche et de définir les concepts sur lesquels elle repose. Dans cette section, la notion d’information sera brièvement contextualisée. Une défi-nition de la RI sera ensuite donnée avant d’en définir le principe. Les différents modèles de RI classique sont présentés et je mettrai en évidence les problématiques spécifiques du domaine de la santé et sa mise en œuvre pour une RI efficace.

3.1 Les fondements de la recherche d’information

La notion de RI fait appel à celle d’Information. Bien que celle-ci soit une notion à priori relativement « commune », elle reste difficile à définir de manière universelle. Afin de clarifier le sens de cette dernière dans le contexte spécifique de la RI, la section suivante s’attache à la définir de manière relative.

3.1.1 Le contexte

On distingue dans le domaine des sciences de l’information quatre concepts clés : le concept de « Donnée », le concept d’« Information », le concept de « Connaissance » et celui de « Sa-gesse ». Ces concepts dépassent cependant le cadre de l’informatique. Il existe dans la littérature scientifique un nombre important de définitions à la fois incohérentes et incompatibles de ces derniers, ne faisant, de surcroît, l’objet d’aucun consensus [89]. Ces notions sont néanmoins sys-tématiquement définies de manière relative. La pyramide Data, Information, Knowledge and Wisdom (DIKW)1 permet de les hiérarchiser et de les définir les uns par rapport aux autres (cf. Figure 3.1).

Données donner un sens, agréger

Informations signification, former un tout

Connaissance

jugement, évaluation, relations Intelligence

Intelligence

Figure 3.1 –Pyramide DIKW (Data, Information, Knowledge, Wisdom) [2]

Dans l’absence de consensus on se contentera de la « vision » suivante :

Données : Les données sont des ensembles de signes et/ou de symboles « bruts ». Elles consti-tuent une mesure, une représentation ou une perception empirique des propriétés d’un objet, d’un fait ou d’un événement ayant une existence dans l’environnement. Les données sont par nature des observations objectives non interprétées. Dans la pratique, elles se présentent sous la forme de mots, de textes, de nombres, de diagrammes, d’images, etc.. Informations : Les informations sont obtenues par l’analyse, l’organisation ou encore

l’agré-gation structurée des données. Elles constituent un ensemble de données auquel un sens a été donné par l’établissement de connexions relationnelles entre elles. Contrairement aux données, les informations constituent une interprétation et permettent de fournir une description contextuelle et utile d’une situation spécifique.

Connaissances : Elle constitue une accumulation d’information et une synthèse de ces der-nières et permet la compréhension d’un sujet ou d’un domaine spécifique. La connaissance s’acquiert par l’expérience. Contrairement à l’information, la connaissance est souvent dé-crite comme non transférable. En informatique, et plus spécifiquement dans le cadre du Web Sémantique, la connaissance est souvent vue comme de l’information apprise des données et des informations qui en sont issues.

Sagesse : La sagesse, parfois aussi remplacée par « Intelligence », constitue une fonction men-tale. Elle est issue d’une acquisition pleine et entière des connaissances procurant la ca-pacité de s’en servir pour prendre de « bonnes décisions ». Elle correspond à la caca-pacité 1. : « Donnée, Information, Connaissance et Intelligence »

d’accroître l’efficacité, de porter un jugement de valeur, de prendre des décisions judicieuses et d’utiliser la connaissance pour le bien commun.

Dans cette section, j’ai défini le concept d’information de manière relative à ceux de donnée, de connaissance et de sagesse. La section suivante s’attache ainsi à donner une définition de la RI et du rôle de ce domaine de l’informatique.

3.1.2 Le rôle

La RI est avant tout un domaine de l’informatique dont le but premier est de fournir des outils et méthodes permettant à des utilisateurs d’accéder simplement à des informations per-tinentes relatives à leurs besoins. Ricardo BAEZA-YATES et Berthier RIBEIRO-NETO donnent la définition suivante de la RI [90] :

Æ Définition 7 (Recherches d’Information [90]) :

« Information retrieval deals with the representation, storage, organization of, and access to information items such as documents, Web pages, online catalogs, structured and semi-structured records, multimedia objects. The representation and organization of the informa-tion items should be such as to provide the users with easy access to informainforma-tion of their interest. »

La recherche d’information traite de la représentation, du stockage, de l’organisation et de l’accès à des « éléments d’information » tels que des documents, des pages Web, des ca-talogues en ligne, des enregistrements structurés et semi-structurés, des objets multimédia. La représentation et l’organisation de ces éléments d’information doivent être telles qu’elles permettent aux utilisateurs d’accéder facilement aux informations qui les intéressent.

Aujourd’hui, le domaine de recherche de la RI ne se limite plus à l’indexation de textes et à la recherche de méthodes permettant de les sélectionner. Elle regroupe, en effet, aujourd’hui de nombreuses sous-disciplines ayant pour certaines donné lieu à de véritables branches de la recherche en informatique telles que :

— les méthodes de modélisation de l’information ; — le Web Sémantique ;

— la conception d’interfaces utilisateurs et de visualisation de données ;

— la classification de textes et plus généralement les méthodes d’apprentissage ;

— les langages d’une manière générale incluant aussi bien le champs de recherche du TALN que les langages de requête.

D’un point de vue plus général, la RI est motivée de manière sous-jacente par deux grands types de problématiques à la fois complémentaires et s’impactant mutuellement :

— une problématique purement informatique visant à améliorer les performances et l’effica-cité2 des algorithmes et des outils permettant de rechercher de l’information (e.g. moteurs de recherche, algorithmes de tri, filtrage, index, etc.) ;

— une problématique centrée autour de l’utilisateur davantage « cognitive » et visant à ana-lyser et prendre en compte le comportement et les besoins des utilisateurs.

3.1.3 Le principe

L’ensemble des fonctions nécessaires à la RI sont assurées par des Systèmes de Recherche d’Information (SRIs). Ces derniers reposent sur un entrepôt d’informations généralement dé-nommé entrepôt central. Ces entrepôts sont simplement les bases de données qui maintiennent 2. Dans ce contexte, « les performances » font référence au temps de traitement des algorithmes et outils tandis que « l’efficacité » fait référence à leurs capacités à être à la fois précis et exhaustifs.

à travers les requêtes utilisateurs d’autre part. En somme, cette dernière joue donc un rôle d’interprétation.

Une stratégie d’appariement R : qui a pour objectif de mettre en correspondance la repré-sentation informatique de la requête avec celle des éléments d’information (i.e. apparie-ment). Elle vise à sélectionner les éléments d’information de l’entrepôt central qui sont pertinents vis à vis de la requête utilisateur. La stratégie d’appariement inclut parfois une étape finale de tri de ces éléments effectuée à l’aide d’une fonction de classement3. Elle permet d’attribuer un score de pertinence à chaque ressource pertinente identifiée, et ainsi, de présenter en premier lieu à l’utilisateur les éléments d’information les plus pertinents.

Les rôles de ces deux composants algorithmiques sont respectivement de « mettre à disposi-tion de l’informadisposi-tion » et de « fournir des méthodes pour la rechercher ».

Cette décomposition des SRIs en deux composants algorithmiques est cependant abstraite. Même si, dans la pratique, ces derniers peuvent être physiquement identifiables, ils n’en de-meurent pas moins dépendants l’un de l’autre. L’implémentation d’une stratégie d’appariement se fait ainsi relativement à la modélisation des données choisies et inversement.

Ensemble, la stratégie de modélisation et la stratégie d’appariement définissent le modèle de RI du SRI. Il existe une multitude de types de modèles de RI. Trois grandes classes de ces derniers sont abordées dans la section suivante.

3.2 Les modèles de recherche d’information classiques

Ricardo BAEZA-YATES et Berthier RIBEIRO-NETO proposent une taxonomie des diffé-rents modèles de RI qui est donnée en Figure 3.3 :

Type de document Texte

Liens Multimedia

Texte Semi-Structuré Nœuds proximaux, autre Basé sur XML

Web

Ordonnancement des pages Pôles & Autorités

Recherche de Multimédia Recherche d’image

Recherche d’audio et de musique Recherche de video modèles classiques de RI (Texte non-structuré) Booléen Vectoriel Probabiliste Algébrique modèle vectoriel généralisé Analyse sémantique latente Réseaux de neurones

Théorie des ensembles Floue (Fuzzy) Booléen étendu Ensembliste Probabiliste BM25 modèles de langues

modèles Divergence From Randomness Réseau Bayésien

Figure 3.3 –Taxonomie des modèles de RI.

Source : Baeza-Yates and Ribeiro-Neto [90, p. 60]

Dans le cadre de cette thèse, la RI s’effectue à la fois au sein de données structurées (e.g. données relatives aux patients, données relatives aux analyses biologiques, etc.) et non structu-rées en ce qui concerne les différents textes cliniques.

On retrouve dans cette taxonomie les trois grandes approches classiques de la RI sur les textes non structurés :

— l’approche Booléenne ; — l’approche Vectorielle ; — l’approche Probabiliste.

Ces trois approches seront brièvement abordées dans la suite de ce mémoire. Une atten-tion plus importante sera néanmoins accordée au modèle Booléen compte tenu de son intérêt particulier dans le cadre de la RI au sein d’un EDS.

3.2.1 Le modèle Booléen

Le modèle Booléen est un modèle de RI basé sur la théorie des ensembles et l’algèbre de Boole. Dans ce modèle, chaque élément d’information ei ∈ E est représenté par une simple conjonction des termes qui apparaissent dans ce dernier. Cet « ensemble de termes » est clas-siquement nommé Sac de mots et constitue l’unique structure sur laquelle repose la stratégie de modélisation. La mise en place de cette stratégie revient à construire un index indiquant la présence ou l’absence de chaque terme du corpus global (i.e. de l’ensemble E) au sein des différents éléments d’information qui le composent.

 Notation 2 :

Dans la suite de la section 3.1 on notera :

— T ∈ Nle nombre de termes distincts apparaissant dans l’ensemble de tous les éléments d’information ;

— T l’ensemble de tous ces termes ; — ti où i ∈ J1 ; T K tout terme de T . de telle sorte que :

T = (t1, t2, . . . , tT)

Cet index associe à chaque terme ti∈ T et à chaque élément d’information ej ∈ E la valeur binaire 0 ou 1 selon que le terme ti y est absent ou présent. Cela revient à constituer une matrice de E lignes et T colonnes à valeurs binaires de la forme suivante :

t1 t2 t3 t4 t5 t6 · · · tT e1 1 1 1 0 0 1 · · · 1 e2 0 0 0 0 0 0 · · · 0 e3 0 0 1 0 1 1 · · · 0 e4 1 0 0 0 0 1 · · · 1 e5 0 0 0 0 0 0 · · · 0 ... ... ... ... ... ... ... ... 0 eE 0 0 1 1 0 0 0 1

Lorsque cet index indique la présence d’un terme ti dans un élément d’information ej, ce terme constitue alors un terme indexant de l’élément d’information ej et que l’élément d’in-formation ej est indexé avec le terme ti.

Cette vision binaire est également exploitée pour la représentation logique des requêtes utili-sateurs. Ces dernières prennent par conséquent la forme d’expressions Booléennes. Les opéra-teurs Booléens classiques ET, OU et NON permettent de lier logiquement des termes indexant entre eux. Chaque terme indexant présent dans une requête désigne ainsi, l’ensemble des élé-ments d’information indexés avec ce terme. L’opérateur ET correspond à l’opération ensembliste d’intersection, l’opérateur OU à l’union et l’opérateur NON au complémentaire de l’ensemble. Une requête Booléenne est modélisée par une expression ensembliste et l’appariement s’effectue en calculant ces expressions (voir exemple 3).

¸ Exemple 3 :

Soit un entrepôt central composé de 5 éléments d’information e1, e2, e3, e4et e5 et 7 termes notés a, b, c, d, e, f et g pouvant potentiellement indexer ces éléments d’information. Le détail des indexations choisies est donné ci-dessous :

e1 a b c d e f g e2 c d e f g e3 a b e g e4 a c f e5 b c a b c d e f g e1 1 1 1 1 1 1 1 e2 0 0 1 1 1 1 1 e3 1 1 0 0 1 0 1 e4 1 0 1 0 0 1 0 e5 0 1 1 0 0 0 0 ⇔

Soit la requête Booléenne q = “a” ET (“b” OU NON “e”). Les termes “a”, “b” et “e” de

q correspondent alors aux ensembles :

“b”= {e1, e3, e5} “e”= {e1, e2, e3}

L’interprétation de la requête Booléenne q en terme d’opérations ensemblistes est alors la suivante :

qM = {e1, e3, e4} ∩ ({e1, e3, e5} ∪ ∁{e1, e2, e3}) = {e1, e3, e4} ∩ ({e1, e3, e5} ∪ {e4, e5}) = {e1, e3, e4} ∩ {e1, e3, e4, e5}

= {e1, e3, e4}

Le SRI renverra donc les éléments d’information e1, e3 et e4 pour la requête q.

Le modèle de RI Booléen est le modèle historique de la RI. Il a été largement exploité notamment dans le cadre des moteurs de recherche bibliographiques. Il constitue un modèle aisé à implémenter et efficace [91]. Son formalisme rigoureux, son exactitude et son aspect « mécanique » et/ou « systématique » constituent à la fois sa principale force et sa principale faiblesse. Il permet, en effet, un requêtage sûr et fin des informations à l’aide de requêtes logiques, précises, facilement composables et « transparentes » dans le sens où la méthode d’exécution employée par le SRI pour l’exécuter est aisée à comprendre pour l’utilisateur. Il n’offre, en revanche, aucune flexibilité compte tenu que les résultats ne répondant qu’approximativement aux requêtes utilisateurs ne sont pas renvoyés. De plus, les termes indexant n’étant pas pondérés, ce type de modèle ne permet pas l’implémentation de fonction de Ranking rendant possible un tri par pertinence des résultats.