• Aucun résultat trouvé

Diseases – Physiopathology Molecules

2.6 Les biais du DPM

Comme toute méthode, le DPM induit des biais qu'il convient de bien connaître avant toute analyse pour pouvoir mieux évaluer la valeur des résultats produits dans les tableaux. Nous en avons retenus cinq.

2.6.1 La nature du lien entre deux concepts

Le plus évident est qu'un lien est supposé exister entre deux concepts dès lors qu'ils sont co-occurrents. Or, nous l'avons vu avec les expériences de Swanson (voir 1.3.2.1), deux termes peuvent très bien figurer dans un même article sans qu'ils soient pour autant connectés de manière logique. L'analyse des concepts dans les tableaux doit tenir compte de cet aspect qui est certainement la source principale de faux positifs. Une manière de réduire ce biais pourrait être de coordonner les descripteurs entre eux à l'interrogation et à l'extraction. Par exemple, si l'on travaille sur une maladie M dans le but d'identifier les phénomènes physiologiques impliqués, il faut interroger Medline sur la maladie M en utilisant le subheading physiopathology (M/physiopathology), dans le but de ne sélectionner que des citations traitant de cet aspect. Les descripteurs des phénomènes physiologiques associés auront ainsi plus de chance d’être liés à la physiopathologie de la maladie M.

Le subheading physiopathology peut donc servir à cerner plus précisément les citations où un lien entre maladie et physiologie peut être décrit.

Il en va de même avec les subheadings chemically induced ou drug effects d'une part et, d'autre part, pharmacology, adverse effects, poisoning ou toxicity, qui mettent en évidence des relations entre molécules et phénomènes biologiques. L’emploi de ces couples de subheadings augmente la pertinence des références retrouvées si l’on cherche à identifier l’impact de substance sur des phénomènes biologiques [Swanson, 1990b]. Cependant, l’ajout de nouveaux critères à l’interrogation entraînera une diminution du nombre de citations déchargés : se profil le risque de "passer à côté" d’une connexion pertinente.

2.6.2 L'utilisation du MeSH

Découlant du premier biais, le second réside en l'utilisation du MeSH qui peut induire des biais de trois natures.

Le MeSH comporte certes près de 23.000 termes, mais ne décrit pas l'ensemble des concepts mis en jeux dans le domaine biomédical, domaine immense où les niveaux moléculaires, cellulaires, organes et organismes sont étroitement dépendants, mettant en jeux des relations et interactions d'une formidable complexité. Bien des aspects de la biologie ne sont pas précisément décrits par un concept du MeSH.

Se pose également la question de la nouveauté. Ainsi, pour ne prendre qu'un seul exemple, le MeSH ne décrit les différents récepteurs nucléaires de type PPARs36 que depuis sa version 2005, alors qu'ils sont identifiés depuis plus d’une dizaine d’années. Cependant, le MeSH ne rentre pas dans la description fine des sous-types identifiés. Tout thesaurus ou vocabulaire contrôlé intègre des concepts bien établis dans la discipline à laquelle il est rattaché, laissant l'innovation et les évolutions récentes de côté en attendant qu'elles soient stabilisées, confirmées et intégrées. Il se produit un décalage entre les nouveaux concepts et ceux d'un thesaurus. Ce sont les administrateurs d'un thesaurus qui définissent le niveau de finesse que ses descripteurs vont permettre d'atteindre. Le DPM utilise le MeSH de manière détournée, utilisation qui ne figure, à notre connaissance, au cahier des charges d’aucun thesaurus.

Enfin, la constitution des dictionnaires à partir du MeSH peut elle-même introduire un biais : le DPM ne retrouvera que les concepts intégrés dans les dictionnaires employés pour une analyse donnée.

36 Peroxisome Proliferator-Activated Receptors, facteurs de transcription de l’ADN. Ils sont les

cibles de certains traitements du diabète de type II.

2.6.3 Choix des phénomènes physiologiques

Le contenu d’un tableau DPM est entièrement dépendant du choix des phénomènes physiologiques à traiter, en quantité et en qualité.

Plus un DPM analysera de phénomènes physiologiques simultanément, moins il mettra en évidence d’éléments communs.

Si les littératures sur les phénomènes physiologiques sont réalisées à partir de descripteurs majeurs, les liens mis en évidence seront probablement plus pertinents, mais moins nombreux. Une requête formulée avec des descripteurs majeurs aura moins de réponse que si on n’emploie pas cette pondération. Il en est de même avec l’utilisation des subheadings.

La qualité d’un tableau DPM dépend également du choix des descripteurs : trop généraux, le tableau produit sera long avec beaucoup de bruit, trop restrictifs, le tableau risque d’être vide. Réaliser différentes itérations autour d’un sujet donné, en modifiant le nombre de phénomènes physiologiques étudiés, leurs combinaisons, leurs formulations en concepts est nécessaire dans la production d’une analyse DPM.

2.6.4 Problèmes de hiérarchie

L’utilisation de concepts hiérarchisés par le DPM conduit à passer à côté de liens. Imaginons deux articles indexés l’un par un concept, l’autre par son spécifique. Ces deux articles abordent donc le même sujet (le second étant focalisé sur un point plus particulier). Ce sujet les lie. Cependant, la recherche automatique des concepts communs, pris au sens strict, n’identifiera pas ce lien. Par exemple, Eicosapentaenoic Acid est un spécifique de Fish Oils. Si

ces deux descripteurs appartiennent à deux littératures différentes pour lesquelles on cherche à mettre en évidence des éléments communs, le DPM ne les retiendra pas, alors qu’ils peuvent constituer un lien pertinent. Notre outil DPM de recherche non booléenne identifie des termes, de l’enchaînement de caractères, communs à deux fichiers. Il n’interprète pas les hiérarchies du

MeSH. Retraiter les citations Medline en y ajoutant les spécifiques de chaque descripteur pourrait être un moyen de contourner ce problème.

2.6.5 Thesaurus et résultats négatifs

Les descripteurs du MeSH décrivent les concepts abordés dans un article et dans une certaine mesure, avec les subheadings, le contexte. Mais le MeSH ne permet pas de décrire la nature des résultats obtenus. Les deux propositions "A soigne B" et "A ne soigne pas B" seront décrites de la même manière. La citation dont le titre et les descripteurs suivent illustre bien ce cas :

Resistant arterial hypertension and hyperlipidemia: atorvastatin, not vitamin C, for blood pressure control.

Antihypertensive Agents/*therapeutic use Ascorbic Acid/*therapeutic use

Blood Pressure/drug effects

Antihypertensive Agents correspond à l’atorvastatin. Le lien entre atorvastatin et hypertension est positif, le titre l’annonçant. En revanche, la vitamine C (Ascorbic Acid) ne permet pas de contrôler l’hypertension. Cette information ne figure pas dans les descripteurs. Si on ne considère que les descripteurs – ce que fait le DPM – nous pourrions créer deux co-occurrences physiologie/molécule, Antihypertensive Agents-Blood Pressure et Ascorbic Acid- Blood Pressure qui semblent indiquer que la vitamine C comme l’atorvastatine agissent sur l’hypertension. Il s’agit, pour la paire Ascorbic Acid- Blood Pressure d’un faux positif, que l’expert détectera lors de l’analyse.