• Aucun résultat trouvé

La recherche d’information au sein de données cliniques

3.3 Le contexte de la santé

3.3.2 La recherche d’information au sein de données cliniques

L’information clinique est définie comme l’information nécessaire à l’amélioration de la pratique clinique et de son efficacité [108]. Elle se matérialise essentiellement par des données relatives aux patients ou par des connaissances médicales organisées et utiles pour la prise de décision médicale [109, 110]. L’information clinique se distingue de la notion de connais-sance médicale, dont la transmission est assurée par le biais de littérature scientifique. Elle peut néanmoins en résulter. L’établissement d’un diagnostic constitue, par exemple, une information clinique à part entière bien que ce dernier résulte de l’application de connaissances médicales.

L’un des aspects fondamentaux de l’information clinique réside dans son extrême hétérogé-néité. Comme le montre intrinsèquement la section 2.2, l’information clinique dans son ensemble est transmise à travers de nombreuses données qui sont de natures différentes, produites dans des contextes et des objectifs de santé variés et qui concernent différents aspects de santé des patients. Cette multiplicité des données tend à s’amplifier avec l’apparition des objets connectés et des applications qui leurs sont dédiées depuis le début des années 2010 (e.g. Google Fit, Apple Health etc.).

L’un des défis majeurs de la RI dans les données cliniques réside dans l’aptitude des SRIs à mettre en relation ces dernières. Les questions que les professionnels de santé peuvent être amenés à se poser sont, en effet, souvent complexes et nécessitent la contextualisation et la mise en relation de diverses données et informations cliniques relatives aux patients [48]. La précision du domaine médical a toujours fait de l’expression des besoins d’information une problématique à part entière de la RI en santé [111–114].

La structuration des données et la modélisation des informations qui en découlent permet de favoriser la précision de la RI mais également sa spécificité. Il semble, en effet, cohérent que le choix d’une modélisation entraîne l’adoption d’une vision particulière de l’information et condi-tionne ainsi l’étendue et les caractéristiques des fonctionnalités de RI qui pourront être fournies. Dans le cadre de l’information clinique, cette modélisation reste néanmoins sujette à plusieurs limitations. La diversité des cas d’usages de l’information clinique requiert une modélisation générique de cette dernière. De plus, les professionnels de santé restent parfois rétissants à pro-duire des données structurées notamment en raison de l’investissement en temps et de la perte d’expressivité que peut représenter cette production [115]. Une grande quantité de l’informa-tion clinique, et plus généralement de l’informal’informa-tion de santé, existe ainsi sous forme de données non structurées. La structuration a posteriori de l’information de santé reste ainsi la norme. Elle peut être partiellement effectuée via l’exploitation de TOs comme outils de représentation sémantique de l’information de santé. C’est d’ailleurs le principe sur lequel repose la RI docu-mentaire et bibliographique. Bien qu’essentiel, ce principe ne permet cependant pas de répondre pleinement à la problématique de mise en relation contextuelle des informations cliniques. Com-parativement au cas d’usage de la RI bibliographique, la RI au sein de données cliniques s’appuie sur un ensemble d’information dont l’organisation conceptuelle est plus complexe (cf. Figure 3.6).

Un SRI documentaire ou bibliographique ne permet de manipuler qu’un seul et même type de ressource. Bien que des champs descriptifs additionnels (e.g. titre, auteur, etc.) puissent éventuellement accompagner ces ressources, ils s’apparentent conceptuellement à de simples méta-données ou attributs de la ressource principale. A contrario, les données cliniques ne se limitent pas à une collection uniforme de ressources. Elles font intervenir de multiples notions médicales disjointes (e.g. patients, comptes-rendus, analyses biologiques, etc.). D’un point de vue conceptuel, il est donc plus naturel de représenter l’information clinique dans sa globalité sous forme de multiples entités interconnectées qu’à l’aide d’un objet structuré unique global. En d’autres termes, l’information clinique peut s’apparenter à un graphe de données.

L’utilisation des graphes comme modèle de représentation des informations de santé est devenu de plus en plus courante ces dernières années [116] et a permis de s’adresser à des problématiques diverses, notamment dans le cadre de l’extraction d’informations [117, 118]. Ces innovations ont, par ailleurs, largement été portées par celles du Web sémantique [27] et du modèle de graphe . Il faut néanmoins noter que, conceptuellement, l’utilisation de graphes

comme formalisme de représentation des connaissances a débuté dès les années 1980 avec les graphes conceptuels [119, 120]. Texte Titre Resumé Auteur Date Concept · · · Patient Séjour Diagnostic CIM–10 Biologie Acte Texte Clinique Unité médicale Concept

Données documentaires Données cliniques

Figure3.6 –Différence structurelle entre l’information documentaire et l’information clinique

La structure de graphe permet une modélisation générique de l’information. Elle engendre la migration d’un « univers mono-entité », au sein duquel l’information est vue comme un ensemble de ressources structurellement fixes et munies de méta-données, vers un univers « multi-entités » dans lequel divers types d’informations coexistent et sont en relation logique définissant une sémantique. Cette structure semble ainsi apporter suffisamment de flexibilité pour répondre à un large panel de cas d’usages relatifs à l’exploitation d’informations cliniques. Cependant, ce constat ne suffit pas à lui seul à répondre aux problématiques pratiques de RI au sein d’un EDS. La question d’une implémentation théoriquement cohérente et opérationnellement viable d’un « graphe de données cliniques » reste une « pierre angulaire » de ces dernières. La définition rigoureuse d’un modèle de graphe permettant de s’accommoder opérationnellement avec les volumétries considérables des données d’un EDS reste donc à définir. Dans le chapitre suivant, je m’attache à développer certains éléments du Web sémantique. Ce domaine apporte en effet déjà des réponses à la problématique de données interconnectées notamment par le biais de la RI sémantique. Le modèle sémantique définit, en effet, des unités sémantiques (concepts, instances de concepts, etc.) qui peuvent être reliées par des relations (relations hiérarchiques ou rôles) [121] au sein d’un graphe sémantique. Le Web sémantique généralise de plus cette vision notamment par l’intermédiaire du modèle de graphe . Les travaux effectués autour du Web sémantique présentent donc un intérêt particulier dans le cadre de mes travaux de thèse.

Les méthodes de stockage de

graphes de données

Sommaire

4.1 Le Web de données . . . . 91

4.1.1 Le Resource Description Framework . . . 91