• Aucun résultat trouvé

Une approche ancrée dans la problématique expérimen- expérimen-taleexpérimen-tale

synthèse d'information

3.2 Point de vue adopté sur la synthèse .1 Introduction.1 Introduction

3.2.3 Une approche ancrée dans la problématique expérimen- expérimen-taleexpérimen-tale

3.2.3.1 Introduction

Ainsi qu'il vient d'être exposé, le problème de synthèse, si considéré dans un cadre générique, est très complexe, selon divers points de vue.

Tout d'abord, la notion de synthèse est fédératrice de nombreuses tâches très diverses. Par exemple, on peut considérer une revue contradictoire et exhaustive d'une thématique, la progression historique d'une idée, la répartition géographique d'un problème, la comparaison de plusieurs ensembles, etc.

Ensuite, la résolution informatisée de chacune de ces tâches implique de repro-duire un processus manuel spécique. Même si certaines activités sont identiques d'une tâche à l'autre, elles ne le sont pas toutes : une répartition géographique im-plique une classication par exemple par continent, puis pays, puis région, alors qu'une étude historique induit la construction d'une chronologie. Le champ des ac-tivités, qui peuvent être interprétées comme des problématiques à résoudre, est donc de plus en plus grand, au fur et à mesure qu'on multiplie le nombre de tâches de synthèse.

Première-ment, tout jeu de documents s'inscrit dans un domaine applicatif particulier. Or on peut envisager pléthore de domaines applicatifs, de la littérature à la mécanique quantique, de la cuisine à l'oncologie, etc. Pour chacun de ces domaines, nombre de corpus documentaires peuvent être envisagés. Ainsi, dans le cas de la recherche en oncologie, on peut considérer tous les articles recensés par PubMed1 ou uniquement ceux publiés par une liste prédénie de revues de références ; parallèlement on peut prendre en compte uniquement les données acquises au sein d'un laboratoire, ou les associer à des données publiées par d'autres équipes sur Internet. Se pose alors un problème de nature des informations, du texte libre des articles à des données numériques en passant par des documents multimédia.

La résolution du problème de synthèse dans un contexte générique est donc di-cilement envisageable, et la solution proposée est de limiter l'espace d'interrogation. Cette limitation de point de vue est ici dirigée par la problématique qui a été à l'origine de la dénition du problème de synthèse : l'appréhension de données TMA, en tant qu'étape préalable à une fouille de données et en tant qu'outil permettant de replacer les données acquises par une technologie à haut débit dans une démarche expérimentale classique.

Ancrer la problématique de synthèse dans le contexte des Tissue MicroArrays permet une réduction du champ d'investigation, aussi bien en ce qui concerne la liste des tâches de synthèse, les activités à mettre en ÷uvre pour mener les tâches de synthèse à bien, du fait de problématiques particulières à résoudre, et l'espace documentaire à considérer ainsi qu'il sera présenté par la suite.

3.2.3.2 Des tâches spéciques

Placer la problématique de synthèse dans le contexte applicatif des données Tissue MicroArrays implique tout d'abord de s'intéresser aux objectifs poursuivis par les chercheurs qui ont recours à la technologie, dans un cadre de recherche en oncologie. Ces objectifs peuvent être envisagés selon plusieurs perspectives.

Un premier point de vue est orienté par les éléments d'intérêt de l'étude et con-siste en une transposition dans un contexte d'exploitation de données des types de conceptions de blocs TMA évoqués par [Kajdacsy-Balla et al., 2007]. Dans ces travaux, plusieurs types de plan de construction de TMA sont proposés :

⋆ Outcomes-based TMA : il s'agit de regrouper les individus ayant le plus d'informations de suivi dans leurs dossiers cliniques, an d'évaluer les molécules en tant que marqueurs de pronostic,

⋆ Progession-based TMA : l'objectif ici est de montrer comment évoluent les tissus au cours du processus de transformation tumorale, en regroupant 1http ://www.ncbi.nlm.nih.gov/sites/entrez ?db=pubmed

des échantillons de tissus prélevés chez des donneurs sains, des tissus jugés sains chez des patients atteints de cancer, des tissus pré-cancéreux, des tissus tumoraux à divers stades, des tissus issus de récidive et métastases,

⋆ Tumor-grade TMA : cette conguration vise à présenter les divers stades du cancer,

⋆ Tumor heterogeneity TMA : avec des échantillons prélevés du c÷ur de la tumeur au tissu sain périphérique en passant par la frontière entre les deux, ce plan propose une étude des phénomènes d'inltration,

⋆ Consecutive cases TMA : plan le plus courant dans la littérature, il consiste à regrouper l'ensemble du matériel biologique disponible,

⋆ Specialty TMA : ce terme regroupe l'ensemble des TMA construits dans un but précis autre que ceux exposés avant.

Bien que présentant l'avantage de décomposer la problématique d'exploitation des données TMA en plusieurs types d'études ou tâches, le recours à une telle organisa-tion pose un certain nombre de problèmes.

Tout d'abord, la spécicité vis à vis du domaine applicatif est extrêmement forte : ces tâches ne peuvent aucunement être transposées hors du champ de la recherche en oncologie. De plus, l'existence du modèle Specialty TMA est problématique, puisqu'il couvre une multitude de tâches diverses qui ne sont pas recensées ni ex-plicitées. Enn, si ces plans suggèrent des critères de sélections d'individus et de présentation compacte des données sous forme de grille comme au sein d'un bloc TMA, ils fournissent peu de direction quant aux activités d'extraction d'informa-tions, d'organisation conceptuelle ou d'organisation structurelle.

Il semble donc pertinent d'analyser les objectifs de la recherche en oncologie en conjonction avec les objectifs dénis de l'appréhension des données TMA, c'est-à-dire un préalable à la fouille de données et une méthode pour se replacer dans une démarche expérimentale classique.

Or, une exploration préalable à une fouille de données doit permettre d'appréhen-der la structure de l'espace informationnel. Conjointement, la recherche en oncologie a été introduite comme visant à proposer des tests de dépistage (c'est-à-dire des éléments de diagnostic), des protocoles thérapeutiques (qui passent par une étude d'éléments de pronostic), en étudiant les mécanismes de transformation tumorale (soit une dynamique). Ces thèmes sont alors à envisager dans une perspective de tests d'hypothèses an de permettre de se replacer dans le cadre d'une démarche expérimentale classique.

Des tâches permettant de rendre compte de ces problématiques de structure, pour préparer la fouille, et de diagnostic, pronostic et dynamique, pour se replacer dans une démarche expérimentale classique, doivent donc être mises en place.

la répartition des individus en divers groupes. Basée sur la valeur d'une variable, il s'agit d'une distribution ; construite automatiquement par des algorithmes de clas-sication, elle peut être assimilée à la comparaison entre les groupes construits par le classieur.

Pour le pronostic, il s'agit par exemple de montrer une corrélation entre le devenir des patients et des quantications de marquage pour des molécules particulières, ce qui peut être envisagé par exemple sous la forme de l'évolution de l'espérance de vie en fonction d'un pourcentage de cellules marquées en une molécule.

Au niveau diagnostic, il peut s'agir de trouver des molécules dont le marquage est signicativement diérent entre tissus normaux et tissus tumoraux. Une telle étude peut être réalisée en comparant des pourcentages de cellules marquées entre divers types de tissus.

Enn, pour montrer la dynamique de la transformation tumorale, alors que ne sont disponibles que des images à l'instant de l'ablation de la lésion pour chaque patient, la dimension temporelle se trouve remplacée par la notion de stade du cancer et une chronologie devient une construction multi-patients. La dynamique est alors illustrée par une comparaison entre groupes de patients à divers stades ou par l'évolution d'une mesure en fonction du stade.

Dans ce contexte, trois grandes catégories de tâches ont donc été envisagées, en collaboration avec les futurs utilisateurs du système, c'est-à-dire des biologistes et médecins, et dans un souci de généralisation à d'autres domaines applicatifs : comparaison, évolution et distribution.

3.2.3.3 Des problématiques spéciques à résoudre

Ayant posé une dénition succincte des tâches de synthèse considérée dans le cadre de l'exploitation des données TMA, il s'agit alors de déterminer plus précisé-ment quels groupes d'activités sont impliqués dans ce contexte particulier et quelles problématiques spéciques doivent être résolues dans le cadre de ces activités.

De manière générale, la synthèse a été présentée comme la combinaison d'activ-ités de formulation d'une étude à réaliser, de sélection d'entd'activ-ités pertinentes, d'extrac-tion d'informad'extrac-tions intéressantes à partir des entités pertinentes, d'organisad'extrac-tion ceptuelle des informations, d'organisation structurelle reétant l'organisation con-ceptuelle, de présentation d'un document de synthèse, le tout réalisé en prenant en compte des connaissances du domaine applicatif et en prenant en compte la qualité des éléments produits. Dans le cadre des tâches de comparaison, évolution et distri-bution envisagées dans le contexte de l'appréhension des données TMA, ces diverses activités peuvent être décrites de manière un peu plus précise.

Ainsi, la sélection d'entités pertinentes implique le choix de patients intéressants dans le contexte de l'étude à réaliser, sur la base de leurs dossiers cliniques et des données histologiques disponibles. L'extraction d'informations reviendrait alors à choisir, au sein des dossiers cliniques et des données histologiques, les variables d'intérêt, comme un stade, un pourcentage de cellules marquées, etc. De manière générique, ces deux types d'activités peuvent être considérées comme des activités de sélection.

Ensuite, l'organisation conceptuelle doit reéter la problématique centrale de cha-cune des tâches. Ainsi, la comparaison induit la construction d'une hiérarchie de groupes d'individus, guidée par des algorithmes de classication ou des valeurs de variables. L'évolution sous-tend la dénition d'un ou des individus représentatifs de chaque combinaison de valeurs pour deux variables. La distribution requiert le groupement d'individus selon la valeur d'une variable. Reéter structurellement ces organisations conceptuelles induit la dénition d'une distance, et le placement des groupes et des individus de proche en proche selon cette distance. Intimement liées ces deux activités d'organisation conceptuelle puis structurelle peuvent être envis-agées conjointement en tant qu'activités d'organisation.

Ensuite, la présentation du document de synthèse, qui est construit dans un but exploratoire, ne se limite pas à l'achage d'une structure compacte issue de l'organisation des éléments, mais doit aussi permettre l'accès au contexte, soit aux dossiers cliniques complets et informations histologiques, dont les images de lames et spots. Ces activités d'achage tout à la fois d'une vue de synthèse et de vues annexes sur les données constituent des activités de présentation.

Enn, l'ensemble sous-tend des considérations qualité. Comme il a été exposé dans le Chapitre 1, l'acquisition de données expérimentales n'est jamais exempte d'erreurs ni d'approximations. Conjointement, les dossiers cliniques, et en particulier les informations de suivi, sont rarement complets : les archives papier n'ont pas été complètement informatisées, le patient a été perdu de vue par l'hôpital suite à un déménagement, etc. Cet état de fait implique l'intégration d'une démarche qualité au sein de chacune des trois grandes classes d'activités considérées : sélection, organisation et présentation.

La sélection est l'activité où la majorité des problématiques qualité interviennent. Les problèmes de données impliquent en eet la gestion des données manquantes, que ce soit en excluant de la sélection les patients dont les dossiers cliniques et informa-tions histologiques sont incomplets, ou en inférant ces données à partir d'individus similaires. De plus, les données histologiques sont acquises à partir d'échantillons biologiques stockés en blocs de parane suite à un ensemble de traitements. Or, il existe d'éventuelles incidences du traitement parane sur l'immunomarquage. Ceci induit une prise en compte d'une validité spatio-temporelle de l'utilisation conjointe des échantillons. Au cours du temps, et d'une institution à l'autre, divers protocoles d'inclusion dans la parane, conduisant à des marquages variables, ont en eet été

utilisés.

Au niveau organisation, ce sont les limites posées par l'espace dans lequel peuvent être présentées les informations, au sein du document de synthèse, qui doivent être prises en compte. En eet, l'objectif est la construction d'une visualisation compacte, et l'inadéquation entre l'espace disponible et le volume d'informations sélectionnées peut induire soit l'exclusion, soit l'inclusion d'objets, selon le même type de critères qualité que la sélection.

Ainsi, chacune des tâches de synthèse envisagées peut être décomposée en trois grands ensembles de problèmes à résoudre, sélection, organisation et présentation, qui incluent entre autres des problématiques qualité.

3.2.3.4 Un espace documentaire particulier

Une autre spécicité du domaine TMA vis à vis de la synthèse est l'espace doc-umentaire à considérer. En eet, envisagé dans un cadre générique, cet espace peut prendre diérentes formes : des textes, des représentations de documents, des don-nées, des documents multimédia, etc.

Cette diversité pose problème dans la résolution, chaque activité devant être déclinée de manière spécique pour chaque forme de document. Par exemple, la sélection sur du texte libre induit des techniques de Recherche d'Information, alors que sur des éléments à la granularité très ne comme des items stockés en base de données, de simples systèmes de correspondance exacte, comme des requêtes SQL de type SELECT, susent.

Le contexte TMA induit comme sources d'informations les dossiers cliniques des patients et des données histologiques telles que des mesures de marquages et des informations concernant blocs, lames et spots, dont des images.

Cet espace documentaire est hétérogène, puisqu'il inclut des formes de documents variées : du texte libre (comptes-rendus des médecins dans les dossiers par exemple), des mots (un diagnostic par exemple), des valeurs numériques (une mesure de mar-quage), des éléments multimédia (images de spots). Il est aussi structuré à diverses échelles, du patient considéré dans son ensemble au niveau intracellulaire. Cette hétérogénéité, associée aux relations intriquées existant entre les divers éléments, est source de complexité.

Mais cette complexité peut être limitée. En particulier, l'existence d'une structure commune à tous les dossiers cliniques facilite l'appréhension de l'espace documen-taire.

De plus, les éléments les plus complexes sont les textes et les images. Or, les informations essentielles sont en général représentées sous une forme autre : le texte n'intervient qu'en support ou explicitation de valeurs quantitatives ou qualitatives et les images sont associées à des annotations sous forme de mots clés. Textes et images en tant que tels peuvent donc être laissés de côté dans un premier temps, ne gardant que des données brutes.

3.2.3.5 Une tâche particulière en support à la conception

Se focaliser sur le contexte TMA pour appréhender le concept de Recherche d'In-formation orientée tâche a permis de limiter le champ d'investigation du problème. Ainsi, les tâches de synthèse à considérer sont des tâches de synthèse de données, qui sont envisagées comme relevant de trois catégories : comparaison, évolution et dis-tribution. Ensuite, ces tâches sous-tendent des activités de sélection, organisation et présentation, qui incluent des problématiques qualité. Enn, le corpus documentaire, bien que complexe, est bien structuré et laisse peu de place au texte libre.

Mais cette vision reste encore trop générale pour permettre une appréhension ne de la problématique de synthèse dans le cadre applicatif des TMA. Une méthode courante dans ces circonstances est de se baser sur un exemple, qui guide à l'arrière plan les réexions. C'est la démarche que j'adopte ici.

Comme indiqué précédemment, la technologie des TMA se veut un outil de recherche en oncologie. Parmi les objectifs de cette recherche, on peut citer les problématiques de diagnostic, soit entre autres de détermination de molécules dont l'expression est signicativement diérente entre tissus sains et tissus pathologiques. C'est une problématique de ce type qui va être envisagée comme support à la suite de la réexion.

Parmi les problèmes courants rencontrés en routine par les anatomopathologistes, on peut citer l'observation des pièces opératoires pour déterminer si toute la tumeur a bien été retirée. Se pose alors la question de la frontière entre la tumeur et le reste de l'organe, qui n'est pas forcément très nette. Cette question induit d'étudier s'il y a des diérences signicatives entre tissu tumoral et tissu adjacent à la tumeur. Ces diérences peuvent être évaluées par comparaison entre tissus tumoraux et adjacents pour un groupe de patients homogène, par exemple ayant la même pathologie de can-cer du côlon. L'élément à comparer, puisque la problématique est envisagée au niveau tissulaire, peut être le pourcentage de cellules marquées pour diverses molécules im-pliquées dans la transformation tumorale. Une prise en compte du compartiment cellulaire dans lequel est situé le marquage peut permettre une comparaison plus ne.

pourcentage de cellules marquées entre les diérentes molécules étudiées, entre tissus tumoraux et adjacents à la tumeur, en fonction de la localisation intracellulaire du marquage, chez les patients atteints d'un cancer du côlon.

La Fig. 3.3 illustre le type de résultat théorique qui pourrait être envisagé pour cet exemple. La comparaison entre les diérentes molécules étudiées conduit à la constitution de quatre groupes, un par marqueur. Ensuite, la comparaison en fonc-tion de la localisafonc-tion du tissu par rapport à la tumeur induit le découpage de chaque groupe en deux sous-groupes, un pour le tissu adjacent à la tumeur et l'autre pour le tissu tumoral. Puis la comparaison en fonction de la localisation intracellulaire du marquage induit le découpage de chaque sous-groupe en trois ensembles, un par compartiment intracellulaire : membrane, cytoplasme, noyau. Enn, les individus, au sein de chaque groupe de niveau le plus n, présentent les mesures de pourcentage de cellules marquées correspondants.

Fig. 3.3: Résultat théorique de l'exemple de comparaison - Les diverses axes de comparaison in-duisent la constitution de groupes imbriqués dans lesquels les individus (les petits carrés) présentent

leur pourcentage de cellules marquées, objectif de la comparaison.

Cette base applicative étant posée, il s'agit alors d'évaluer comment l'angle Recherche d'Information orientée tâche envisagé pour la notion de synthèse

s'ar-ticule avec les divers modèles de Recherche d'Information existants, objectif de la prochaine section.

3.3 Modèle de synthèse