• Aucun résultat trouvé

Forˆets al´eatoires et apprentissage dans les espaces de dissimilarit´es: application `a la pr´ediction en canc´erologie par association de la radiomique et de la g´enomique

N/A
N/A
Protected

Academic year: 2022

Partager "Forˆets al´eatoires et apprentissage dans les espaces de dissimilarit´es: application `a la pr´ediction en canc´erologie par association de la radiomique et de la g´enomique"

Copied!
3
0
0

Texte intégral

(1)

Forˆets al´eatoires et apprentissage dans les espaces de dissimilarit´es: application ` a la pr´ediction en canc´erologie par

association de la radiomique et de la g´enomique

Mots-clefs : Espace de dissimilarit´ es, Forˆ ets Al´ eatoires, donn´ ees h´ et´ erog` enes, Ra- diomique.

Financement : Allocation de recherche de la r´egion Normandie (financement obtenu pour la p´eriode du 01/10/2016 au 30/09/2019)

Encadrement:

Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14 Simon BERNARD (co-encadrant), simon.bernard@univ-rouen.fr, (+33) 2 32 95 52 05 Equipe d’accueil´ :

Equipe Apprentissage, laboratoire LITIS (EA 4108), Universit´´ e de Rouen (http ://www.litislab.fr/equipe/docapp/)

1 Profil recherch´ e

Le candidat recherch´e doit ˆetre titulaire d’un Master (ou ´equivalent) dans le domaine des Sta- tistiques, de l’Informatique ou du G´enie Informatique avec une dominante Sciences des Donn´ees ou Traitement du Signal et des Images. Il doit avoir de solides connaissances en apprentissage et classification.

2 Laboratoire et ´ equipe d’accueil

Le laboratoire d’informatique, du traitement de l’information et des syst`emes (LITIS) est l’unit´e de recherche en sciences et technologies de l’information de Haute Normandie. Il regroupe les en- seignants chercheurs du domaine des STIC des trois principaux ´etablissements d’enseignement sup´erieur publics de la r´egion : l’Universit´e de Rouen, l’Universit´e du Havre et l’Institut Natio- nal des Sciences Appliqu´ees (INSA) de Rouen. Il accueille plus de 160 personnes dont environ la moiti´e de doctorants. Le LITIS est structur´e en sept ´equipes dont les th`emes de recherche couvrent un large spectre des STIC, de la recherche fondamentale aux domaines appliqu´es, cr´eant des ponts vers le vivant et vers les sciences humaines.

Les travaux de th`ese s’ins´ereront dans l’´equipe ”Apprentissage”, ´equipe compos´ee d’une quin- zaine d’enseignants-chercheurs de l’Universit´e de Rouen et de l’INSA de Rouen et d’une quin- zaine de doctorants. Localis´ee sur le campus du Madrillet, les recherches de l’´equipe concernent le d´eveloppement d’outils et de m´ethodes g´en´eriques permettant d’interpr´eter des donn´ees vari´ees de par leur structure, leur dimensionnalit´e, leur stationnarit´e, et issues de contextes h´et´erog`enes (signaux, images, textes). Ces travaux sont abord´es essentiellement sous l’angle de l’apprentissage

`

a partir d’exemples et de connaissances a priori dans le cadre structurant de la reconnaissance de formes.

Les comp´etences d´evelopp´ees dans l’´equipe sont essentiellement de nature th´eorique et algorith- mique et concernent les machines `a noyaux (SVM, Kernel PCA, apprentissage de noyaux multiples), les mod`eles markoviens (HMM multi-streams, champs al´eatoires, CRF), la classification `a partir de

1

(2)

graphes (mise en correspondance de graphes, recherche d’isomorphisme de sous-graphes, classifica- tion de graphes) et la s´election de mod`eles (analyse des risques d’estimateurs, apprentissage avec coˆuts inconnus ou ´evolutifs, r´eglage d’hyper-param`etres dans le cadre des m´ethodes d’ensemble). Les domaines dans lesquels ces travaux trouvent leurs applications sont principalement le traitement au- tomatique de l’´ecrit et des images de documents (reconnaissance de l’´ecriture manuscrite, spotting de mots et de symboles, extraction d’information, analyse de documents manuscrits complexes, biblioth`eques num´eriques) mais aussi le traitement du signal (diagnostic, supervision, interfaces cerveau-machine) et le traitement d’images m´edicales (classification d’images, segmentation).

3 Sujet de la Th` ese

3.1 Contexte scientifique

La ”radiomique”, concept ´enonc´e r´ecemment par Lambin et al. [LRVL+12], est d´efinie comme l’extraction et l’analyse d’un grand nombre de caract´eristiques quantitatives image provenant d’exa- mens comme la TomoDensitoM´etrie (TDM), la Tomographie par ´Emission de Positons (TEP) ou l’Imagerie par R´esonance Magn´etique (IRM), mais ´egalement des donn´ees cliniques et omiques (g´enomiques, prot´eomiques, etc..). Ces donn´ees peuvent ˆetre utilis´ees pour construire des mod`eles descriptifs et pr´edictifs reliant les caract´eristiques ”images” au ph´enotype ou aux signatures g´en´e- tiques-prot´eiques du cancer. L’hypoth`ese centrale de la radiomique est que ces mod`eles peuvent fournir des informations de diagnostic, de pronostic ou pr´edictives pr´ecieuses pour la prise en charge efficace du cancer (pr´ediction de survie d’un patient et/ou de sa r´eponse `a un traitement).

Cette th`ese s’int´eresse `a la probl´ematique ”machine learning” de l’apprentissage de mod`eles pr´edictifs dans des espaces de grande dimension et particuli`erement h´et´erog`enes. La piste de re- cherche qui sera abord´ee en particulier est l’apprentissage dans des espaces de dissimilarit´es, qui permettent de projeter les donn´ees d´ecrites initialement dans ces espaces m´elangeant des variables de diff´erentes types (num´eriques, nominales, s´equences...) dans des espaces plus homog`enes, offrant ainsi la possibilit´e de construire des fonctions de pr´ediction plus robustes.

3.2 Originalit´ e et caract` ere innovant des recherches

La construction de ces mod`eles doit faire face `a un verrou majeur, celui de la prise en compte d’une masse importante de donn´ees par nature tr`es h´et´erog`enes. En effet, les donn´ees cliniques concernent aussi bien des donn´ees d´emographiques que des donn´ees m´edicales collect´ees lors des diff´erentes consultations ou `a partir de comptes-rendus m´edicaux. De mˆeme, les donn´ees g´enomiques peuvent ˆetre factuelles ou textuelles et de natures vari´ees. Enfin les donn´ees ”images” proviennent de l’analyse d’images issues de diff´erentes modalit´es d’imagerie. L’objectif dans cette th`ese est d’appr´ehender la construction de ces mod`eles sous l’angle de l’apprentissage automatique (machine learning) qui doit permettre de lever les deux verrous identifi´es dans ce contexte de pr´ediction `a partir de donn´ees h´et´erog`enes : (i) celui li´e `a l’apprentissage et `a la s´election des repr´esentations pertinentes selon les trois types de donn´ees `a disposition (image, clinique et g´enomique) ; (ii) celui li´e `a l’apprentissage automatique d’une m´ethode pr´edictive permettant l’´emergence d’informations personnalis´ees pour la th´erapie (interpr´etabilit´e du mod`ele).

Ces questions li´ees `a l’h´et´erog´en´eit´e des donn´ees seront abord´ees sous l’angle de l’apprentissage dans des espaces de dissimilarit´es, qui permettent de s’affranchir de la recherche d’une repr´esentation

”optimale” des donn´ees lorsque les donn´ees sont d´ecrites dans des espaces de grande dimension m´elangeant des variables de diff´erents types (num´eriques, nominales, s´equences,...). Disposant de ndonn´ees brutes, originellement d´ecrites parpvariables, un espace de dissimilarit´e est un espace

`

a n dimensions, pour lequel la dimension k caract´erise la dissemblance avec la k`eme donn´ee. Ce concept, appel´e dissimilarity-based pattern recognition [PD05], offre une alternative int´eressante pour l’apprentissage notamment dans des espaces de tr`es grande dimension (p >> n) puisque les donn´ees d’apprentissage sont projet´ees dans un espace de plus faible dimension (n), ce qui autorise alors l’utilisation d’un large ´eventail d’algorithmes d’apprentissage. Toutefois, le probl`eme central r´eside dans la recherche et le d´eveloppement de m´etriques adapt´ees capables de mettre en

´evidence les dissimilarit´es entre les donn´ees. Notamment lorsque les donn´ees brutes proviennent de diff´erentes vues (ce qui est le cas par exemple dans le contexte de la radiomique o`u des informations

2

(3)

cliniques, g´enomiques et diagnostiques par analyse d’images sont collect´ees pour chaque patient), il est impossible de d´efinir une m´etrique unique, sur un ensemble h´et´erog`ene de variables, permettant de rendre compte de ces dissimilarit´es. Tout au plus pouvons nous en d´efinir une par vue.

3.3 Approches m´ ethodologiques

Nous envisageons de r´epondre `a ces questions de choix des mesures de dissimilarit´es sous l’angle de l’apprentissage de m´etriques au moyen des forˆets al´eatoires, des techniques de classification bas´ees sur des ensembles d’arbres de d´ecision pour lesquelles nous avons des comp´etences ´etablies et re- connues [BHA12, DBHP13]. Nous ´etudierons notamment comment elles peuvent ˆetre utilis´ees pour g´en´erer ces espaces de dissimilarit´es. Elles semblent en effet bien adapt´ees `a cette probl´ematique puisqu’elles int`egrent naturellement dans leur construction un processus de s´election des variables pertinentes, ainsi que des capacit´es `a g´erer des variables de diff´erents types et qui peuvent conte- nir des valeurs manquantes. Elles int`egrent ´egalement naturellement des m´ecanismes de calcul de proximit´e entre objets pouvant ˆetre mis `a profit dans le cadre applicatif de la radiomique pour g´en´erer des espaces de dissimilarit´es d´edi´es. Ces m´ecanismes de calcul de proximit´e ont d´ej`a montr´e leur efficacit´e et leur flexibilit´e dans diff´erents probl`emes d’apprentissage [TPC06, SH06]. Ils sont par ailleurs tr`es utilis´es dans le domaine m´edical car les forˆets exploitent naturellement les co- d´ependances entre les variables, permettent efficacement de traiter des probl`emes `a tr`es grandes dimensions, et fournissent une excellente interpr´etabilit´e. Cette interpr´etabilit´e permet bien souvent de fournir au corps m´edical des informations pr´ecieuses sur l’apport de chaque variable de l’espace d’origine (caract´eristique ”image”, g´enomique, clinique) `a la probl´ematique d’apprentissage, et sur la nature de cette contribution [SH06].

3.4 Collaborations avec des laboratoires ext´ erieurs

Par essence pluri-disciplinaire, la th`ese sera l’objet d’une collaboration ´etroite avec deux autres

´equipes du LITIS : l’´equipe TIBS pour la partie donn´ees g´enomiques et donn´ees cliniques et l’´equipe QuantIF pour la partie portant sur les donn´ees images. Les trois ´equipes du LITIS collaboreront

´egalement avec l’U918 (INSERM, Universit´e de Rouen, Centre Henri Becquerel). Enfin, ces re- cherches feront l’objet d’une collaboration avec l’ETS de Montr´eal au Canada (Prof. Robert Sabou- rin), et pourraient ´egalement s’inscrire dans le cadre d’une collaboration avec la Federal University of Parana au Br´esil (Prof. Luiz E.S. Oliveira).

R´ ef´ erences

[BHA12] S. Bernard, L. Heutte, and S. Adam. Dynamic Random Forests. Pattern Recognition Letters, 33 :1580–1586, 2012.

[DBHP13] C. D´esir, S. Bernard, L. Heutte, and C. Petitjean. One-Class Random Forest. Pattern Recognition, 46(12) :3490–3506, 2013.

[LRVL+12] Philippe Lambin, Emmanuel Rios-Velazquez, Ralph Leijenaar, Sara Carvalho, Ruud G.P.M. van Stiphout, Patrick Granton, Catharina M.L. Zegers, Robert Gillies, Ronald Boellard, Andr´e Dekker, and Hugo J.W.L. Aerts. Radiomics : Extracting more information from medical images using advanced feature analysis. European Journal of Cancer, 48(4) :441 – 446, 2012.

[PD05] Elzbieta Pekalska and Robert P. W. Duin. The Dissimilarity Representation for Pat- tern Recognition : Foundations And Applications (Machine Perception and Artificial Intelligence). World Scientific Publishing Co., Inc., River Edge, NJ, USA, 2005.

[SH06] T. Shi and S. Horvath. Unsupervised Learning with Random Forest Predictors.Journal of Computational and Graphical Statistics, 15 :118–138, 2006.

[TPC06] Alexey Tsymbal, Mykola Pechenizkiy, and P´adraig Cunningham. Machine Learning : ECML 2006 : 17th European Conference on Machine Learning Berlin, Germany, Sep- tember 18-22, 2006 Proceedings, chapter Dynamic Integration with Random Forests, pages 801–808. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.

3

Références

Documents relatifs

Enfin, nous appliquerons notre vision de l’apprentissage dans une situation concrète de développement d’un nouveau système de dialogue dans le domaine du dialogue Homme-Robot

Le sommet AFRICITES 3 est une occasion unique pour les organisations de la société civile de faire entendre leurs voix par tous les acteurs du développement municipal et

Partager des informations et confronter des expériences qui ont déjà démontré leur pertinence, tels sont les objectifs de la ren- contre régionale «Coopération internationale dans

Bien que l’auteur s’en défende dans un entretien (El-Watan, 15-05-2005, article signé par Bouziane Benachou) « Je ne suis pas un écrivain de l’urgence », ces textes ont

Mais toute sa vie elle aspire à un ailleurs mythique et quand, enfin, le docteur, à l’indépendance, propose de lui donner sa maison, elle refuse le cadeau malgré

En effet, non seulement l’”Essai sur les éléments de philosophie” n’est pas un ouvrage à proprement parler, puisqu’il constitue le quatrième volume

En plus de toutes ces raisons ponctuelles, il existe deux importantes exceptions à l’octroi de l’exécution forcée de l’obligation : la présence d’un droit de révocation

Your Majesty having been pleased by your Order in Council, of the 3rd of December last to Referr unto this Committee the humble Petition of Anthony Merry of London Merchant, in