Forˆets al´eatoires et apprentissage dans les espaces de dissimilarit´es: application ` a la pr´ediction en canc´erologie par
association de la radiomique et de la g´enomique
Mots-clefs : Espace de dissimilarit´ es, Forˆ ets Al´ eatoires, donn´ ees h´ et´ erog` enes, Ra- diomique.
Financement : Allocation de recherche de la r´egion Normandie (financement obtenu pour la p´eriode du 01/10/2016 au 30/09/2019)
Encadrement:
Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14 Simon BERNARD (co-encadrant), simon.bernard@univ-rouen.fr, (+33) 2 32 95 52 05 Equipe d’accueil´ :
Equipe Apprentissage, laboratoire LITIS (EA 4108), Universit´´ e de Rouen (http ://www.litislab.fr/equipe/docapp/)
1 Profil recherch´ e
Le candidat recherch´e doit ˆetre titulaire d’un Master (ou ´equivalent) dans le domaine des Sta- tistiques, de l’Informatique ou du G´enie Informatique avec une dominante Sciences des Donn´ees ou Traitement du Signal et des Images. Il doit avoir de solides connaissances en apprentissage et classification.
2 Laboratoire et ´ equipe d’accueil
Le laboratoire d’informatique, du traitement de l’information et des syst`emes (LITIS) est l’unit´e de recherche en sciences et technologies de l’information de Haute Normandie. Il regroupe les en- seignants chercheurs du domaine des STIC des trois principaux ´etablissements d’enseignement sup´erieur publics de la r´egion : l’Universit´e de Rouen, l’Universit´e du Havre et l’Institut Natio- nal des Sciences Appliqu´ees (INSA) de Rouen. Il accueille plus de 160 personnes dont environ la moiti´e de doctorants. Le LITIS est structur´e en sept ´equipes dont les th`emes de recherche couvrent un large spectre des STIC, de la recherche fondamentale aux domaines appliqu´es, cr´eant des ponts vers le vivant et vers les sciences humaines.
Les travaux de th`ese s’ins´ereront dans l’´equipe ”Apprentissage”, ´equipe compos´ee d’une quin- zaine d’enseignants-chercheurs de l’Universit´e de Rouen et de l’INSA de Rouen et d’une quin- zaine de doctorants. Localis´ee sur le campus du Madrillet, les recherches de l’´equipe concernent le d´eveloppement d’outils et de m´ethodes g´en´eriques permettant d’interpr´eter des donn´ees vari´ees de par leur structure, leur dimensionnalit´e, leur stationnarit´e, et issues de contextes h´et´erog`enes (signaux, images, textes). Ces travaux sont abord´es essentiellement sous l’angle de l’apprentissage
`
a partir d’exemples et de connaissances a priori dans le cadre structurant de la reconnaissance de formes.
Les comp´etences d´evelopp´ees dans l’´equipe sont essentiellement de nature th´eorique et algorith- mique et concernent les machines `a noyaux (SVM, Kernel PCA, apprentissage de noyaux multiples), les mod`eles markoviens (HMM multi-streams, champs al´eatoires, CRF), la classification `a partir de
1
graphes (mise en correspondance de graphes, recherche d’isomorphisme de sous-graphes, classifica- tion de graphes) et la s´election de mod`eles (analyse des risques d’estimateurs, apprentissage avec coˆuts inconnus ou ´evolutifs, r´eglage d’hyper-param`etres dans le cadre des m´ethodes d’ensemble). Les domaines dans lesquels ces travaux trouvent leurs applications sont principalement le traitement au- tomatique de l’´ecrit et des images de documents (reconnaissance de l’´ecriture manuscrite, spotting de mots et de symboles, extraction d’information, analyse de documents manuscrits complexes, biblioth`eques num´eriques) mais aussi le traitement du signal (diagnostic, supervision, interfaces cerveau-machine) et le traitement d’images m´edicales (classification d’images, segmentation).
3 Sujet de la Th` ese
3.1 Contexte scientifique
La ”radiomique”, concept ´enonc´e r´ecemment par Lambin et al. [LRVL+12], est d´efinie comme l’extraction et l’analyse d’un grand nombre de caract´eristiques quantitatives image provenant d’exa- mens comme la TomoDensitoM´etrie (TDM), la Tomographie par ´Emission de Positons (TEP) ou l’Imagerie par R´esonance Magn´etique (IRM), mais ´egalement des donn´ees cliniques et omiques (g´enomiques, prot´eomiques, etc..). Ces donn´ees peuvent ˆetre utilis´ees pour construire des mod`eles descriptifs et pr´edictifs reliant les caract´eristiques ”images” au ph´enotype ou aux signatures g´en´e- tiques-prot´eiques du cancer. L’hypoth`ese centrale de la radiomique est que ces mod`eles peuvent fournir des informations de diagnostic, de pronostic ou pr´edictives pr´ecieuses pour la prise en charge efficace du cancer (pr´ediction de survie d’un patient et/ou de sa r´eponse `a un traitement).
Cette th`ese s’int´eresse `a la probl´ematique ”machine learning” de l’apprentissage de mod`eles pr´edictifs dans des espaces de grande dimension et particuli`erement h´et´erog`enes. La piste de re- cherche qui sera abord´ee en particulier est l’apprentissage dans des espaces de dissimilarit´es, qui permettent de projeter les donn´ees d´ecrites initialement dans ces espaces m´elangeant des variables de diff´erentes types (num´eriques, nominales, s´equences...) dans des espaces plus homog`enes, offrant ainsi la possibilit´e de construire des fonctions de pr´ediction plus robustes.
3.2 Originalit´ e et caract` ere innovant des recherches
La construction de ces mod`eles doit faire face `a un verrou majeur, celui de la prise en compte d’une masse importante de donn´ees par nature tr`es h´et´erog`enes. En effet, les donn´ees cliniques concernent aussi bien des donn´ees d´emographiques que des donn´ees m´edicales collect´ees lors des diff´erentes consultations ou `a partir de comptes-rendus m´edicaux. De mˆeme, les donn´ees g´enomiques peuvent ˆetre factuelles ou textuelles et de natures vari´ees. Enfin les donn´ees ”images” proviennent de l’analyse d’images issues de diff´erentes modalit´es d’imagerie. L’objectif dans cette th`ese est d’appr´ehender la construction de ces mod`eles sous l’angle de l’apprentissage automatique (machine learning) qui doit permettre de lever les deux verrous identifi´es dans ce contexte de pr´ediction `a partir de donn´ees h´et´erog`enes : (i) celui li´e `a l’apprentissage et `a la s´election des repr´esentations pertinentes selon les trois types de donn´ees `a disposition (image, clinique et g´enomique) ; (ii) celui li´e `a l’apprentissage automatique d’une m´ethode pr´edictive permettant l’´emergence d’informations personnalis´ees pour la th´erapie (interpr´etabilit´e du mod`ele).
Ces questions li´ees `a l’h´et´erog´en´eit´e des donn´ees seront abord´ees sous l’angle de l’apprentissage dans des espaces de dissimilarit´es, qui permettent de s’affranchir de la recherche d’une repr´esentation
”optimale” des donn´ees lorsque les donn´ees sont d´ecrites dans des espaces de grande dimension m´elangeant des variables de diff´erents types (num´eriques, nominales, s´equences,...). Disposant de ndonn´ees brutes, originellement d´ecrites parpvariables, un espace de dissimilarit´e est un espace
`
a n dimensions, pour lequel la dimension k caract´erise la dissemblance avec la k`eme donn´ee. Ce concept, appel´e dissimilarity-based pattern recognition [PD05], offre une alternative int´eressante pour l’apprentissage notamment dans des espaces de tr`es grande dimension (p >> n) puisque les donn´ees d’apprentissage sont projet´ees dans un espace de plus faible dimension (n), ce qui autorise alors l’utilisation d’un large ´eventail d’algorithmes d’apprentissage. Toutefois, le probl`eme central r´eside dans la recherche et le d´eveloppement de m´etriques adapt´ees capables de mettre en
´evidence les dissimilarit´es entre les donn´ees. Notamment lorsque les donn´ees brutes proviennent de diff´erentes vues (ce qui est le cas par exemple dans le contexte de la radiomique o`u des informations
2
cliniques, g´enomiques et diagnostiques par analyse d’images sont collect´ees pour chaque patient), il est impossible de d´efinir une m´etrique unique, sur un ensemble h´et´erog`ene de variables, permettant de rendre compte de ces dissimilarit´es. Tout au plus pouvons nous en d´efinir une par vue.
3.3 Approches m´ ethodologiques
Nous envisageons de r´epondre `a ces questions de choix des mesures de dissimilarit´es sous l’angle de l’apprentissage de m´etriques au moyen des forˆets al´eatoires, des techniques de classification bas´ees sur des ensembles d’arbres de d´ecision pour lesquelles nous avons des comp´etences ´etablies et re- connues [BHA12, DBHP13]. Nous ´etudierons notamment comment elles peuvent ˆetre utilis´ees pour g´en´erer ces espaces de dissimilarit´es. Elles semblent en effet bien adapt´ees `a cette probl´ematique puisqu’elles int`egrent naturellement dans leur construction un processus de s´election des variables pertinentes, ainsi que des capacit´es `a g´erer des variables de diff´erents types et qui peuvent conte- nir des valeurs manquantes. Elles int`egrent ´egalement naturellement des m´ecanismes de calcul de proximit´e entre objets pouvant ˆetre mis `a profit dans le cadre applicatif de la radiomique pour g´en´erer des espaces de dissimilarit´es d´edi´es. Ces m´ecanismes de calcul de proximit´e ont d´ej`a montr´e leur efficacit´e et leur flexibilit´e dans diff´erents probl`emes d’apprentissage [TPC06, SH06]. Ils sont par ailleurs tr`es utilis´es dans le domaine m´edical car les forˆets exploitent naturellement les co- d´ependances entre les variables, permettent efficacement de traiter des probl`emes `a tr`es grandes dimensions, et fournissent une excellente interpr´etabilit´e. Cette interpr´etabilit´e permet bien souvent de fournir au corps m´edical des informations pr´ecieuses sur l’apport de chaque variable de l’espace d’origine (caract´eristique ”image”, g´enomique, clinique) `a la probl´ematique d’apprentissage, et sur la nature de cette contribution [SH06].
3.4 Collaborations avec des laboratoires ext´ erieurs
Par essence pluri-disciplinaire, la th`ese sera l’objet d’une collaboration ´etroite avec deux autres
´equipes du LITIS : l’´equipe TIBS pour la partie donn´ees g´enomiques et donn´ees cliniques et l’´equipe QuantIF pour la partie portant sur les donn´ees images. Les trois ´equipes du LITIS collaboreront
´egalement avec l’U918 (INSERM, Universit´e de Rouen, Centre Henri Becquerel). Enfin, ces re- cherches feront l’objet d’une collaboration avec l’ETS de Montr´eal au Canada (Prof. Robert Sabou- rin), et pourraient ´egalement s’inscrire dans le cadre d’une collaboration avec la Federal University of Parana au Br´esil (Prof. Luiz E.S. Oliveira).
R´ ef´ erences
[BHA12] S. Bernard, L. Heutte, and S. Adam. Dynamic Random Forests. Pattern Recognition Letters, 33 :1580–1586, 2012.
[DBHP13] C. D´esir, S. Bernard, L. Heutte, and C. Petitjean. One-Class Random Forest. Pattern Recognition, 46(12) :3490–3506, 2013.
[LRVL+12] Philippe Lambin, Emmanuel Rios-Velazquez, Ralph Leijenaar, Sara Carvalho, Ruud G.P.M. van Stiphout, Patrick Granton, Catharina M.L. Zegers, Robert Gillies, Ronald Boellard, Andr´e Dekker, and Hugo J.W.L. Aerts. Radiomics : Extracting more information from medical images using advanced feature analysis. European Journal of Cancer, 48(4) :441 – 446, 2012.
[PD05] Elzbieta Pekalska and Robert P. W. Duin. The Dissimilarity Representation for Pat- tern Recognition : Foundations And Applications (Machine Perception and Artificial Intelligence). World Scientific Publishing Co., Inc., River Edge, NJ, USA, 2005.
[SH06] T. Shi and S. Horvath. Unsupervised Learning with Random Forest Predictors.Journal of Computational and Graphical Statistics, 15 :118–138, 2006.
[TPC06] Alexey Tsymbal, Mykola Pechenizkiy, and P´adraig Cunningham. Machine Learning : ECML 2006 : 17th European Conference on Machine Learning Berlin, Germany, Sep- tember 18-22, 2006 Proceedings, chapter Dynamic Integration with Random Forests, pages 801–808. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.
3