Forêts aléatoires et apprentissage dans les espaces de dissimilarités: application à la prédiction en cancérologie par association de la radiomique et de la génomique

(1)

Forêts aléatoires et apprentissage dans les espaces de dissimilarités: application ` a la prédiction en cancérologie par

association de la radiomique et de la g´enomique

Mots-clefs : Espace de dissimilarit´ es, Forˆ ets Al´ eatoires, donn´ ees h´ et´ erog` enes, Ra- diomique.

Financement : Allocation de recherche de la r´egion Normandie (financement obtenu pour la p´eriode du 01/10/2016 au 30/09/2019)

Encadrement:

Laurent HEUTTE (directeur), laurent.heutte@univ-rouen.fr, (+33) 2 32 95 50 14 Simon BERNARD (co-encadrant), simon.bernard@univ-rouen.fr, (+33) 2 32 95 52 05 Equipe d’accueil´ :

Equipe Apprentissage, laboratoire LITIS (EA 4108), Universit´´ e de Rouen (http ://www.litislab.fr/equipe/docapp/)

1 Profil recherch´ e

Le candidat recherché doit être titulaire d’un Master (ou équivalent) dans le domaine des Sta- tistiques, de l’Informatique ou du Génie Informatique avec une dominante Sciences des Données ou Traitement du Signal et des Images. Il doit avoir de solides connaissances en apprentissage et classification.

2 Laboratoire et ´ equipe d’accueil

Le laboratoire d’informatique, du traitement de l’information et des systèmes (LITIS) est l’unité de recherche en sciences et technologies de l’information de Haute Normandie. Il regroupe les enseignants chercheurs du domaine des STIC des trois principaux établissements d’enseignement supérieur publics de la région : l’Université de Rouen, l’Université du Havre et l’Institut Natio- nal des Sciences Appliquées (INSA) de Rouen. Il accueille plus de 160 personnes dont environ la moitié de doctorants. Le LITIS est structuré en sept équipes dont les thèmes de recherche couvrent un large spectre des STIC, de la recherche fondamentale aux domaines appliqués, créant des ponts vers le vivant et vers les sciences humaines.

Les travaux de thèse s’inséreront dans l’équipe ”Apprentissage”, équipe composée d’une quin- zaine d’enseignants-chercheurs de l’Université de Rouen et de l’INSA de Rouen et d’une quin- zaine de doctorants. Localisée sur le campus du Madrillet, les recherches de l’équipe concernent le développement d’outils et de méthodes génériques permettant d’interpréter des données variées de par leur structure, leur dimensionnalité, leur stationnarité, et issues de contextes hétérogènes (signaux, images, textes). Ces travaux sont abordés essentiellement sous l’angle de l’apprentissage

`

a partir d’exemples et de connaissances a priori dans le cadre structurant de la reconnaissance de formes.

Les compétences développées dans l’équipe sont essentiellement de nature théorique et algorith- mique et concernent les machines à noyaux (SVM, Kernel PCA, apprentissage de noyaux multiples), les modèles markoviens (HMM multi-streams, champs aléatoires, CRF), la classification à partir de

1

(2)

graphes (mise en correspondance de graphes, recherche d’isomorphisme de sous-graphes, classification de graphes) et la sélection de modèles (analyse des risques d’estimateurs, apprentissage avec coûts inconnus ou évolutifs, réglage d’hyper-paramètres dans le cadre des méthodes d’ensemble). Les domaines dans lesquels ces travaux trouvent leurs applications sont principalement le traitement automatique de l’écrit et des images de documents (reconnaissance de l’écriture manuscrite, spotting de mots et de symboles, extraction d’information, analyse de documents manuscrits complexes, bibliothèques numériques) mais aussi le traitement du signal (diagnostic, supervision, interfaces cerveau-machine) et le traitement d’images médicales (classification d’images, segmentation).

3 Sujet de la Th` ese

3.1 Contexte scientifique

La ”radiomique”, concept énoncé récemment par Lambin et al. [LRVL⁺12], est définie comme l’extraction et l’analyse d’un grand nombre de caractéristiques quantitatives image provenant d’exa- mens comme la TomoDensitoMétrie (TDM), la Tomographie par Émission de Positons (TEP) ou l’Imagerie par Résonance Magnétique (IRM), mais également des données cliniques et omiques (génomiques, protéomiques, etc..). Ces données peuvent être utilisées pour construire des modèles descriptifs et prédictifs reliant les caractéristiques ”images” au phénotype ou aux signatures géné- tiques-protéiques du cancer. L’hypothèse centrale de la radiomique est que ces modèles peuvent fournir des informations de diagnostic, de pronostic ou prédictives précieuses pour la prise en charge efficace du cancer (prédiction de survie d’un patient et/ou de sa réponse à un traitement).

Cette thèse s’intéresse à la problématique ”machine learning” de l’apprentissage de modèles prédictifs dans des espaces de grande dimension et particulièrement hétérogènes. La piste de recherche qui sera abordée en particulier est l’apprentissage dans des espaces de dissimilarités, qui permettent de projeter les données décrites initialement dans ces espaces mélangeant des variables de différentes types (numériques, nominales, séquences...) dans des espaces plus homogènes, offrant ainsi la possibilité de construire des fonctions de prédiction plus robustes.

3.2 Originalit´ e et caract` ere innovant des recherches

La construction de ces modèles doit faire face à un verrou majeur, celui de la prise en compte d’une masse importante de données par nature très hétérogènes. En effet, les données cliniques concernent aussi bien des données démographiques que des données médicales collectées lors des différentes consultations ou à partir de comptes-rendus médicaux. De même, les données génomiques peuvent être factuelles ou textuelles et de natures variées. Enfin les données ”images” proviennent de l’analyse d’images issues de différentes modalités d’imagerie. L’objectif dans cette thèse est d’appréhender la construction de ces modèles sous l’angle de l’apprentissage automatique (machine learning) qui doit permettre de lever les deux verrous identifiés dans ce contexte de prédiction à partir de données hétérogènes : (i) celui lié à l’apprentissage et à la sélection des représentations pertinentes selon les trois types de données à disposition (image, clinique et génomique) ; (ii) celui lié à l’apprentissage automatique d’une méthode prédictive permettant l’émergence d’informations personnalisées pour la thérapie (interprétabilité du modèle).

Ces questions liées à l’hétérogénéité des données seront abordées sous l’angle de l’apprentissage dans des espaces de dissimilarités, qui permettent de s’affranchir de la recherche d’une représentation

”optimale” des données lorsque les données sont décrites dans des espaces de grande dimension mélangeant des variables de différents types (numériques, nominales, séquences,...). Disposant de ndonnées brutes, originellement décrites parpvariables, un espace de dissimilarité est un espace

`

a n dimensions, pour lequel la dimension k caractérise la dissemblance avec la k^`ême donnée. Ce concept, appelé dissimilarity-based pattern recognition [PD05], offre une alternative intéressante pour l’apprentissage notamment dans des espaces de très grande dimension (p >> n) puisque les données d’apprentissage sont projetées dans un espace de plus faible dimension (n), ce qui autorise alors l’utilisation d’un large éventail d’algorithmes d’apprentissage. Toutefois, le problème central réside dans la recherche et le développement de métriques adaptées capables de mettre en

évidence les dissimilarités entre les données. Notamment lorsque les données brutes proviennent de différentes vues (ce qui est le cas par exemple dans le contexte de la radiomique où des informations

2

(3)

cliniques, génomiques et diagnostiques par analyse d’images sont collectées pour chaque patient), il est impossible de définir une métrique unique, sur un ensemble hétérogène de variables, permettant de rendre compte de ces dissimilarités. Tout au plus pouvons nous en définir une par vue.

3.3 Approches m´ ethodologiques

Nous envisageons de répondre à ces questions de choix des mesures de dissimilarités sous l’angle de l’apprentissage de métriques au moyen des forêts aléatoires, des techniques de classification basées sur des ensembles d’arbres de décision pour lesquelles nous avons des compétences établies et re- connues [BHA12, DBHP13]. Nous étudierons notamment comment elles peuvent être utilisées pour générer ces espaces de dissimilarités. Elles semblent en effet bien adaptées à cette problématique puisqu’elles intègrent naturellement dans leur construction un processus de sélection des variables pertinentes, ainsi que des capacités à gérer des variables de différents types et qui peuvent conte- nir des valeurs manquantes. Elles intègrent également naturellement des mécanismes de calcul de proximité entre objets pouvant être mis à profit dans le cadre applicatif de la radiomique pour générer des espaces de dissimilarités dédiés. Ces mécanismes de calcul de proximité ont déjà montré leur efficacité et leur flexibilité dans différents problèmes d’apprentissage [TPC06, SH06]. Ils sont par ailleurs très utilisés dans le domaine médical car les forêts exploitent naturellement les co- dépendances entre les variables, permettent efficacement de traiter des problèmes à très grandes dimensions, et fournissent une excellente interprétabilité. Cette interprétabilité permet bien souvent de fournir au corps médical des informations précieuses sur l’apport de chaque variable de l’espace d’origine (caractéristique ”image”, génomique, clinique) à la problématique d’apprentissage, et sur la nature de cette contribution [SH06].

3.4 Collaborations avec des laboratoires ext´ erieurs

Par essence pluri-disciplinaire, la th`ese sera l’objet d’une collaboration ´etroite avec deux autres

équipes du LITIS : l’équipe TIBS pour la partie données génomiques et données cliniques et l’équipe QuantIF pour la partie portant sur les données images. Les trois équipes du LITIS collaboreront

également avec l’U918 (INSERM, Université de Rouen, Centre Henri Becquerel). Enfin, ces recherches feront l’objet d’une collaboration avec l’ETS de Montréal au Canada (Prof. Robert Sabou- rin), et pourraient également s’inscrire dans le cadre d’une collaboration avec la Federal University of Parana au Brésil (Prof. Luiz E.S. Oliveira).

R´ ef´ erences

[BHA12] S. Bernard, L. Heutte, and S. Adam. Dynamic Random Forests. Pattern Recognition Letters, 33 :1580–1586, 2012.

[DBHP13] C. D´esir, S. Bernard, L. Heutte, and C. Petitjean. One-Class Random Forest. Pattern Recognition, 46(12) :3490–3506, 2013.

[LRVL⁺12] Philippe Lambin, Emmanuel Rios-Velazquez, Ralph Leijenaar, Sara Carvalho, Ruud G.P.M. van Stiphout, Patrick Granton, Catharina M.L. Zegers, Robert Gillies, Ronald Boellard, Andr´e Dekker, and Hugo J.W.L. Aerts. Radiomics : Extracting more information from medical images using advanced feature analysis. European Journal of Cancer, 48(4) :441 – 446, 2012.

[PD05] Elzbieta Pekalska and Robert P. W. Duin. The Dissimilarity Representation for Pat- tern Recognition : Foundations And Applications (Machine Perception and Artificial Intelligence). World Scientific Publishing Co., Inc., River Edge, NJ, USA, 2005.

[SH06] T. Shi and S. Horvath. Unsupervised Learning with Random Forest Predictors.Journal of Computational and Graphical Statistics, 15 :118–138, 2006.

[TPC06] Alexey Tsymbal, Mykola Pechenizkiy, and P´adraig Cunningham. Machine Learning : ECML 2006 : 17th European Conference on Machine Learning Berlin, Germany, Sep- tember 18-22, 2006 Proceedings, chapter Dynamic Integration with Random Forests, pages 801–808. Springer Berlin Heidelberg, Berlin, Heidelberg, 2006.

3