Construire la forêt aléatoire depuis les arbres

3.2 L’algorithme des forêts aléatoires

3.2.3 Construire la forêt aléatoire depuis les arbres

Un arbre de décision représente donc un ensemble de chemins de décisions, générés de manière optimisée pour un jeu d’entités ayant servi à l’entraînement. Cela conduit généralement à un modèle de décision dont la généralisation est limitée : il a été construit de manière optimisée pour le jeu d’entraînement (en particulier si aucune limite n’est imposée sur sa structure), ce qui fait que son application à des entités différentes est limitée.

Pour éviter ce sur-apprentissage, il est possible de combiner plusieurs arbres de déci- sions au sein d’une forêt ; les variations dans les chemins appris par chacun de ces arbres vont permettre de renforcer la généralisations des règles identifiées. Pour augmenter un peu plus la variation au sein des arbres, une étape d’agrégation ”bootstrap” des entités est introduite en amont de la génération de chacun des arbres. Cette étape consiste à échantillonner avec remise parmi les entités du jeu d’entraînement le même nombre d’en- tités ; ainsi chaque arbre va apprendre des règles sur un sous-jeu d’entités (où certaines se retrouve en plusieurs exemplaires) de l’ensemble initial, ce qui augmente un peu plus les variations de choix de seuils et de descripteurs dans les noeuds.

L’algorithme des forêts aléatoires est un algorithme très puissant et versatile, capable d’exploiter des descripteurs hétérogènes, en établissant des combinaisons non-linéaires de leurs valeurs pour aboutir à une prédiction de classe. On peut noter que la prédiction finale de la forêt aléatoire correspond à un vote majoritaire depuis les décisions émises par chacun des arbres. Il est donc possible de calculer un pourcentage d’arbre votant pour une classe donnée, ce qui peut servir comme une mesure de confiance sur la décision émise par la forêt.

Chapitre 4

Problématique

La régulation de l’expression des gènes est un processus biologique important pour définir clairement les schémas d’expression spatio-temporels précis de ces gènes, que ce soit pour le développement correct de l’embryon, ou pour le maintien des fonctions cel- lulaires tissus-spécifiques. Cette régulation est guidée par l’action de régions génomiques portant des fonctions activatrices ou inhibitrice de l’expression des gènes. Bien que nous ne connaissons pas clairement les localisations de ces régions et leurs relations d’associations avec les gènes, plusieurs signaux fonctionnels sont disponibles pour inférer leur positions, et prédire des associations fonctionnelles.

La caractérisation de ces régions régulatrices est d’une importance majeure pour l’éva- luation et l’interprétation des variations nucléotidiques se produisant hors des séquences codantes des gènes. En effet, le développement et la démocratisation de l’utilisation des méthodes d’identification des variants à l’échelle du génome chez des patients conduit à une explosion du nombre de variants identifiés dans les régions non-codantes du génome. Or, les résultats d’expérience GWAS et les limitations diagnostiques des approches foca- lisées sur l’exome nous conduisent à nous interroger sur les méthodes à employer pour caractériser et hiérarchiser ces variants non-codants.

Plusieurs méthodes ont été proposées ces dernières années pour répondre au problème de l’identification de variants non-codants potentiellement fonctionnels. Ces méthodes ex- ploitent notamment les propriétés identifiables du génome non-codant (présentées au chapitre 1), pour proposer des scores de fonctionnalité, résumant à l’échelle d’une position l’ensemble des signaux fonctionnels disponibles pour décrire cette position.

tables :

— les scores de fonctionnalité des variants ne permettent pas de les associer à des régions régulatrices ;

— contrairement aux variants codants, la capacité d’interprétation des scores de fonc- tionnalité est bien plus limitée.

Par ce projet de thèse, j’ai souhaité proposer une approche automatisée de hiérar- chisation des variants non-codants identifiés dans un cadre diagnostique, pour permettre d’identifier des variants candidats pertinents. La méthode que j’ai développée se distingue sur trois points par rapport aux méthodes existantes :

— plusieurs jeux de variants fonctionnels ont été considérés, pour explorer un espace du génome régulateur le plus divers possible ;

— des jeux de données de prédictions de régions régulatrices avec leur gènes cibles ont été intégrés à ma méthode, pour permettre de hiérarchiser des variants associés à des gènes d’intérêt ;

— une approche d’évaluation et de compréhension des décisions du modèle de pré- diction a été mise en place, pour permettre d’avoir un regard plus informé sur les scores de prédiction associés aux variants non-codants évalués.

Cette méthode, appelée FINSURF (Functional Interpretation of Non-coding Sequences Using Random Forests) est décrite dans la partie de ce manuscrit dédiées aux résultats. Ces résultats sont organisés en quatre parties. Tout d’abord, je propose quelques analyses préliminaires concernant les jeux de données utilisés dans le cadre de ce projet, avec notamment une comparaison des différents ensembles de variants fonctionnels identifiés et choisis pour entraîner mes modèles de prédiction. Le second chapitre des résultats est dédié à la description et l’analyse des différentes étapes de l’entraînement de ces modèles. Dans le chapitre suivant, deux approches sont proposées pour caractériser les modèles, et augmenter la capacité d’interprétation sur leur fonctionnement. Enfin, le dernier chapitre propose un exemple d’application de l’un des modèles de prédictions, pour illustrer l’intérêt de la méthode FINSURF.

Deuxième partie

Chapitre 5

Origine des données

Sauf mention spéciale, toutes les données et analyses ont été faites sur la version hg19 / GRCh37 du génome humain (Pruitt et al., 2007).

Lorsque ce n’est pas le cas, comme par exemple pour l’utilisation de données générées pour la version GRCh38 du génome (Church et al., 2015), une précision est apportée sur la conversion des données, faisant appel à un/des outil(s) présenté(s) dans le chapitre suivant.

5.1 Annotations génomiques

Dans le document Annotation et hiérarchisation de variants non-codants dans le contexte de maladies humaines (Page 52-58)