• Aucun résultat trouvé

7.4.1 Contexte

Ce thème de recherches a fait l’objet d’une demande de contrat doctoral auprès du LabEx IRMIA en avril 2018 qui a été acceptée en juin 2018. La thèse a débuté en septembre 2018 et voici le sujet qui a été proposé.

La spectrométrie de masse permet de mesurer très précisément les masses de molécules d’intérêt et d’en caractériser la structure chimique. L’analyse protéo-mique consiste à étudier l’ensemble des protéines exprimées par une cellule, un tissu, un organe ou un organisme à un moment donné et sous des conditions don-nées, appelé le protéome. Au même titre que la génomique et la transcriptomique, l’analyse protéomique est devenue aujourd’hui un outil incontournable pour l’étude des systèmes biologiques complexes et s’est révélée particulièrement prometteuse, entres autres, pour la découverte et validation de biomarqueurs de pathologies.

7.4.2 Problématique

L’objectif visé dans cette thématique de recherches est double et consiste en la proposition d’une approche novatrice pour traiter les données de quantification et l’utilisation d’outils d’apprentissage statistique pour tirer parti de la très grande masse de spectres récoltés jusqu’à présent sans avoir pu être exploités (en moyenne 75% des centaines de millions de spectres acquis à ce jour et répertoriés dans l’ar-chive PRIDE, Martens et al. [2005], Vizcaíno et al. [2016], restent ininterprétés, Griss et al. [2016], the « dark mater in proteomics »).

7.4.3 Valeurs manquantes

Les techniques les plus performantes pour déterminer l’abondance des protéines passent par la mesure des intensités peptidiques. Une gamme variée de modèles statistiques a déjà été utilisée pour mener à bien celle-ci : modèles linéaires mixtes,

modèles non linéaires, modèles pour données censurées. En effet, ces données pep-tidiques présentent des difficultés majeures : corrélations entre peptides, valeurs manquantes non MCAR et présence d’observations atypiques influentes. Le mo-dèle actuellement le plus performant repose sur l’utilisation, pour chaque protéine, d’un modèle linéaire mixte régularisé (ridge) et robuste ajusté aux intensités pep-tidiques. Celle-ci est combinée avec une estimation mutualisée de la variance des protéines à la manière de ce qui a été retenu pour les expressions des gènes dans les puces à ADN (microarrays), Smyth [2004].

Cette approche, qui est la plus performante en termes d’erreur quadratique moyenne, n’est actuellement applicable qu’à la comparaison des protéines entre deux conditions expérimentales pour lesquelles un nombre minimal de peptides a été quantifié dans chacune d’entre elle. Or, l’absence de quantification des peptides dans l’une des deux conditions est elle-même informative d’une différence poten-tielle entre les abondances des protéines.

L’objectif est de proposer une méthodologie statistique pour permettre une gestion plus satisfaisante des valeurs manquantes et des cas de protéines absen-tes/présentes au sein des conditions à comparer. D’un point de vue statistique, ce sont des modèles linéaires généralisés mixtes, des modèles avec inflation de zéros, modèles bêta-binomiaux pour données de dénombrement qui pourront être utili-sés. Une source d’inspiration intéressante pourra être constituée par les modèles linéaires généralisés mixtes actuellement utilisés pour la modélisation du dénom-brement des expressions de gènes en RNA-Seq. Dans un second temps, il faudra essayer de combiner cette approche avec celle déjà existante basée sur l’utilisation des données d’intensité à l’aide d’une approche bivariée/multivariée ou de modèles hurdle. L’objet de cette première partie consistera donc avant tout d’un travail méthodologique accompagné de la mise au point d’une bibliothèque de fonctions (package) pour le langage R, plus particulièrement le projet Bioconductor, qui sera mise à la disposition de la communauté scientifique.

7.4.4 Apprentissage statistique

L’utilisation de techniques d’apprentissage statistique permettra de s’intéresser à des problématiques diverses mais toutes d’un intérêt premier pour le chimiste.

La première d’entre elle est l’identification de spectres non encore identifiés. Il s’agit de détecter, parmi la masse de spectres disponibles, ceux qui sont associés à des groupes protéiques (fragments de protéines) mais qui n’ont pas été encore iden-tifiés. Il n’est en effet pas possible d’identifier systématiquement tous les spectres produits, certains étant mêmes associés à du bruit et donc difficilement voire non

identifiables. De plus, l’identification actuelle est issue de l’utilisation d’une banque traduite à partir d’un seul génome, séquence consensus de référence, alors qu’il est connu qu’il existe une grande diversité entre les génomes des individus même lors-qu’ils présentent le même gène, variants de séquences individuels. Ces variants donnent naissance à des formes différentes de protéines qu’il convient d’identifier (banque et médecine personnalisées). La difficulté résidera dans la séparation des spectres de groupes protéiques non encore identifiés du bruit et la méthodologie proposée s’appuiera sur l’utilisation combinée d’algorithmes de clustering et de réseaux de neurones de type GAN (generative adversory networks).

La deuxième problématique consiste en la prédiction des spectres à partir des séquences protéiques, c’est-à-dire de données fonctionnelles à partir d’un mot pro-téique constitué d’une suite d’acides aminés (lettres). Compte tenu de la nature du prédicteur (un mot) et de l’objectif, ici seulement une prédiction, des techniques d’apprentissage statistique comme les séparateurs à vaste marge (SVM) ou les réseaux de neurones semblent être des outils pertinents. Un soin particulier sera apporté à l’étude d’une méthodologie permettant d’obtenir une synthèse « addi-tive » des spectres.

Enfin la dernière problématique qui pourra être développée est la réduction de bruit, qu’elle résulte de l’application directe de filtres, comme ceux de Kalman, du modèle de synthèse additive précédent, ou de l’application directe de techniques d’apprentissage statistique. Cette élimination du bruit peut être réalisée à diffé-rents niveaux : le tri en spectres de groupes protéiques ou de bruit de fond mais aussi élimination du bruit chimique et électronique sur les spectres MS/MS.

Il est important de noter que toutes les données nécessaires à la mise en œuvre de ces développements :

• aussi bien les jeux de données mentionnés dans le premier objectif et qui consistent en la mesure d’échantillons dits spikés, parfaitement maîtrisés avec ajouts de protéines en quantités connues ;

• que la base de données publique regroupant un très grand nombre de spectres recueillis par la communauté de spectrométrie de masse, Deutsch et al. [2017], sont déjà disponibles.

7.5 De la fouille des processus à l’intelligence

Documents relatifs