• Aucun résultat trouvé

Pour cela, commençons par définir les matrices sur lesquelles travailler. Le plus naturel reste de considérer une matrice contenant des spectres (en lignes) et des chromatogrammes (en colonnes), sur le modèle de la Fig. 4.3. Nous appellerons une telle matrice un chromatospectre.

Figure 4.3 – Illustration du décours temporel d’un spectre de fragmentation au fur

et à mesure de son élution par chromatographie. À Gauche, le signal est découpé en tranches temporelles, faisant apparaître un spectre de fragmentation d’intensité différente à chaque instant ; à droite, le signal est découpé en tranches de masse, faisant apparaître des chromatogrammes identiques, mais d’intensité correspondant à celle de chaque pic.

comment se constituent les spectres chimériques. Nous supposerons dans un pre-mier temps que deux peptides avec des chromatogrammes différents se retrouvent co-fragmentés. Pour chacun de ces peptides, nous avons un chromatospectre spé-cifique, tel que cela est représenté par les deux matrices de gauche sur la partie supérieure de la Fig.4.4 : le chromatogramme et le spectre du premier peptide sont représentés en jaune et rouge respectivement. Une fois discrétisé, le décours temporel du spectre peut être représenté par le chromatospectre dont l’intensité des valeurs est représentée par le diamètre des disques oranges. De manière similaire, pour le second peptide, le chromatogramme, le spectre et le chromatospectre sont représen-tés respectivement en vert, en bleu et en turquoise. Si les deux peptides co-éluent partiellement et se retrouvent à un moment tous les deux dans la chambre de frag-mentation, les fragments ayant la même valeur de m/z vont participer à l’intensité d’un même pic. Plus généralement chaque pic aura une intensité correspondant à la somme des intensités du pic en question dans les deux chromatospectres. Finale-ment, le chromatospectre chimérique correspondant s’obtient par l’addition (au sens matricielle du terme) des deux chromatospectres. C’est ce qui est représenté sur la matrice de droite de la première ligne de la Fig.4.4.

Pour chacune de ces trois matrices, le chromatogramme et le spectre sont respec-tivement représentés à gauche et au-dessus, car il s’agit des marginales des chroma-tospectres. En effet, si l’on somme (ou que l’on moyenne, ici, à peu de choses près, cela revient au même) l’ensemble des colonnes d’un chromatospectre, nous obtien-drons une colonne correspondant au chromatogramme. De même, si l’on somme ou moyenne l’ensemble des lignes d’un chromatospectre, nous obtenons une ligne qui correspond au spectre. La relation qui lie les marginales à la matrice n’est pas la même pour les 2 peptides (matrices à gauche et au centre) et pour le mélange (à droite). En effet, dans la mesure où, pour chaque peptide, son information d’élu-tion (le chromatogramme) et de fragmentad’élu-tion (le spectre) sont indépendantes (au sens où l’information de l’un ne contraint en aucun cas l’information de l’autre),

Figure 4.4 – Représentation schématique d’un chromatospectre multiplexé : il peut

être vu comme l’addition de deux chromatospectres, ou comme un produit de matrices contenant respectivement des chromatogrammes et des spectrogrammes.

chaque chromatospectre a la propriété de pouvoir être reconstruit intégralement à partir du produit de ces deux marginales. Ainsi, sur la seconde ligne, il apparaît bien que le produit du vecteur-colonne (chromatogramme) jaune (ou vert) par le vecteur-ligne (spectre) rouge (ou bleu) permet de reconstruire la matrice (chroma-tospectre) orange (ou turquoise). En revanche, ce n’est pas le cas pour le mélange des deux peptides, comme cela apparaît sur la Fig.4.5 : un chromatospectre chimé-rique ne peut en aucun cas être reconstruit à partir du chromatogramme cumulé et du spectrogramme cumulé des deux peptides.

En revanche, les règles du calcul matriciel nous disent que la somme de deux produits de deux vecteurs chacun (respectivement ligne et colonne) est égale au produit de deux matrices correspondant chacune aux vecteurs lignes et colonnes concaténés. Autrement dit :

(V1× V2>) + (V3× V4>) = [V1; V3] × [V2; V4]>

avec Vi un vecteur-colonne, Vi> un vecteur-ligne et “ ;” représentant la concaténation de deux vecteurs-colonnes en une matrice à deux colonnes. Cette équation est aussi représentée de manière plus imagée sur la seconde ligne de la Fig. 4.4. Finalement, il apparaît que si nous sommes capables d’écrire un chromatospectre chimérique comme un produit de deux matrices, alors, les colonnes de la première correspon-dront à des chromatogrammes, et les lignes de la seconde à des spectres, tels que cela est illustré sur la Fig.4.6. Dès lors, il apparaît complétement justifié de chercher à factoriser un chromatospectre : cela permet de démultiplexer des spectres

chimé-Figure 4.5 – Un chromatospectre multiplexé ne peut être reconstruit sur la base de

ses marginales.

Figure 4.6 – Si l’on arrive à factoriser un chromatospectre, il est possible

d’inter-préter les matrices résultantes en termes de chromatogrammes et de spectrogrammes.

riques. Dans le cas général, où N ions précurseurs sont multiplexés, les matrices facteurs doivent contenir respectivement N colonnes, et N lignes.

4 Algorithme SAGA

Nous venons de voir que sur le principe, une factorisation de matrice nous permet de résoudre le problème de démultiplexage de spectres DIA. Nous allons maintenant découvrir comment réaliser en pratique cette factorisation. Dans notre cas, la diffi-culté vient principalement de la taille de la matrice : alors que l’usage de méthodes de factorisation pour la séparation de signaux est connu depuis quelques décennies maintenant (cf. Sec. 3.1), il était jusqu’à il y a peu, inenvisageable d’appliquer ces méthodes à des données aussi complexes et volumineuses que celles produites en spectrométrie de masse. En effet, si l’on souhaite une discrétisation suffisamment fine pour que les détails ayant une pertinence chimique ne soient pas perdus, la ma-trice à considérer peut contenir jusqu’à quelques milliards de valeurs : par exemple, si les valeurs de m/z sont arrondies à 3 décimales après la virgule, et si l’on souhaite couvrir la gamme allant de 100 à 1700 Th, alors la matrice aura 1 600 000 colonnes ; quant au nombre de lignes, il dépend de la longueur de la colonne d’élution, mais il y peut y avoir facilement plusieurs milliers de cycles MS/MS. Ce ne sont que le récent renouveau de la discipline, précédemment mentionné, couplé à l’augmentation de la puissance de calcul, qui permettent de commencer à considérer des matrices aussi grandes que nécessaires dans un contexte d’application protéomique.