• Aucun résultat trouvé

Optimisation de la lecture automatique de marqueurs microsatellites pour l'évaluation de la diversité génétique de rosiers

N/A
N/A
Protected

Academic year: 2022

Partager "Optimisation de la lecture automatique de marqueurs microsatellites pour l'évaluation de la diversité génétique de rosiers"

Copied!
63
0
0

Texte intégral

(1)

Master Mathématiques et Applications M2 Data Sciences - Option Données Biologiques

Année Académique 2019-2020 BOUILLÉ Pauline

Optimisation de la lecture automatique de marqueurs microsatellites pour l'évaluation de la diversité génétique de

rosiers

Maître de stage : Jérémy Clotault Co-encadrante : Alix Pernet

Encadrante universitaire : Eunice Okome Obiang

(2)

Remerciements

En premier temps, je tiens à remercier mes encadrants de stage, Jérémy Clotault et Alix Pernet de m'avoir permis de réaliser mon stage au sein de l'équipe GDO. Merci à eux pour leur partage de connaissances, leur chaleureux soutien tout au long mon stage ainsi que pour leur relecture minutieuse de ce rapport.

Je remercie également toute l'équipe GDO pour leur accueil chaleureux et leur convivialité lors de ces 5 mois de stage.

Pour nir je n'oublie pas mes collègues de bureau, Agathe et Alexis, merci pour ces moments de rigolade et pour votre aide.

(3)

Sommaire

1 Présentation de l'entreprise 8

1.1 Le centre des Pays de la Loire . . . 8

1.2 le site d'Angers-Beaucouzé . . . 9

1.3 L'équipe Génétique et Diversité des plantes Ornementales . . . 9

2 Introduction 11 2.1 Méthode de production des données . . . 12

2.2 Présentation des objectifs du stage . . . 15

3 Amélioration du programme de lecture automatique 19 3.1 Présentation des données . . . 19

3.2 Étape de la calibration . . . 21

3.2.1 Problématique et objectifs . . . 21

3.2.2 Création de nouvelles fonctions . . . 23

3.2.3 Amélioration de la calibration des données . . . 30

3.3 Étape de détermination du phénotypage allélique . . . 34

3.3.1 Problématique et objectifs . . . 34

3.3.2 Amélioration du phénotypage allélique automatique . . . 34

3.4 Comparaison de la lecture automatique et de la lecture manuelle . . . 37

3.4.1 Méthode de comparaison . . . 37

3.4.2 Résultats . . . 38

3.4.3 Discussion . . . 39

4 Étude de la variabilité intra-projet des témoins 40 4.1 L'existence de diérences : visualisation par Analyse Factorielle sur Tableau de Distance (AFTD) . . . 41

4.1.1 Principe . . . 41

4.1.2 Application sur les témoins . . . 42

4.2 Analyse de variance (ANOVA) . . . 43

(4)

4.2.1 Principe . . . 43

4.2.2 Présentation de la base de données . . . 44

4.2.3 Application de l'ANOVA sur les données témoins . . . 46

4.3 Test de Kruskal-Wallis . . . 47

4.4 Conclusion . . . 48

5 Étude de la variabilité inter-projets des témoins 49 5.1 Analyse factorielle sur tableau de distance (AFTD) . . . 49

5.2 Analyse de variance (ANOVA) . . . 50

5.3 Test de Wilcoxon . . . 51

5.4 Conclusion . . . 52

6 Discussion 53

7 Conclusion 54

8 Perspectives 55

A Annexe 57

(5)

Table des gures

1 Résumé du déroulement de l'amplication par PCR. . . 13 2 Exemple du résultat d'une électrophorèse. . . 14 3 Représentation des signaux des quatre couples d'amorces et du marqueur de taille

pour l'individu black_baccara (RosesMonde - multiplexe RM1 ), source Stage de Kornelia Eveilleau . . . 16 4 Schéma représentant les diérentes étapes du programme R AutoPic-Fonctions. . 18 5 Fichier de données de l'individu black_baccara du multiplexe RM1 (RosesMonde). 20 6 Émission spectrale des cinq uorochromes utilisés. . . 21 7 Signal du marqueur de taille de l'individu black_baccara possédant une régression

de mauvaise qualité. . . 22 8 Schéma illustrant les données de la variable ecart. . . 25 9 Schéma illustrant les données de la variable ecart2. . . 25 10 Incréments de niveau 1 (1religne) et incréments de niveau 2 (2eligne) de l'individu

black_baccara_13 avant suppression des pics supplémentaires. . . 25 11 Écart entre les pics successifs de l'individu black_baccara_13 après suppression

des pics supplémentaires. . . 26 12 Droites de régression avant suppression des pics supplémentaires (à gauche) et

après suppression (à droite). . . 26 13 Signal du marqueur de taille de l'individu rosa_gallica_1063 possédant une ré-

gression de mauvaise qualité. . . 27

14 Droite de régression avant identication des pics manquants de l'individu rosa_gallica_1063. 28 15 Écart entre les pics successifs de l'individu rosa_gallica_1063 avant identication

des pics manquants. . . 28 16 Droite de régression après identication du pic manquant de l'individu rosa_gallica_1063. 29 17 Droite de régression après modication de la méthode de régression de l'individu

black_baccara_13. . . 33

(6)

18 Schéma illustrant l'ordre des pipetages d'un plaque de 384 puits : respectivement rouge, vert, bleu, jaune. Source : stage de Kornelia Eveilleau. . . 40 19 AFTD des individus témoins. En rouge : Black Baccara, en vert : The Fairy, en

jaune : Rosa wichurana, en bleu : Old Blush. . . 42 20 Données du phénotypage allélique du témoin Rosa Wichurana pour le couple

d'amorce SSR CTGROW329. Le phénotype allélique de référence est représenté en vert. . . 45 21 Étude de l'erreur selon la plaque. . . 46 22 Étude de l'erreur selon le pipetage. . . 46 23 AFTD des individus témoins des projets RosesMonde (rouge : Black Baccara,

jaune : The Fairy, rose : Rosa Wichurana, vert : Old Blush) et Rosa Gallica 2018 (bleu : Black Baccara, noir : The Fairy, marron : Rosa Wichurana, violet : Old Blush). . . 50 24 Étude de l'erreur selon le projet. . . 51

(7)

Liste des tableaux

1 Tableau résumant les principales caractéristiques des cinq projets. . . 21

2 Tableau des diérentes données de l'individu rosa_gallica_1063 avant identica- tion des pics manquants. . . 27

3 Tableau récapitulatif de la comparaison des projets RosesMonde, Rosa Gallica 2012 et FlorRHiGe. . . 38

4 Conception générale d'une ANOVA . . . 44

5 Résultat de l'ANOVA . . . 47

6 Tableau résumant les principales caractéristiques des deux projets. . . 49

7 Résultat de l'ANOVA . . . 51

(8)

Liste des abréviations

ADN Acide DésoxyriboNucléique.

INRAE Institut National de Recherche pour l'Agriculture, l'Alimentation et l'Environnement.

INRA Institut National de la Recherche Agronomique.

IRHS Institut de Recherche en Horticulture et Semences.

IRSTEA Institut national de Recherche en Sciences et Technologies pour l'Environnement et l'Agriculture.

PCR Polymerase Chain Reaction (réaction en chaîne de la polymérase).

SSR Simple Sequence Repeat.

UMR Unité Mixte de Recherche.

(9)

1 Présentation de l'entreprise

Mon stage s'est déroulé au sein de l'UMR IRHS (INRAE, L'Institut Agro | Agrocampus Ouest, Université d'Angers) à Beaucouzé. INRAE, qui résulte de la fusion de l'INRA et d'IRS- TEA depuis le 1er janvier 2020, est le premier organisme de recherche mondial spécialisé dans trois domaines : l'agriculture, l'alimentation et l'environnement. L'institut contribue donc à l'éla- boration de solutions indispensables pour faire face aux dés mondiaux tels que le climat, la biodiversité et la sécurité alimentaire. Les axes de recherches au sein d'INRAE sont répartis en 6 thématiques majeures :

Changement climatique et risques, Agroécologie,

Biodiversité,

Alimentation et santé globale, Bioéconomie,

Société et territoires.

INRAE est engagé dans une vingtaine de pôles thématiques répartis au sein de 14 départe- ments scientiques dans lesquels on retrouve notamment l'alimentation, la biologie, l'agronomie, l'amélioration des plantes, l'écologie et la biodiversité, la génétique, les mathématiques ou en- core la santé animale et la santé des plantes. L'institut comporte plus de 11 500 agents, environ 8 400 titulaires et 3 100 contractuels (chercheurs, ingénieurs, techniciens et administratifs) et est présent sur 18 centres régionaux. Mon stage s'est déroulé au sein du centre Pays de la Loire.

1.1 Le centre des Pays de la Loire

La région des Pays de la Loire se trouve au c÷ur d'un bassin agricole, horticole et agro- alimentaire ayant une place importante en Europe, c'est pourquoi les recherches du centre INRAE des Pays de la Loire portent principalement sur l'adaptation de l'agriculture au changement climatique, la production d'une alimentation saine et durable et sur l'apport des biotechnologies et des procédés pour de nouvelles ressources. En Pays de la Loire, l'institut est le 2e organisme de recherche publique. Sa politique scientique est partagée avec cinq partenaires académiques

(10)

et est mise en ÷uvre par plus de 1000 personnes dont plus d'une centaine de doctorants. Ses 13 unités de recherche sont réparties sur deux sites : Angers et Nantes. Le centre Pays de la Loire étudie quatre grands axes de recherche dont l'un (sur l'économie) est partagé avec le centre INRAE Bretagne-Normandie :

La biologie végétale et la gestion durable des productions horticoles et des semences, L'ingénierie des bioressources pour les aliments et les matériaux innovants,

La santé animale, la sécurité des aliments, l'alimentation et la santé humaine, L'économie des exploitations et des industries agroalimentaires.

1.2 le site d'Angers-Beaucouzé

Le site d'Angers fait partie du campus du végétal fondé en 2015. Ce dernier correspond à un ensemble d'aménagements dédiés à la formation, à la recherche et à l'innovation en horticulture et semences. Trois établissements principaux constituent le campus du végétal, à savoir la maison du végétal, des serres expérimentales et la maison de la recherche. Le campus du végétal est composé de cinq acteurs de la lière en horticole et en semences : INRAE, l'Institut Agro | Agrocampus Ouest, l'Université d'Angers, l'École Supérieure d'Agricultures (ESA) et le pôle de compétitivité Végépolys. Les axes de recherches du site d'Angers s'articulent autour des thématiques suivantes :

Interactions entre les plantes et micro-organismes, et résistance aux bio-agresseurs, Ressources génétiques et biodiversité,

Biologie et physiologie des semences,

Écophysiologie et agronomie des plantes d'ornement.

Ces thématiques sont réparties sur plusieurs équipes de recherche de l'unité. On retrouve notamment l'équipe de Génétique et Diversité des plantes Ornementales (GDO) que j'ai intégrée pour eectuer mon stage.

1.3 L'équipe Génétique et Diversité des plantes Ornementales

La lière ornementale a pour objectif de répondre à des enjeux importants dans un contexte d'urbanisation, de changement climatique et de développement d'une horticulture durable. L'équipe Génétique et Diversité des plantes Ornementales (GDO) oriente donc ses recherches vers la ges- tion, la préservation, la caractérisation et l'utilisation des ressources génétiques pour répondre aux enjeux de la lière ornementale an de comprendre, gérer et exploiter cette diversité géné- tique. Les principales études sont réalisées sur le genre Rosa dans le cadre de projets collaboratifs.

(11)

diérents projets le plus souvent éponymes.

Les axes de recherche de l'équipe visent à étudier les impacts de l'histoire évolutive et de la sélection sur la diversité du genre Rosa, les bases génétiques et moléculaires des caractères ornementaux et le développement d'outils et de ressources pour les sélectionneurs et la société.

L'équipe regroupe principalement des généticiens, des biologistes moléculaires, des biologistes cellulaires avec des compétences en génomique, en génétique évolutive, en génétique quantitative, en sélection, en biologie cellulaire et en botanique.

(12)

2 Introduction

La biodiversité représente la diversité du monde vivant, elle peut généralement se diviser en trois niveaux : la diversité écosystémique, la diversité spécique et la diversité génétique. La diversité génétique représente le degré de variation des gènes au sein d'une même espèce. En eet l'information génétique est portée par les gènes, ces gènes peuvent exister sous diérentes versions appelées allèles. L'ensemble de ces allèles représente le génotype d'un individu, c'est pourquoi le génotypage permet de comprendre en partie la diversité présente au sein d'une es- pèce. La diversité génétique est donc l'un des aspects majeurs de la biodiversité. Par exemple, le marqueurs moléculaires correspondent à des portions du génome analysables par des méthodes de biologie moléculaire et permettant de discriminer génétiquement les individus. Les diérentes étapes de génotypage sont eectuées de manière semi-automatisée à l'aide de robots de pipetage, de thermocycleurs ou encore de séquenceurs capillaires.

La plus grande diculté dans l'étude du genre Rosa repose sur le fait que, comme pour beau- coup de plantes, le niveau de ploïdie (nombre de copies d'un chromosome au sein d'une cellule) varie de 2x (diploïdie) à plus de 2x (polyploïdie), avec un maximum de 10x chez ce genre. La ploïdie n'étant pas connue pour toutes les espèces, les travaux de l'équipe GDO ont pour objectif la détermination de la ploïdie des espèces an de pouvoir ensuite déterminer leur génotype.

Il est important également de bien diérencier les notions de génotype et de phénotype allélique.

Le génotype correspond à la liste des allèles munie de leur nombre de copies, pour cela il est donc nécessaire de connaître la ploïdie de l'individu an de réaliser un dosage allélique. Le phénotype allélique correspond à la liste des allèles d'un individu sans que l'on ait connaissance de leur nombre de copies. C'est ce phénotype allélique qui va être étudié tout au long de mon stage.

Le génotypage permet donc, en partant d'un échantillon d'ADN, de récolter des données qui seront ensuite étudiées an de déterminer la diversité génétique. Les données brutes étudiées durant mon stage ont toutes été obtenues à l'aide de la technique PCR multiplexe couplée à une électrophorèse, nous allons donc dans un premier temps introduire ces notions an de bien

(13)

2.1 Méthode de production des données

An de déterminer le génotype d'un individu il faut tout d'abord obtenir les données géné- tiques. Pour cela une technologie simple est utilisée : la PCR (Polymerase Chain Reaction), cette dernière permet d'amplier une portion d'ADN en laboratoire en s'inspirant du mode normal de synthèse de l'ADN in vivo (réplication). Apparue peu avant 1990, la PCR a bouleversé la biologie moléculaire et s'est implantée très rapidement dans les laboratoires. Aujourd'hui elle permet de réaliser plus d'un milliard de copies en moins d'une heure. Cependant en fonction des sources d'échantillons (urine, crachats. . . ) l'ecacité de la PCR peut être altérée.

Avant de détailler les diérentes étapes de cette méthode nous allons introduire certaines notions biologiques utiles à la compréhension du déroulement de la PCR.

Tout d'abord l'ensemble de l'information génétique est contenu dans l'ADN (Acide Désoxyri- boNucléique). La molécule d'ADN est composée d'une succession de nucléotides. Il existe quatre types de nucléotides qui sont diérenciés en fonction de leur base azotée : l'adénine (A), la thy- mine (T), la cytosine (C) et la guanine (G). Au sein des cellules vivantes, une molécule d'ADN est constituée de deux brins antiparallèles enroulés l'un autour de l'autre et formant ainsi une structure en double hélice. Chaque brin d'ADN comporte donc un brin complémentaire, une adénine sera toujours couplée à une thymine et une cytosine à une guanine. C'est l'ordre dans lequel se succèdent les nucléotides le long d'un brin qui détermine la séquence d'ADN.

Une seconde notion à introduire est celle de microsatellite. Un microsatellite (appelé aussi SSR de l'anglais Simple Sequence Repeats) est une séquence d'ADN dans laquelle il y a la répétition d'un motif de 2 à 4 nucléotides (par exemple GACGACGACGAC). La taille d'un microsatellite (donc le nombre de répétitions du motif) varie selon l'espèce mais également d'un individu à l'autre et d'un allèle à l'autre au sein d'un même individu. Chaque microsatellite est entouré d'une séquence spécique présente de manière unique dans le génome. Un marqueur microsatellite est donc déni par la séquence répétée qui le compose ainsi que par la séquence des zones qui le bordent.

Pour nir, il est nécessaire d'introduire la notion d'amorce. Cette dernière représente une courte séquence d'ADN qui est complémentaire à une portion du brin d'ADN. Dans notre cas l'amorce sera complémentaire à la séquence bordant le multiplexe.

(14)

Ces trois notions étant introduites nous allons pouvoir détailler les diérentes étapes de la PCR. Celle-ci s'eectue en trois étapes (gure 1) :

La dénaturation : correspond à la séparation des deux brins d'ADN sous l'eet de la chaleur, à cette étape l'ADN passe donc sous forme simple brin dans le milieu.

L'hybridation : correspond à la xation des deux amorces sur chacun des brins. Les amorces sont présentes en excès dans le milieu et s'hybrident dès lors qu'elles rencontrent les sé- quences complémentaires.

L'élongation : correspond à l'allongement des amorces. Cette élongation s'eectue à l'aide de l'ADN polymérase qui ajoute les nucléotides complémentaires à la séquence.

Figure 1 Résumé du déroulement de l'amplication par PCR.

Ces étapes constituent un cycle et seront répétées plusieurs fois au cours de l'expérience (gé- néralement 20 à 40 cycles). Sachant qu'à chaque cycle, la quantité du microsatellite est en théorie doublée, aprèsncycles la PCR permet d'obtenir2n copies du microsatellite. Il est donc possible d'obtenir plus d'un million de copies de la séquence après une vingtaine de cycles.

Une fois la PCR eectuée, une électrophorèse est réalisée. L'électrophorèse a pour but de déterminer la taille des allèles microsatellites pour un individu donné, les fragments d'ADN am- pliés sont placés dans un gel puis sont soumis à un champ électrique. Sous l'eet de ce champ électrique les fragments d'ADN migrent en fonction de leur taille. En eet le temps de migration

(15)

La gure 2 représente un exemple du résultat des électrophorèses de deux individus, dans cet exemple l'allèle du microsatellite de l'individu 1 possède plus de répétitions du motif, le fragment migre donc plus loin que pour l'individu 2.

Figure 2 Exemple du résultat d'une électrophorèse.

A chaque électrophorèse, un marqueur de taille (ensemble de fragments d'ADN de tailles connues) est également analysé an de pouvoir déterminer la taille en paire de bases (pb) des diérents fragments ampliés. Les données récoltées correspondent donc à l'intensité de uores- cence au tempstlorsque le signal de chaque allèle du marqueur microsatellite amplié est capté par la caméra lors de l'électrophorèse.

La réaction de PCR peut être réalisée en simplexe ou en multiplexe. Par multiplexage, il est possible d'amplier plusieurs zones microsatellites simultanément, avec autant de couples d'amorces que de locus (quatre couples d'amorces dans les jeux de données étudiés). Dans ce cas, pour chaque couple d'amorces, une des deux amorces est couplée à un uorochrome, diérent pour chaque couple, an de pouvoir diérencier les marqueurs microsatellites lors de l'électro- phorèse.

Une fois les données produites, le génotype d'un individu peut être déterminé dans le cas où le dosage allélique est possible. Dans le cas contraire, pour toutes les espèces polyploïdes étudiées au sein de l'équipe GDO, ce sera le phénotype allélique (Becher et al 2000) qui sera déterminé. Ainsi chaque individu sera-t-il caractérisé pour chaque couple d'amorces SSR, par

(16)

une liste d'allèles. Ces résultats permettent ensuite d'eectuer une étude de diversité génétique.

Pour résumer, trois étapes majeures sont nécessaires à la réalisation d'études de la diversité génétique menées à l'aide de marqueurs microsatellites, avant toute analyse statistique :

PCR, le plus souvent en multiplexe, Électrophorèse capillaire,

Lecture des électrophorégrammes.

Une dernière notion importante à introduire est celle du bin. Ce dernier correspond à l'in- tervalle des tailles en paire de base pour lesquelles l'allèle portera le même nom. Par exemple, si un bin est déni par133 = [132.5,134], les allèles de tailles132,8 et133,7seront tous les deux nommés133.

2.2 Présentation des objectifs du stage

Le stage a pour objectif, en partant de ces données, d'améliorer la lecture automatique de marquage microsatellite et d'étudier la variabilité intra-projet et inter-projet au sein des témoins.

Les missions qui m'ont été conées tout au long de ce stage m'ont donc permis d'étudier les dif- férentes étapes du génotypage et d'y intégrer de nouvelles étapes.

Figure 3 Représentation des signaux des quatre couples d'amorces et du marqueur de taille pour l'individu black_baccara (RosesMonde - multiplexe RM1 ), source Stage de Korne- lia Eveilleau

(17)

Tout d'abord une fois les données des électrophorèses récoltées (la gure 3 permet de vi- sualiser les signaux issus d'un électrophorèse), celles-ci sont ensuite lues an de déterminer le phénotype allélique de l'individu. Pour cela, l'équipe GDO possède deux alternatives, les don- nées peuvent-être lues à l'aide du logiciel GeneMapperR (Applied Biosystems) lequel permet de générer en sortie une base de données regroupant les génotypes de tous les individus pour chaque SSR mais nécessite plusieurs relectures humaines fastidieuses (une pour les ombres, une pour déterminer les bins, une pour ajouter ou supprimer des allèles qui ne paraissent pas pertinents à l'÷il humain). Ces données sont ensuite transformées en matrice de présence/absence à l'aide de l'application GeneMapper2Darwin.exe (Gaillard, com. Pers.). L'autre alternative est de lire les données automatiquement à l'aide d'un programme R, développé au sein du laboratoire LA- REMA, appelé AutoPic Fonctions (Proïa et al.,pers.comm).

Ce dernier permet de calibrer les données, de détecter les pics et de leur attribuer une probabi- lité : celle que le pic détecté soit réellement un pic allélique et non un pic artéfactuel. De plus il permet le traitement automatique des ombres. Pour nir, il donne en sortie une base de données regroupant les génotypes (construite comme celle donnée par le lecture humaine) et également la matrice de présence/absence des allèles. Par la suite, le but ultime de ce programme est de déterminer la ploïdie des individus an de pouvoir réaliser un dosage allélique et ainsi déterminer leur génotype.

Pour résumer trois types de lecture sont possibles :

La lecture GeneMapper : correspond à la lecture brute des électrophorèses par le logiciel GeneMapperR.

La lecture humaine : correspond au résultat des diérentes relectures eectuées sur la lecture GeneMapper.

La lecture automatique : correspond au résultat après exécution des diérents programmes R qui seront présentés dans ce rapport.

Quelle que soit la méthode de lecture, pour les projets menés en diversité à GDO sur des espèces polyploïdes, c'est la matrice de données de présence/absence qui est ensuite analysée par le logiciel DARwin (Perrier X. et Jacquemoud-Collet J.P. - 2006) ou d'autres programmes an de réaliser des analyses de la diversité.

Durant la première partie de mon stage, essentiellement basée sur mes compétences informa- tiques, l'objectif était d'améliorer la lecture automatique an que celle-ci soit applicable à la plus grande majorité des données. Pour cela plusieurs fonctions ont été créées au sein du programme

(18)

initial an d'améliorer la calibration des données dans un premier temps puis de se rapprocher au plus près de la lecture humaine dans un second temps.

Lors de la calibration, les pics sélectionnés pour le marqueur de taille (noté LID) n'étaient pas toujours les pics réels créant alors un décalage dans la calibration des données. Deux fonctions ont donc été créées an de supprimer les pics présents en trop dans un premier temps puis de détecter des pics manquants dans un second temps. La gure 4 résume l'ensemble des étapes importantes de la lecture automatique.

Les étapes en vert représentent les étapes que j'ai intégrées dans le programme, les étapes en orange celles que j'ai modiées an d'améliorer la lecture automatique et en bleu les étapes aux- quelles aucune modication n'a été apportée.

Figure 4 Schéma représentant les diérentes étapes du programme R AutoPic-Fonctions.

(19)

Pour nir, lors de la dernière partie de mon stage, l'objectif était de déterminer l'origine des sources de variabilité au sein des individus témoins. En eet ces individus témoins sont présents dans les données car ils sont étudiés plusieurs fois au sein d'un même projet et sont censés avoir le même génotype pour un même marqueur SSR. Or ce n'est pas toujours le cas. C'est pourquoi il est nécessaire pour l'équipe de déterminer l'origine de ces variabilités inter-projet et intra-projet an de voir si les diérences peuvent être corrigées après lecture pour homogénéiser l'ensemble des données des diérents projets.

Ce rapport présentera donc le travail eectué tout au long de mon stage et sera divisé en deux parties, la première concernera la lecture automatique et la seconde l'étude de variabilité entre témoins.

(20)

3 Amélioration du programme de lecture au- tomatique

L'amélioration du programme de lecture automatique fait partie des priorités de l'équipe GDO, en eet cela leur permettrait de gagner du temps étant donné qu'actuellement la relecture après prétraitement par GeneMapperR se fait manuellement, ce qui représente donc une étape longue et fastidieuse. De plus la lecture automatique permet de tenir compte des allèles présents dans l'ensemble de la population d'individus. Dans cette partie nous verrons donc dans un premier temps le travail eectué sur la calibration.

Dans un second temps, plusieurs paramètres utiles à la détection des allèles ont été étudiés et modiés an d'améliorer au maximum les résultats et de les rendre cohérents avec ceux de la lecture humaine.

3.1 Présentation des données

Les données brutes utilisées par le programme sont les données issues de l'électrophorèse capil- laire. Les chiers sont, soit au format .fsa (binaire) soit au format .txt (texte) si ceux-ci ont été préalablement convertis, et contiennent plusieurs informations nécessaires à l'établissement du génotype d'un individu.

Après ouverture du chier le programme conserve au total 5 données essentielles présentes sur l'exemple du chier de données représenté sur la gure 5 :

Le nom de l'individu (1.), Le nom du multiplexe (2.),

Les données de migration des 4 couples d'amorces SRR (3.), Les données de migration du marqueur de taille (4.),

Le nom des 4 uorochromes (5.).

(21)

Figure 5 Fichier de données de l'individu black_baccara du multiplexe RM1 (RosesMonde).

Les données du marqueur de taille et des 4 couples d'amorces SSR représentent les valeurs de la uorescence en fonction du temps pour chaque signal. Dans les diérents projets, les uo- rochromes utilisés sont toujours les mêmes : 6-FAM correspond au signal bleu, VIC au signal vert, NED au signal jaune et PET au signal rouge. Le marqueur de taille correspond au signal orange. Chaque uorochrome présente un spectre d'émission qui lui est propre (gure 6).

Les données du marqueur de taille vont permettre de réaliser la calibration et celles des couples d'amorces SSR vont permettre la détection des allèles.

Au cours de mon stage, la lecture automatique a été utilisée pour cinq projets, chacun de ces projets possède un nombre d'individus et de multiplexes déni et chaque multiplexe est composé de 4 couples d'amorces SSR. Les caractéristiques des diérents projets sont résumées dans le tableau 1.

(22)

Figure 6 Émission spectrale des cinq uorochromes utilisés.

Nom du jeu de données Nombre d'individus Nombre de multiplexes Nombre total d'électrophorèse

RosesMonde 1 920 7 13 440

FloRHiGe 1 529 10 15 290

Rosa Gallica 2012 768 8 6 144

Rosa Gallica 2018 1 536 11 16 896

Rosa Gallica 2020 1 536 11 16 896

Tableau 1 Tableau résumant les principales caractéristiques des cinq projets.

La lecture automatique doit donc être, dans l'idéal, applicable à tous les projets, quels que soit l'espèce et son niveau de ploïdie.

3.2 Étape de la calibration

3.2.1 Problématique et objectifs

La calibration est une étape essentielle et importante dans le processus du génotypage. En eet les données issues des électrophorèses sont composées des ordonnées de 4 961 points cor- respondant à l'intensité de la uorescence des cinq signaux comme expliqué précédemment. Les données des abscisses correspondantes sont quant à elles exprimées en une unité arbitraire de temps correspondant au temps de migration. Il est donc nécessaire de convertir ses données en paires de bases (pb) an de pouvoir déterminer la taille des allèles.

An d'eectuer la calibration, les données du marqueur de taille servent de référence. Dans un premier temps, seules les valeurs supérieures à un certain seuil sont conservées, puis les va- leurs sont regroupées en fonction de la distance entre les abscisses : les points ayant des abscisses consécutives sont considérés comme appartenant au même pic, à partir d'une distance de 2 entre les abscisses les points sont considérés comme appartenant à deux pics distincts. Pour nir, seule la valeur maximale de chaque groupe est conservée, constituant ainsi une liste de pics contenant

(23)

En eet nous savons que, dans les diérents projets, le signal du marqueur de taille choisi est normalement constitué de 16 pics uorescents de tailles respectives 35 pb, 50 pb, 75 pb, 100 pb, 139 pb, 150 pb, 160 pb, 200 pb, 250 pb, 300 pb, 340 pb, 350 pb, 400 pb, 450 pb, 490 pb et 500 pb. Il est donc possible de calibrer les données des électrophorèses en eectuant une régression linéaire entre les abscisses de la référence exprimées en paire de base et celles des pics observés dans le marqueur de taille.

Cependant deux cas de gure empêchent le bon déroulement de la calibration. En eet, dans certains cas, plus de 16 pics sont détectés dans le marqueur de taille. Pour pallier ce problème, le programme considère que les 16 pics réels sont les 16 derniers pics et que les premiers pics sont des faux pics détectés puisqu'il y a présence de bruits en début de signal. Or généralement les faux pics ne correspondent pas uniquement aux premiers pics entraînant une régression de mauvaise qualité. Au contraire il se peut que moins de 16 pics soient détectés ; dans ce cas le programme considère qu'il n'y a pas assez de pics et n'eectue pas la calibration. Nous représentons, par exemple le signale du marqueur de taille de l'individu black_baccara_13 pour lequel la calibration n'est pas réalisée sur la gure 7.

Figure 7 Signal du marqueur de taille de l'individu black_baccara possédant une régression de mauvaise qualité.

La première mission qui m'a été conée est donc de créer des fonctions permettant d'identier les pics supplémentaires détectés ainsi que les pics manquants an de pouvoir eectuer la cali- bration sur la plus grande majorité des données. En eet à ce stade moins de 30 % des données

(24)

étaient calibrées.

3.2.2 Création de nouvelles fonctions

An de détecter les pics artéfactuels ou une absence de pics, nous allons comparer les écarts des pics du marqueur de taille des individus problématiques avec ceux des individus possédant un très bon marqueur de taille. Pour cela, nous avons créé un échantillon composé des individus ayant la meilleure régression an de créer une nouvelle base de données contenant les écarts moyens entre les 16 pics du marqueur de taille.

An d'évaluer la qualité de la régression, plusieurs critères peuvent être utilisés. Ici, le critère utilisé sera le coecient de détermination ajusté de la régression linéaire, notéR2adj. Ce coecient de détermination mesure la part de variance de la variable réponse expliquée par le modèle de régression linéaire. Un autre indicateur pouvant être utilisé est le coecient de détermination R2, cependant celui-ci tend à augmenter lorsque le nombre de covariables du modèle augmente.

C'est pourquoi il est préférable d'utiliser le critèreR2adj car ce dernier prend en compte le nombre de variables explicatives du modèle. An de quantier ce critère il est nécessaire d'introduire les trois mesures suivantes :

SCM =

n

X

k=1

(ˆyk−y)¯ 2,SCR=

n

X

k=1

(yk−yˆk)2 etSCT =

n

X

k=1

(yk−y)¯ 2, (3.1) oùncorrespond au nombre d'individus,yk lak-ième valeur de la variableY,yˆkla valeur prédite correspondante et y¯ la moyenne de la variable Y. SCM représente la somme des carrés du modèle,SCR la somme des carrés des résidus etSCT la somme des carrés totale. De plus nous avons l'égalité 3.2 :

SCT =SCM+SCR (3.2)

Ces trois mesures vont permettre de dénir le coecient de détermination ajusté,

Radj2 = 1−

SCR n−p−1

SCT n−1

(3.3)

où nreprésente le nombre d'individus etp le nombre de covariables.

Pour composer l'échantillon, l'ensemble des données des 4 premiers projets ont été compilées avec le programme, soit au total 52 400 données. Pour chacune de ces dernières, le coecient

(25)

permanente, les écarts moyens entre les pics consécutifs.

Grâce à la fonction quantile de R, nous avons pu récupérer l'estimation du quantile à 90 % de la fonction de répartition empirique des coecients de détermination ajustés. Nous obtenons q0,9 = 0,9999037 et les individus conservés pour la suite de l'étude sont donc ceux ayant un Radj2 supérieur àq0,9. L'échantillon nal sera alors constitué de 5 481 individus, nous avons donc n= 5 481 etp= 1.

Détection des pics supplémentaires

L'échantillon étant constitué, deux nouvelles variables ont été créées. La première contient les écarts moyens entre deux pics consécutifs et la deuxième ceux entre deux pics disjoints, séparés par un pic. La première, appelée ecart contient alors 15 données et chacune de ces données correspond à la séquence allant du minimum au maximum observé entre les pics concernés dans la population :

∀i∈J1, nbRef −1K, ecarti = [minecart_obsi,maxecart_obsi] (3.4) Avec, pour le pic détecté ide l'individuj,

∀i∈J1, nbRef−1K, j∈J1, nK, ecart_obsi,j =P M axLIDi,j−P M axLID(i+1),j

où n est le nombre d'individus, nbRef est le nombre de pics de la référence et P M axLID re- présente la variable contenant les abscisses des pics détectés pour un individu j.

La variable ecart2 comporte quant à elle 14 données et est construite de la même manière que la variable ecart :

∀i∈J1, nbRef −2K, ecart2i = [minecar2_tobsi,maxecart2_obsi] (3.5) Avec,

∀i∈J1, nbRef −2K, j ∈J1, nK, ecart2_obsi,j=P M axLIDi,j−P M axLID(i+2),j. où iest l'indice du pic détecté.

Nous avons donc les données représentées sur les gures 8 et 9.

(26)

Figure 8 Schéma illustrant les données de la variable ecart.

Figure 9 Schéma illustrant les données de la variable ecart2.

Une fois les écarts moyens dénis, la fonction pics_aenlever prend en entrée l'intensité des pics détectés dans le marqueur de taille, leur abscisse ainsi que le nombre de pics de référence.

La fonction calcule donc pour chaque individu les incréments des abscisses de niveau 1 à 4 puis va faire une boucle sur les écarts des pics successifs :

Si l'écart se trouve dans la moyenne, la boucle passe à l'écart suivant,

Si ce n'est pas le cas, le programme regarde si les diérents incréments de niveau 2 à 4 sont compris dans la moyenne, il supprime alors 1 à 3 pics qui sont considérés comme des pics artéfactuels.

La fonction retourne donc la liste de l'intensité des pics dépourvue des pics artéfactuels ainsi que la liste des abscisses correspondantes. Illustrons le déroulement de la fonction avec l'exemple de l'individu black_baccara_13 du multiplexe PC1 dans le jeu de données Rosa Gallica 2018 (gure 10).

Figure 10 Incréments de niveau 1 (1religne) et incréments de niveau 2 (2eligne) de l'individu black_baccara_13 avant suppression des pics supplémentaires.

Dans cet exemple, le programme ne va trouver aucune anomalie jusqu'à l'écart 8, il va alors regarder le 8eincrément de niveau 2. Ce dernier appartenant aux valeurs moyennes, le programme ajoute le 9e pic aux pics à supprimer. Il procède de même pour les écarts 11 et 15, les pics 12 et 16 sont alors ajoutés à la liste. La fonction retourne donc les données initiales auxquelles les valeurs 9, 12 et 16 ont été supprimées. Après suppression nous obtenons donc les écarts de la gure 11 entre deux pics consécutifs :

Nous obtenons alors la courbe de régression de la gure 12.

(27)

Figure 11 Écart entre les pics successifs de l'individu black_baccara_13 après suppression des pics supplémentaires.

Figure 12 Droites de régression avant suppression des pics supplémentaires (à gauche) et après suppression (à droite).

Avant la suppression des pics supplémentaires les données n'étaient pas calibrées car la va- leur du R2adj était inférieure à 0,9960350. Ce critère est basé sur le quantile à 5 % duR2adj établi par Kornelia Eveilleau en 2019 lors de son stage. Après la suppression des pics artéfactuels, le coecient de détermination ajusté de la régression linéaire est de 0,9998753, les données des 4 couples d'amorces SSR et du marqueur de taille de l'individu sont donc calibrées.

Après avoir ajouté cette fonction au programme principal, plus de 60 % des données sont calibrées contre 30 % au départ. Il a donc été nécessaire de déterminer la raison pour laquelle les 40 % restants ne sont toujours pas calibrés.

Détection des pics manquants

Après avoir étudié les individus restants, il est apparu que très régulièrement des pics étaient manquants mais ceux-ci n'étant pas identiés, le programme considérait les premiers pics comme pics manquants créant ainsi un décalage dans la régression linéaire.

Prenons par exemple l'individu Rosa_Gallica_1063 du multiplexe PC1 du projet Rosa Gal- lica 2018 auquel le 9e pic est manquant. Le signal du marqueur de taille est représenté sur la gure 13.

(28)

Figure 13 Signal du marqueur de taille de l'individu rosa_gallica_1063possédant une régres- sion de mauvaise qualité.

Abscisses des pics

détectés 1 555 1 633 1 780 1 920 2 143 2 200 2 257 2 490 3 085 3 316 3 374 3 676 3 954 4 182 4 228 Intensité de la

uorescence associée 1 188 1 328 1 369 1 377 1 562 1 547 1 368 1 569 1 421 1 457 1 444 1 639 1 511 1 832 1 669 Pics de référence

associés utilisés (pb) 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Pics de référence

associés à utiliser (pb) 1 2 3 4 5 6 7 8 10 11 12 13 14 15 16

Tableau 2 Tableau des diérentes données de l'individu rosa_gallica_1063 avant identication des pics manquants.

La deuxième mission a donc été de créer une fonction permettant d'identier les pics man- quants an de les exclure de la référence lors de la régression linéaire. La fonction pics_manquants est donc venue compléter la précédente. Elle prend en entrée l'intensité des pics détectés dans le marqueur de taille, leur abscisse ainsi que le nombre de pics de référence. Comme précédemment, la fonction calcule les incréments des abscisses de niveau 1 à 2 pour chaque individu puis va faire une boucle sur les écarts des pics successifs :

Si l'écart se trouve dans la moyenne, la boucle passe à l'écart suivant,

Si ce n'est pas le cas, le programme regarde l'incrément de niveau 2, s'il est compris dans la moyenne des incréments de niveau 2 alors le pic suivant est considéré comme manquant.

(29)

Figure 14 Droite de régression avant identication des pics manquants de l'individu rosa_gallica_1063.

Illustrons le déroulement de la fonction avec l'exemple de l'individu rosa_gallica_1063 du multiplexe PC1 dans le projet Rosa Gallica 2018.

Figure 15 Écart entre les pics successifs de l'individu rosa_gallica_1063 avant identication des pics manquants.

(30)

Dans ce deuxième exemple, le programme ne va trouver aucune anomalie jusqu'à l'écart 8, il va alors regarder le 8e incrément de niveau 2. Ce dernier appartenant aux valeurs moyennes des incréments de niveaux 2 de la variable ecart2 le programme ajoute l'indice 9 pic aux indices à supprimer. La fonction retourne une liste contenant la valeur 9. Une fois la liste des indices récupérée, la 9evaleur de référence est supprimée an de réaliser la régression linéaire. Avant la détection du pic manquant, les données n'étaient pas calibrées car le coecient de détermination ajusté était encore inférieur à0,9960350. Après l'identication du pic manquant le coecient de détermination ajusté de la régression linéaire est de 0,9999165, les données des quatre couples d'amorces SSR et du marqueur de taille de l'individu sont donc calibrées.

Figure 16 Droite de régression après identication du pic manquant de l'individu rosa_gallica_1063.

Après avoir ajouté cette deuxième fonction au programme principal, plus de 99 % des données sont calibrées. Les individus ne pouvant pas être calibrés sont principalement des individus pour lesquels le signal du marqueur de taille est nul, il n'y a alors aucun pic détecté rendant la

(31)

logiciel GeneMapperR. Il serai intéressant de créer une fonction pouvant gérer ce problème par la suite.

3.2.3 Amélioration de la calibration des données

Dans cette partie nous allons voir s'il est possible de calibrer l'ensemble des données. Tout d'abord en réduisant le nombre de pics du marqueur de taille de référence puis en modiant le modèle de régression.

Calibration avec 14 pics de référence

Le marqueur de taille de référence possède 16 tailles en paire de bases. Cependant le fabricant indique que le pic à 250 pb est sensible aux faibles variations de température pouvant avoir lieu durant l'électrophorèse et qu'il est donc préférable de ne pas l'utiliser lors de la détermination de la taille standard dans le logiciel GeneMapperR. Il prévient également que les pics d'amorces interfèrent souvent avec la détection du pic à 35 pb.

Dans l'objectif d'améliorer la calibration, ces deux pics ont été exclus de la référence. Le signal du marqueur de taille de référence est donc désormais constitué de 14 pics de uorescence de taille respective 50 pb, 75 pb, 100 pb, 139 pb, 150 pb, 160 pb, 200 pb, 300 pb, 340 pb, 350 pb, 400 pb, 450 pb, 490 pb et 500 pb.

Deux nouvelles variables ont été créées, la première contient les écarts moyens entre deux pics consécutifs et, la deuxième, les incréments de niveau 2. Ces deux variables ont été construites à partir des deux précédentes, ecart et ecart2. Une nouvelle option a donc été intégrée dans le programme initial, il y a la possibilité de choisir entre 16 ou 14 pics de référence. Dans les diérents projets étudiés, GeneMapperR réalise la calibration avec 14 pics de référence. Cette approche permet donc de diminuer les sources de variabilité entre la lecture automatique et la lecture manuelle.

Après avoir eectué la calibration avec 14 pics de référence sur les 4 premiers projets seulement 2 % des individus possèdent une prédiction de moins bonne qualité mais toujours au dessus du seuil de 0,9960350. Dans la suite de mon stage, ce sont donc les données obtenues avec la calibration à 14 pics de référence qui ont été conservées.

Modication du modèle de régression

An de calibrer les données issues des électrophorèses, une régression linéaire simple est réalisée entre les abscisses de la référence et celles des pics détectés dans le signal du marqueur

(32)

de taille. Un modèle de régression linéaire simple consiste à modéliser la relation entre une variable réponse Y et une variable explicative X à partir d'un ensemble d'observations (X,Y). Le modèle peut s'écrire matriciellement :

Y =Xβ+ (3.6)

avec,

Y =

 y1

y2 ...

yn

 , X =

 1 x1

1 x2 ... ...

1 xn

 , β =

 β0

β1

 et=

1

2 ...

n

. (3.7)

où Y désigne le vecteur à expliquer de taille n×1,X la matrice explicative de taille n×2) etle vecteur d'erreurs de taille n×1.

Le modèle peut également s'écrire de la manière suivante :

∀k∈J1, nK, yk01xk+k (3.8) En supposant que les données de la matrice explicative sont observées, si les variables1, ..., n

forment un n-échantillon de loi N(0, σ2), alors l'estimation du paramètre β par la méthode du maximum de vraisemblance est identique à l'estimateur des moindres carrés. L'estimation du paramètre β est alors donnée par la formule 3.9.

βˆ=

X>X −1

X>Y (3.9)

De plus après avoir déni l'estimateur de la variance du bruit donnée par la formule 3.10 et quelques calculs, nous obtenons les valeurs des deux coecientsβ0 etβ1 (3.11).

ˆ σ2 = 1

n

n

X

k=1

ˆ

2k (3.10)

 β0 β1

=

¯ y−βˆ1

Pn

k=1(xk−¯xn)(yk−¯yn) Pn

k=1(xk−¯xn)2

 (3.11)

Dans notre cas, la variable à expliquer correspond à la taille en paire de bases et la variable explicative au temps de migration exprimé en unité arbitraire de temps. L'ensemble d'obser- vations contient au maximum 16 données mais il peut en contenir moins si certains pics sont manquants.

(33)

ceux de la lecture humaine nous avons constaté que seulement 20 % des génotypes possédaient le même nombre d'allèles avec pour chaque allèle une taille identique. En regardant quelques génotypes il s'est avéré que les tailles en paire de bases obtenues avec la lecture automatique possédaient des décalages de 1 à 2 paires de bases par rapport à celles de la lecture humaine. Ces décalages ne sont pas systématiques et concernent en priorité les allèles de petite ou de grande taille. Les allèles de taille modérée sont dans l'ensemble bien calibrés.

En regardant la régression utilisée par le logiciel GeneMapperR an de calibrer les données, plusieurs options sont possibles. Cependant il n'est pas possible de réaliser une régression linéaire simple, le modèle utilisé est au moins un modèle du second ordre. La méthode utilisée par l'équipe GDO est la méthode Local Southern, cette dernière tente de décrire la relation réciproque entre la mobilité et la taille du pic :

L= c

m−m0 +L0 (3.12)

où mreprésente la mobilité et L0 la longueur des fragments standard.

Cependant cette méthode étant très peu documentée par le fabriquant, nous avons décidé de reproduire une autre option de calibration disponible dans GeneMapperR : la régression de 3e ordre. Le modèle de régression linéaire simple a donc été modié au prot du modèle 3.13 suivant :

∀k∈J1, nK, yk01xk2x2k3x3k+k (3.13) Comme précédemment le modèle peut s'écrire matriciellement de la manière suivante :

Y =Xβ+ (3.14)

avec,

Y =

 y1 y2

...

yn

 , X =

1 x1 x21 x31 1 x2 x22 x32 ... ... ... ...

1 xn x2n x3n

 , β=

 β0

β1 β2

β3

et=

1 2

...

n

. (3.15)

Malgré le changement du modèle de régression, la qualité de la prédiction s'eectue toujours à l'aide du coecient de détermination ajusté. Cette nouvelle approche permet d'améliorer la prédiction de la taille en paire de base de tous les individus des quatre projets.

(34)

Figure 17 Droite de régression après modication de la méthode de régression de l'individu black_baccara_13.

Reprenons l'exemple de l'individu black_baccara_13, son coecient de détermination ajusté était de 0,9998753 avec la régression linéaire. Désormais nous avonsRadj2 = 0.9999644. Le nou- veau modèle de régression permet donc bien une amélioration de la calibration.

De plus la modication du modèle de régression a permis de diminuer le décalage présent entre la taille des allèles de la lecture automatique et de la lecture humaine. Désormais le décalage ne dépasse pas 0,2 pour un allèle donné. Il serait intéressant de pouvoir modéliser la méthode Local Southern an de pouvoir vérier que les tailles sont identiques à celles présentes dans la lecture humaine.

Conclusion

La calibration est donc maintenant réalisable sur la plus grande majorité des individus tous projets confondus. Un autre aspect important à étudier est celui de l'identication des sources

(35)

3.3 Étape de détermination du phénotypage allélique

Plusieurs fonctions interviennent dans la détermination du génotype. Dans un premier temps le programme modélise le signal du SSR étudié en fonction des trois autres, il cherche ensuite les allèles au sein du signal. Finalement les allèles sont pénalisés en fonction de leur occurrence dans la population mais également en fonction de la corrélation avec leurs allèles voisins si leur taille est proche.

3.3.1 Problématique et objectifs

En comparant certains génotypes issus de la lecture automatique avec ceux issus de la lecture humaine, il arrive que certains allèles présents dans la lecture humaine soient absents de la lecture automatique et inversement.

Lors de la recherche des allèles, un seuil d'intensité minimale est attribué pour chaque SSR. Ce seuil est déni à l'aide d'un critère appelé rapMaxPic, ce dernier vaut 5,1. Ce critère représente le rapport à appliquer au pic maximal des SSR an de déterminer la hauteur minimale de détec- tion des pics. Ce critère a été construit par les intervenants précédents en étudiant les lectures humaines. En eet 5,1 représente le rapport moyen entre l'intensité du plus haut pic et celle du plus bas pic pour chaque SSR dans la lecture humaine du projet FloRHIGe.

Cependant certains allèles ont une intensité dépassant 20 000, donc si le signal possède des allèles ayant une hauteur inférieure à 3 900 ces derniers ne sont pas détectés lors de la lecture automatique alors qu'ils sont conservés dans la lecture humaine. De plus, les pics présents en supplément dans la lecture automatique peuvent être des ombres ou bien des échos qui n'ont pas été supprimés par le programme. Plusieurs fonctions ont donc été mises en place an de pallier ces problèmes et améliorer la qualité de phénotypage allélique automatique.

3.3.2 Amélioration du phénotypage allélique automatique Ajustement du seuil de détection

An d'améliorer le génotypage automatique, il a été nécessaire, dans un premier temps, d'adapter le seuil de détection dans le cas de la présence d'un ou plusieurs pics ayant une inten- sité importante. Pour cela, la fonction detect_outlier a été ajoutée au programme initial. Cette nouvelle fonction prend en entrée les données de uorescence d'un couple d'amorces SSR, le rap- port rapMaxPic ainsi qu'un seuil arbitraire, valant 300 par défaut, en dessous duquel le signal n'est pas considéré comme un allèle. Elle retourne en sortie le seuil à appliquer pour le SSR en question.

(36)

Dans un premier temps l'algorithme récupère toutes les valeurs du signal supérieures à 300, ces valeurs sont ensuite regroupées en fonction de la distance entre les abscisses : les points ayant des abscisses consécutives sont considérés comme appartenant au même pic. A partir d'une dis- tance de 2 entre les abscisses, les points sont considérés comme appartenant à deux pics distincts.

Pour nir, seule la valeur maximale en ordonnées de chaque groupe est conservée, constituant ainsi une liste de pics contenant leur intensité respective.

Une fois la liste obtenue, la répartition des pics est étudiée an de détecter la présence éven- tuelle de valeurs aberrantes. Si des valeurs atypiques sont observées, le rapport rapMaxPic de 5.1 est appliqué à la valeur de l'extrémité supérieure du boxplot hors outliers. Prenons par exemple l'individu a_chacun_son_everest_1_G12_042 du multiplexe RM1 dans le projet RosesMonde.

L'étude du SSR H20D08 montre que le pic le plus haut possède une intensité de 25 677, ce qui fait un seuil de 5 035 si le critère rapMaxPic est appliqué. Or dans la lecture humaine, quatre des pics conservés possèdent une uorescence inférieure à ce seuil. Après ajustement du seuil, à l'aide de la fonction detect_outlier, celui-ci passe à 1895 permettant ainsi la détection des quatre pics non détectés auparavant.

Cette modication a donc permis la détection de certains pics. Cependant, lors de la com- paraison des génotypes générés automatiquement avec ceux de la lecture humaine, les résultats n'ont pas été améliorés de manière signicative. En eet, il y a toujours la présence de certains faux pics dans la lecture automatique, ces derniers peuvent être le résultat d'un écho ou bien encore d'une ombre. Il est donc important de pouvoir traiter ces cas de gure an de supprimer les pics correspondants.

Traitement des échos

Lors de l'analyse des électrophorégrammes, il arrive que certains pics détectés soient en réalité des échos. En eet, lorsqu'il y a la présence d'un pic de forte intensité au sein d'un signal, celui-ci peut générer des échos. Ces derniers possèdent une intensité plus faible et une forme similaire au pic initial mais sont répétés sur des abscisses plus élevées que le pic réel. Les pics considérés comme des échos sont supprimés manuellement dans le logiciel GeneMapperR.

La fonction supprimer_Echos est une fonction appartenant à un nouveau programme Au- toCorrection FONCTIONS. Ce programme permet de corriger les génotypes obtenus à l'aide du

(37)

quement. Elle est basée sur la fonction Redondance créée par Kornelia Eveilleau lors de son stage.

Une condition obligatoire est à vérier an de considérer un pic comme un écho : ce dernier ne doit jamais être présent sans le pic initial dans la population. Pour cela, la matrice de pré- sence/absence va être utilisée. Les quatre couples d'amorces SSR vont être traités de manière indépendante. Pour chaque couple d'amorces SSR, les allèles vont être traités deux à deux, les indices des individus ayant le premier sont extraits ainsi que ceux des individus ayant le deuxième allèle. Les indices sont ensuite comparés :

Si tous les indices du premier allèle sont compris dans les indices du deuxième alors le premier allèle est considéré comme un écho et inversement.

Si au moins un indice du premier allèle n'est pas présent dans les indices du second alors le pic ne peut pas être considéré comme un écho.

La fonction retourne donc la liste des échos détectés, la première colonne représente les pics réels et la seconde les échos qui leur sont associés. Elle renvoie également la base de données au format GeneMapperR et la matrice de présence/absence dépourvues des données correspon- dantes aux échos.

Traitement des ombres

Pour nir, il arrive que certains pics détectés soient en réalité des ombres dues aux longueurs d'ondes des uorochromes. Par exemple, comme nous pouvons le voir sur l'image 6, le uoro- chrome PET peut posséder des ombres provoquées par les trois autres uorochromes. En eet 6-FAM, VIC et NED émettent également à 595 nm.

Une ombre est donc dénie comme un pic ayant la même forme et la même position qu'un pic détecté avec un autre uorochrome. En revanche, l'ombre possède une intensité plus faible que le pic initial permettant ainsi de la distinguer de ce dernier.

La fonction supprimer_Ombres est une fonction appartenant également au programme AutoCorrection FONCTIONS. Cette fonction prend en entrée la base de données au format GeneMapperR ainsi que la matrice de présence/absence générées automatiquement.

Un pic est considéré comme une ombre seulement si ce dernier n'est jamais présent sans le pic initial dans la population. Comme précédemment, la matrice de présence/absence va être utilisée. Les SSR vont être étudiés deux à deux, les allèles des deux SSR sont extraits et seuls

(38)

les allèles en commun sont traités :

Si l'allèle du premier SSR est toujours associé à l'allèle du second SSR et que son intensité est inférieure, alors le pic du premier SSR est considéré comme une ombre et inversement.

Si au moins un individu possède l'allèle pour le premier SSR mais pas pour le deuxième, alors le pic du premier SSR ne peut pas être considéré comme une ombre.

Il est important de vérier qu'en aucun cas le pic ombre est présent sans le pic initial, en eet cela reviendrait à confondre un pic ombre avec un pic réel.

La fonction retourne donc la liste des ombres détectées, la première colonne représente les pics réels, la seconde les ombres qui leur sont associées et la dernière les indices des individus pour lesquels l'ombre a été supprimée. Elle renvoie également la base de données au format GeneMapperR et la matrice de présence/absence dépourvues des données correspondantes aux ombres.

3.4 Comparaison de la lecture automatique et de la lecture ma- nuelle

3.4.1 Méthode de comparaison

La comparaison représente une étape importante de la lecture automatique, en eet il est nécessaire de valider cette dernière an de vérier que les génotypes obtenus sont cohérents avec ceux de la lecture humaine.

Les génotypes ont été comparés à l'aide du programme comparaison_genemapper (François Vallée et al., com. pers.). En partant des deux lectures, ce dernier permet de comparer ligne par ligne les phénotypes alléliques obtenus. Le chier de sortie permet de voir pour chaque individu et chaque microsatellite si les lectures sont identiques ou non, et contient la liste des allèles en commun, des allèles présents en supplément dans la première lecture et ceux en supplément dans la seconde.

Dans un premier temps, ce sont donc les noms d'allèles qui ont été comparés. Cependant, les méthodes de régression des deux lectures (régression cubique pour la lecture automatique avec R, régression Local Southern pour la lecture humaine avec GeneMapper) étant diérentes, un léger

(39)

le nom de l'allèle ne correspond pas à l'arrondi de sa taille mais au nom du BIN associé à cette dernière. Ces deux approches diérentes créent donc également des variations artéfactuelles au sein des phénotypes alléliques.

An de comparer les deux lectures de manière exhaustive, il a donc été nécessaire de modier le type de données analysées. Le programme comparaison_genemapper permettant la sélection des données à prendre en compte, la comparaison reposera désormais sur la position sur l'axe des abscisses du pic dans le jeu de données, avant calibration de cet axe des abscisses en paires de base par régression grâce au marqueur de taille. En eet les diérences alléliques induites par la régression et la méthode de nomenclature ne sont pas répercutées sur les positions initiales.

Le programme va donc comparer les variables DataPoint des deux lectures an de déterminer si les pics sont bien identiques. Avant d'étudier ces variables, il est important de diminuer les positions initiales de la lecture automatique d'une unité car les données sont indexées de manière diérente dans la lecture humaine. Les projets RosaGalica 2018 et RosaGallica 2020 n'ont pas été étudiés étant donné que les données n'ont pas été lues manuellement. En revanche les trois projets restants, RosesMonde, FloRHiGe et RosaGallica 2012, ont pu être comparés.

3.4.2 Résultats

Les résultats de tableau 3 ont été obtenus en comparant tous les couples individu/couple d'amorces SRR. Les résultats sont donc des pourcentages établis par rapport au nombre de combinaisons individu/couple d'amorces SSR.

Nom du jeu de données Lectures identiques Lecture automatique inclus dans la lecture humaine

Lecture humaine inclus dans la lecture automatique

RosesMonde 52 % 28 % 6 %

Rosa Gallica 2012 62 % 22 % 12 %

FloRHiGE 54 % 30 % 16 %

Tableau 3 Tableau récapitulatif de la comparaison des projets RosesMonde, Rosa Gallica 2012 et FlorRHiGe.

Comme nous pouvons le voir sur le tableau récapitulatif 3 ci-dessus, environ 56 % des phé- notypes alléliques possèdent le même nombre d'allèle et la même position que dans la lecture humaine. De plus, environ 28 % des phénotypes alléliques de la lecture automatique sont inclus dans la lecture humaine, c'est-à-dire que pour ces individus, les allèles sont exacts mais que cer- tains ne sont pas détectés. A l'inverse dans 11 % des cas, les allèles de la lecture humaine sont inclus dans ceux de la lecture automatique. Certains allèles non présents dans la lecture humaine sont alors détectés lors de la lecture automatique.

(40)

En regardant les données pour lesquelles il existe des diérences de phénotypages alléliques, nous remarquons que la plupart des allèles manquants sont des allèles non détectés lors de la première lecture eectuée par GeneMapperR, ils ont donc été rajoutés manuellement lors de la lecture humaine. Ces allèles correspondent donc à des allèles pour lesquels l'intensité du signal est inférieure au seuil de détection. De plus, les allèles présents en plus sont des allèles suppri- més manuellement dans la lecture humaine après avoir été détectés lors de la première lecture eectuée par GeneMapperR.

La lecture automatique n'est donc pas encore totalement optimale. Cependant, malgré les diérences entre les lectures automatique et humaine, les phénotypes alléliques des individus témoins sont majoritairement homogènes pour un même couple d'amorces SSR. C'est pourquoi nous allons dans un dernier temps étudier la variabilité des phénotypes alléliques des témoins obtenus par lecture automatique.

3.4.3 Discussion

An d'améliorer la lecture automatique, il serait intéressant de conserver les pics inférieurs au seuil de détection supprimés an de pouvoir, lors d'une deuxième lecture, les réintroduire dans les phénotypes alléliques des individus concernés dans le cas où d'autres individus possèdent des pics supérieurs au seuil à la même position.

Il serait également intéressant de pouvoir automatiser la création des bins. En eet cette étape permettrait de ne plus nommer les allèles en fonction de l'arrondi de la taille mais bien en fonction du nom de l'allèle.

(41)

4 Étude de la variabilité intra-projet des té- moins

Lors de la production des données, plusieurs facteurs peuvent induire des variations d'origine non génétique. En eet, le séquenceur capillaire permet l'analyse simultanée de 96 puits alors que les échantillons sont répartis dans des plaques contenant 384 puits. Le séquenceur va alors eectuer quatre pipetages consécutifs an d'analyser l'ensemble des échantillons. Ces pipetages sont toujours réalisés dans le même ordre, conformément au schéma de la gure 18.

Figure 18 Schéma illustrant l'ordre des pipetages d'un plaque de 384 puits : respectivement rouge, vert, bleu, jaune. Source : stage de Kornelia Eveilleau.

Des individus témoins sont alors inclus dans le projet an de vérier le bon déroulement des diérentes étapes de production des données. Ces témoins sont au nombre de quatre : Black Baccara, Old Bush, Rosa wichurana et The Fairy. Ils sont présents quatre fois chacun sur une même plaque à 384 puits, permettant ainsi qu'ils soient analysés lors de chaque pipetage. A titre d'exemple, le projet RosesMonde a nécessité l'utilisation de cinq plaques, donc pour un couple d'amorces donné, chaque témoin sera analysé 20 fois (5 plaques de 384 puits×4 pipetages). Les 20 phénotypes alléliques générés sont donc en théorie identiques. Cependant, il semble y avoir des diérences. C'est pourquoi nous allons (i) conrmer la présence de diérences, (ii) essayer de caractériser ces diérences (aléatoires ou systématiques) et (iii) tenter d'en comprendre l'origine.

(42)

Si les diérences sont systématiques, il faudra voir s'il est possible de corriger les données.

Les analyses seront eectuées sur les noms des allèles issus du phénotypage allélique auto- matique des témoins. Pour un même couple d'amorces SSR, les phénotypes seront étudiés pour chaque témoin an de déterminer l'erreur de phénotypage allélique pour chaque individu.

4.1 L'existence de diérences : visualisation par Analyse Facto- rielle sur Tableau de Distance (AFTD)

4.1.1 Principe

L'AFTD est une méthode d'analyse factorielle permettant d'étudier la similarité entre indi- vidus en se basant sur un tableau de distance (dissimilarités ou similarités). Dans notre étude, l'AFTD sera réalisée sur une matrice de dissimilarité, notée D. Il est nécessaire de connaître les indices de dissimilarité de chaque couple d'individus, la matrice est donc symétrique. Cette dernière est obtenue à l'aide du logiciel DARwin à partir de la matrice de présence/absence. Ce logiciel peut déterminer la matrice de dissimilarité à partir de quatre indices de dissimilarité :

Indice de Dice :

dij = b+c

2a+ (b+c) (4.1)

Indice d'Ochiai :

dij = 1− a

p(a+b)(a+c) (4.2)

Indice de Jaccard :

dij = b+c

a+ (b+c) (4.3)

Indice de Sokal et Sneath (un2) :

dij = 2(b+c)

a+ 2(b+c) (4.4)

oùdij représente la dissemblance entre l'individuiet l'individuj,ale nombre de variables pour lesquelles il y a la présence pour i et pour j,b le nombre de variables pour lesquelles il y a la présence pour i et l'absence pour j et c le nombre de variables pour lesquelles il y a l'absence pouri et la présence pourj.

L'AFTD construit, à partir de la matrice de dissimilarité, une représentation euclidienne des individus dans un sous-espace de dimension réduit où les distances entres les individus sont aussi proches que possible des distances d'origine. Le nombre de dimensions conservées doit être déter-

Références

Documents relatifs

Dass dem Lesen im Rahmen der Sprachförderung zur Zeit besonders viel Beachtung geschenkt wird, hat zum einen mit der Schlüsselfunktion zu tun, welche dem Textverstehen für das

Dans le cadre des processus d’itération stochastique multi-dimensionnels, les résultats présentés dans ce chapitre constituent une extension d’un théorème de

[r]

[r]

Elle, de son côté, n’a pas fait attention à ce geste a priori anodin, elle a dû penser qu’il faisait un peu trop chaud dans la pièce et qu’il desserrait le nœud de sa cravate

Notre dispositif de création de liste de vocabulaire spécifique au corpus destinée à être ajoutée à la liste de vocabulaire cible va donc introduire soit des mots inexistants dans

Notre ressource vise avant tout des apprenants en milieu scolaire, nous avons donc opté pour la liste Manulex, décrite à la section 2, afin de disposer d’un ensemble de mots

Musique et