• Aucun résultat trouvé

Dans le chapitre 6, nous avons montré l’impact de l’utilisation des motifs identifiés par D iN AMO sur la qualité des résultats d’appel de variants. En effet, les résultats dans la section 6.2.3.2montrent une forte corrélation entre le classement des variants par notre fonction de score et leur statut de validation parmi les variants préalablement validés.

À court terme, d’autres fonctions de score pourraient être testées en intégrant plus de variables. Par exemple, on peut intégrer l’information du score qualité des variants ou bien de leurs bases flanquantes. Une autre information importante qui pourrait être intégrée dans l’information de score est le type de la mutation. Par exemple, les deux substitutions C>T et C>A après un même motif m ont, pour le moment, le même score. On pourrait prendre en compte les bases de référence et les bases alternatives dans la fonction de score. L’ajout de ces variables dans notre fonction de score améliorerait probablement le classement des variants.

Il serait possible de prendre en compte l’information complémentaire sur le motif CG favorisant la mutation naturelle du C quand il est méthylé. Ce motif donnent une certaine fiabilité au variant qui a plus de chance d’être un vrai variant, ce qui pour- rait être considéré dans le score final. Dans la même optique, il est également possible d’ajouter l’information sur les motifs défavorisant l’apparition des erreurs de séquen- çage. Il s’agit des motifs sous-représentés en amont des SSE, peuvent être obtenus avec D iN AMO en inversant tout simplement les deux fichiers d’entrée (P et N ). Le taux d’erreur attendu derrière ces motifs peut être pris en compte par la fonction de score de la même façon que les motifs sur-représentés.

Une fonctionnalité qui pourrait également simplifier l’utilisation de D iN AMO est la détection automatique de la longueur optimale du motif. Dans la version actuelle, c’est

l’utilisateur qui choisit la taille de motifs à rechercher (paramètre l). La détermination de la longueur optimale des motifs pourrait être réalisée en comparant des motifs de tailles différentes au sein du même treillis. Par exemple, le motif AAAA serait comparé directement au motif AAAAA dans le treillis. Cela impliquerait une autre méthode pour le parcours des fichiers de séquences afin de compter et construire le treillis à partir de motifs de tailles différentes.

Lors de nos analyses sur les données GIAB, les InDels ont été écartées à cause de la difficulté de les compter. En effet, il est difficile de connaître exactement la posi- tion d’un InDel dans les régions de faible complexité. De ce fait, une même InDel peut être représentée de plusieurs façons différentes [191], ce qui par conséquence, fausse les comptages des variants utilisés par la fonction de score. Pour pallier ce problème, une étape de normalisation avec des logiciels dédiés sera indispensable, ainsi qu’une réflexion sur une méthode de comptage qui sera adaptée aux InDels dans les régions de faible complexité.

Le but final est d’utiliser D iN AMO pour analyser les données de chaque run de sé- quençage. L’analyse se déroulera en deux étapes. Premièrement, D iN AMO sera lancé sur l’ensemble des fichiers BAM (les reads alignés) générés par le run de séquençage pour identifier les motifs induisant l’apparition des SSE. Ces motifs seront utilisés par la suite, pour analyser les variants détectés par le logiciel d’appel de variants (les fi- chiers VCF), à l’aide de la fonction de score, afin d’identifier et filtrer les SSE (comme montré dans le chapitre 6). Cela pourrait permettre de réduire les seuils de profon- deur utilisés pour filtrer les variants, permettant ainsi la détection des variants avec un faible ratio allélique (VAF) dans le cadre des analyses somatiques, tout en gardant une bonne spécificité en éliminant les erreurs de séquençage non aléatoires (SSE).

A

N

N

A

ANNEXE

A.1

Les motifs implantés dans les données

synthétiques

E IU P A C c on te nt 6 8 10 12 14

Number of implanted motifs

1

GCCGAT CTGVCG CNWCGG YBATNT HWWHCB AAGAGT AWACRA SCWSKT SNTTKK GRMNHS CCTCAG RACCTS KMTCYS VCAHAH YVBDTM AAAAGC RTGCGS TKSRKA DSAYRY BRCNYW CTTTGC GMRTCT RKCTDA NSCGKS TVSDNA

2

GATTTC,TGAGGG MGTKAC,RCGCGK GYTGWB,MTWASW RNSTCW,TRRWHR RHMYDK,GYBMNR AGCCTT,ACGTCG CTVTAG,AYMTCA BKTRTG,KCTYYW WYRHTM,SCSDBG TNHSKK,KHHHAS TTAGGT,TTTTTT CDCCTA,MTGGCS HAYTMA,RTBGMA DKYADG,GHRRBT BNCRRY,CNGSHH CAGCTC,GCAGCG ACMTCR,DGTACT HGAYTS,KVSCAT SAVWRR,CYTDBM RYRRVB,CSWMVN ATATTT,TTCAGT ATYCRT,CCMTYC AKYTWM,BKWTAT MSADRY,MVRWTS DDDDTG,DYVDCY

3

GGTGCG,AGTGGC,TTAGGT TTRCCK,TCTGBC,GAGGSW ACCRBY,ARKCRS,GKRKRC CVSCGN,BSTGBR,NWWATS MVKSTN,MADDMH,BYWHRK TTCCGT,CGATGT,GGGCAC GCMTSG,TCTCSS,AACWWC BCSTCM,TWCSMK,CRCBKG DRCKDG,ATTNWD,RHTAHS BGKYNS,SNWRSM,HBRMGD ATGGTG,CCGTGT,ACTGTT KACCAM,TAGWRG,AWWGCT AKKWWC,TKASKK,ASWWCS DSSVCC,RBKTKS,BKCARB YDMVSY,HBVAWK,BMRMDS GGATTT,GAAAGT,TTACTA ASCKAC,TDTTCC,RCCCSG AYBAYC,RYSCMG,TGYCSH MTHKWK,HCGBMR,HNCRCC DSHSVC,BHHARY,AHSWHH TGAACT,TGTACC,TCTCCT CGTSAS,AGGAHC,CYATSA YTYAYR,VMRCTG,CCYMVG YWACHB,WSBMYA,MMDMKT HKWBBT,SVTSNK,WCSNDY

4

CCGCTG,CGGTTC,TTCGCC,AAACGC TTGMCW,YAAAST,AVCACA,RCTCTK HMGWAG,MCCDYA,SRYRTC,AWRHCA GWHWYK,YBWDCT,TBMKYK,AVACWN GABDVH,KKHWRH,WANYHM,MMBVKK CTAAGA,CATGCG,AGTGGC,GCACAG AGGKST,MACGYG,GKWTCT,GCAMAK CBTMAY,RAWHTT,VSATAM,CHHGGT HRMSWA,YYYYRK,SHKWGW,WSHKGK HBCKBW,KSTDKN,KWBWYB,HBKGMB GCCGCT,GCCCCC,CATTGT,TGTTGA ACRGAS,TWTSGC,AMTAGY,SWGCGC YTBTYC,RAMAKK,TTSWKK,CGTTWN TDWSRW,SGYVVG,SGVKWY,SRBRGW MAHDDM,MVHWDT,YMABVB,THDVSW ATTGCT,GCAGCT,GGAACC,CCCAAG AMYGCC,TKTGGS,TGAMTW,WGRCTT MKRYCG,KGAWKM,YYSCTS,RCAKHC HSDCSC,YWKSDG,STDBCR,NYCGWK HSDRYS,DMMSRB,WMKCNV,HWDHGY ACCAAA,GATAGG,CAGTTC,CTCGTC TCKWGC,MCSTCG,AATYAR,TKWCCA VRGCCS,MCMMKC,BYGKGG,WYAAMM CTSRRN,NWAGCD,RGVMRS,YMWMTH BVSBGW,TWSHMN,VWTYVD,NRCDBT

TABLE A.1 – Les ensembles de motifs IUPAC générés aléatoirement et implantés dans les séquences du jeu de données synthétiques.

A.2

Les co-facteurs détectés et leur statut de