• Aucun résultat trouvé

Les mots de l'ADN

N/A
N/A
Protected

Academic year: 2021

Partager "Les mots de l'ADN"

Copied!
16
0
0

Texte intégral

(1)

HAL Id: hal-02813617

https://hal.inrae.fr/hal-02813617

Submitted on 6 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Les mots de l’ADN

Sophie Schbath

To cite this version:

Sophie Schbath. Les mots de l’ADN. Journées des nouveaux arrivants du centre INRA de Jouy- en-Josas, Institut National de Recherche Agronomique (INRA). UR Mathématique, Informatique et Génome (1077)., Dec 2009, Jouy-en-Josas, France. 15 diapos. �hal-02813617�

(2)

Les mots de l’ADN

M.-A. Petit et S. Schbath

INRA, Jouy-en-Josas, France

http://genome.jouy.inra.fr/ssb/

(3)

Modélisation statistique

Jouy, d ´ecembre 2009 – p.2

(4)

Comptage inattendu ?

On considère un motif w sur l’alphabet {a,c,g,t}.

On observe son comptage le long d’une séquence d’ADN : Nobs.

Nobs est-il anormalement grand ? anormalement petit ? ou normal (= attendu) ?

“attendu” fait référence à un a priori que nous avons compte tenu de l’information que nous avons sur la séquence ⇒ le modèle.

(5)

Modèle et comptage inattendu

Le comptage attendu Nbatt dépend du modèle pour la séquence.

Exemple : tcatg observé 100 fois dans une séquence de longueur n = 100 000.

Modèle Info sur la séquence Nbatt indép. + longueur

équirép. n = 100000 n

45 = n × 1

4 × 1

4 × 1

4 × 1

4 × 1

4 ≃ 98

Jouy, d ´ecembre 2009 – p.4

(6)

Modèle et comptage inattendu

Le comptage attendu Nbatt dépend du modèle pour la séquence.

Exemple : tcatg observé 100 fois dans une séquence de longueur n = 100 000.

Modèle Info sur la séquence Nbatt indép. + longueur

équirép. n = 100000 n

45 = n × 1

4 × 1

4 × 1

4 × 1

4 × 1

4 ≃ 98 indép. %a, %c, %g, %t

M0 10%,15%,50%,25% npb(t)pb(c)pb(a)pb(t)pb(g) ≃ 47

(7)

Modèle et comptage inattendu

Le comptage attendu Nbatt dépend du modèle pour la séquence.

Exemple : tcatg observé 100 fois dans une séquence de longueur n = 100 000.

Modèle Info sur la séquence Nbatt indép. + longueur

équirép. n = 100000 n

45 = n × 1

4 × 1

4 × 1

4 × 1

4 × 1

4 ≃ 98 indép. %a, %c, %g, %t

M0 10%,15%,50%,25% npb(t)pb(c)pb(a)pb(t)pb(g) ≃ 47 dépendance %aa, %ac, %ag,

1 lettre . . ., %tg, %tt npb(t)pb(c après t)pb(a après c)pb(t après a)

M1 ×pb(g après t) ≃ 62

Jouy, d ´ecembre 2009 – p.4

(8)

Modèle et comptage inattendu

Le comptage attendu Nbatt dépend du modèle pour la séquence.

Exemple : tcatg observé 100 fois dans une séquence de longueur n = 100 000.

Modèle Info sur la séquence Nbatt indép. + longueur

équirép. n = 100000 n

45 = n × 1

4 × 1

4 × 1

4 × 1

4 × 1

4 ≃ 98 indép. %a, %c, %g, %t

M0 10%,15%,50%,25% npb(t)pb(c)pb(a)pb(t)pb(g) ≃ 47 dépendance %aa, %ac, %ag,

1 lettre . . ., %tg, %tt npb(t)pb(c après t)pb(a après c)pb(t après a)

M1 ×pb(g après t) ≃ 62

.. .

dépendance %aaaa, %aaac,

3 lettres . . ., %tttg, %tttt npb(tca)pb(t après tca)pb(g après cat) ≃ 55 M3

(9)

Mesure d’exceptionnalité

Intuitivement on veut comparer Nobs et Nbatt, par exemple en faisant

scoreobs = Nobs − Nbatt b

σ

Jouy, d ´ecembre 2009 – p.5

(10)

Mesure d’exceptionnalité

Intuitivement on veut comparer Nobs et Nbatt, par exemple en faisant

scoreobs = Nobs − Nbatt b

σ

On peut montrer que si Nbatt est assez grand alors le score ∼ N(0,1).

(11)

Mesure d’exceptionnalité

Intuitivement on veut comparer Nobs et Nbatt, par exemple en faisant

scoreobs = Nobs − Nbatt b

σ

On peut montrer que si Nbatt est assez grand alors le score ∼ N(0,1).

On peut donc calculer la significativité de Nobs grâce à la “p-value” :

P(comptage ≥ Nobs) = P(N(0,1) ≥ scoreobs).

Une p-value proche de 0 ↔ score proche de +∞ ↔ motif exceptionnellement fréquent Une p-value proche de 0.5 ↔ score proche de 0 ↔ motif attendu

Une p-value proche de 1 ↔ score proche de −∞ ↔ motif exceptionnellement rare

Jouy, d ´ecembre 2009 – p.5

(12)

Mesure d’exceptionnalité

Intuitivement on veut comparer Nobs et Nbatt, par exemple en faisant

scoreobs = Nobs − Nbatt b

σ

On peut montrer que si Nbatt est assez grand alors le score ∼ N(0,1).

On peut donc calculer la significativité de Nobs grâce à la “p-value” :

P(comptage ≥ Nobs) = P(N(0,1) ≥ scoreobs).

Une p-value proche de 0 ↔ score proche de +∞ ↔ motif exceptionnellement fréquent Une p-value proche de 0.5 ↔ score proche de 0 ↔ motif attendu

Une p-value proche de 1 ↔ score proche de −∞ ↔ motif exceptionnellement rare

Si Nbatt est petit, on peut montrer que le comptage suit une loi de type Poisson.

(13)

Contraste significatif ?

On considère un motif w sur l’alphabet {a,c,g,t}.

On observe son comptage le long d’une 1ère séquence d’ADN : N1obs. On observe son comptage le long d’une 2ème séquence d’ADN : N2obs.

Le motif w est-il davantage inattendu dans la 1ère séquence que dans la 2ème ?

Jouy, d ´ecembre 2009 – p.6

(14)

Contraste significatif ?

On considère un motif w sur l’alphabet {a,c,g,t}.

On observe son comptage le long d’une 1ère séquence d’ADN : N1obs. On observe son comptage le long d’une 2ème séquence d’ADN : N2obs.

Le motif w est-il davantage inattendu dans la 1ère séquence que dans la 2ème ?

Pour cela, on quantifie l’exceptionnalité du motif en écrivant Nobs = k × Nbatt et on teste statistiquement l’hypothèse H0 : {k1 = k2} contre H1 : {k1 > k2}

(15)

Contraste significatif ?

On considère un motif w sur l’alphabet {a,c,g,t}.

On observe son comptage le long d’une 1ère séquence d’ADN : N1obs. On observe son comptage le long d’une 2ème séquence d’ADN : N2obs.

Le motif w est-il davantage inattendu dans la 1ère séquence que dans la 2ème ?

Pour cela, on quantifie l’exceptionnalité du motif en écrivant Nobs = k × Nbatt et on teste statistiquement l’hypothèse H0 : {k1 = k2} contre H1 : {k1 > k2}

Ici la modélisation va porter sur le processus des occurrences du motif le long de chacune des séquences (processus de Poisson),

Jouy, d ´ecembre 2009 – p.6

(16)

Contraste significatif ?

On considère un motif w sur l’alphabet {a,c,g,t}.

On observe son comptage le long d’une 1ère séquence d’ADN : N1obs. On observe son comptage le long d’une 2ème séquence d’ADN : N2obs.

Le motif w est-il davantage inattendu dans la 1ère séquence que dans la 2ème ?

Pour cela, on quantifie l’exceptionnalité du motif en écrivant Nobs = k × Nbatt et on teste statistiquement l’hypothèse H0 : {k1 = k2} contre H1 : {k1 > k2}

Ici la modélisation va porter sur le processus des occurrences du motif le long de chacune des séquences (processus de Poisson),

et on utilise que N1 | N1 + N2 suit une loi binomiale dont les paramètres ne dépendent ni de k1 ni de k2 sous l’hypothèse H0

=⇒ p-value =⇒ score de contraste

Références

Documents relatifs

To test whether the vesicular pool of Atat1 promotes the acetyl- ation of -tubulin in MTs, we isolated subcellular fractions from newborn mouse cortices and then assessed

Néanmoins, la dualité des acides (Lewis et Bronsted) est un système dispendieux, dont le recyclage est une opération complexe et par conséquent difficilement applicable à

Cette mutation familiale du gène MME est une substitution d’une base guanine par une base adenine sur le chromosome 3q25.2, ce qui induit un remplacement d’un acide aminé cystéine

En ouvrant cette page avec Netscape composer, vous verrez que le cadre prévu pour accueillir le panoramique a une taille déterminée, choisie par les concepteurs des hyperpaysages

Chaque séance durera deux heures, mais dans la seconde, seule la première heure sera consacrée à l'expérimentation décrite ici ; durant la seconde, les élèves travailleront sur

A time-varying respiratory elastance model is developed with a negative elastic component (E demand ), to describe the driving pressure generated during a patient initiated

The aim of this study was to assess, in three experimental fields representative of the various topoclimatological zones of Luxembourg, the impact of timing of fungicide

Attention to a relation ontology [...] refocuses security discourses to better reflect and appreciate three forms of interconnection that are not sufficiently attended to