• Aucun résultat trouvé

3.3 HMM profils

3.3.1 Phases de conception d’un HMM profil

Quelle que soit l’implémentation logicielle utilisée, un HMM profil se conçoit en diffé- rentes étapes que nous décrivons brièvement ci-dessous :

40 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT

1. analyse des séquences d’apprentissage pour déterminer les poids relatifs des sé- quences. Cette phase de pondération (cf. section 3.4) permet de diminuer l’impor- tance qu’auront les séquences identiques ou quasi identiques pour la suite du pro- cessus d’apprentissage. En effet, on trouve souvent une certaine redondance dans les jeux de données, cette redondance étant due à divers facteurs (échantillonnage taxonomique, épissage alternatif1, redondance des identifiants dans les bases, etc). En pondérant les séquences, on augmente l’importance des séquences singulières. Il faut noter qu’en cas d’erreur dans la construction de la famille d’apprentissage, ce mécanisme porte préjudice puisqu’il renforce l’importance des éventuels intrus. 2. détermination du sous-ensemble des sites qui vont être modélisés par des états

Match. On peut par exemple adopter la règle simple consistant à retenir une colonne dès lors qu’elle comporte une proportion de gaps inférieure à un seuil donné. 3. détermination du poids total à attribuer à l’alignement de séquences d’apprentis-

sage. Ce poids total représente la confiance donnée aux observations par rapport à un modèle a priori des séquences. Plus ce poids est élevé, plus on fera confiance aux observations dans la suite de l’apprentissage. Plus il est faible, et plus on privilégiera l’information a priori (par exemple la composition standard en acides aminés telle qu’observée dans les bases de données, la probabilité a priori d’ouvrir un gap, etc). La pondération totale de l’ensemble d’apprentissage peut se faire par exemple en fixant la quantité d’information moyenne que l’on veut tirer des sites alignés sur des états Match, par rapport à la composition de fond (par exemple 0,5 bit d’information par position).

4. apprentissage des paramètres du modèle :

– distributions de probabilités d’émission de caractères sur les états Match, – distributions de probabilités d’émission de caractères sur les états Insertion, – probabilités de transition entre états.

Cet apprentissage se fait soit par la combinaison directe des observations et des connaissances a priori, soit de manière itérative par un processus de recherche des paramètres optimaux appelé Expectation-Maximisation (EM).

Expectation-Maximisation

Publiée en 1977 par Dempster, Laird et Rubin [Dempster et al., 1977], la méthode consiste à rechercher un ensemble θde paramètres optimaux pour un modèle M , à

partir d’observations D. Le modèle inclut des variables cachées, H. Dans le cas qui nous 1. Un transcrit est une succession d’introns et d’exons. Les introns sont des morceaux de séquence qui sont évacués lors de la traduction de l’ARNm en une séquence d’acides aminés, par un processus appelé épissage. Chez les eukaryotes, les signaux biologiques d’épissage sont variables selon le contexte et peuvent donc mener à des séquences de coupures et de ligatures différentes, produisant ainsi à partir d’un même gène des protéines différentes bien que proches. C’est ce phénomène que l’on appelle épissage alternatif.

3.3. HMM PROFILS 41

intéresse ici, D correspond à un alignement de séquences, M est un HMM profil dont les paramètres θ sont toutes les probabilités d’émission et de transition correspondant aux différents états. Enfin, H est l’ensemble (discret) des chemins cachés possiblement empruntés par les séquences dans le HMM. Ils sont dits«cachés»car inconnus de l’utli-

sateur : si l’on fait l’hypothèse que le modèle représente fidèlement la réalité, les«vrais»

chemins cachés sont les séquences d’états ayant effectivement généré les séquences ob- servées.

L’objectif de l’algorithme d’Expectation-Maximisation est de donner au moins une approximation du jeu de paramètres optimal θtel que la vraisemblance Lk(θ|M ,D) =

Pr (D|M ,θ) soit maximale. Il procède par une série d’itérations successives de raffine-

ment d’un jeu de paramètres θt, chaque itération se composant de deux phases que nous

décrivons ci-dessous.

La phase Expectation (E) consiste à calculer la vraisemblance attendue pour un jeu de paramètres θ en faisant certaines hypothèses liées à l’état courant du jeu de paramètres,

θt. L’état des variables cachés étant inconnu, le calcul de la vraisemblance d’un jeu de pa-

ramètres induit une sommation :

Pr(D|M ,θ) =X

H Pr(D, H|M ,θ)

(3.3)

Cette sommation sur les variables cachées H étant computationnellement difficile à établir, l’algorithme EM propose de calculer la vraisemblance attendue pour θ en utilisant un jeu de paramètres présupposé (c’est le rôle de θt) afin de déterminer la distribution de

probabilité des variables cachées. Ainsi, on détermine une quantité Q(θ|θt) correspondant

à la log-vraisemblance de θ«sachant θt »:

Q(θ|θt) = X

H Pr(H|D,M ,θt)logPr(D, H|M ,θ)

(3.4)

= EH|D,θt£logPr(D, H|M ,θ)¤ (3.5)

La phase de Maximisation (M) consiste alors à déterminer la valeur θt+1qui sera utili- sée pour l’itération suivante. Cette valeur est obtenue en maximisant Q(θ|θt) :

θt+1= arg max

θ (Q(θ|θt)) (3.6)

Il faut noter qu’en général le problème correspondant à l’étape de maximisation est difficile à résoudre. La classe des algorithmes dits«Generalised Expectation Maximisa-

tion» se contente de déterminer à chaque itération un jeu de paramètres θt+1 tel que

Lk(θt+1|D,M ) > Lk(θt|D,M ). C’est à cette classe qu’appartient l’algorithme de Baum-

42 CHAPITRE 3. DES MODÈLES POUR DÉCRIRE UN ALIGNEMENT

des paramètres d’un HMM profil.

Dans le cadre de ces modèles, les variables cachées correspondent comme on l’a dit plus haut aux chemins empruntés par les différentes séquences d’apprentissage dans le HMM profil. Les paramètres θ sont les probabilités d’émission et de transition décorant respectivempent les états et les arêtes du modèle. L’étape (E) consiste alors à calculer le nombre attendu d’utilisations de chacune des transitions ou des émissions du modèle. Cette étape utilise directement les données issues de l’algorithme forward qui permet de calculer l’alignement optimal d’une séquence au modèle ou encore les probabilités postérieures pour un caractère d’avoir été engendré par l’un ou l’autre des états du HMM. L’étape de maximisation est ensuite relativement triviale puisqu’elle consiste à affecter à chaque transition ou chaque émission une probabilité proportionnelle à son utilisation attendue calculée lors de l’étape (E). Par exemple, si Akl est le nombre d’utilisations atten-

dues (en se basant sur le jeu de paramètres θt) pour la transition allant de l’état k vers l’état

l, alors la probabilité correspondante akl prendra dans le jeu de paramètres θt+1la valeur

akl = Akl/PjAk j.