4.1 F OUILLE DE DONNÉES POUR LA RECHERCHE DES SITES DE RÉGULATION
4.1.1 Avantages de la méthode : grande flexibilité de recherche
4.2 FOUILLE DE DONNÉES DÉVELOPPÉE POUR L’ANALYSE DES GÈNES « ATYPIQUES » ... 117
4.2.1 Méthodes HMM vs. autres méthodologies de détection du HGT ... 117
4.2.2 Distribution des gènes dans un arbre phylogénétique : valeur de dispersion ... 119
4.3 LES HMM DU SECOND ORDRE POUR LA FOUILLE DE DONNÉES GÉNOMIQUES ... 121
4.4 DÉFINITION AUTOMATIQUE D’UNE TOPOLOGIE DE HMM D’ORDRE 2 ... 123
Les deux stratégies fondées sur les HMM d’ordre 2 se révèlent efficaces pour l’identification
de signaux de régulation et dans la détection de gènes atypiques. Nous allons exposer et
discuter dans les deux premières parties, des avantages des analyses comparées à d’autres
méthodes, des limites et des améliorations propres à chacune des stratégies employées. Dans
une troisième partie, nous allons discuter des avantages et des inconvénients de l’utilisation
des HMM d’ordre 2 dans l’analyse de séquences génomiques par une fouille de données.
Enfin, la recherche de TFBS ou de gènes « atypiques », a nécessité la recherche expérimentale
d’une topologie de HMM adéquate. En outre, nous proposons d’explorer une possibilité de
recherche automatique d’une topologie de HMM.
4.1 Fouille de données pour la recherche des sites de
régulation
L’originalité de la fouille est d’associer deux méthodes stochastiques (HMM2 et R’MES) pour
l’identification de motifs et une méthode de classification pour regrouper les motifs identifiés
afin de reconstruire des motifs composites robustes. La fouille de données sur le génome de
Streptomyces coelicolor a permis de déceler des sites de fixation déjà caractérisés
expérimentalement (
R!"
whiG!"
B) et de proposer de nouveaux SFBS putatifs. Les paramètres
de la phase de recherche de motifs composites étaient ajustés à l’aide d’une étude effectuée
sur le régulon
R(cf. section 2.3). Ces paramètres ont permis de cibler notre recherche, de
comparer les différents modèles et de réduire le temps de calcul.
Ainsi, nous allons aborder dans un premier temps, les avantages de la stratégie d’analyse mise
en œuvre et dans un second temps, nous allons suggérer des pistes d’optimisation de la
stratégie.
4.1.1 Avantages de la méthode : grande flexibilité de
recherche
Recherche de motifs rares (sous-représentés)
Durant l’étape de recherche de motifs composites SFBS, R’MES identifie des motifs
exceptionnels et dans notre cas, nous avons sélectionné les motifs sur-représentés. Toutefois,
il est possible d’extraire les motifs exceptionnellement sous représentés. Cette analyse
pourrait révéler des motifs très peu fréquents comme cela est le cas pour le SFBS du facteur
bldN