A LAIN G UÉNOCHE
S TÉPHANE G RANDCOLAS
Approximations par arbre d’une distance partielle
Mathématiques et sciences humaines, tome 146 (1999), p. 51-64
<http://www.numdam.org/item?id=MSH_1999__146__51_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1999, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
APPROXIMATIONS PAR ARBRE D’UNE DISTANCE PARTIELLE Alain
GUÉNOCHE1, Stéphane GRANDCOLAS1
RÉSUMÉ - En classification par arbre, on cherche à ajuster une dissimilarité donnée par une
distance d’arbre. Mais bien souvent, surtout par comparaison de séquences biologiques, les valeurs obtenues sont peu fiables, voire indéterminées. On a alors une distance partielle qui n’est pas définie pour toute paire. Dans ce cas, on peut soit développer une méthode spécifique qui n’utilise que les valeurs
disponibles,
soit estimer les valeurs manquantes et utiliser une méthode classique pour reconstruire l’arbre.Cet article présente deux méthodes de ce type et les compare à l’aide de simulations sur des distances d’arbre partielles et bruitées.
MOTS CLÉS 2014 Reconstruction d’arbre, Distance partielle, Méthode séquentielle.
ABSTRACT - Tree adjustments for partial distances
In tree clustering, we try to approximate a given dissimilarity matrice by a tree distance. In some cases, especially when comparing biological séquences, some dissimilarity values cannot be evaluated and we get
some partial dissimilarity with undefined values. In that case one can develop a sequential method to
reconstruct a valued tree or evaluate the missing values using a tree model. This paper introduces two methods of this kind and compare them simulating noisy partial tree dissimilarities.
KEY WORDS 2014 Tree Reconstruction, Partial Distance, Sequential Method.
En classification on s’intéresse à la
représentation
d’une distance D sur unensemble X par un X-arbre
(X
est l’ensemble desfeuilles,
les arêtes sontpondérées
par des valeurs
positives
ounulles,
et lalongueur
des chemins entre feuillesapproxime
ladistance
D) (Barthélemy
& Guénoche[1988]).
Suivant les domainesd’application,
lesnoeuds
(ou
sommetsinternes) correspondent
à descatégories (psychologie cognitive),
àdes ancêtres communs
(évolution moléculaire,
filiation detextes)
ou toutsimplement
àdes classes
d’objets (archéologie).
Il est bien connu que cettereprésentation
est exacte si et seulement si D est une distanced’arbre,
c’est-à-dire que D vérifie la Condition des quatrepoints (Zaretskii [ 1965],
Buneman[ 1971 ]) :
Pour tout x, y, z,t E X,
En d’autres termes, pour tout
quadruplet, parmi
les trois sommesD(x, y)
+D(z, t), D(x, z)
+D(y,t), D(x, t)
+D(y, z),
les deuxplus grandes
sontégales.
~ Laboratoire d’Informatique de Marseille, Université de la Méditerrannée, 163 avenue de
Luminy,
13009Marseille, e-mail : [email protected].
Généralement dans tous ces
domaines,
à commencer par celui de la reconstructionphylogénétique,
le modèle arborés’impose,
mais les indices de distance utilisés nedonnent pas exactement des distances
d’arbre ;
ce ne sont même pas nécessairement desdistances,
mais des dissimilarités. Deplus,
on nedispose
souvent que d’une informationincomplète
sur les élémentscomparés,
enparticulier
pour lesséquences biologiques,
eton est en
présence
de valeurs indéterminées(ou
peufiables).
Parexemple,
dans laversion actuelle de la base
Hovergen
desgènes homologues
de vertébrés(Duret, Mouchiroud, Gouy [1994]),
il y a 20 % de familles contenant desséquences incomplètes.
On a alors une dissimilarité
partielle,
notée par la suiteL1,
àpartir
delaquelle
on souhaitereconstruire un X-arbre.
Dans cette situation
expérimentale,
on a essentiellement deuxpossibilités.
Lapremière
consiste àdévelopper
une méthodespécifique qui
n’utilise que les valeurs de distancedisponibles ;
c’est la MéthodeSéquentielle
Parcimonieuse que nousprésenterons
tout d’abord. Dans la
seconde,
on commence par estimer les valeursmanquantes
avant d’utiliser une méthodeclassique, Neighbor Joining
de Saitou & Nei[1987],
pour reconstruire l’arbre.Pour
finir,
nous comparons ces deuxapproches
à l’aide de simulations. Pour celaon tire au hasard un X-arbre
T,
donc une distance d’arbre D que l’on bruite pour obtenir une dissimilaritépartielle
L1. A l’aide de l’une ou l’autreméthode,
on reconstruitun X-arbre value 0 que l’on compare à T suivant des critères
métriques
ettopologiques.
1. ARBRES ET
MÉTHODES SÉQUENTIELLES
DE RECONSTRUCTIONComme la condition des
quatre points
le laisseentendre,
toute distance sur troispoints
estarborée,
c’est-à-direreprésentable
sur un arbre. Pour touttriplet { x, y, z }
les trois valeurs de distancesA(x, y), d(y, z)
etA(z,x)
forment untriangle métrique
si et seulement si cestrois valeurs vérifient la fameuse
inégalité triangulaire.
Cetriangle,
habituellementreprésenté
dans leplan euclidien, peut
aussi êtrereprésenté
defaçon
exacte par un arbre.Figure
1 : Toute distance sur 3points
est une distance d’arbreSi A est une distance sur
X = ~ x, y, z ~ ,
alors il existe un X-arbreunique, appelé
3-étoile,
dont les arêtes(x, a), (y, a)
et(.z, a)
sont delongueurs positives
ou nulles :+
d(z, y) - d(x, y)].
Par la suite nousappellerons
ces formules leséquations
dutriangle.
Cette
propriété
à été utilisée très tôt pour la reconstruction d’un arbre àpartir
d’unedistance
supposée proche
d’une distance d’arbre. Lespremiers algorithmes
sont desméthodes
séquentielles
dont leprincipe
a étéproposé
par Farris[1972]
etrepris
par Waterman et al.[1977].
Dans les méthodesséquentielles,
àchaque étape
ondispose
d’unY-arbre,
danslequel
Ydésigne
le sous-ensemble des sommetsplacés,
et onajoute
unnouvel élément z. Pour
cela,
on détermine laposition
d’un nouveau noeuda(z)
dansl’arbre courant
qui
est lepoint d’accrochage
de l’arête(z, a(z)) qui
estajoutée.
Il y a essentiellement deuxstratégies :
soit onplace
z parrapport
aux arêtes del’arbre,
soit onle
place
parrapport
aux chemins entrepaires
d’éléments de Y. Dans un cas comme dansl’autre,
il faut sélectionner l’arête ou le cheminqui
minimise l’écartE(z)
entre z et leY-arbre courant, c’est-à-dire la
longueur
de l’arête(z,a(z)) ;
ce sont leséquations
dutriangle qui permettent
de mesurer cet écart.Dans le cas du
positionnement
parrapport
auxarêtes,
là encore il y a deux choix.Soit on estime les valeurs de distance aux extrémités de
chaque arête,
c’est-à-dire que l’on étend la matrice de distance aux noeuds - c’est la solution retenue par Waterman -, soit ontient
compte
de toutes les valeurs entre éléments de Y situés depart
et d’autre dechaque arête,
solutionadoptée
par Makarenkov et Leclerc[1999].
Du
point
de vue de lacomplexité,
il sembleplus
efficace de travailler parrapport
aux
arêtes, puisqu’elles
sont en nombreO(n),
alors que les chemins sont enO(n2).
Certes,
mais nous verrons que, dans lepremier
cas, pourchaque
arête l’évaluation de l’écart à l’arbre courant d’un sommet nonplacé
est en0(n 2)@
cequi
conduit à des itérations en0(n3)
et donc unalgorithme
en0(n4).
Alors que laprocédure
que nousdéveloppons,
bien que seplaçant
parrapport
auxchemins,
parcequ’elle exploite
unestratégie
similaire àl’algorithme
de Prim[1957]
pour les arbres couvrants delongueur
minimum,
est en~(n3)
au total.1.1. MÉTHODE
SÉQUENTIELLE
PARCIMONIEUSECette méthode doit
beaucoup
à celle desTriangles (Leclerc [1995], puis
Leclerc &Makarenkov
[1998]),
basée sur la construction d’un2-arbre,
c’est-à-dire un ensemble de(n-2) triangles
sur X connexes pour la relationd’adjacence -
deuxtriangles
sontadjacents
s’ils ont un côté commun. Son intérêt est double : d’unepart
elle montrel’équivalence
entre un 2-arbre et le X-arbre résultant et, d’autrepart,
que les 2n-3 valeurs de distances retenues dans le 2-arbre sont exactementreprésentées
dans leX-arbre
correspondant.
En collaboration avec L.Duret,
nous avons tout d’abordessayé
d’étendre cette méthode au cas des distances
partielles (Guénoche,
Leclerc[1998]).
Finalement la recherche d’une meilleure efficacité nous a conduit à
adopter
une méthodepurement séquentielle,
danslaquelle
la notion de 2-arbre n’aplus
lieu d’être. Néanmoinsbeaucoup
desidées,
et des solutions retenuesci-après,
viennent de cette tentative deprolongement
de la méthode desTriangles.
Initialement,
on part d’un arbre réduit à 3 éléments On choisit ceuxqui correspondent
à untriangle métrique
depérimètre minimum,
c’est-à-dire à la 3-étoile delongueur minimum,
et l’on pose Y :=} x,y,,z } .
On a donc 3 chemins dans l’arbre courantnoté0. Pour tout autre élément w, notons
Lxy(w)
la distance de w auchemin [x, y]
donnée par les
équations
dutriangle,
etE(w)
l’écart de w à Y calculé comme :Dans notre
méthode,
onplace
àchaque
itération l’élément z d’écart minimum tel que :Ce choix est motivé par deux observations : d’une
part
c’est leplus efficace,
au vudes simulations que nous décrivons
ultérieurement ;
d’autrepart,
c’estl’application
duprincipe
deparcimonie
dans les méthodes de distance. Ceprincipe,
cher auxphylogénistes,
veut que l’arbrejuste
soit celuiqui
demande le moins de mutations pourexpliquer
la diversité observée de nosjours
etdonc,
si les distances sontproportionnelles
au nombre de
mutations,
de construire un arbre delongueur
minimum. Au même titre queNJ, qui
sélectionne legroupement
retenu àchaque
itération comme celuiqui promet
laplus petite
arête entre cegroupement
et le reste de l’arbre - donc laplus petite
arête internepossible -
nousajoutons
dans l’arbre laplus petite
des arêtes externespossibles.
Pour un choix efficace du sommet
ajouté,
on mémorise les valeurs des écarts dessommets non
placés,
ainsi que les cheminsqui
réalisent ces écarts. Une foisqu’on
achoisi z, on détermine la
position
dans l’arbre 9 dupoint d’accrochage a(z) ;
il est surune arête
(a,b)
déterminée enparcourant
sur le chemin[x, y]
lalongueur L(x) depuis
x ou, ce
qui
revient au même si ce chemin est bien delongueur A(x, y),
lalongueur L(y) depuis
y. Dans laprocédure d’expansion
de l’arbre courant, onsupprime
l’arête(a,b)
que l’onremplace
par(a,a(,z))
et(b,a(z))
avec deslongueurs
calculées à l’aide du seultriplet
Pour(z,a(z)),
on recalcule salongueur
defaçon
àprendre
encompte plus
d’information et à éviter uneprocédure qui,
par essence, sous-estime salongueur.
Mais on ne remet en cause ni l’arêtequi
découle du choix de z, donc lapaire (x,y),
ni laposition
dea(z).
Figure
2 : Placer z dans l’arbre courant 0L’arête
(a,b) partitionne
les élémentsplacés
en deuxclasses,
Xa etXb,
constituées des éléments situés de
part
et d’autre de(a, b)
dans 0. Lalongueur L(z)
del’arête
(z, a(z)) peut
être calculée parrapport
à toutepaire
de sommetspris
un danschaque
classe - si d est une distanced’arbre,
toutes leslongueurs
serontidentiques.
Afin d’obtenir une certaine stabilité par
rapport
à des déviationséventuelles,
on calculeL(z)
comme une moyenne, d’où uneprocédure
en0(n2) :
Une fois cette
longueur calculée,
on estime leslongueurs
de chemins entre z et tousles éléments
placés,
c’est-à-dire que l’on calcule pour tout x dans Y la valeur deD()(x,z)
et l’on posed(x,z)
:=D()(x,z).
Ceci est nécessaire pour deux raisons :e Pour mettre à
jour l’écart,
et le meilleurchemin,
de tout sommet w nonplacé,
il fautcalculer
Lxz(w)
doncconnaître,
sid(w,x)
etA(w,z)
sont connues, la valeurd(x,z).
Si l’écart de w à un
quelconque
chemin[x,z]
d’extrémité z estplus petit
queE(w),
alors :
. Pour
placer
ultérieurement un noeuda(w)
sur le chemin[x, z],
il faut que la distanceA(x,z)
soit l’exactelongueur
du chemin[x,z]
dans l’arbre courant 8. Si cette valeurest
indéterminée,
ceci est nécessaire pourplacer
w si ses seules distances connues lesont par
rapport
à x et z. Si elle est connue, elle n’est pas nécessairement exactementreprésentée;
le chemin entre x et z dans l’arbre n’est pas delongueur A(x, z).
Leplacement
ultérieur dea(w)
sur ce chemindépendrait
alors dupoint
d’où l’onpart.
Donc,
dans la mesure où l’élément z estajouté,
les valeursA(x,z)
doivent être misesà jour.
Cet
algorithme permet
de mettre en évidencequelques propriétés
de lareconstruction d’arbres à
partir
de distancespartielles.
Toutes lesexplications développées
ci-dessus tiennent lieu de démonstration.PROPOSITION 1. Cet
algorithme
calcule un X-arbre àpartir
d’une distancepartielle
Asi et seulement si il existe un ordre sur X tel que pour tout élément z, il y a au moins deux éléments x et y à distances de z connues, et
placés
avant lui.Comme pour la méthode des
Triangles,
il faut commencer par deuxtriangles adjacents.
On en déduit de mêmequ’il
faut au moins 2n-3 valeurs dedistances,
que legraphe support
de cette distance doit être 2-connexe et que tous les sommets soient dedegré >
2.PROPOSITION 2. Si d est une distance d’arbre
complète représentable
surT,
cetalgorithme
reconstruit l’arbre T.Mais si A est une distance d’arbre
partielle,
le rattachement d’un élément z sur l’arête(a, b)
ne sera conforme à T que s’il existe au moins un élément de Xa et unélément de Xb dont les distances à z sont connues.
1.2. COMPLEXITÉ
On admettra
qu’établir
un chemin dans un arbre à n feuilles est enO(n).
L’initialisation par un
triangle
depérimètre
minimum est en0(n’).
Le calcul des écartsaux trois chemins est en
O(n).
A
chaque étape :
. Le choix de z est en
~(n) ;
il seplace
parrapport
à[x,y].
. le
positionnement
du nouveau noeud sur[x,y]
est en0(n) ;
ilpermet
de déterminer l’arête(a, b).
. Le
partitionnement
en Xa et Xb est en0(n2),
ainsi que le calcul deL(z).
. Pour
chaque
xplacé
. - le calcul de
De (z,x)
est en0(n).
. Pour
chaque
w nonplacé
- l’écart à l’arbre courant est mis
a jour
en0(n).
A
chaque étape
la mise àjour
de d et de E sont en0(n2),
donc la méthodeséquentielle
est en0(n3)
au total.2.
ÉVALUATION
DES VALEURSMANQUANTES
L’autre
approche
étudiée ici consiste à estimer les valeursmanquantes
sousl’hypothèse
que l’on est
proche
d’une distance d’arbre.2.1.
HISTORIQUEMENT
PARLANTDans la
lignée
des travaux de De Soete[1984],
cette estimation des valeursmanquantes
a étélargement
étudiée enphylogénie
dansplusieurs
articles de J.Landry,
F.J.Lapointe
etJ.A.W.
Kirsch ;
nous nous référons à celui de 1996. Les auteurscomparent
deuxtypes d’évaluations ;
l’unecorrespond
au modèleultramétrique (pour
touttriplet d’éléments,
lesdeux
plus grandes
distances sontégales)
et l’autre au modèleplus général
des arbres à distances additives(nos X-arbres).
Soitd(u, v)
une valeur inconnue que l’on veutestimer par Auv.
Selon le
premier modèle, puisque
letriangle { x, u, v }
estultramétrique,
les deuxplus grandes
distances sontégales
et doncd(u,v) _
Max{ d(x, u), A (x, v) 1.
Ilsadoptent
donc la formule :
Selon le second
modèle,
pour toutquadruplet 1 x, y, u, v 1
danslequel L1( u, v)
est laseule valeur
indéterminée,
onapplique
la Condition desquatre points
et on obtientAprès
simulations sur des donnéeschoisies,
ils observent que l’évaluation suivant le second modèle est meilleur que selon lepremier
et que, si l’on a ungrand
nombre devaleurs
manquantes,
il n’est pastoujours
faisable decompléter
une distance avec lesseules estimations du modèle d’arbre additif.
Finalement,
ilspréconisent
d’utiliseritérativement ce modèle tant
qu’il produit
de nouvelles estimations et de recourir aumodèle
ultramétrique quand
on estbloqué, puisque
celui-ci ne demande que deux distances connues par valeurmanquante.
2.2. UN POINT DE VUE PLUS JUSTE
Les formules ci-dessus sont facilement améliorables. Revenons au cas où
L1( u, v)
est laseule valeur inconnue sur et notons A et B les deux sommes calculables.
et
Conformément à la Condition des
quatre points,
la troisième somme inconnued(x, y)
+d(u, v)
n’estégale
àMax {A, B }
que si A et B ne sont paségales ;
on obtientalors une évaluation par
quadruplet
deA (u, v)
selon la même formule queprécédemment :
Mais si A =
B,
on nepeut
rien dire deL1( u, v)
etappliquer systématiquement
laformule
(2)
conduit à surestimerA(u, v) quand
u et v sont deux feuillesadjacentes
aumême noeud - on dit que u et v sont
frères (siblings).
Dans ce cas,A(u, v) n’apparaît jamais
dans une des deuxplus grandes
sommes. Aucunepaire { x, y }
ne rend A et Bdifférentes et
d(u, v)
nepeut
être évaluée parquadruplet.
Le recours au modèleultramétrique
de la formule(1)
n’est pasplus satisfaisant,
car il n’est pas nonplus applicable.
On aura alors recours auxéquations
dutriangle
pour une évaluation par chemin.Pour contrôler ces
estimations,
on commencera par calculer une borne inférieure etune borne
supérieure
dechaque
valeur inconnue. Comme nous calculons des valeurs dedistance,
elles doivent vérifier lesinégalités triangulaires,
et donc :Quand
il y a un fort taux de valeursmanquantes,
ces bornes ne sont pastoujours calculables,
et il fautveiller,
soit à ne pas utiliser les bornesindéfinies,
soit à les mettre àjour
au fil desestimations,
soit à refaire le calcul avant les estimations par chemin.2.2.1.
Évaluation
parquadruplets
Dans notre
algorithme,
on considère les valeursmanquantes
dans l’ordre du nombre depaires { x, y } qui permettent
de lesestimer,
c’est-à-dire du nombre dequadruplets
danslesquels
est la seule valeurmanquante.
Pourchacun,
laquestion
est de décider si A et B sont suffisammentproches
pour être considérées comme les deuxplus grandes
sommes. Sioui,
on passe auquadruplet
suivant et
sinon,
on somme lesquantités
pour en faire une moyenne.Dans le cas d’une distance
plus
ou moinsproche
d’une distanced’arbre,
ilpeut
êtredélicat de décider si les deux sommes calculables sont
égales
ou non. On commenceradonc,
pour toutquadruplet { x, y, z, t }
pourlequel
iln’y
a pas de valeursmanquantes,
par calculer les trois sommes notées sansambiguïté Smin,
Smed et Smax. Onpeut
alorsdéterminer le facteur
f qui
rendrait les deuxplus grandes
sommeségales,
c’est-à-dire tel que( 1+~
Smed= (1 -J)
Smax. Le facteur final Fact est calculé comme lemaximum,
sur l’ensemble desquadruplets
sans distancesinconnues,
des valeurs deMaintenant,
pour toutepaire (u, v),
on décidera que A et B sont les deuxplus grandes
sommes si et seulement si :S’il
n’y
a pas dequadruplets
pour évaluer ce facteurFact, qui
est d’autantplus grand
que l’on s’écarte d’une distanced’arbre,
onappliquera
directement lastratégie
d’évaluation par les chemins. On effectue donc
plusieurs
parcours de la liste des valeursinconnues,
tant que leur nombre décroît. S’il en reste, on passe à l’évaluation par chemins.2.2.2.
Évaluation
par cheminsNous avons vu que les
équations
dutriangle permettent
d’estimer l’écart de u àl’arbre,
noté Lu. On a :
Ce que l’on
peut dire,
si u et v sontfrères,
c’est qued(u, v) _
Lu + Lv. Enfait,
si u et v sont
frères,
on a certainement latopologie
de lapartie gauche
de laFigure 3,
mais on ne
peut
estimer que les chemins de lapartie
droite. Dans Lu+Lv oncompte
deuxfois l’arête
qui sépare
deixyl.
Figure
3Si l’on veut que Lu+Lv soit mesurée par
rapport
à la mêmepaire (x, y),
il fautqu’il n’y
aitqu’une
seule valeurmanquante
sur{ x, y, u, v } .
Suivant le nombre de valeursinconnues,
ce n’est pastoujours
réalisable et donc nousprocéderons
à l’évaluation de Lu et Lvindépendamment
l’un de l’autre.Ainsi,
l’estimation de Lu esttoujours possible
siet seulement si il existe un
triangle { x, y, u }
dont les trois valeurs de distances sont connues. Cette condition est un peuplus
restrictive que celle de laProposition 1, qui n’exige
pas queA(x,y)
soitdéfinie, puisqu’elle
estremplacée
parD(x,y),
lalongueur
du chemin
qui
lessépare
dans l’arbre courant.Pour minimiser cette
part
excessive de distance entre u et v, onapplique
la formuledans
laquelle
2/3 est fixéarbitrairement,
enrapport
avec leparamètre
choisi lors dessimulations
qui
veut que les arêtes internes soient deux foisplus
courtes que les arêtes externes. De fait on traite de la mêmefaçon
les "vrais" frères et lespaires
d’éléments dont la distance resteinconnue ;
ce sont des "faux frères". Dans ce dernier cas, Duv est sous-estimée,
comme le montrel’exemple
ci-dessous.Soit A une distance d’arbre
représentée
dans laFigure 4,
danslaquelle A(u,v), A(u,z), d(v, y)
sont les valeursmanquantes.
Figure
4La valeur de
4(u, v)
nepeut
être évaluée parquadruplet.
Les éléments u et vsont donc des faux frères et l’on estime Lu par
rapport
au chemin[x,y]
et Lv parrapport
à[x,z],
tous deux defaçon
correcte. Mais àl’évidence,
dansDuv,
il manque lalongueur
de l’arête(a, b).
2.3. ALGORITHME
Fact := -1 : NbIncon := 0 Pour tout
(x,y)
Si
A(x,y)
est inconnue Alors NbIncon := Nblncon + 1Dmin(x,y) := -1 ; Dmax(x,y)
:= + ooNbP(x,y) := 0 ;
/* Nombre depaires permettant
d’évaluerA(x,y)
*1Fin de Pour tout
/*Encadrement
métrique*/
Pour tout
(x,y)
telle queA(x,y)
est inconnuePour tout z tel que
A(z,x)
etA(z,y)
sont connuesMin :=
0(z,y)
1Si Min >
Dmin(x,y)
AlorsDmin(x,y)
:= MinMax :=
A(z,x)
+A(z,y)
Si Max
Dmax(x,y)
AlorsDmax(x,y) :=
MaxFin Pour z
Fin de Pour
(x,y)
/* Estimation du facteur *1 Pour tout
quadruplet { x,y,z,t }
Si toutes les distances sont connues
Calculer les 3 sommes Smin _ Smed ~ Smax F :=
(Smax - Smed)
/(Smax
+Smed)
Si F > Fact Alors Fact := F
Sinon si une seule valeur de distance
A(x,y)
est inconnueNbP(x,y) := NbP(x,y)+1
Fin de Pour
{ x,y,z,t }
Si Fact > 0 Faire
On ordonne les valeurs
manquantes
suivant l’ordre décroissant de NbPRépéter
tant que NbIncon décroîtPour toute valeur
manquante A(u,v) Duv := 0 ; Np := 0
Pour toute
paire (x,y)
telle queA(x,y)
est connueSi
A(x,u), A(x,v), A(y,u)
etA(y,v)
sont connuesA :=
A(x,u)
+A(y,v)
B :=
A(x,v)
+A(y,u)
Si
Duv := Duv + Max
{ A,B } - A(x,y) Np := Np +
1Fin pour
(x,y)
Si
Np
> 0 AlorsA(u,v)
:= Duv /Np
Si
A(u,v) Dmin(u,v)
AlorsA(u,v)
:=Dmin(u,v)
>
Dmax(u,v)
AlorsA(u,v) := Dmax(u,v)
NbIncon := NbIncon - 1 Fin de valeur
manquante
Fin de
Répéter
Si NbIncon >0 /* Il ne reste que des frères */
Pour tout élément z
L(z)
:= + ooPour toute
paire (x,y)
telle queA(x,y), A(x,z)
etA(y,z)
sont connuesLz :=
A(x,z)
+A(y,z) - A(x,y)
If Lz
L(z)
AlorsL(z)
:= LzFin Pour tout Fin de Pour
Pour toute valeur
manquante A(u,v) 4(u,v)
:=(L(u)
+L(v))
/ 3Si
A(u,v) Dmin(u,v)
AlorsA(u,v) := Dmin(u,v)
Si
A(u,v)
>Dmax(u,v)
AlorsA(u,v) := Dmax(u,v)
Fin de valeurs
manquantes
Il est clair que l’évaluation des valeurs inconnues est de
complexité 0(n4)
engénéral
et, si le nombre de valeursmanquantes
est unparamètre
m, à cause de leur miseen ordre en fonction du nombre décroissant des
paires permettant
de lesestimer,
l’évaluation est en
0(m[n2+log m]).
3. SIMULATIONS
Nous nous sommes
placés
dans le cadre de la reconstruction àpartir
de distancespartielles ;
nouspartons
donc d’un tableau de distances. On commence par calculer une dissimilaritéproche
d’une distanced’arbre,
pour que le modèle arboré soitjustifié :
. On tire un X-arbre
(1
X 1 =20)
auhasard,
notéT ;
satopologie
toutd’abord,
c’est-à- dire la liste de ses arêtes que l’on obtient par subdivisions successives departies
deX, jusqu’aux singletons.
Ensuite onpondère
les arêtes defaçon
aléatoire en donnant auxarêtes externes, celles
qui
aboutissent auxfeuilles,
deslongueurs
deux foisplus grandes
que les arêtes internes - cerapport correspond
à desproblèmes moyennement
difficiles de reconstruction. Il suffitaprès
d’établir la distance d’arbre Dcorrespondante,
par sommation deslongueurs
des arêtes lelong
de tous les cheminsentre feuilles. Pour
pouvoir interpréter
l’écartquadratique,
on norme D defaçon
que la valeur moyenne soitégale
à 100.. Ensuite on bruite cette distance selon un
paramètre
T. Pourchaque
valeurD(x, y),
ontire au hasard une valeur e, telle que 0 _ E T, et on
applique
la formuledans
laquelle
le ± est aussi le résultat d’untirage
aléatoireéquiprobable ; la
moitié desvaleurs est
augmentée,
l’autre moitié diminuée d’unpourcentage
borné par T. Ainsi les variables de bruit sontindépendantes
etd’espérance
nulle.· Enfin on considère un
pourcentage
t de valeurs comme indéterminées. Lespaires (u, v) correspondant
à ces valeurs sont aussi tirées auhasard,
en s’assurant quechaque
élément de X a au moins 30 % de ses distances évaluées.
À partir
de A onapplique
une méthode de reconstruction et on obtient un X-arbre0,
et la distance d’arbreDe associée,
que l’on compare avec les données initiales.Longtemps
on a considéré comme essentiel lepoint
de vuemétrique,
et l’onpensait
que l’arbre calculé était d’autant meilleur que l’écartquadratique
entre D etDe
étaitpetit.
Denos
jours,
on accordeplus d’importance
à des critèrestopologiques, qui
ne sont fonctionque des structures des sous-arbres
partiels
àquatre
feuilles et desbipartitions
induites par les arêtes internes de l’arbre. Deplus,
àtopologie fixée,
il est faciled’ajuster
au sens desmoindres carrés les
longueurs
desarêtes,
donc la distance d’arbre(Gascuel [1997]).
Par la
suite,
nous mesurons trois critères et donnons leurs valeurs moyennes sur 100 essais.· l’écart
quadratique
moyen entre D etDe :
On notera que ce sont les distances d’arbre que l’on compare et que l’écart
quadratique
entre D et
De
estgénéralement plus
faiblequ’entre
A etDo.
Il ne faut donc pasutiliser les valeurs moyennes
indiquées
ci-dessous comme l’écart moyen entre unedissimilarité donnée et une distance d’arbre.
. le
pourcentage
dequadruplets
bienreprésentés,
notéquad.
Admettons que dans T on ait latopologie xylzt.
Si on a la même dans0,
oncompte
1point ;
si on a latopologie
non
résolue,
c’est-à-dire sans arêteinterne,
oncompte 1
ppoint.
Si on a une autre2
topologie,
oncompte
0. Maintenant si dans T on a latopologie
non résolue et que dans 8 on a unetopologie
résoluequelconque,
oncompte 2013 point
2 et si on trouveégalement
la
topologie
nonrésolue,
oncompte
1point.
Donc ce n’est pas tout à fait unpourcentage mais, compte
tenu de lafaçon
degénérer
lesdistances,
il y a très peu dequadruplets
non résolus dansT,
et les méthodes utilisées tendent à construire des arbres binaires.. le
pourcentage
debipartitions
deT,
dont aucune des classes n’est unsingleton (non
trivial
splits),
retrouvées dans 8. Ce sont cellesqui correspondent
aux arêtes internesdes deux arbres. Comme les arbres sont
binaires,
ils ont tous les deux n-3bipartitions
de ce
type.
Lecomplément
à 1 de cepourcentage
est la valeur de la distance de Robinson-Foulds[ 1981 ],
ou distance de la différencesymétrique
entre les ensembles debipartitions.
3.1. RÉSULTATS DE LA MÉTHODE
SÉQUENTIELLE
PARCIMONIEUSESi l’on considère comme
acceptables
les reconstructions danslesquelles
90 % desquadruplets
sont correctementreprésentés,
ainsi que 70 % desbipartitions obtenues,
il nefaut jamais dépasser
30 % de valeurs inconnues si le taux de bruit est inférieur à 20 %.Pour un taux
supérieur
à 20%,
on tomberapidement
à 20 %puis
10 % de valeurs inconnues.3.2. RÉSULTATS DE LA MÉTHODE NJ SUR LES DISTANCES COMPLÉTÉES
Les valeurs
manquantes
de distance sont donc estimées parl’algorithme
décrit ci-dessus.Quand
le tableau estcomplet,
onapplique
la méthode NJqui
étaitconsidérée, jusqu’à récemment,
comme laplus
efficace pour les reconstructions d’arbres enbiologie
moléculaire. Elle a
également l’avantage
d’êtreefficace, puisque,
avec la variante deStudier &
Keppler [1988],
elle est en0(n3).
Soulignons
tout d’abord que les évaluations des valeursmanquantes
sont nettementmeilleures que celles
proposées
parLapointe
et Kirsch[1996].
Nous avons calculé lamoyenne des valeurs absolues des écarts entre les valeurs considérées comme inconnues
et les valeurs
estimées ;
les nôtres sont de 3 à 6 foisplus
faibles.4. CONCLUSIONS
Nul n’est besoin de comparer les deux tableaux bien
longtemps
pour constater que lastratégie
d’évaluation des valeurs inconnues suivie de NJ donne de meilleurs résultats que la méthodeséquentielle.
Cette dernière ne devient meilleure que pour les combinaisons extrêmes de bruit etd’incertitude, quand T >
.20 et t _> .50. Nous n’avons pas mesuré pour des valeurssupérieures,
car de toutefaçon
les résultats sontmédiocres ;
des erreurssur les distances
supérieures
à 20%,
moins de 80 % dequadruplets
correctementreprésentés
et moins de 50 % debipartitions
retrouvées. Il devient alors illusoire de considérer l’arbre obtenu comme crédible.On remarquera
également
que le critèremétrique
secomporte
exactement comme les critèrestopologiques. Quand
l’écartquadratique
pour NJ estplus petit,
les taux dequadruplets
et debipartitions
sontplus
élevés. Donc pour améliorer encore cesrésultats,
il faudrait calculer de meilleurs estimations.
Enfin,
ilpourrait
être intéressant dedétecter, préalablement
auxévaluations,
lesvrais et les faux frères. Ceci
pourrait
être réalisé en utilisant lapropriété
de base de laméthode de
Dispersion (Leclerc [1986])
à savoir que si u et v sontfrères,
pour toutepaire { x,y }
on devrait avoirEnfin le lecteur attentif aura
remarqué
que nous n’utilisons pas la bornesupérieure
de offerte
chaque
fois que A= B ;
on a alorsd(u,v)
Max{A,B{ -
Nous avons testé cette
possibilité,
mais les simulations donnent de moins bons résultatsquand
onapplique
cette formule pour restreindre l’intervalle de variation de Auv.REMERCIEMENTS - Les auteurs tiennent à remercier Laurent Duret (LGBP, Lyon) et Bruno Leclerc
(CAMS, Paris) avec lesquels ce travail a débuté, ainsi qu’Irène Charon (ENST, Paris) pour ses fructueuses
suggestions lors d’une première présentation de ce travail au colloque ROADEF’99 à Autran.
BIBLIOGRAPHIE
BARTHÉLEMY, J.P., GUÉNOCHE, A.,
Les arbres et lesreprésentations
desproximités,
Collection "Méthodes etProgrammes", Masson, 1988,
Trees andProximity Representations,
J.Wiley,1991.
BUNEMAN, P.,
"The recovery of trees from measures ofdissimilarity",
Mathematics inArchaeological
and HistoricalSciences,
F.H.Hodson,
D.G.Kendall,
P. Tautu(Eds.), Edimburg University Press, (1971),
387-395.DE