Nousallonsmaintenantnous on entrer sur ertainespropriétésdesboulesdemots.
En parti ulier, sur des propriétés souvent surprenantes et qui peuvent parfois poser
problème lors de l'étude des boules : les intuitions qui sont vraies pour les disques
de
R2
ou les boules deR3
sont faussespour elles deΣ∗
. Dans un se ond temps nous
verronsquelesboulesdemotssontdéjàutiliséesdansdiverstravaux,bienquerarement
nommées.
1
Enfait,
q()
nepeutêtre unefon tionpolynme quel onque.Eneet,pourlafon tionpolynmeq(x) = −x
, uneq()
-bonne boule serait telle quer ≤ −|o|
...Nous hoisironsdon depréféren e desfon tionspolynmesmonotone roissantetellesque
q(0) ≥ 0
,ouen ore,despolynmesà oe ients4.2.1 Propriétés et ontre-intuitions
Tout d'abord,ave leproblèmedelareprésentation,nousavonspu onstaterqueles
boulesdemotssontdiérentesde ellesdel'espa eeu lidienetnesontpasaussisimples
que leurs dénitions lelaissent roire. Le théorème suivant montre que ette di ulté
estbien réelle. Eneet, trouver laboule derayon minimum ontenant un ensemblede
points est
N P
-di ile:Théorème 15 ([dlHC00℄) Étantdonnésunensemblenidemots
W = {w1, . . . , wn}
et une onstante
K
, dé ider si un motz ∈ Σ∗
existe tel queP
w∈Wd(z, w) < K
(res-pe tivementmaxw∈Wd(z, w) < K
) estN P
- omplet.Malgré e problème, onnu sous lenom de median string [dlHC00 ,JABC03 ℄, et la
grandetaille desboulesdemots, esdernières présentent unepropriétéintéressantequi
nousserasouvent utile pour identier les boules:
Proposition 3 Soit
Br(o)
une boule. Parmi tous les ouples dela forme(aiu, biu)
tels que|u| + i = |o| + r
, 'est-à-dire telsque les motssontparmi les pluslongsde la boule,(aro, bro)
est l'unique ouple ave leplus grandi
.Démonstration :
Raisonnonspar l'absurde. Soit
(aiu, biu)
un ouple tel que|u| + i = |o| + r
avei > r
, et don|o| > |u|
. Nous avons alors|aiu| = |o| + r
dond(o, aiu) ≥ r
par la Propro-sition 1. Commeaiu
appartient à la bouled(o, aiu) ≤ r
dond(o, aiu) = r
. Nous en déduisons alors queo aiu
toujours par la même proposition. Par lemême raisonne-ment,nousavonso biu
.Nousendéduisonsdon queo u
equi ontredit|o| > |u|
.✷
Lesmots
aro
etbro
orrespondentauxmots onstruitsàpartirdu entre,enfaisant une insertion der
foisla lettrea
(respe tivement lalettreb
) endébut demot. Ilssont don à distan er
du entre, et appartiennent aux mots de longueurs maximales de la boule. Il est à noter que d'autres ouples partagent ette propriété, par exemple leouple
(oar, obr)
, maisnousnous on entreronssur lesmotsaro
etbro
par lasuite. Ensuite, ilestfauxde penser queles boules demots sont desobjetssymétriques ethomogènes. Nous avons en eet pu le onstater ave le Tableau 4.1.2 : la plupart du
temps,dansl'ensemblede motsreprésenté par uneboule,lamoitiéde esmots sontde
longueurs maximales. En d'autres termes, dans laboule
Br(o)
pratiquement la moitié desmots sont de longueur|o| + r
(parexemple,|Br(λ)| = |Σ≤r| = |Σ|Σr+1r|−1|−1 = 2r+1− 1
si
|Σ| = 2
et|Bmax
r (λ)| = |Σr| = 2r
).
De même, si nous omparons deux boules de même rayon et dont les entres sont
de même longueur, nous sommes en mesure de s'attendre à e qu'elles ontiennent le
même nombre de mots, tout omme dans
R2
deuxdisques qui ont unmême rayon ont une même surfa e. DansΣ∗
, la ardinalité de deuxboules d'apparen e identique peut varier pratiquement dusimple au double:Exemple 32 Soient les boules
B2(aaaabbbb)
etB2(abababab)
:|B2(aaaabbbb)| = 172
|B2(abababab)| = 254
Une autrepropriété qui est vraiedans l'espa e eu lidien est qu'un disquede rayon
r
nepeut ontenirquedesdisquesdontlerayonestinférieuràr
.En oreune fois, ette propriété estfausse dansΣ∗
:Exemple 33 Une boule de rayon
5
peut être in luse dans une boule de rayon4
:B5(ab) ⊂ B4(abab)
.La ardinalitéd'uneboule n'estdon pasunefon tion roissante en fon tiondu rayon.
Enn, la propriété qui est ertainement parmi les plus ontre-intuitives est queles
boules de mots de sont pas onvexes. Toujours à titre de omparaison, si nous
prenons deux points dansun disque de
R2
et que nous traçons le segment reliant es deuxpoints,lesegmentestintégralement in lusdansledisque,quelsquesoientlesdeuxpointspris. Dans
Σ∗
, un mot peut ne pasappartenir àune boule alors qu'il ledevient
en ee tuant n'importequelle opération d'édition:
Exemple 34 Soient la boule
B4(aabb)
et le motbbbaaa
. Commed(aabb, bbbaaa) = 5
lemot n'appartientpas à la boule. Cependant :
En ee tuant une insertion, le mot peut appartenir à la boule. Par exemple, en
insérant un
a
en début de haîne, ou unb
en n de haîne :abbbaaa, bbbaaba ∈
B4(aabb)
.Lemotobtenuensubstituantn'importequellelettrede
bbbaaa
,appartientluiaussi à la boule :babaaa, bbbbaa ∈ B4(aabb)
.Enn,tous les mots obtenusen supprimantune lettre à
bbbaaa
sont à distan e4
du entre dela boule :
·bbaaa, bbb·aa ∈ B4(aabb)
.Le mot
bbbaaa
n'est pas dansB4(aabb)
, mais des mots de longueur5, 6
et7
à distan e1
debbbaaa
lesont. Celamontre don quelafrontière desboulesn'est pasdu toutrégulière, omme l'est elledesdisques deR2
, et qu'unefoisde plus, lesintuitions quenouspouvonsavoirgrâ e àR2
nesontpasfor ément vraies dansΣ∗
.4.2.2 Utilité et appli ations
Bien qu'ayant despropriétés pouvant être déroutantes, les boules de mots sont des
objets réellement utiles. En eet, elles sont utilisées dans ertains travaux, bien que
leurs noms n'apparaissent pasexpli itement.
Lapremière atégoriedetravauxutilisantlesboulesdemotsest elledelare her he
appro hée d'un mot dansun texte(approximate string mat hing ou fuzzy string
mat- hing). Pour une étude plus approfondie, se référer à [SK83 , Nav01℄. Le but général
estde trouver des orrespondan es d'un mot dansun texte oùsoit lemot, soit letexte
(voire les deux) ont subi une forme quel onque de orruption : retrouver des signaux
d'origineaprèsleurstransmissionsàtraversunmilieubruité,trouverdesséquen esadn
Le problème, soussaformegénérale, estdon de trouver lesendroitsdansun texte
T
oùunmotM
apparaît,enautorisantunnombrelimiték
d'erreursdansla orrespon-dan e mot/texte. En d'autres termes, trouver les mots de la boule de entreM
et de rayonk
dansT
. Lesappli ationspeuvent seservirde diérents modèles d'erreur, mais laplupartemploient,ouseramènentà,ladistan ed'édition.Lesdomainesd'utilisationvont de labiologie [Gus97 ℄,à lare her he de musique[Lem00℄.
Si le terme de boules de mots n'est pas employé, es dernières sont souvent
utili-sées. Par exemple, dans [Ukk85, Mel95, BYN99, BYN02℄, les auteurs onstruisent un
automatere onnaissant les mots de
Σ∗· Bk(M )
an de seretrouver dansun état nal lorsqu'ilsont trouvéune o uren e appro hée deM
dansT
.Un problème similaireà l'approximate string mat hing est elui de la orre tion. Il
s'agitplusparti ulièrement detrouver de bonnes orre tionsà unmotqui aétéaltéré.
Ceproblèmeestdon importantdansbiendesappli ations: orre tionorthographique,
re onnaissan e de la parole, re onnaissan e manus rite, et . Beau oup possèdent un
di tionnaire ( orrespondant au texte
T
du problème pré édent). Une façon typique de pro éder est alors la suivante : étant donné un motM
, her her siM
est dans le di tionnaire. Si e n'est pas le as, les mots du di tionnaire les plus similaires àM
sontproposés omme orre tionspossibles.Lasimilaritéà
M
ave les orre tionsétant en oreune fois baséesurladistan e d'édition.Dans [O96 ℄et [SM02℄par exemple, ledi tionnaireest vu omme unautomate. Le
premierpar ours ledi tionnaired'une façonexhaustive,tandis quelese ond onstruit
unautomatedeLevenshtein, 'est-à-direunafdre onnaissantunebouledemots.Ainsi,
l'interse tion des deux automates permet de retrouver les orre tions à une ertaine
distan ede
M
présentsdansledi tionnaire.Hormis es deux hamps d'appli ations, qui sont eux où nous utilisons le plus
souvent les boules de mots,nouspouvonslesretrouver dansdiversautres travaux.
Enre her he depluspro hesvoisinsparexemple,lorsquelesdonnéessontdesmots
et que les al uls des distan es se font à l'aide de la distan e d'édition, le temps de
al ulpeutvitedevenirtropimportantpour lesgrosensembles dedonnées.Ainsi,pour
a élérerletempsdere her hedupluspro hevoisin, ertainstravauxutilisentlesboules
demotset l'inégalitétriangulairepourre her her despivots [MOV94 ,BNC03 ,RJM03,
MSMO03 ℄.
Dans[MS01 , SMT02 ℄,lesauteurs dénissent la