• Aucun résultat trouvé

A vantages et in onvénients des boules de mots

Nousallonsmaintenantnous on entrer sur ertainespropriétésdesboulesdemots.

En parti ulier, sur des propriétés souvent surprenantes et qui peuvent parfois poser

problème lors de l'étude des boules : les intuitions qui sont vraies pour les disques

de

R2

ou les boules de

R3

sont faussespour elles de

Σ∗

. Dans un se ond temps nous

verronsquelesboulesdemotssontdéjàutiliséesdansdiverstravaux,bienquerarement

nommées.

1

Enfait,

q()

nepeutêtre unefon tionpolynme quel onque.Eneet,pourlafon tionpolynme

q(x) = −x

, une

q()

-bonne boule serait telle que

r ≤ −|o|

...Nous hoisironsdon depréféren e des

fon tionspolynmesmonotone roissantetellesque

q(0) ≥ 0

,ouen ore,despolynmesà oe ients

4.2.1 Propriétés et ontre-intuitions

Tout d'abord,ave leproblèmedelareprésentation,nousavonspu onstaterqueles

boulesdemotssontdiérentesde ellesdel'espa eeu lidienetnesontpasaussisimples

que leurs dénitions lelaissent roire. Le théorème suivant montre que ette di ulté

estbien réelle. Eneet, trouver laboule derayon minimum ontenant un ensemblede

points est

N P

-di ile:

Théorème 15 ([dlHC00℄) Étantdonnésunensemblenidemots

W = {w1, . . . , wn}

et une onstante

K

, dé ider si un mot

z ∈ Σ

existe tel que

P

w∈Wd(z, w) < K

(res-pe tivement

maxw∈Wd(z, w) < K

) est

N P

- omplet.

Malgré e problème, onnu sous lenom de median string [dlHC00 ,JABC03 ℄, et la

grandetaille desboulesdemots, esdernières présentent unepropriétéintéressantequi

nousserasouvent utile pour identier les boules:

Proposition 3 Soit

Br(o)

une boule. Parmi tous les ouples dela forme

(aiu, biu)

tels que

|u| + i = |o| + r

, 'est-à-dire telsque les motssontparmi les pluslongsde la boule,

(aro, bro)

est l'unique ouple ave leplus grand

i

.

Démonstration :

Raisonnonspar l'absurde. Soit

(aiu, biu)

un ouple tel que

|u| + i = |o| + r

ave

i > r

, et don

|o| > |u|

. Nous avons alors

|aiu| = |o| + r

don

d(o, aiu) ≥ r

par la Propro-sition 1. Comme

aiu

appartient à la boule

d(o, aiu) ≤ r

don

d(o, aiu) = r

. Nous en déduisons alors que

o  aiu

toujours par la même proposition. Par lemême raisonne-ment,nousavons

o  biu

.Nousendéduisonsdon que

o  u

equi ontredit

|o| > |u|

.

Lesmots

aro

et

bro

orrespondentauxmots onstruitsàpartirdu entre,enfaisant une insertion de

r

foisla lettre

a

(respe tivement lalettre

b

) endébut demot. Ilssont don à distan e

r

du entre, et appartiennent aux mots de longueurs maximales de la boule. Il est à noter que d'autres ouples partagent ette propriété, par exemple le

ouple

(oar, obr)

, maisnousnous on entreronssur lesmots

aro

et

bro

par lasuite. Ensuite, ilestfauxde penser queles boules demots sont desobjetssymétriques et

homogènes. Nous avons en eet pu le onstater ave le Tableau 4.1.2 : la plupart du

temps,dansl'ensemblede motsreprésenté par uneboule,lamoitiéde esmots sontde

longueurs maximales. En d'autres termes, dans laboule

Br(o)

pratiquement la moitié desmots sont de longueur

|o| + r

(parexemple,

|Br(λ)| = |Σ≤r| = r+1r|−1|−1 = 2r+1− 1

si

|Σ| = 2

et

|Bmax

r (λ)| = |Σr| = 2r

).

De même, si nous omparons deux boules de même rayon et dont les entres sont

de même longueur, nous sommes en mesure de s'attendre à e qu'elles ontiennent le

même nombre de mots, tout omme dans

R2

deuxdisques qui ont unmême rayon ont une même surfa e. Dans

Σ

, la ardinalité de deuxboules d'apparen e identique peut varier pratiquement dusimple au double:

Exemple 32 Soient les boules

B2(aaaabbbb)

et

B2(abababab)

: 

|B2(aaaabbbb)| = 172



|B2(abababab)| = 254

Une autrepropriété qui est vraiedans l'espa e eu lidien est qu'un disquede rayon

r

nepeut ontenirquedesdisquesdontlerayonestinférieurà

r

.En oreune fois, ette propriété estfausse dans

Σ

:

Exemple 33 Une boule de rayon

5

peut être in luse dans une boule de rayon

4

:

B5(ab) ⊂ B4(abab)

.

La ardinalitéd'uneboule n'estdon pasunefon tion roissante en fon tiondu rayon.

Enn, la propriété qui est ertainement parmi les plus ontre-intuitives est queles

boules de mots de sont pas  onvexes. Toujours à titre de omparaison, si nous

prenons deux points dansun disque de

R2

et que nous traçons le segment reliant es deuxpoints,lesegmentestintégralement in lusdansledisque,quelsquesoientlesdeux

pointspris. Dans

Σ∗

, un mot peut ne pasappartenir àune boule alors qu'il ledevient

en ee tuant n'importequelle opération d'édition:

Exemple 34 Soient la boule

B4(aabb)

et le mot

bbbaaa

. Comme

d(aabb, bbbaaa) = 5

lemot n'appartientpas à la boule. Cependant :

 En ee tuant une insertion, le mot peut appartenir à la boule. Par exemple, en

insérant un

a

en début de haîne, ou un

b

en n de haîne :

abbbaaa, bbbaaba ∈

B4(aabb)

.

 Lemotobtenuensubstituantn'importequellelettrede

bbbaaa

,appartientluiaussi à la boule :

babaaa, bbbbaa ∈ B4(aabb)

.

 Enn,tous les mots obtenusen supprimantune lettre à

bbbaaa

sont à distan e

4

du entre dela boule :

·bbaaa, bbb·aa ∈ B4(aabb)

.

Le mot

bbbaaa

n'est pas dans

B4(aabb)

, mais des mots de longueur

5, 6

et

7

à distan e

1

de

bbbaaa

lesont. Celamontre don quelafrontière desboulesn'est pasdu toutrégulière, omme l'est elledesdisques de

R2

, et qu'unefoisde plus, lesintuitions quenouspouvonsavoirgrâ e à

R2

nesontpasfor ément vraies dans

Σ

.

4.2.2 Utilité et appli ations

Bien qu'ayant despropriétés pouvant être déroutantes, les boules de mots sont des

objets réellement utiles. En eet, elles sont utilisées dans ertains travaux, bien que

leurs noms n'apparaissent pasexpli itement.

Lapremière atégoriedetravauxutilisantlesboulesdemotsest elledelare her he

appro hée d'un mot dansun texte(approximate string mat hing ou fuzzy string

mat- hing). Pour une étude plus approfondie, se référer à [SK83 , Nav01℄. Le but général

estde trouver des orrespondan es d'un mot dansun texte oùsoit lemot, soit letexte

(voire les deux) ont subi une forme quel onque de orruption : retrouver des signaux

d'origineaprèsleurstransmissionsàtraversunmilieubruité,trouverdesséquen esadn

Le problème, soussaformegénérale, estdon de trouver lesendroitsdansun texte

T

oùunmot

M

apparaît,enautorisantunnombrelimité

k

d'erreursdansla orrespon-dan e mot/texte. En d'autres termes, trouver les mots de la boule de entre

M

et de rayon

k

dans

T

. Lesappli ationspeuvent seservirde diérents modèles d'erreur, mais laplupartemploient,ouseramènentà,ladistan ed'édition.Lesdomainesd'utilisation

vont de labiologie [Gus97 ℄,à lare her he de musique[Lem00℄.

Si le terme de boules de mots n'est pas employé, es dernières sont souvent

utili-sées. Par exemple, dans [Ukk85, Mel95, BYN99, BYN02℄, les auteurs onstruisent un

automatere onnaissant les mots de

Σ∗· Bk(M )

an de seretrouver dansun état nal lorsqu'ilsont trouvéune o uren e appro hée de

M

dans

T

.

Un problème similaireà l'approximate string mat hing est elui de la orre tion. Il

s'agitplusparti ulièrement detrouver de bonnes orre tionsà unmotqui aétéaltéré.

Ceproblèmeestdon importantdansbiendesappli ations: orre tionorthographique,

re onnaissan e de la parole, re onnaissan e manus rite, et . Beau oup possèdent un

di tionnaire ( orrespondant au texte

T

du problème pré édent). Une façon typique de pro éder est alors la suivante : étant donné un mot

M

, her her si

M

est dans le di tionnaire. Si e n'est pas le as, les mots du di tionnaire les plus similaires à

M

sontproposés omme orre tionspossibles.Lasimilaritéà

M

ave les orre tionsétant en oreune fois baséesurladistan e d'édition.

Dans [O96 ℄et [SM02℄par exemple, ledi tionnaireest vu omme unautomate. Le

premierpar ours ledi tionnaired'une façonexhaustive,tandis quelese ond onstruit

unautomatedeLevenshtein, 'est-à-direunafdre onnaissantunebouledemots.Ainsi,

l'interse tion des deux automates permet de retrouver les orre tions à une ertaine

distan ede

M

présentsdansledi tionnaire.

Hormis es deux hamps d'appli ations, qui sont eux où nous utilisons le plus

souvent les boules de mots,nouspouvonslesretrouver dansdiversautres travaux.

Enre her he depluspro hesvoisinsparexemple,lorsquelesdonnéessontdesmots

et que les al uls des distan es se font à l'aide de la distan e d'édition, le temps de

al ulpeutvitedevenirtropimportantpour lesgrosensembles dedonnées.Ainsi,pour

a élérerletempsdere her hedupluspro hevoisin, ertainstravauxutilisentlesboules

demotset l'inégalitétriangulairepourre her her despivots [MOV94 ,BNC03 ,RJM03,

MSMO03 ℄.

Dans[MS01 , SMT02 ℄,lesauteurs dénissent la

k

-voisinsfermeture (

k

-neighbor lo-sure dans le texte) d'un mot

w

, par rapport à une distan e

d

, omme étant

w¯(d,k) =

{v ∈ Σ∗ : d(v, w) ≤ k}

. En d'autres termes,

(d,k) = Bk(w)

pour

d

étant la dis-tan e d'édition. La

k

-voisins fermeture est ensuite étendue aux langages en posant

¯

L(d,k)= {v ∈ Σ∗: ∃w ∈ Σ∗, d(v, w) ≤ k}

. Ilsautorisent alorsà unalgorithme d'appren-tissage d'inférer lafermeture d'un langage plutt que le langage ible omme