• Aucun résultat trouvé

D´esuffixation – Algorithme de Porter

N/A
N/A
Protected

Academic year: 2022

Partager "D´esuffixation – Algorithme de Porter"

Copied!
22
0
0

Texte intégral

(1)

D´ esuffixation – Algorithme de Porter

Thierry Lecroq

Universit´e de Rouen FRANCE

(2)

But : avoir la mˆeme forme de base pour des mots de la mˆeme famille Con¸cu pour l’anglais, adaptable `a d’autres langues (fran¸cais, ...)

Thierry Lecroq (Univ. Rouen) esuffixation 2 / 22

(3)

Plan

1 Notations

2 Algorithme

(4)

Consonne ou voyelle

v repr´esente une voyelle (yest consid´er´e comme une voyelle s’il est pr´ec´ed´e par une consonne)

c repr´esente une consonne

V repr´esente une suite de voyelles C repr´esente une suite de consonnes

Thierry Lecroq (Univ. Rouen) esuffixation 4 / 22

(5)

De la mesure

Un mot en anglais peut ˆetre de l’une des 4 formes suivantes : CV CV · · ·C

CV CV · · ·V V CV C· · ·C V CV C· · ·V

ce qui peut se repr´esenter par

[C]V CV C· · ·[V] ou

[C](V C)m[V] o`um est appel´ee la mesure d’un mot.

(6)

Mesurons la mesure

m= 0 :tree,by

m= 1 :trouble,oats,trees,ivy

m= 2 :troubles,private,oaten,orrery

Thierry Lecroq (Univ. Rouen) esuffixation 6 / 22

(7)

R` egles

Les r`egles de d´esuffixation sont exprim´ees sous la forme (condition) S1 →S2

ce qui signifie que si un mot se termine par S1 et que le pr´efixe satisfait la condition alors le suffixe S1 est remplac´e par S2

(8)

Condition

∗e: le pr´efixe se termine par la lettree

∗v∗: le pr´efixe contient une voyelle

∗d: le pr´efixe se termine par une consonne doubl´ee

∗o : le pr´efixe se termine parcvco`u le second c n’est niw, ni x, ni y Il est possible d’utiliser des op´erateurs bool´eens : et, ou, non

Thierry Lecroq (Univ. Rouen) esuffixation 8 / 22

(9)

A chaque ´` etape seule la r`egle capturant le plus long S1 s’applique

(10)

Plan

1 Notations

2 Algorithme

Thierry Lecroq (Univ. Rouen) esuffixation 10 / 22

(11)

Etape 1a ´

sses → ss caresses → caress ies → i ponies → poni

ties → ti

ss → ss caress → caress

s → cats → cat

(12)

Etape 1b ´

(m >0)eed → ee feed → feed

agreed → agree

(∗v∗)ed → plastered → plaster

bled → bled

(∗v∗)ing → motoring → motor

sing → sing

at → ate conflat(ed) → conflate bl → ble troubl(ed) → trouble

iz → ize siz(ed) → size

(∗det non(∗lou ∗sou ∗z))→ lettre non doubl´ee hopp(ing) → hop

tann(ed) →tan fall(ing) → fall hiss(ing) → hiss fizz(ed) →fizz

(m= 1)et ∗o → e fail(ing) → fail (filing) → file

Thierry Lecroq (Univ. Rouen) esuffixation 12 / 22

(13)

Etape 1c ´

(∗v∗)y → i happy → happi

sky → sky

(14)

Etape 2 ´

(m >0)ational ate relational relate

(m >0)tional TION conditional condition rational rational

(m >0)enci ence valenci valence

(m >0)anci ance hesitanci hesitance

(m >0)izer ize digitizer digitize

(m >0)abli able conformabli conformable

(m >0)alli al radicalli radical

(m >0)entli ent differentli different

(m >0)eli e vileli vile

(m >0)ousli ous analogousli analogous

(m >0)ization ize vietnamization vietnamize

(m >0)ation ate predication predicate

(m >0)ator ate operator operate

(m >0)alism al feudalism feudal

(m >0)iveness ive decisiveness decisive (m >0)fulness ful hopefulness hopeful (m >0)ousness ous callousness callous

(m >0)aliti al formaliti formal

(m >0)iviti ive sensitiviti sensitive

(m >0)biliti ble sensibiliti sensible

Thierry Lecroq (Univ. Rouen) esuffixation 14 / 22

(15)

Etape 3 ´

(m >0)icate → ic triplicate → triplic

(m >0)ative → formative → form

(m >0)alize → al formalize → formal (m >0)iciti → ic electriciti → electric (m >0)ical → ic electrical → electric

(m >0)ful → hopeful → hope

(m >0)ness → goodness → good

(16)

Etape 4 ´

(m >1)al revival reviv

(m >1)ance allowance allow

(m >1)ence inference infer

(m >1)er airliner airlin

(m >1)ic gyroscopic gyroscop

(m >1)able adjustable adjust

(m >1)ible defensible defens

(m >1)ant irritant irrit

(m >1)ement replacement replac

(m >1)ment adjustment adjust

(m >1)ent dependent depend

(m >1 et(∗sou t))ion adoption adopt

(m >1)ou homologou homolog

(m >1)ism communism commun

(m >1)ate activate activ

(m >1)iti angulariti angular

(m >1)ous homologous homolog

(m >1)ive effective effect

(m >1)ize bowdlerize bowdler

Thierry Lecroq (Univ. Rouen) esuffixation 16 / 22

(17)

Etape 5a ´

(m >1)e → probate → probat

rate → rate (m >1 et non∗o)e → cease → cease

(18)

Etape 5b ´

(m >1 et ∗det ∗l)→ lettre non doubl´ee controll →control

roll→roll

Thierry Lecroq (Univ. Rouen) esuffixation 18 / 22

(19)

generalizations

→generalization´etape 1

→generalize´etape 2

→general´etape 3

→gener´etape 4

(20)

oscillators

→oscillator´etape 1

→oscillate´etape 2

→oscill´etape 4

→oscil´etape 5

Thierry Lecroq (Univ. Rouen) esuffixation 20 / 22

(21)

sur 10 000 mots

´

etape 1 3597

´

etape 2 766

´

etape 3 327

´

etape 4 2424

´

etape 5 1373 non r´eduits 3650 6370 formes r´eduites

(22)

R´ ef´ erence

M. F. Porter

An Algorithm for Suffix Stripping Program,14(3), 130–137, 1980

Thierry Lecroq (Univ. Rouen) esuffixation 22 / 22

Références

Documents relatifs

(a scale-invariant form of mutual absolute continuity) with respect to surface measure on the boundary of the domain. By contrast, surface measure need not exist in

Alors que tous les indicateurs sont déjà au "beau fixe" pour les professionnels (installateurs et fabricants) impliqués sur les marchés des énergies renouvelables, le

Ces deux manifestations, la première "Le mondial de la pis- cine" qui a eu lieu à Lyon en novembre dernier était réservée aux professionnels, la seconde qui s'est

Après l'estimation des besoins d'eau chaude sanitaireétudiée dans un précédent article, il s'agit de déterminerle type de pro- duction le plus approprié aux besoins et

[r]

Considérons une bobine autour d'un noyau de section S constante et de longueur moyenne l alimentée par une source u (Figure 25) : la circulation du courant i crée dans le noyau

C'est parce que nous ne sommes pas habitués à tirer des plans sur la comète, qu'il nous sera facile de pénétrer pl us avant dans la réalité quotidienne alors que

Nous vous dirons comment, sans rien négliger de tout ce qui peut encourager l'effort, nous nous appliquons à faire de notre classe une grande conmrnnauté de