Langages formels et analyse syntaxique CM8 : Algorithme(s) Earley

(1)

Langages formels et analyse syntaxique

CM8 : Algorithme(s) Earley

Timothée Bernard 13 novembre 2020

Université de Paris

(2)

Vocabulaire

• Item inactif :(A→α•,i,j).

• Item actif : item qui n’est pas inactif.

• Item initial :(A→ •α,i,j).

4

(19)

Vocabulaire

4

(20)

Vocabulaire

4

(21)

Vocabulaire

4

(22)

Opération fondamentale :comp(complete)

Si on a(A→α₁ • Bα₂,i,j)et(B→β•,j,k), introduire (A→α₁B • α₂,i,k).

i j k

A→α₁•Bα₂ B→β• A→α₁B•α₂

5

(23)

i j k

5

(24)

i j k

A→α₁•Bα₂ B→β•

A→α₁B•α₂

5

(25)

i j k

5

(26)

Autre opération importante :scan

Si on a(A→α₁ • aα₂,i,j)et queu_j+1=a, introduire (A→α₁a • α₂,i,j+1).

i j j+1

A→α₁ •aα₂ A→α₁a•α₂

6

(27)

i j j+1

6

(28)

i j j+1

A→α₁ •aα₂

A→α₁a•α₂

6

(29)

i j j+1

6

(30)

• competscanpermettent de faire progresser des items déjà créés.

• Comment introduit-on des items initiaux ?

• →Plusieurs versions de l’algorithme.

7

(31)

7

(32)

7

(33)

Conventions : mise en mémoire des items, notations, etc.

• Mot à analyser :u=u1· · ·un.

• Nous allons utiliser un tableau unidimensionnelT(indicé de 0 à n) contenant desensembles ordonnésde paires (règle pointée, indice) tel que(A→α• β,i)∈T[j]siα→^∗ u_i+1· · ·u_j.(différent du polycopié)

8

(34)

8

(35)

8

(36)

Première version

• Initialisation de la table avec tous les items initiaux possibles.

• Analyse de type ascendant.

9

(37)

Première version

9

(38)

Première version

9

(39)

Première version

Algorithm 1 :Analyse syntaxique Earley simple Functionearley-simple(u)

// Initialisation fori:=0to|u|do

T[i] ={};

for(A→α)∈Gdoadd(A→ •α,i)toT[i]; forj:=0to|u|do

for(A→α•β,i)∈T[j]do ifβ=ϵthen

// comp?

for(A^′→α^′•Aβ^′,i^′)∈T[i]do add(A^′→α^′A•β^′,i^′)toT[j];

else ifβ₁∈Σand j<|u|then β₁β^′=β;

// scan?

ifuj+1=β₁thenadd(A→α β₁•β^′,i)toT[j+1]; if∃αs.t.(S→α•,0)∈T[|u|]then returntrue;

else returnfalse;

10

(40)

Meilleure version

• Version « Earley ».

• On n’introduit au départ que les items initiaux(S→ •α,0,0) mais on ajoute une opérationpred(predict) servant à

introduire les items initiaux pouvant faire avancer les items que l’on rencontre.

• Méthode hybride ascendante-descendante.

11

(41)

Meilleure version

11

(42)

Meilleure version

11

(43)

Meilleure version

11

(44)

Meilleure version

Nouvelle opération :pred

Si on a(A→α₁ • Bα₂,i,j)oùA∈N, introduire tous les (B→ •γ,j,j).

i j

A→α1 •Bα2

B→ •γ

12

(45)

Meilleure version

i j

A→α1 •Bα2

B→ •γ

12

(46)

Meilleure version

i j

A→α1 •Bα2

B→ •γ

12

(47)

Meilleure version

i j

A→α1 •Bα2

B→ •γ

12

(48)

Meilleure version

Algorithm 2 :Analyse syntaxique Earley Functionearley(u)

// Initialisation fori:=0to|u|doT[i] ={};

for(S→α)∈Gdoadd(S→ •α,0)toT[0];

forj:=0to|u|do

for(A→α•β,i)∈T[j]do ifβ=ϵthen

// comp?

for(A^′→α^′•Aβ^′,i^′)∈T[i]do add(A^′→α^′A•β^′,i^′)toT[j];

else ifβ₁∈Nthen // pred?

for(β₁→γ)∈Gdoadd(β₁→ •γ,j)toT[j];

else ifj<|u|then β₁β^′=β; // scan?

ifuj+1=β₁thenadd(A→α β₁•β^′,i)toT[j+1];

if∃αs.t.(S→α•,0)∈T[|u|]then returntrue;

else returnfalse;

13

(49)

• Quelque soit la version, on a une complexité dans le pire des cas en 0(n³)(n est la longueur du mot).

• En pratique (càd avec des grammaires usuelles et sur des entrées usuelles) alors on observe souvent beaucoup mieux — linéaire ou presque.

14

(50)

• Quelque soit la version, on a une complexité dans le pire des cas en 0(n³)(n est la longueur du mot).

• En pratique (càd avec des grammaires usuelles et sur des entrées usuelles) alors on observe souvent beaucoup mieux — linéaire ou presque.

14

(51)

À propos du polycopié

• Le texte dans le polycopié n’est pas très formel mais contient des illustrations.

• Vous pouvez ignorer la notion d’agenda quand vous la rencontrerez.

• Vous pouvez ignorer la section 14.2.4,Coin gauche.

15

(52)

À propos du polycopié

15

(53)

À propos du polycopié

15

(54)

À propos du polycopié

15

(55)

Références i

Références

Yvon, François et Akim Demaille (2016). « Théories des langages ».

notes de cours. URL :

https://www.lrde.epita.fr/~akim/thl/lecture- notes/theorie-des-langages-2.pdf.

16

Langages formels et analyse syntaxique CM8 : Algorithme(s) Earley