CAP. 2 ANALISI LESSICALE
• 2.1 Il ruolo dell'analizzatore lessicale
• 2.2 La specificazione delle unità lessicali
• 2.3 Il riconoscimento delle unità lessicali
2.1 Il ruolo dell'analizzatore lessicale
programma iniziale
analizzatore lessicale
analizzatore sintattico
tabella dei simboli
unità lessicale richiesta
• Vantaggi della separazione lessicale-sintattica:
Modularità:
chiarezza della concezione del compilatore migliorata
analizzatore sintattico (centro del compilatore) più simplice efficacità migliorata
Trasmette all'analizzatore sintattico, sulla richiesta di esso, la parte necessaria all'analisi sintattica (unità lessicale)
Trasmette per la fase di traduzione le caratteristiche delle unità lessicali (attributi): Inizializza la tabella dei simboli, trasmette il valore dei numeri Rimuove gli spazi e i commenti
Unità lessicale: categoria di oggetti simili
numero, identificatore, operazione, assegnamento...
Modello: descrive le regole di formazione di ogni unità lessicale Lessema: realizzazione particolare di una unità lessicale,
conforme al modello
area := base*altezza/2
area := base * altezza / 2
Esempio:
22 caratteri, 7 unità lessicali di 4 tipi diversi
numero operazione
identificatore assegnamento
2.2 La specificazione delle unità lessicali
Esempi:
unità lessicale modello lessemi ammissibili
identificatore sequenza di caratteri area
alfanumerici, cominciando x1a2 con una lettera
numero intero sequenza di cifre 205
assegnamento i due caratteri := :=
operazione uno dei caratteri + – * /
Descrizione formale dei modelli lessicali:
Espressioni regolari Parole fra
• Insiemi finiti di caratteri
• Prodotti di concatenazione di tali insiemi
• Unioni finite di tali insiemi
• Chiusura transitiva di tali insiemi Varianti e estensioni possibili
Chiuso per intersezione e complementazione (non ovvio) Esempi:
numeri interi 0 | {1 2 3 4 5 6 7 8 9}{0 1 2 3 4 5 6 7 8 9}*
o 0 | {1-9}{0-9}*
2.2 La riconoscenza delle unità lessicali Casi semplici, diagramma
Esempio: identificatore
{a-z | A-Z}
{a-z | A-Z | 0-9}
Altro = riporre l'ultimo carattere letto sul flusso d'ingresso
Casi più generali: automi finiti.
Teoria e algoritmi efficaci per trasformare una specificazione data sotto la forma di un'espressione regolare in un tale diagramma.
Utilizzato negli editori di testi, programmi di ricerca di motivi nei testi.
Azioni associate:
• trasmettere il tipo dell'unità lessicale riconosciuta
• conservare le informazioni necessarie alla traduzione:
rappresentazione interna del numero, operazione esatta, ...
Per gli identificatori:
interazione colla tabella dei simboli
inserire o verificare che una stringa è inserita nella tabella
l'informazione necessaria per il traduttore è l'indice in questa tabella
Questa tabella contiene informazioni su:
• il nome effettivo dell'identificatore
• altre entrate sul tipo, l'indirizzo, la portata, ... che vengono completate da fasi ulteriori.
Caso particolare delle "parole riservate"
Queste, come if, then, for, ... possono essere entrate nella tabella dei simboli dall'inizio, prima della compilazione, coll'indicazione di ritornare un'unità lessicale speciale.
Il programma lex (o il suo variante flex) è un software che trasforma
una descrizione di modelli come espressioni regolari in un'analizzatore lessicale. Le azioni sugli attributi sono incluse come istruzioni C.