Machines d’´etats finis

1.2 Des structures de donn´ees pour l’analyse pr´esyntaxique

1.2.2.1 Langages rationnels et automates d’´etats finis

1.2.2.2 Relations rationnelles et transducteurs d’´etats finis

1.2.2.3 R´ealisations

1.2 Des structures de donn´ees pour l’analyse pr´esyntaxique

1.2.2 Machines d’´etats finis

Les automates d’états finis sont des constructions mathématiques désormais tout à fait

classiques en informatique, et leur application va bien au del`a du TALN. Dans ce domaine,

ils se montrent particuli`erement utiles du fait de leur lien ´etroit avec les langages rationnels

et les expressions régulières. Sous le terme de « machines d’états finis », on inclue également

les transducteurs d’´etats finis, qui sont aux relations rationnelles ce que les automates d’´etats

finis sont aux langages rationnels.

Compilation d’automates d’états finis. Les langages rationnels sont d’ores et déjà une

composante familière du traitement présyntaxique, ainsi que les automates d’états finis qui

sont des structures informatiques exactement ´equivalentes : pour chaque langage rationnel,

il existe au moins un automate d’´etats finis qui reconnaisse ce langage [Autebert, 1994].

22 Une ´etude de l’analyse pr´esyntaxique...

Différentes méthodes de compilation d’un automate d’états finis à partir d’une expression

régulière existent. La plus simple est la construction de Thompson qui établit une

corres-pondance directe entre la d´efinition des langages rationnels et la construction d’un automate

d’états finis ; à chaque opérateur rationnel correspond une opération sur les automates. La

figure 1.4 montre un automate d’état fini ainsi construit à partir d’une expression régulière,

puis minimis´e.

Fig. 1.4 – Automate d’´etats finis reconnaissant le langage a(b*|a)b*

Formellement, un automate d’´etats finis A est d´efini par un quintuplet (Σ, Q, I, F, E)

avec :

– Σ un alphabet fini (le mˆeme que celui du langage reconnu) ;

– Q un ensemble fini d’´etats ;

– I ⊆ Q l’ensemble des ´etats initiaux ;

– F ⊆ Q l’ensemble des ´etats finals ;

– E ⊆ Q × (Σ ∪ {!}) × Q l’ensemble des transitions.

Dans la représentation graphique classique, un automate est figuré par un graphe orienté

dont les nœuds sont les ´etats et les arcs sont les transitions. Les ´etats sont traditionnellement

numérotés ; les états initiaux sont distingués des autres états par un trait gras, et les états

finals par un double trait (un état peut évidemment être à la fois initial et final).

Reconnaissance d’un mot par un automate d’´etats finis. Dans un automate d’´etats

finis, on d´efinit un sous-chemin entre deux ´etats q et q

comme une suite de transitions

successives menant de q `a q

. Un chemin est un sous-chemin dont l’´etat origine a est un

´etat initial et l’´etat destination q

un ´etat final. Un chemin correspond `a un mot du langage

reconnu par l’automate : ce mot est constitué de la concaténation des symboles portés par

chaque transition du chemin.

La reconnaissance d’un mot du langage est un pr´edicat qui a pour argument une chaˆıne

de Σ

. Le prédicat est vérifié si et seulement si il existe un chemin dans l’automate pour ce

mot. Ainsi, dans la figure 1.4, il y a bien un chemin pour le mot aabb, par contre il n’y en a

pas pour le mot abab qui ne fait effectivement pas partie du langage reconnu.

La recherche d’un chemin amène à se poser la question de l’ambigu¨ıté et du déterminisme

de l’automate. Un automate d’états finis est ambigu si le même mot peut être reconnu par

plusieurs chemins différents. Un automate d’états finis est déterministe si et seulement si pour

chaque ´etat de l’automate et pour chaque symbole de l’alphabet, il n’est possible d’une suivre

qu’une seule transition ou aucune (il faut ici prendre en compte les epsilon-transitions). Un

automate non-d´eterministe n’est cependant pas n´ecessairement ambigu.

Dans un automate non-d´eterministe, la reconnaissance d’un mot se fait par un parcours de

graphe traditionnel. À chaque état, il est possible que plusieurs transitions portant le même

symbole atteignent des états différents, aussi toutes les possibilités doivent être essayées pour

1.2 Des structures de donn´ees pour l’analyse pr´esyntaxique 23

trouver un chemin. Quand il est impossible de suivre une transition à partir d’un état donné,

il faut effectuer un retour arri`ere. La recherche se termine quand un ´etat final est atteint

et que tous les caractères de la chaˆıne d’entrée ont été reconnus, auquel cas le mot est bien

reconnu ; mais elle s’arrête également quand toutes les transitions ont été essayées sans succès

(et la reconnaissance est un ´echec).

Dans un automate déterministe, il n’y a aucune ambigu¨ıté : à chaque état, il suffit de

suivre la transition qui porte le symbole `a reconnaˆıtre. D`es qu’il devient impossible de suivre

une transition, il y a échec de la reconnaissance. La déterminisation d’un automate est très

pratique puisqu’elle permet ainsi de d´ecider de l’appartenance d’un mot `a un langage rationnel

en un temps linéairement proportionnel à la longueur du mot. Mais cette déterminisation a un

prix : si tout automate d’états finis peut être déterminisé, la taille de l’automate peut exploser

exponentiellement. Dans le pire des cas, un automate non-d´eterministe ayant n ´etats peut

produire un automate d´eterministe minimal de 2

´etats, comme l’automate reconnaissant

l’expression (a|b)*a(a|b)... de la figure 1.5. Dans la pratique, les automates utilis´es en

TALN sont tr`es souvent d´eterminisables sans explosion notable.

Fig. 1.5 – Automate d’´etats finis reconnaissant le langage (a|b)*a(a|b)...

Minimisation du nombre d’´etats d’un automate. Pour un langage rationnel donn´e, on

peut en réalité construire une infinité d’automates reconnaisseurs, déterministes ou non. En

pratique, les langages rationnels utiles peuvent ˆetre reconnus par des automates ayant un

grand nombre d’´etats et de transitions. Par exemple, un dictionnaire contenant des dizaines

de milliers de formes pourra ˆetre compil´e sous la forme d’un automate contenant des milliers

d’´etats et de transitions.

Il est toujours possible d’obtenir un automate minimal `a partir d’un automate d’´etats finis

Fig. 1.4 – Automate d’´etats finis reconnaissant le langage a(b|a)b