Ressoures linguistiques
Master 1
Unitex
Cette séane est onsarée à la prise en main du logiiel Unitex. Nous verrons les
diérentesétapesdetraitementdestextes.
xExerie 1.Logiiel Unitex
1. Téléharger la version 1.2 d'Unitex dans votre répertoire prinipal :
http://www-igm.univ-mlv.fr/~unitex.
Penserà téléharger également lemanuel d'Unitex (pourlaversionen français:
http://www-igm.univ-mlv.fr/~tolone/Linguistique/ManuelUnitex.pdf ).
2. Installer Unitexave les ommandessuivantes:
unzip Unitex_1.2.zip -d Unitex
d Unitex/Sr/C++
make install
3. Laner Unitexsurlalangue française:
d ../../App
java -jar Unitex.jar &
Vous avez les 3menus suivants:
"Text" pour lestextes auformat Uniode;
"DELA"pourlesditionnairesauformatDELA(DitionnairesÉletroniquesduLADL);
"FSGraph" pour les graphesau format .grfet.fst2 pour les graphes ompilés.
xExerie 2.Construtionde graphes
Ouvrir un nouveau grapheave "New" danslemenu "FSGraph".
L'édition de graphes estdétailléedanslehapitre 5.2 du manuel.
Voii lasigniationdes prinipaux symboles :
le<E> représente de mot videepsilon;
le+sépare les diérenteslignes desboîtes;
le: sert àintroduireun appel àun sous-graphe;
le/ indiquele débutdela sortiedansune boîte.
MERGE :permetd'insérer les séquenes produites par lessorties;
REPLACE :permetde remplaer lesséquenes reonnuespar lesséquenes produites;
letroisième mode ignoreles sorties.
1. Érire une grammaire de normalisation permettant de remplaer
toutes les ourrenes de l'on par on. Enregistrer le graphe dans
unitex/Frenh/Graphs/Preproessing/Replae/etleompiler.
xExerie 3.Chargement d'untexte
Voii lesdiérentesétapesduhargement dutexte Le tour du monde en 80jours :
prétraitement dutexte:normalisation etdéoupage en phrases;
déoupage enunités lexiales;
appliation de ditionnaires;
onstrution de l'automatedu texte.
1. Ouvrir les2graphes suivantsave "Open..."danslemenu"FSGraph" etexplorer leurs
sous-graphes:
unitex/Frenh/Graphs/Preproessing/Replae/Replae.grf qui permet de nor-
maliser letexte;
unitex/Frenh/Graphs/Preproessing/Sentene/Sentene.grfquipermetdedé-
ouperletexte enphrases.
2. Ouvrir le texte unitex/Frenh/Corpus/80jours.txt (de type Raw Uniode Texts)
ave "Open..." danslemenu "Text".
Laner le prétraitement du texte en appliquant Sentene.grf, la grammaire faite à
l'exerie préédent à laplae de Replae.grf (de type Uniode Graphs alors que les
.fst2 sont de type Uniode Compiled Graphs),ainsiqueles ditionnaires par défaut.
Vous obtenez la liste des unités lexiales (tokens) trouvées dans le texte ainsi que la
liste desmots simples,omposésetinonnus trouvés.
Le répertoire unitex/Frenh/Corpus/80jours_sntontient toutes esdonnées.
Vouspouvez ouvrirles hiers dlf, dl eterrave "Open" danslemenu"DELA".
L'ouverture et le prétraitement d'un texte sont détaillés dans le hapitre 2.4 et 2.5
danslemanuel.
3. Construirel'automatedutexte("ConstrutFST-Text..."danslemenu"Text"ourelan-
er leprétraitement ave "Preproessing Text..." dansle menu "Text" en onstruisant
l'automatedu texte). L'automate du texteestaylique.
La onstrution de l'automate du texte est détaillée dans le hapitre 7.1 et 7.2 du
manuel.
xExerie 4.Reherhe de motifsélémentaires
1. Reherher lemotif parlerenliquant sur"LoatePattern..." dansle menu "Text".
2. Même questionave lemotif <parler>.
3. Même questionave lemotif <V:P3p>.
4. À quoi orrespondent les motifspréédents?