• Aucun résultat trouvé

Concepts et algorithmes pour la découverte des structures formelles des langues

N/A
N/A
Protected

Academic year: 2021

Partager "Concepts et algorithmes pour la découverte des structures formelles des langues"

Copied!
253
0
0

Texte intégral

(1)

HAL Id: tel-00169572

https://tel.archives-ouvertes.fr/tel-00169572

Submitted on 4 Sep 2007

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

structures formelles des langues

Hervé Déjean

To cite this version:

Hervé Déjean. Concepts et algorithmes pour la découverte des structures formelles des langues.

Théorie et langage formel [cs.FL]. Université de Caen, 1998. Français. �tel-00169572�

(2)

UFR Sciences Universit´e de Caen Basse Normandie Ecole doctorale SIMEM´

Concepts et algorithmes pour la d´ ecouverte

des structures formelles des langues

TH` ESE

pr´esent´ee et soutenue publiquement le 18 d´ecembre 1998

pour l’obtention du

Doctorat de l’universit´ e de Caen

(sp´ecialit´e informatique)

par

Herv´ e D´ ejean

Composition du jury

Pr´esident : Daniel Kayser, professeur d’universit´e Universit´e de Paris 13 Rapporteurs : Pierre Lafon, directeur de recherche au CNRS ENS Fontenay Saint-Cloud

Fathi Debili, directeur de recherche au CNRS CNRS-CELLMA IRMC

Examinateurs : Didier Bourigault, charg´e de recherche au CNRS Universit´e de Paris 13 Khaldoun Zreik, professeur d’universit´e (directeur) Universit´e de Caen Jacques Vergne, maˆıtre de conf´erences Universit´e de Caen

(3)
(4)
(5)
(6)

Table des gures 9

Liste des tableaux 13

Introdution 19

Partie I Liminaires 23

Introdution 25

Chapitre 1 Quelques points méthodologiques 27

1.1 L'objetif dutravail . . . . . . . . . . . . . . . . . . . . . . . 27

1.2 Le distributionnalisme . . . . . . . . . . . . . . . . . . . . . . 29

1.3 La notion dedistribution etses problèmes . . . . . . . . . . . 30

1.4 Lesritiquesdeprinipeadresséesàlaméthodedistribution- nelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.5 L'historique dutravail . . . . . . . . . . . . . . . . . . . . . . 36

1.6 La reherhe des régularités . . . . . . . . . . . . . . . . . . . 38

1.6.1 À lareherhe desuniversaux? . . . . . . . . . . . . . 38

1.6.2 Les ritères formels . . . . . . . . . . . . . . . . . . . 40

1.7 Déouverte ou apprentissage? . . . . . . . . . . . . . . . . . 42

1.8 Le déhirement de langues etd'éritures . . . . . . . . . . . 46

1.9 Le minimumde onnaissanes . . . . . . . . . . . . . . . . . 49

1.10 Le travail surorpus . . . . . . . . . . . . . . . . . . . . . . . 50

1.10.1 La linguistiquede orpus . . . . . . . . . . . . . . . . 51

1.10.2 La ompositiondesorpus . . . . . . . . . . . . . . . 51

1.10.3 Analyse quantitative . . . . . . . . . . . . . . . . . . . 53

(7)

Partie II La morphologie 57

Introdution 59

Chapitre 2 La déouverte des morphèmes 61

2.1 L'intérêt delasegmentation. . . . . . . . . . . . . . . . . . . 61

2.2 La segmentation . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.2.1 L'algorithme de Harris . . . . . . . . . . . . . . . . . 63

2.2.2 La déouverte desmorphèmes . . . . . . . . . . . . . 66

2.2.3 La segmentation desmots . . . . . . . . . . . . . . . . 71

2.3 Analyse desrésultats . . . . . . . . . . . . . . . . . . . . . . 72

2.4 La segmentation detextes phonétisés . . . . . . . . . . . . . 76

2.5 La segmentation àpartir desentre-pontuations . . . . . . . 76

2.6 Lestravauxsimilaires . . . . . . . . . . . . . . . . . . . . . . 77

Chapitre 3 Les séquenes morphologiques 79 3.1 La shtroumpfane desséquenes shtroumpfologiques . . . . 79

3.2 Lesouples morphologiques . . . . . . . . . . . . . . . . . . . 81

3.3 Leslimites intrinsèquesdu ritère morphologique . . . . . . . 83

3.3.1 Lesproblèmes de atégorisation . . . . . . . . . . . . 83

3.3.2 Un essaideatégorisation ave les struturesd'aord 83 3.3.3 Lesalgorithmes de lustering . . . . . . . . . . . . . . 86

3.4 La néessitédelaonnaissane struturelle . . . . . . . . . . 89

Conlusion 91 Partie III Les strutures 93 Introdution 95 Chapitre 4 La déouverte des strutures 97 4.1 La segmentation enentre-pontuations . . . . . . . . . . . 98

4.2 Despropriétés d'un objetlinéaire . . . . . . . . . . . . . . . . 101

4.3 Le rlede lapontuation . . . . . . . . . . . . . . . . . . . . 107

4.4 Lesstrutures . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.4.1 La hiérarhielassique. . . . . . . . . . . . . . . . . . 110

4.4.2 La hiérarhieonstruite . . . . . . . . . . . . . . . . . 112

4.5 Le morphème . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

(8)

4.7 La proposition . . . . . . . . . . . . . . . . . . . . . . . . . . 123

4.7.1 Les marqueursmorphologiques . . . . . . . . . . . . . 124

4.7.2 Les marqueurssyntagmatiques :leSyntagme Absolu. 125 4.7.3 La dénitionde laproposition . . . . . . . . . . . . . 126

4.8 Les struturesomposées . . . . . . . . . . . . . . . . . . . . 131

4.8.1 Les opérations de omposition . . . . . . . . . . . . . 131

4.8.2 Les struturesdesyntagmes . . . . . . . . . . . . . . 132

4.8.3 Les struturesdepropositions . . . . . . . . . . . . . 134

4.9 La prédition desstrutures. . . . . . . . . . . . . . . . . . . 136

4.9.1 La génération desouples desyntagmes . . . . . . . . 137

4.9.2 La génération desouples transhiérarhiques . . . . . 139

4.10 La notion derelation . . . . . . . . . . . . . . . . . . . . . . 141

4.11 La représentation de lastruture . . . . . . . . . . . . . . . . 142

4.12 Un réapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . 143

4.13 Une omparaison entrenosatégories etlesautres atégories 145 Chapitre 5 La struture lexiale 147 5.1 Les régularitéslexiales . . . . . . . . . . . . . . . . . . . . . 147

5.2 L'aide à lasegmentation. . . . . . . . . . . . . . . . . . . . . 149

5.3 L'aide à lamiseen relation . . . . . . . . . . . . . . . . . . . 150

5.3.1 Les ouples delexiaux . . . . . . . . . . . . . . . . . 150

5.3.2 Eetif ontre information mutuelle . . . . . . . . . . 151

5.3.3 La miseen relation grâeauxéléments lexiaux . . . 153

5.3.4 Les variations morphologiques . . . . . . . . . . . . . 156

5.3.5 Les ouples lexio-morphologiques . . . . . . . . . . . 157

5.4 La lassiation deséléments lexiaux . . . . . . . . . . . . . 159

Partie IV Les algorithmes 161 Introdution 163 Chapitre 6 La atégorisation des éléments 165 6.1 La tokenisation . . . . . . . . . . . . . . . . . . . . . . . . . . 166

6.2 Les opérations morphologiques . . . . . . . . . . . . . . . . . 167

6.3 La reherhe des élémentsprototypiques . . . . . . . . . . . . 167

6.4 La atégorisation desmarqueursde frontière . . . . . . . . . 170

(9)

6.4.1 L'ordre de atégorisation . . . . . . . . . . . . . . . . 170

6.4.2 La générationdesontextes prototypiques . . . . . . . 172

6.4.3 Le méanismede atégorisation . . . . . . . . . . . . 176

6.4.4 La générationdesstrutures SA . . . . . . . . . . . . 179

6.4.5 La générationdesstrutures SR . . . . . . . . . . . . 184

6.4.6 La générationdesstrutures SSub . . . . . . . . . . . 187

6.4.7 Le résultat delaatégorisation . . . . . . . . . . . . . 190

6.4.8 La segmentation duorpus en syntagmes . . . . . . . 191

6.5 Évaluationdesrésultats . . . . . . . . . . . . . . . . . . . . . 193

6.6 La atégorisation dessyntagmes . . . . . . . . . . . . . . . . 197

6.7 La atégorisation interneau syntagme . . . . . . . . . . . . . 197

6.8 Cequ'il reste àfaire . . . . . . . . . . . . . . . . . . . . . . . 198

Partie V Conlusion 201 Chapitre 7 Mais, à quoi ça sert? 203 7.1 Retoursur letravailaompli . . . . . . . . . . . . . . . . . . 203

7.2 Lesretombéesen linguistique . . . . . . . . . . . . . . . . . . 208

7.3 Lesretombéesen Traitement Automatiquedes Langues . . . 209

7.4 Le travailmultilingue . . . . . . . . . . . . . . . . . . . . . . 212

Annexes 213 Annexe A Détail des orpus utilisés 215 Annexe B Les outils et programmes 217 B.1 Lesoutils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

B.2 les programmes. . . . . . . . . . . . . . . . . . . . . . . . . . 217

Annexe C Résultats obtenus sur diérentes langues 219 C.1 allemand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

C.2 anglais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

C.3 oréen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

C.4 français . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

C.5 tur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

C.6 vietnamien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

C.7 swahili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

(10)

Index 237

Bibliographie 239

(11)
(12)

1.1 La première struture de la langue : une séquene d'éléments

marqués à leurdébutet/ou leurn. . . . . . . . . . . . . . . . . 37

1.2 La deuxièmestruturedelalangue:laproposition,marquéeelle aussi par des débuts etdes ns est omposée d'une séquenede syntagmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.3 Chronologie dansladéouverte desstruturesetdansleur géné- ration.Ladéouvertedesstruturess'estfaiteenmontantdansla hiérarhie. La générationdesstrutures pour une langue donnée sefait en partant duniveau propositionnel. . . . . . . . . . . . . 38

1.4 Ordre de leture deglyphesmayas. . . . . . . . . . . . . . . . . . 49

1.5 La loi deZipf (éhelle logarithmique) . . . . . . . . . . . . . . . . 54

1.6 Nouvelle approximation[Mandelbrot, 1968 ℄. . . . . . . . . . . . . 55

2.1 Reherhe desaxesaratéristiquesàpartir d'unelistedemots extraitsd'unorpus.Lesnombres aprèsleslettresorrespondent à leur nombred'ourrenes.. . . . . . . . . . . . . . . . . . . . . 68

3.1 La langue desshtroumpfs (hollandaisetanglais).. . . . . . . . . 80

3.2 Catégorisationdemots:leontexteestonstituédumotpréédent. 88 4.1 Une première idée de la struture de la langue : une séquene d'unitésdontlesdébutsetlesns sontmarquéspardeséléments aratéristiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.2 Comment onstruire desstrutures dans une séquene linéaire? En marquant leur débutouleur n,ou lesdeuxà lafois.. . . . . 102

4.3 Toutes les séquenes ne sont pastoujours marquées à leur fron- tière. Se pose alors le problème de trouver la segmentation or- rete. A-t-on deuxsegmentsou trois? . . . . . . . . . . . . . . . 102

4.4 Propriété d'unmarqueur de début. La barre symbolise le début ou lan d'uneséquene. . . . . . . . . . . . . . . . . . . . . . . . 104

4.5 Plusieurs segments peuvent être dénis en utilisant diérents types demarqueursde débutetde n. . . . . . . . . . . . . . . . 105

4.6 Une struture d'un niveau hiérarhique donné peut utiliser tous lesniveauxinférieursommemarqueursdefrontière.Ledébutde lastruture deniveau2est marquéparunélémentde niveau 0, etsan par une struturede niveau1. . . . . . . . . . . . . . . . 106

(13)

4.7 Un élément peutappartenirà plusieurs atégories. Se pose alors

le problème de l'analyse de la séquene, 'est-à-dire reonnaître

labonne struture. . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.8 Mêmelorsquelespontuationsnesontpasprésentes,laonstru-

tion des entre-pontuations est réalisable grâe à l'aide de la

mise en page. Les unités ainsi dénies sont tout simplement les

lignesdu texte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.9 La struture anonique d'un syntagme : un noyau (le radial)

auquelsontrajoutéstouslesélémentsgrammatiauxontigusqui

dépendent de lui. Les éléments préposés sont onsidérés omme

des marqueurs de début, et les éléments postposés omme des

marqueursde ndu syntagme. . . . . . . . . . . . . . . . . . . . 118

4.10 Les marqueurs de frontière de syntagmesqui marquent les rela-

tions entre syntagmes se renontrent dans la zone périphérique

du syntagme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

4.11 Lesmarqueursdefrontièredesyntagmesserenontrent plussou-

vent à l'intérieur des entre-pontuations que les marqueurs de

frontièrede proposition. . . . . . . . . . . . . . . . . . . . . . . . 125

4.12 Le shéma omplet des marqueurs de proposition. Les éléments

grisés marquent leséléments aratéristiquesd'une proposition. . 128

4.13 La struture diteSVOouOVS,renontré enfrançais, anglais. . . 128

4.14 La struture diteSOV ouOSV, renontrée en turetjaponais. . 129

4.15 La struture dite VSO ou VOS, renontrée dans les langues sé-

mitiques.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

4.16 Lesdeux ompositions :laompositionexterne (1)etlaompo-

sitioninterne (2). . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

4.17 Exempledereherhedestrutureomposéededeuxpropositions

enfrançais.Onreherhelesélémentspréédantledeuxièmesyn-

tagme absolu. Dans l'exemple le deuxième syntagme absolu est

formé par lasimplestruture il N-ait. . . . . . . . . . . . . . . . 135

4.18 Listedetousles ouples desyntagmessimplespossiblesenthéo-

rie.Lesensdelaèhe orrespondausensRégissant-subordonné,

sans renseignement sur l'ordre linéaire entre le régissant et son

subordonné. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

4.19 Lesdiérentesrelations possiblesdans une séquenede troisSR

enfrançais.Noustrouvonstoutes lespossibilités(Laèhe vadu

régissant ausubordonné). . . . . . . . . . . . . . . . . . . . . . . 140

4.20 Laseule miseenrelationpossibledansuneséquenedetroisSA.

Un SAest onsidéréommerégissant duSA suivant. . . . . . . . 140

5.1 Les relations possibles entre trois éléments (ensupposant qu'un

élémentn'entretient qu'uneseulerelationaveunautreélément).

Siun tripletlexialàuneetifsupérieur àun,ilnepeutorres-

pondre auxas4,5,et6. . . . . . . . . . . . . . . . . . . . . . . 154

6.1 Ordre de traitement dessyntagmes SAetSR. . . . . . . . . . . . 171

(14)

(D) suivid'unnoyau syntagmatique(N)suivi d'unmarqueurde

n lié F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

6.3 Les diérentes positions pour le ontexte SADfrançais. Lesélé-

ments apparaissant aux positions (1) et(2) orrespondent à des

marqueursdedébut(ilssontà gauhe dunoyau),etles éléments

apparaissant à laposition (3)sont desmarqueursde n. . . . . . 177

6.4 Listedetouteslespositions possibles(1 à10) pourlesdiérentes

strutures (morphème seul et ouples). Les positions 1, 2, 4, 7,

et 9 orrespondent à des marqueurs de début, les positions 3,

5, 6, 8 et 10 à des marqueurs de n. Les ontextes sont limités

par despontuations.Lestraitspointillésvertiauxindiquent les

séparateurs demots. . . . . . . . . . . . . . . . . . . . . . . . . . 178

6.5 Contexte utilisé pour reherher les marqueurs de début appa-

raissant enposition (1). . . . . . . . . . . . . . . . . . . . . . . . 180

6.6 Contexte utilisé pour reherher les marqueurs de début appa-

raissant enposition (3)àlapremier itération. . . . . . . . . . . . 181

6.7 Le ontexteutilisé pour intégrer de nouveauxouples morpholo-

giquesdanslastruture.La position(4)estoupée parunmot,

etla(5) par unmorphème liéau noyau. . . . . . . . . . . . . . . 181

6.8 Le shéma ontextuel desSAfrançais. . . . . . . . . . . . . . . . 183

6.9 Contextes utilisés pour la génération desSSub. La struture ré-

gissante (Reg)peutêtresoit unSA soit unSR. . . . . . . . . . . 187

6.10 Disrimination entre Début de Proposition (DP) et Début de

SAD (DSAD).La onnaissane desSA etdesSRest néessaire. . 191

D.1 Catégorisation de mots :ontexte :unmotavant . . . . . . . . . 233

D.2 Catégorisation de mots :ontexte :unmotaprès . . . . . . . . . 234

D.3 Catégorisation de mots :ontexte :unmotavant etaprès . . . . 234

D.4 Catégorisation de mots :ontexte :deuxmots avant . . . . . . . 235

D.5 Catégorisation de mots :ontexte :deuxmots après . . . . . . . 235

D.6 Catégorisation de mots :ontexte :deuxmots avant etaprès . . 236

(15)

Références

Documents relatifs

Tag 1 (set ITAG 1 I When active the bus lines are decoded as the next cylinder Cylinder) ITAG 1/ address and the trailing edge of Tag 1 is the command to move the

• A symbol used in the location field of a symbolic machine instruction or certain pseudo instructions is defined as an address having the current value of

The Programmer's Library Reference Manual describes Fortran subprograms and functions available to users of the Cray operating systems cos 1.17.1 and UNICOS

In Normal mode, decks specified by COMPILE directives, modified decks, and decks calling modified common decks are written to compile or source datasets, and

(**) Sous Casio, l’algorithme affiche toujours par défaut la dernière variable stockée.. 3) a) En s'inspirant des programmes précédents, écrire un programme (langage au

ou personnellement pour vous durant cette crise sanitaire ? Professionnellement parlant, ce qui a été le plus difficile c’est de manager le flux de patients avec les mesures de

La délégation suédoise appuie l'idée générale du projet de résolution proposé par la délégation soviétique mais non le paragraphe 5 du dispositif qui, s'il

PIDE al Comité Especial que tcene en consideración todas las circunstancias relativas al caso de la República Dominicana, si en el momento de su reunión tuviese ese Miembro atrasos