HAL Id: tel-00169572
https://tel.archives-ouvertes.fr/tel-00169572
Submitted on 4 Sep 2007
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires
structures formelles des langues
Hervé Déjean
To cite this version:
Hervé Déjean. Concepts et algorithmes pour la découverte des structures formelles des langues.
Théorie et langage formel [cs.FL]. Université de Caen, 1998. Français. �tel-00169572�
UFR Sciences Universit´e de Caen Basse Normandie Ecole doctorale SIMEM´
Concepts et algorithmes pour la d´ ecouverte
des structures formelles des langues
TH` ESE
pr´esent´ee et soutenue publiquement le 18 d´ecembre 1998
pour l’obtention du
Doctorat de l’universit´ e de Caen
(sp´ecialit´e informatique)
par
Herv´ e D´ ejean
Composition du jury
Pr´esident : Daniel Kayser, professeur d’universit´e Universit´e de Paris 13 Rapporteurs : Pierre Lafon, directeur de recherche au CNRS ENS Fontenay Saint-Cloud
Fathi Debili, directeur de recherche au CNRS CNRS-CELLMA IRMC
Examinateurs : Didier Bourigault, charg´e de recherche au CNRS Universit´e de Paris 13 Khaldoun Zreik, professeur d’universit´e (directeur) Universit´e de Caen Jacques Vergne, maˆıtre de conf´erences Universit´e de Caen
Table des gures 9
Liste des tableaux 13
Introdution 19
Partie I Liminaires 23
Introdution 25
Chapitre 1 Quelques points méthodologiques 27
1.1 L'objetif dutravail . . . . . . . . . . . . . . . . . . . . . . . 27
1.2 Le distributionnalisme . . . . . . . . . . . . . . . . . . . . . . 29
1.3 La notion dedistribution etses problèmes . . . . . . . . . . . 30
1.4 Lesritiquesdeprinipeadresséesàlaméthodedistribution- nelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.5 L'historique dutravail . . . . . . . . . . . . . . . . . . . . . . 36
1.6 La reherhe des régularités . . . . . . . . . . . . . . . . . . . 38
1.6.1 À lareherhe desuniversaux? . . . . . . . . . . . . . 38
1.6.2 Les ritères formels . . . . . . . . . . . . . . . . . . . 40
1.7 Déouverte ou apprentissage? . . . . . . . . . . . . . . . . . 42
1.8 Le déhirement de langues etd'éritures . . . . . . . . . . . 46
1.9 Le minimumde onnaissanes . . . . . . . . . . . . . . . . . 49
1.10 Le travail surorpus . . . . . . . . . . . . . . . . . . . . . . . 50
1.10.1 La linguistiquede orpus . . . . . . . . . . . . . . . . 51
1.10.2 La ompositiondesorpus . . . . . . . . . . . . . . . 51
1.10.3 Analyse quantitative . . . . . . . . . . . . . . . . . . . 53
Partie II La morphologie 57
Introdution 59
Chapitre 2 La déouverte des morphèmes 61
2.1 L'intérêt delasegmentation. . . . . . . . . . . . . . . . . . . 61
2.2 La segmentation . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.2.1 L'algorithme de Harris . . . . . . . . . . . . . . . . . 63
2.2.2 La déouverte desmorphèmes . . . . . . . . . . . . . 66
2.2.3 La segmentation desmots . . . . . . . . . . . . . . . . 71
2.3 Analyse desrésultats . . . . . . . . . . . . . . . . . . . . . . 72
2.4 La segmentation detextes phonétisés . . . . . . . . . . . . . 76
2.5 La segmentation àpartir desentre-pontuations . . . . . . . 76
2.6 Lestravauxsimilaires . . . . . . . . . . . . . . . . . . . . . . 77
Chapitre 3 Les séquenes morphologiques 79 3.1 La shtroumpfane desséquenes shtroumpfologiques . . . . 79
3.2 Lesouples morphologiques . . . . . . . . . . . . . . . . . . . 81
3.3 Leslimites intrinsèquesdu ritère morphologique . . . . . . . 83
3.3.1 Lesproblèmes de atégorisation . . . . . . . . . . . . 83
3.3.2 Un essaideatégorisation ave les struturesd'aord 83 3.3.3 Lesalgorithmes de lustering . . . . . . . . . . . . . . 86
3.4 La néessitédelaonnaissane struturelle . . . . . . . . . . 89
Conlusion 91 Partie III Les strutures 93 Introdution 95 Chapitre 4 La déouverte des strutures 97 4.1 La segmentation enentre-pontuations . . . . . . . . . . . 98
4.2 Despropriétés d'un objetlinéaire . . . . . . . . . . . . . . . . 101
4.3 Le rlede lapontuation . . . . . . . . . . . . . . . . . . . . 107
4.4 Lesstrutures . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.4.1 La hiérarhielassique. . . . . . . . . . . . . . . . . . 110
4.4.2 La hiérarhieonstruite . . . . . . . . . . . . . . . . . 112
4.5 Le morphème . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.7 La proposition . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.7.1 Les marqueursmorphologiques . . . . . . . . . . . . . 124
4.7.2 Les marqueurssyntagmatiques :leSyntagme Absolu. 125 4.7.3 La dénitionde laproposition . . . . . . . . . . . . . 126
4.8 Les struturesomposées . . . . . . . . . . . . . . . . . . . . 131
4.8.1 Les opérations de omposition . . . . . . . . . . . . . 131
4.8.2 Les struturesdesyntagmes . . . . . . . . . . . . . . 132
4.8.3 Les struturesdepropositions . . . . . . . . . . . . . 134
4.9 La prédition desstrutures. . . . . . . . . . . . . . . . . . . 136
4.9.1 La génération desouples desyntagmes . . . . . . . . 137
4.9.2 La génération desouples transhiérarhiques . . . . . 139
4.10 La notion derelation . . . . . . . . . . . . . . . . . . . . . . 141
4.11 La représentation de lastruture . . . . . . . . . . . . . . . . 142
4.12 Un réapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.13 Une omparaison entrenosatégories etlesautres atégories 145 Chapitre 5 La struture lexiale 147 5.1 Les régularitéslexiales . . . . . . . . . . . . . . . . . . . . . 147
5.2 L'aide à lasegmentation. . . . . . . . . . . . . . . . . . . . . 149
5.3 L'aide à lamiseen relation . . . . . . . . . . . . . . . . . . . 150
5.3.1 Les ouples delexiaux . . . . . . . . . . . . . . . . . 150
5.3.2 Eetif ontre information mutuelle . . . . . . . . . . 151
5.3.3 La miseen relation grâeauxéléments lexiaux . . . 153
5.3.4 Les variations morphologiques . . . . . . . . . . . . . 156
5.3.5 Les ouples lexio-morphologiques . . . . . . . . . . . 157
5.4 La lassiation deséléments lexiaux . . . . . . . . . . . . . 159
Partie IV Les algorithmes 161 Introdution 163 Chapitre 6 La atégorisation des éléments 165 6.1 La tokenisation . . . . . . . . . . . . . . . . . . . . . . . . . . 166
6.2 Les opérations morphologiques . . . . . . . . . . . . . . . . . 167
6.3 La reherhe des élémentsprototypiques . . . . . . . . . . . . 167
6.4 La atégorisation desmarqueursde frontière . . . . . . . . . 170
6.4.1 L'ordre de atégorisation . . . . . . . . . . . . . . . . 170
6.4.2 La générationdesontextes prototypiques . . . . . . . 172
6.4.3 Le méanismede atégorisation . . . . . . . . . . . . 176
6.4.4 La générationdesstrutures SA . . . . . . . . . . . . 179
6.4.5 La générationdesstrutures SR . . . . . . . . . . . . 184
6.4.6 La générationdesstrutures SSub . . . . . . . . . . . 187
6.4.7 Le résultat delaatégorisation . . . . . . . . . . . . . 190
6.4.8 La segmentation duorpus en syntagmes . . . . . . . 191
6.5 Évaluationdesrésultats . . . . . . . . . . . . . . . . . . . . . 193
6.6 La atégorisation dessyntagmes . . . . . . . . . . . . . . . . 197
6.7 La atégorisation interneau syntagme . . . . . . . . . . . . . 197
6.8 Cequ'il reste àfaire . . . . . . . . . . . . . . . . . . . . . . . 198
Partie V Conlusion 201 Chapitre 7 Mais, à quoi ça sert? 203 7.1 Retoursur letravailaompli . . . . . . . . . . . . . . . . . . 203
7.2 Lesretombéesen linguistique . . . . . . . . . . . . . . . . . . 208
7.3 Lesretombéesen Traitement Automatiquedes Langues . . . 209
7.4 Le travailmultilingue . . . . . . . . . . . . . . . . . . . . . . 212
Annexes 213 Annexe A Détail des orpus utilisés 215 Annexe B Les outils et programmes 217 B.1 Lesoutils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
B.2 les programmes. . . . . . . . . . . . . . . . . . . . . . . . . . 217
Annexe C Résultats obtenus sur diérentes langues 219 C.1 allemand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
C.2 anglais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
C.3 oréen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
C.4 français . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
C.5 tur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
C.6 vietnamien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
C.7 swahili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Index 237
Bibliographie 239
1.1 La première struture de la langue : une séquene d'éléments
marqués à leurdébutet/ou leurn. . . . . . . . . . . . . . . . . 37
1.2 La deuxièmestruturedelalangue:laproposition,marquéeelle aussi par des débuts etdes ns est omposée d'une séquenede syntagmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.3 Chronologie dansladéouverte desstruturesetdansleur géné- ration.Ladéouvertedesstruturess'estfaiteenmontantdansla hiérarhie. La générationdesstrutures pour une langue donnée sefait en partant duniveau propositionnel. . . . . . . . . . . . . 38
1.4 Ordre de leture deglyphesmayas. . . . . . . . . . . . . . . . . . 49
1.5 La loi deZipf (éhelle logarithmique) . . . . . . . . . . . . . . . . 54
1.6 Nouvelle approximation[Mandelbrot, 1968 ℄. . . . . . . . . . . . . 55
2.1 Reherhe desaxesaratéristiquesàpartir d'unelistedemots extraitsd'unorpus.Lesnombres aprèsleslettresorrespondent à leur nombred'ourrenes.. . . . . . . . . . . . . . . . . . . . . 68
3.1 La langue desshtroumpfs (hollandaisetanglais).. . . . . . . . . 80
3.2 Catégorisationdemots:leontexteestonstituédumotpréédent. 88 4.1 Une première idée de la struture de la langue : une séquene d'unitésdontlesdébutsetlesns sontmarquéspardeséléments aratéristiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.2 Comment onstruire desstrutures dans une séquene linéaire? En marquant leur débutouleur n,ou lesdeuxà lafois.. . . . . 102
4.3 Toutes les séquenes ne sont pastoujours marquées à leur fron- tière. Se pose alors le problème de trouver la segmentation or- rete. A-t-on deuxsegmentsou trois? . . . . . . . . . . . . . . . 102
4.4 Propriété d'unmarqueur de début. La barre symbolise le début ou lan d'uneséquene. . . . . . . . . . . . . . . . . . . . . . . . 104
4.5 Plusieurs segments peuvent être dénis en utilisant diérents types demarqueursde débutetde n. . . . . . . . . . . . . . . . 105
4.6 Une struture d'un niveau hiérarhique donné peut utiliser tous lesniveauxinférieursommemarqueursdefrontière.Ledébutde lastruture deniveau2est marquéparunélémentde niveau 0, etsan par une struturede niveau1. . . . . . . . . . . . . . . . 106
4.7 Un élément peutappartenirà plusieurs atégories. Se pose alors
le problème de l'analyse de la séquene, 'est-à-dire reonnaître
labonne struture. . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.8 Mêmelorsquelespontuationsnesontpasprésentes,laonstru-
tion des entre-pontuations est réalisable grâe à l'aide de la
mise en page. Les unités ainsi dénies sont tout simplement les
lignesdu texte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.9 La struture anonique d'un syntagme : un noyau (le radial)
auquelsontrajoutéstouslesélémentsgrammatiauxontigusqui
dépendent de lui. Les éléments préposés sont onsidérés omme
des marqueurs de début, et les éléments postposés omme des
marqueursde ndu syntagme. . . . . . . . . . . . . . . . . . . . 118
4.10 Les marqueurs de frontière de syntagmesqui marquent les rela-
tions entre syntagmes se renontrent dans la zone périphérique
du syntagme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.11 Lesmarqueursdefrontièredesyntagmesserenontrent plussou-
vent à l'intérieur des entre-pontuations que les marqueurs de
frontièrede proposition. . . . . . . . . . . . . . . . . . . . . . . . 125
4.12 Le shéma omplet des marqueurs de proposition. Les éléments
grisés marquent leséléments aratéristiquesd'une proposition. . 128
4.13 La struture diteSVOouOVS,renontré enfrançais, anglais. . . 128
4.14 La struture diteSOV ouOSV, renontrée en turetjaponais. . 129
4.15 La struture dite VSO ou VOS, renontrée dans les langues sé-
mitiques.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
4.16 Lesdeux ompositions :laompositionexterne (1)etlaompo-
sitioninterne (2). . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.17 Exempledereherhedestrutureomposéededeuxpropositions
enfrançais.Onreherhelesélémentspréédantledeuxièmesyn-
tagme absolu. Dans l'exemple le deuxième syntagme absolu est
formé par lasimplestruture il N-ait. . . . . . . . . . . . . . . . 135
4.18 Listedetousles ouples desyntagmessimplespossiblesenthéo-
rie.Lesensdelaèhe orrespondausensRégissant-subordonné,
sans renseignement sur l'ordre linéaire entre le régissant et son
subordonné. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.19 Lesdiérentesrelations possiblesdans une séquenede troisSR
enfrançais.Noustrouvonstoutes lespossibilités(Laèhe vadu
régissant ausubordonné). . . . . . . . . . . . . . . . . . . . . . . 140
4.20 Laseule miseenrelationpossibledansuneséquenedetroisSA.
Un SAest onsidéréommerégissant duSA suivant. . . . . . . . 140
5.1 Les relations possibles entre trois éléments (ensupposant qu'un
élémentn'entretient qu'uneseulerelationaveunautreélément).
Siun tripletlexialàuneetifsupérieur àun,ilnepeutorres-
pondre auxas4,5,et6. . . . . . . . . . . . . . . . . . . . . . . 154
6.1 Ordre de traitement dessyntagmes SAetSR. . . . . . . . . . . . 171
(D) suivid'unnoyau syntagmatique(N)suivi d'unmarqueurde
n lié F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.3 Les diérentes positions pour le ontexte SADfrançais. Lesélé-
ments apparaissant aux positions (1) et(2) orrespondent à des
marqueursdedébut(ilssontà gauhe dunoyau),etles éléments
apparaissant à laposition (3)sont desmarqueursde n. . . . . . 177
6.4 Listedetouteslespositions possibles(1 à10) pourlesdiérentes
strutures (morphème seul et ouples). Les positions 1, 2, 4, 7,
et 9 orrespondent à des marqueurs de début, les positions 3,
5, 6, 8 et 10 à des marqueurs de n. Les ontextes sont limités
par despontuations.Lestraitspointillésvertiauxindiquent les
séparateurs demots. . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.5 Contexte utilisé pour reherher les marqueurs de début appa-
raissant enposition (1). . . . . . . . . . . . . . . . . . . . . . . . 180
6.6 Contexte utilisé pour reherher les marqueurs de début appa-
raissant enposition (3)àlapremier itération. . . . . . . . . . . . 181
6.7 Le ontexteutilisé pour intégrer de nouveauxouples morpholo-
giquesdanslastruture.La position(4)estoupée parunmot,
etla(5) par unmorphème liéau noyau. . . . . . . . . . . . . . . 181
6.8 Le shéma ontextuel desSAfrançais. . . . . . . . . . . . . . . . 183
6.9 Contextes utilisés pour la génération desSSub. La struture ré-
gissante (Reg)peutêtresoit unSA soit unSR. . . . . . . . . . . 187
6.10 Disrimination entre Début de Proposition (DP) et Début de
SAD (DSAD).La onnaissane desSA etdesSRest néessaire. . 191
D.1 Catégorisation de mots :ontexte :unmotavant . . . . . . . . . 233
D.2 Catégorisation de mots :ontexte :unmotaprès . . . . . . . . . 234
D.3 Catégorisation de mots :ontexte :unmotavant etaprès . . . . 234
D.4 Catégorisation de mots :ontexte :deuxmots avant . . . . . . . 235
D.5 Catégorisation de mots :ontexte :deuxmots après . . . . . . . 235
D.6 Catégorisation de mots :ontexte :deuxmots avant etaprès . . 236