Conference Presentation
Reference
Einführung in die Dialektometrie
SCHERRER, Yves
Abstract
Die Dialektometrie liegt am Schnittpunkt zwischen der Computerlinguistik und der Dialektologie. Zielsetzung der Dialektometrie ist es, dialektologische Daten mit Hilfe von statistischen Methoden zu analysieren. Dabei entstehen synthetische Raumbilder einer Dialektlandschaft, wie dies durch eine manuelle Analyse der Daten kaum möglich wäre. Ich werde in diesem Teil auf die grundlegenden dialektometrischen Methoden eingehen (z.B.
Clustering, multidimensionale Skalierung) und einige Anwendungsbeispiele mit verschiedenen Datensätzen von schweizerdeutschen Dialekten zeigen.
SCHERRER, Yves. Einführung in die Dialektometrie. In: Informal Research Group , Fribourg, 16 mars 2012, 2012
Available at:
http://archive-ouverte.unige.ch/unige:22807
Disclaimer: layout of this document may differ from the published version.
Einführung in die Dialektometrie
Yves Scherrer LATL Université de Genève
Informal Research Group 16. März 2012
Fribourg
Dialektometrie
Die Dialektometrie ist eine Forschungsrichtung innerhalb der Linguistik, die statistische und mathematische Methoden auf dialektologische Daten anwendet, um die regionale Distribution von Dialektähnlichkeiten zu charakterisieren und visuell
darzustellen.
Als Datenbasis dienen dazu meist Sprachatlanten, die für eine
Vielzahl von Erhebungsorten eine Vielzahl von sprachlichen
Phänomenen dokumentieren.
Dialektometrie
Traditionelle Dialektologie:
Erforschung einzelner sprachlicher Phänomene und deren geografische Verbreitung
Dialektatlasprojekte: viele Einzelkarten, Überblick schwierig Dialektklassifizierungen werden aufgrund von Einzelphänomenen vorgenommen, die vom Dialektologen gemäss seiner Intuition ausgewählt werden→subjektiv
Dialektometrie:
Möglichst viele sprachliche Phänomene sollen in die Dialektklassifizierung einfliessen→aggregierte Daten Keine Gewichtung der einzelnen Phänomene→objektiv
Distanzmatrizen
Zentrales Element einer dialektometrischer Studie ist die Distanzmatrix:
Wie wird eine Distanzmatrix aus dialektologischen Rohdaten hergestellt?
Wie werden Distanzmatrizen numerisch analysiert?
Räumliche Autokorrelation
Wie werden Distanzmatrizen visualisiert?
Clusteranalyse
Multidimensionale Skalierung
Vorbild: Distanztabellen zwischen Städten
Beispiel: Dialektologische Rohdaten
Ort „hier“ „Leute“ 3 Pl
Köniz (BE) hie ü -e
Wolhusen (LU) daa/doo ü -e
Hergiswil (NW) hie i -id
Niederwald (VS) hie i -end
Horgen (ZH) daa/doo ü -ed
Flawil (SG) daa/doo ü -ed
Pratteln (BL) daa/doo ü -e
7 Datenpunkte (Orte)
3 linguistische Variablen (Lexikon, Phonologie, Morphologie)
Distanz zwischen Köniz und Wolhusen? 1/3 = 0.33 Distanz zwischen Wolhusen und Niederwald? 3/3 = 1.0 Distanz zwischen Horgen und Flawil? 0/3 = 0.0
Distanz zwischen Horgen und Horgen? 0.0
Beispiel: Distanzmatrix
Köniz W olhusen Herg iswil N iederw ald Horgen Flawil P ra tt eln Köniz 0.0 0.33 0.67 0.67 0.67 0.67 0.33 Wolhusen 0.33 0.0 1.0 1.0 0.33 0.33 0.0 Hergiswil 0.67 1.0 0.0 0.33 1.0 1.0 1.0 Niederwald 0.67 1.0 0.33 0.0 1.0 1.0 1.0
Horgen 0.67 0.33 1.0 1.0 0.0 0.0 0.33
Flawil 0.67 0.33 1.0 1.0 0.0 0.0 0.33
Pratteln 0.33 0.0 1.0 1.0 0.33 0.33 0.0
Distanzmasse
Vereinfachende Annahmen bei der Distanzmessung in unserem Beispiel:
Eine einzige Antwort pro Ortspunkt Ein Informant
Der Informant kann sich immer auf eine Antwort festlegen.
Die Unterscheidung zwischen identischen und verschiedenen Varianten ist klar (kategorielle Daten).
Keine Zwischenwerte zwischenüundi.
Die phonetische Unterscheidung zwischendaaunddooist nicht relevant.
Alle Phänomene sind gleich wichtig.
Dieü-i-Unterscheidung kommt in vielen Wörtern vor, die hie-daa-Unterscheidung nur in einem.
Je nach Datenlage kann/muss die Distanz zwischen zwei Orten
anders berechnet werden.
Clusteranalyse: ein Beispiel
Kön Wol Her Nie Hor Fla Pra
Köniz 0.0 0.33 0.67 0.67 0.67 0.67 0.33 Wolhusen 0.33 0.0 1.0 1.0 0.33 0.33 0.0 Hergiswil 0.67 1.0 0.0 0.33 1.0 1.0 1.0 Niederwald 0.67 1.0 0.33 0.0 1.0 1.0 1.0
Horgen 0.67 0.33 1.0 1.0 0.0 0.0 0.33
Flawil 0.67 0.33 1.0 1.0 0.0 0.0 0.33
Pratteln 0.33 0.0 1.0 1.0 0.33 0.33 0.0
Welche Orte sind einander am ähnlichsten?
Wolhusen und Pratteln Distanz 0.0
Horgen und Flawil Distanz 0.0
Hergiswil und Niederwald Distanz 0.33
Köniz und Wolhusen/Pratteln Distanz 0.33
Wolhusen/Pratteln und Horgen/Flawil Distanz 0.33
Hierarchische Clusteranalyse
Am Anfang bildet jeder Ortspunkt einen separaten Cluster. Dann werden die zwei Cluster, die einander am ähnlichsten sind, zu einem neuen Cluster zusammengefasst. Dies wird dann wiederholt, bis nur noch ein Cluster übrigbleibt, in dem alle Ortspunkte
zusammengefasst sind.
Flawil Horgen
Köniz Pratteln
Wolhusen Hergiswil
Niederwald
0.0 0.2 0.4 0.6 0.8
Diese Visualisierungsart nennt man
Dendrogramm.Cluster-Algorithmen
Flawil Horgen
Köniz Pratteln
Wolhusen Hergiswil
Niederwald
0.0 0.2 0.4 0.6 0.8
Was ist die Distanz zwischen dem Cluster Horgen/Flawil und dem Cluster Wolhusen/Pratteln/Köniz?
Horgen – Wolhusen 0.33 Horgen – Pratteln 0.33 Horgen – Köniz 0.66 Flawil – Wolhusen 0.33 Flawil – Pratteln 0.33 Flawil – Köniz 0.66
Minimum(0.33) „Single Linkage“
Maximum(0.66)„Complete Linkage“
Mittelwert(0.44) „Group Average“
…
Verschiedene Antworten = verschiedene Cluster-Algorithmen
Cluster-Algorithmen
Group Average
Flawil Horgen
Köniz Pratteln
Wolhusen Hergiswil
Niederwald
0.0 0.2 0.4 0.6 0.8
Cluster-Algorithmen
Weighted Average
Flawil Horgen
Köniz Pratteln
Wolhusen Hergiswil
Niederwald
0.0 0.2 0.4 0.6 0.8
Cluster-Algorithmen
Complete Linkage
Flawil Horgen
Köniz Pratteln
Wolhusen Hergiswil
Niederwald
0.0 0.2 0.4 0.6 0.8 1.0
Beispiel 1: SDS-Daten
Sprachatlas der deutschen Schweiz (SDS):
Datenerhebung: 1939-1958
600 Erhebungsorte in der Deutschschweiz Veröffentlichung: 1962-1997
8 Bände, 1500 handgezeichnete Karten Phonetik/Phonologie
2 Bände, 400 Karten
60 Karten gescannt und digitalisiert Morphologie
1 Band, 250 Karten
110 Karten gescannt und digitalisiert Lexikon
5 Bände
30 Karten gescannt und digitalisert
Beispiel 1: SDS-Daten
Beispiel 1: SDS-Daten
Experimente:
196 digitalisierte Karten
Verschiedene Cluster-Algorithmen Group Average
Weighted Average Ward’s Method Complete Linkage
Schnitt durch das Dendrogramm bei 10 Clustern Darstellung der Cluster auf einer geografischen Karte
Beispiel 1: SDS-Daten
Group Average
Beispiel 1: SDS-Daten
Weighted Average
Beispiel 1: SDS-Daten
Ward’s Methodg
Beispiel 1: SDS-Daten
Complete Linkage
Beispiel 1: SDS-Daten
Welche Cluster-Methode ist am besten geeignet?
Unbeantwortete Frage
Kein Algorithmus ist „richtig“ oder „falsch“.
In der Dialektometrie werden am häufigsten „Weighted Average“ und
„Ward’s Method“ verwendet.
Weitere Kritikpunkte:
Clusteranalysen sind sehr instabil.
Minimale Veränderungen in der Distanzmatrix können grosse Veränderungen in der Clusteranalyse hervorrufen.
Lösungsansatz: Noisy Clustering
Scharfe Dialektgrenzen sind trügerisch. Viele Grenzen verlaufen graduell.
Beispiel 2: Erhebungsmethoden im SADS
Syntaktischer Atlas der deutschen Schweiz (SADS):
Forschungsprojekt der Uni Zürich (Prof. E. Glaser)
Datensammlung abgeschlossen, aber noch nicht publiziert 118 Fragen, aufgeteilt auf 4 schriftliche Fragebögen Verschiedene Fragetechniken:
Übersetzung eines standarddeutschen Satzes in Dialekt
Multiple choice: alle akzeptierten Dialektvarianten aus einer Liste auswählen
Single choice: die natürlichste Dialektvariante aus der Liste auswählen 344 Ortspunkte (SDS: 600)
Im Schnitt 7 Informanten pro Ortspunkt (SDS: 1-2)
Hypothese:Multiple choice-Daten ergeben eine gleichmässigere
Dialektlandschaft als
Single choice-Daten.Beispiel 2: Erhebungsmethoden im SADS
76 SADS-Fragen, Ward’s Method, 7 Cluster — Multiple choice
Beispiel 2: Erhebungsmethoden im SADS
76 SADS-Fragen, Ward’s Method, 7 Cluster — Single choice
Beispiel 3: Ortsnamen
Rot berg hag
Farbe Erhebung Begrenzung
Variiert die Zusammensetzung der Ortsnamen je nach Region?
Daten aus zwei Bezirken des Kantons Solothurn
(Jacqueline Reber, Solothurnisches Orts- und Flurnamenbuch) 41 064 Nennungen (Bestandteile von Ortsnamen), 50 Ortspunkte Clusteranalyse nach Ward’s Method, 2 - 4 Cluster
Beispiel 3: Ortsnamen
2 Cluster
Beispiel 3: Ortsnamen
3 Cluster
Beispiel 3: Ortsnamen
4 Cluster
Multidimensionale Skalierung
Geografische Distanzen können in der Regel in einem
zweidimensionalen Raum dargestellt werden. Und linguistische Distanzen?
Um 3 Ortspunkte mit den korrekten Distanzwerten darzustellen, werden (maximal) 2 Dimensionen benötigt:
Köniz
Hergiswil Horgen
0.67 0.67
1.0
4 Ortspunkte→(maximal) 3 Dimensionen 5 Ortspunkte→(maximal) 4 Dimensionen
…
Die SDS-Daten enthalten knapp 600 Ortspunkte
→unpraktisch…
Multidimensionale Skalierung
Multidimensionale Skalierung (MDS) passt die Distanzen zwischen den Ortspunkten so an, dass Dimensionen reduziert werden:
Köniz
Hergiswil Horgen
0.67 0.67
1.0
Köniz
Hergiswil 0.6 0.6 Horgen 1.2
In der Regel wird MDS so lange angewandt, bis nur noch 2 oder 3
Dimensionen übrig bleiben.
Beispiel 1: Lokalisierung der Archimob-Texte
ArchiMob ist ein Schweizer
oral history-Projekt über die Zeit desZweiten Weltkriegs.
555 Interviews, 16 davon transkribiert (Uni Zürich)
Idee:
Geografisch nahe gelegene Texte haben einen grösseren Prozentsatz identischer Wörter.
Pro Textpaar alle verwandten Wortpaare suchen.
Pro Textpaar die Proportion der identischen Wortpaare (unter den verwandten Wortpaaren) ermitteln.
Distanz(ti,tj) =1− Anzahl identische Wortpaare(ti,tj) Anzahl verwandte Wortpaare(ti,tj) Dies ergibt eine hochdimensionale Distanzmatrix.
MDS→2 Dimensionen
Übereinstimmung mit geografischer Lokalisierung?
Beispiel 1: Lokalisierung der Archimob-Texte
BS1057 BL1073
BE1142
BE1170
VS1212
NW1007
GL1207 GL1048 ZH1143 SZ1209
SG1198 ZH1270 LU1261
LU1195 AG1147 AG1063
Beispiel 2: SDS-Daten
Multidimensionale Skalierung auf 3 Dimensionen
Jede Dimension stellt einen Farbwert auf der RGB-Skala dar
Beispiel 2: SDS-Daten
Multidimensionale Skalierung auf 3 Dimensionen
Jede Dimension stellt einen Farbwert auf der RGB-Skala dar
Beispiel 3: Erhebungsmethoden im SADS
Multiple choice
Beispiel 3: Erhebungsmethoden im SADS
Single choice
Räumliche Autokorrelation
Räumliche Autokorrelation (Geostatistik):
„Im allgemeinen sind Werte an nahe beieinander liegenden Punkten ähnlicher als Werte an weiter entfernten Punkten.“
(Burrough & McDonnell 1998, 100)
Grundlegendes Postulat der Dialektologie:
„Geografisch nahe Varietäten neigen dazu, einander ähnlicher zu sein als weiter entfernte.“
(Nerbonne & Kleiweg 2005, 10)
Die linguistische Distanz korreliert mit der geografischen Distanz.
Verschiedene linguistische Distanzmasse bzw. Datensätze korrelieren verschieden stark mit der geografischen Distanz.
Je höher die Korrelation, desto besser das linguistische Distanzmass oder der Datensatz.
Korrelationsmasse
Lokale Inkohärenz (Nerbonne & Kleiweg 2005):
Korrelation ist ein lokales Phänomen
Wird nur auf die 8 nächstliegenden Orte angewandt
Mantel-Test (Sokal & Rohlf (1995), S. 813-819):
Allgemeiner statistischer Test, der auf Distanzdaten angewandt wird.
Oft benutzt in Bioökologie, z.B. um genetische Distanzen von Tierpopulationen mit geografischen Distanzen ihrer Lebensräume zu korrelieren.
Statistische Signifikanz wird durch Randomisierung erreicht.
Räumliche Autokorrelation im SDS
Anzahl Lokale Mantel- Karten Inkohärenz Test
Konsonanten 22 3.02 0.45
Vokale 37 1.99 0.47
Verb-Morphologie 71 0.99 0.68
sonstige Morphologie 39 1.52 0.62
Lexikon 27 1.65 0.63
Alle 196 0.71 0.70
Lokale Inkohärenz Kleiner ist besser.
Grosse Datensätze korrelieren besser als kleine.
Lautkarten scheinen weniger gut geeignet als Morphologie- und Lexikonkarten.
Mantel-Test
Grösser ist besser
p = 0.01 (99 Simulationen)
Weniger abhängig von der Grösse des Datensatzes.
52 / 55 Yves Scherrer: Einführung in die Dialektometrie
Zusammenfassung
Methoden der Dialektometrie:
Berechnung von Distanzmatrizen aufgrund von kategorischen Unterschieden
Klassifizierung und Visualisierung Clusteranalyse
Multidimensionale Skalierung
Korrelationsmasse zum Vergleich von linguistischen Distanzen und geografischen Distanzen
Vorgestellte Datensätze:
Digitalisierte SDS-Karten Rohdaten des SADS-Projekts Ortsnamen des Kantons Solothurn Transkribierte Archimob-Texte
Referenzen
Claudia Bucheli & Elvira Glaser (2002). „The syntactic atlas of Swiss German dialects: empirical and methodological problems.“ In Sjef Barbiers, Leonie Cornips & Susanne van der Kleij, Hrsg.,Syntactic Microvariation, Band II. Meertens Institute Electronic Publications in Linguistics, Amsterdam.
Peter A. Burrough & Rachael A. McDonnell (1998).Principles of Geographical Information Systems.Oxford University Press, Oxford.
Hans Goebl (1982).Dialektometrie. Prinzipien und Methoden des Einsatzes der numerischen Taxonomie im Bereich der Dialektgeographie.Verlag der Österreichischen Akademie der Wissenschaften, Wien.
Rudolf Hotzenköcherle, Robert Schläpfer, Rudolf Trüb & Paul Zinsli, Hrsg. (1962-1997).Sprachatlas der deutschen Schweiz.Francke, Bern.
Bernhard Kelle (2001). „Zur Typologie der Dialekte in der deutschsprachigen Schweiz: Ein dialektometrischer Versuch.“Dialectologia et Geolinguistica, 9:9–34.
John Nerbonne, Rinke Colen, Charlotte Gooskens, Peter Kleiweg & Therese Leinonen (2011). „Gabmap – a web application for dialectology.“Dialectologia, Special Issue, II:65–89.http://www.gabmap.nl
John Nerbonne & Peter Kleiweg (2005). „Toward a dialectological yardstick.“Journal of Quantitative Linguistics, 5.
John Nerbonne & Christine Siedle (2005). „Dialektklassifikation auf der Grundlage aggregierter Ausspracheunterschiede.“Zeitschrift für Dialektologie und Linguistik, 72(5):129-147.
Robert R. Sokal & F. James Rohlf (1995).Biometry: the principles and practice of statistics in biological research.W.H.
Freeman, New York, 3. Auflage.
http://latlntic.unige.ch/~scherrey/