Einführung in die Dialektometrie

(1)

Conference Presentation

Reference

Einführung in die Dialektometrie

SCHERRER, Yves

Abstract

Die Dialektometrie liegt am Schnittpunkt zwischen der Computerlinguistik und der Dialektologie. Zielsetzung der Dialektometrie ist es, dialektologische Daten mit Hilfe von statistischen Methoden zu analysieren. Dabei entstehen synthetische Raumbilder einer Dialektlandschaft, wie dies durch eine manuelle Analyse der Daten kaum möglich wäre. Ich werde in diesem Teil auf die grundlegenden dialektometrischen Methoden eingehen (z.B.

Clustering, multidimensionale Skalierung) und einige Anwendungsbeispiele mit verschiedenen Datensätzen von schweizerdeutschen Dialekten zeigen.

SCHERRER, Yves. Einführung in die Dialektometrie. In: Informal Research Group , Fribourg, 16 mars 2012, 2012

Available at:

http://archive-ouverte.unige.ch/unige:22807

Disclaimer: layout of this document may differ from the published version.

(2)

Einführung in die Dialektometrie

Yves Scherrer LATL Université de Genève

Informal Research Group 16. März 2012

Fribourg

(3)

Dialektometrie

Die Dialektometrie ist eine Forschungsrichtung innerhalb der Linguistik, die statistische und mathematische Methoden auf dialektologische Daten anwendet, um die regionale Distribution von Dialektähnlichkeiten zu charakterisieren und visuell

darzustellen.

Als Datenbasis dienen dazu meist Sprachatlanten, die für eine

Vielzahl von Erhebungsorten eine Vielzahl von sprachlichen

Phänomenen dokumentieren.

(4)

Dialektometrie

Traditionelle Dialektologie:

Erforschung einzelner sprachlicher Phänomene und deren geografische Verbreitung

Dialektatlasprojekte: viele Einzelkarten, Überblick schwierig Dialektklassifizierungen werden aufgrund von Einzelphänomenen vorgenommen, die vom Dialektologen gemäss seiner Intuition ausgewählt werden→subjektiv

Dialektometrie:

Möglichst viele sprachliche Phänomene sollen in die Dialektklassifizierung einfliessen→aggregierte Daten Keine Gewichtung der einzelnen Phänomene→objektiv

(5)

Distanzmatrizen

Zentrales Element einer dialektometrischer Studie ist die Distanzmatrix:

Wie wird eine Distanzmatrix aus dialektologischen Rohdaten hergestellt?

Wie werden Distanzmatrizen numerisch analysiert?

Räumliche Autokorrelation

Wie werden Distanzmatrizen visualisiert?

Clusteranalyse

Multidimensionale Skalierung

(6)

Vorbild: Distanztabellen zwischen Städten

(7)

Beispiel: Dialektologische Rohdaten

Ort „hier“ „Leute“ 3 Pl

Köniz (BE) hie ü -e

Wolhusen (LU) daa/doo ü -e

Hergiswil (NW) hie i -id

Niederwald (VS) hie i -end

Horgen (ZH) daa/doo ü -ed

Flawil (SG) daa/doo ü -ed

Pratteln (BL) daa/doo ü -e

7 Datenpunkte (Orte)

3 linguistische Variablen (Lexikon, Phonologie, Morphologie)

Distanz zwischen Köniz und Wolhusen? 1/3 = 0.33 Distanz zwischen Wolhusen und Niederwald? 3/3 = 1.0 Distanz zwischen Horgen und Flawil? 0/3 = 0.0

Distanz zwischen Horgen und Horgen? 0.0

(8)

Beispiel: Distanzmatrix

Köniz W olhusen Herg iswil N iederw ald Horgen Flawil P ra tt eln Köniz 0.0 0.33 0.67 0.67 0.67 0.67 0.33 Wolhusen 0.33 0.0 1.0 1.0 0.33 0.33 0.0 Hergiswil 0.67 1.0 0.0 0.33 1.0 1.0 1.0 Niederwald 0.67 1.0 0.33 0.0 1.0 1.0 1.0

Horgen 0.67 0.33 1.0 1.0 0.0 0.0 0.33

Flawil 0.67 0.33 1.0 1.0 0.0 0.0 0.33

Pratteln 0.33 0.0 1.0 1.0 0.33 0.33 0.0

(9)

Distanzmasse

Vereinfachende Annahmen bei der Distanzmessung in unserem Beispiel:

Eine einzige Antwort pro Ortspunkt Ein Informant

Der Informant kann sich immer auf eine Antwort festlegen.

Die Unterscheidung zwischen identischen und verschiedenen Varianten ist klar (kategorielle Daten).

Keine Zwischenwerte zwischenüundi.

Die phonetische Unterscheidung zwischendaaunddooist nicht relevant.

Alle Phänomene sind gleich wichtig.

Dieü-i-Unterscheidung kommt in vielen Wörtern vor, die hie-daa-Unterscheidung nur in einem.

Je nach Datenlage kann/muss die Distanz zwischen zwei Orten

anders berechnet werden.

(10)

Clusteranalyse: ein Beispiel

Kön Wol Her Nie Hor Fla Pra

Köniz 0.0 0.33 0.67 0.67 0.67 0.67 0.33 Wolhusen 0.33 0.0 1.0 1.0 0.33 0.33 0.0 Hergiswil 0.67 1.0 0.0 0.33 1.0 1.0 1.0 Niederwald 0.67 1.0 0.33 0.0 1.0 1.0 1.0

Horgen 0.67 0.33 1.0 1.0 0.0 0.0 0.33

Flawil 0.67 0.33 1.0 1.0 0.0 0.0 0.33

Pratteln 0.33 0.0 1.0 1.0 0.33 0.33 0.0

Welche Orte sind einander am ähnlichsten?

Wolhusen und Pratteln Distanz 0.0

Horgen und Flawil Distanz 0.0

Hergiswil und Niederwald Distanz 0.33

Köniz und Wolhusen/Pratteln Distanz 0.33

Wolhusen/Pratteln und Horgen/Flawil Distanz 0.33

(11)

Hierarchische Clusteranalyse

Am Anfang bildet jeder Ortspunkt einen separaten Cluster. Dann werden die zwei Cluster, die einander am ähnlichsten sind, zu einem neuen Cluster zusammengefasst. Dies wird dann wiederholt, bis nur noch ein Cluster übrigbleibt, in dem alle Ortspunkte

zusammengefasst sind.

Flawil Horgen

Köniz Pratteln

Wolhusen Hergiswil

Niederwald

0.0 0.2 0.4 0.6 0.8

Diese Visualisierungsart nennt man

Dendrogramm.

(12)

Cluster-Algorithmen

Flawil Horgen

Köniz Pratteln

Wolhusen Hergiswil

Niederwald

0.0 0.2 0.4 0.6 0.8

Was ist die Distanz zwischen dem Cluster Horgen/Flawil und dem Cluster Wolhusen/Pratteln/Köniz?

Horgen – Wolhusen 0.33 Horgen – Pratteln 0.33 Horgen – Köniz 0.66 Flawil – Wolhusen 0.33 Flawil – Pratteln 0.33 Flawil – Köniz 0.66

Minimum(0.33) „Single Linkage“

Maximum(0.66)„Complete Linkage“

Mittelwert(0.44) „Group Average“

…

Verschiedene Antworten = verschiedene Cluster-Algorithmen

(13)

Cluster-Algorithmen

Group Average

Flawil Horgen

Köniz Pratteln

Wolhusen Hergiswil

Niederwald

0.0 0.2 0.4 0.6 0.8

(14)

Cluster-Algorithmen

Weighted Average

Flawil Horgen

Köniz Pratteln

Wolhusen Hergiswil

Niederwald

0.0 0.2 0.4 0.6 0.8

(15)

Cluster-Algorithmen

Complete Linkage

Flawil Horgen

Köniz Pratteln

Wolhusen Hergiswil

Niederwald

0.0 0.2 0.4 0.6 0.8 1.0

(16)

Beispiel 1: SDS-Daten

Sprachatlas der deutschen Schweiz (SDS):

Datenerhebung: 1939-1958

600 Erhebungsorte in der Deutschschweiz Veröﬀentlichung: 1962-1997

8 Bände, 1500 handgezeichnete Karten Phonetik/Phonologie

2 Bände, 400 Karten

60 Karten gescannt und digitalisiert Morphologie

1 Band, 250 Karten

110 Karten gescannt und digitalisiert Lexikon

5 Bände

30 Karten gescannt und digitalisert

(17)

Beispiel 1: SDS-Daten

(18)

Beispiel 1: SDS-Daten

Experimente:

196 digitalisierte Karten

Verschiedene Cluster-Algorithmen Group Average

Weighted Average Ward’s Method Complete Linkage

Schnitt durch das Dendrogramm bei 10 Clustern Darstellung der Cluster auf einer geografischen Karte

(19)

Beispiel 1: SDS-Daten

Group Average

(20)

Beispiel 1: SDS-Daten

Weighted Average

(21)

Beispiel 1: SDS-Daten

Ward’s Methodg

(22)

Beispiel 1: SDS-Daten

Complete Linkage

(23)

Beispiel 1: SDS-Daten

Welche Cluster-Methode ist am besten geeignet?

Unbeantwortete Frage

Kein Algorithmus ist „richtig“ oder „falsch“.

In der Dialektometrie werden am häufigsten „Weighted Average“ und

„Ward’s Method“ verwendet.

Weitere Kritikpunkte:

Clusteranalysen sind sehr instabil.

Minimale Veränderungen in der Distanzmatrix können grosse Veränderungen in der Clusteranalyse hervorrufen.

Lösungsansatz: Noisy Clustering

Scharfe Dialektgrenzen sind trügerisch. Viele Grenzen verlaufen graduell.

(24)

Beispiel 2: Erhebungsmethoden im SADS

Syntaktischer Atlas der deutschen Schweiz (SADS):

Forschungsprojekt der Uni Zürich (Prof. E. Glaser)

Datensammlung abgeschlossen, aber noch nicht publiziert 118 Fragen, aufgeteilt auf 4 schriftliche Fragebögen Verschiedene Fragetechniken:

Übersetzung eines standarddeutschen Satzes in Dialekt

Multiple choice: alle akzeptierten Dialektvarianten aus einer Liste auswählen

Single choice: die natürlichste Dialektvariante aus der Liste auswählen 344 Ortspunkte (SDS: 600)

Im Schnitt 7 Informanten pro Ortspunkt (SDS: 1-2)

Hypothese:Multiple choice-Daten ergeben eine gleichmässigere

Dialektlandschaft als

Single choice-Daten.

(25)

Beispiel 2: Erhebungsmethoden im SADS

76 SADS-Fragen, Ward’s Method, 7 Cluster — Multiple choice

(26)

Beispiel 2: Erhebungsmethoden im SADS

76 SADS-Fragen, Ward’s Method, 7 Cluster — Single choice

(27)

Beispiel 3: Ortsnamen

Rot berg hag

Farbe Erhebung Begrenzung

Variiert die Zusammensetzung der Ortsnamen je nach Region?

Daten aus zwei Bezirken des Kantons Solothurn

(Jacqueline Reber, Solothurnisches Orts- und Flurnamenbuch) 41 064 Nennungen (Bestandteile von Ortsnamen), 50 Ortspunkte Clusteranalyse nach Ward’s Method, 2 - 4 Cluster

(28)

Beispiel 3: Ortsnamen

2 Cluster

(29)

Beispiel 3: Ortsnamen

3 Cluster

(30)

Beispiel 3: Ortsnamen

4 Cluster

(31)

Multidimensionale Skalierung

Geografische Distanzen können in der Regel in einem

zweidimensionalen Raum dargestellt werden. Und linguistische Distanzen?

Um 3 Ortspunkte mit den korrekten Distanzwerten darzustellen, werden (maximal) 2 Dimensionen benötigt:

Köniz

Hergiswil Horgen

0.67 0.67

1.0

4 Ortspunkte→(maximal) 3 Dimensionen 5 Ortspunkte→(maximal) 4 Dimensionen

…

Die SDS-Daten enthalten knapp 600 Ortspunkte

→

unpraktisch…

(32)

Multidimensionale Skalierung

Multidimensionale Skalierung (MDS) passt die Distanzen zwischen den Ortspunkten so an, dass Dimensionen reduziert werden:

Köniz

Hergiswil Horgen

0.67 0.67

1.0

Köniz

Hergiswil 0.6 0.6 Horgen 1.2

In der Regel wird MDS so lange angewandt, bis nur noch 2 oder 3

Dimensionen übrig bleiben.

(33)

Beispiel 1: Lokalisierung der Archimob-Texte

ArchiMob ist ein Schweizer

oral history-Projekt über die Zeit des

Zweiten Weltkriegs.

555 Interviews, 16 davon transkribiert (Uni Zürich)

Idee:

Geografisch nahe gelegene Texte haben einen grösseren Prozentsatz identischer Wörter.

Pro Textpaar alle verwandten Wortpaare suchen.

Pro Textpaar die Proportion der identischen Wortpaare (unter den verwandten Wortpaaren) ermitteln.

Distanz(ti,tj) =1− Anzahl identische Wortpaare(ti,tj) Anzahl verwandte Wortpaare(ti,tj) Dies ergibt eine hochdimensionale Distanzmatrix.

MDS→2 Dimensionen

Übereinstimmung mit geografischer Lokalisierung?

(34)

Beispiel 1: Lokalisierung der Archimob-Texte

BS1057 BL1073

BE1142

BE1170

VS1212

NW1007

GL1207 GL1048 ZH1143 SZ1209

SG1198 ZH1270 LU1261

LU1195 AG1147 AG1063

(35)

Beispiel 2: SDS-Daten

Multidimensionale Skalierung auf 3 Dimensionen

Jede Dimension stellt einen Farbwert auf der RGB-Skala dar

(36)

Beispiel 2: SDS-Daten

Multidimensionale Skalierung auf 3 Dimensionen

Jede Dimension stellt einen Farbwert auf der RGB-Skala dar

(37)

Beispiel 3: Erhebungsmethoden im SADS

Multiple choice

(38)

Beispiel 3: Erhebungsmethoden im SADS

Single choice

(39)

Räumliche Autokorrelation

Räumliche Autokorrelation (Geostatistik):

„Im allgemeinen sind Werte an nahe beieinander liegenden Punkten ähnlicher als Werte an weiter entfernten Punkten.“

(Burrough & McDonnell 1998, 100)

Grundlegendes Postulat der Dialektologie:

„Geografisch nahe Varietäten neigen dazu, einander ähnlicher zu sein als weiter entfernte.“

(Nerbonne & Kleiweg 2005, 10)

Die linguistische Distanz korreliert mit der geografischen Distanz.

Verschiedene linguistische Distanzmasse bzw. Datensätze korrelieren verschieden stark mit der geografischen Distanz.

Je höher die Korrelation, desto besser das linguistische Distanzmass oder der Datensatz.

(40)

Korrelationsmasse

Lokale Inkohärenz (Nerbonne & Kleiweg 2005):

Korrelation ist ein lokales Phänomen

Wird nur auf die 8 nächstliegenden Orte angewandt

Mantel-Test (Sokal & Rohlf (1995), S. 813-819):

Allgemeiner statistischer Test, der auf Distanzdaten angewandt wird.

Oft benutzt in Bioökologie, z.B. um genetische Distanzen von Tierpopulationen mit geografischen Distanzen ihrer Lebensräume zu korrelieren.

Statistische Signifikanz wird durch Randomisierung erreicht.

(41)

Räumliche Autokorrelation im SDS

Anzahl Lokale Mantel- Karten Inkohärenz Test

Konsonanten 22 3.02 0.45

Vokale 37 1.99 0.47

Verb-Morphologie 71 0.99 0.68

sonstige Morphologie 39 1.52 0.62

Lexikon 27 1.65 0.63

Alle 196 0.71 0.70

Lokale Inkohärenz Kleiner ist besser.

Grosse Datensätze korrelieren besser als kleine.

Lautkarten scheinen weniger gut geeignet als Morphologie- und Lexikonkarten.

Mantel-Test

Grösser ist besser

p = 0.01 (99 Simulationen)

Weniger abhängig von der Grösse des Datensatzes.

52 / 55 Yves Scherrer: Einführung in die Dialektometrie

(42)

Zusammenfassung

Methoden der Dialektometrie:

Berechnung von Distanzmatrizen aufgrund von kategorischen Unterschieden

Klassifizierung und Visualisierung Clusteranalyse

Multidimensionale Skalierung

Korrelationsmasse zum Vergleich von linguistischen Distanzen und geografischen Distanzen

Vorgestellte Datensätze:

Digitalisierte SDS-Karten Rohdaten des SADS-Projekts Ortsnamen des Kantons Solothurn Transkribierte Archimob-Texte

(43)

Referenzen

Claudia Bucheli & Elvira Glaser (2002). „The syntactic atlas of Swiss German dialects: empirical and methodological problems.“ In Sjef Barbiers, Leonie Cornips & Susanne van der Kleij, Hrsg.,Syntactic Microvariation, Band II. Meertens Institute Electronic Publications in Linguistics, Amsterdam.

Peter A. Burrough & Rachael A. McDonnell (1998).Principles of Geographical Information Systems.Oxford University Press, Oxford.

Hans Goebl (1982).Dialektometrie. Prinzipien und Methoden des Einsatzes der numerischen Taxonomie im Bereich der Dialektgeographie.Verlag der Österreichischen Akademie der Wissenschaften, Wien.

Rudolf Hotzenköcherle, Robert Schläpfer, Rudolf Trüb & Paul Zinsli, Hrsg. (1962-1997).Sprachatlas der deutschen Schweiz.Francke, Bern.

Bernhard Kelle (2001). „Zur Typologie der Dialekte in der deutschsprachigen Schweiz: Ein dialektometrischer Versuch.“Dialectologia et Geolinguistica, 9:9–34.

John Nerbonne, Rinke Colen, Charlotte Gooskens, Peter Kleiweg & Therese Leinonen (2011). „Gabmap – a web application for dialectology.“Dialectologia, Special Issue, II:65–89.http://www.gabmap.nl

John Nerbonne & Peter Kleiweg (2005). „Toward a dialectological yardstick.“Journal of Quantitative Linguistics, 5.

John Nerbonne & Christine Siedle (2005). „Dialektklassifikation auf der Grundlage aggregierter Ausspracheunterschiede.“Zeitschrift für Dialektologie und Linguistik, 72(5):129-147.

Robert R. Sokal & F. James Rohlf (1995).Biometry: the principles and practice of statistics in biological research.W.H.

Freeman, New York, 3. Auflage.

http://latlntic.unige.ch/~scherrey/