Quantitative Analysis of Linguistic Data

Im Juli 2014 organisieren ZüKL und VariaForMea gemeinsam das Doktoranden-Seminar "Quantitative Analysis of Linguistic Data" (QUALD), das sich ganz dem Thema der quantitativen Analyse linguistischer Daten widmet. Vier Blöcke bieten eine anregende und anwendungsorientierte Einführung in das Sammeln und Handhaben quantitativer Daten, ihre Analyse mithilfe von Statistik sowie ihre Interpretation.

Das Seminar ist frei zugänglich für Mitglieder des Doktoratsprogramms Linguistik der UZH. Andere Doktoranden aus der Schweiz müssen sich bewerben. Doktoranden der VariaForMea-Unis (Freiburg, Genf, Lugano, Neuchâtel, Zürich) können Anreise- und Übernachtungskosten erstattet bekommen (siehe diese Seite). Das Seminar ist nicht offen für Doktoranden ausserhalb der Schweiz.

Allgemeine Informationen

Zeit und Ort

22. - 25. Juli 2014, Universität Zürich, Raum KO2-F-172

Organisation

Das Seminar ist in vier Blöcke aufgeteilt, die sich aufeinander beziehen, jedoch auch unabhängig voneinander besucht werden können. Ein Block nimmt je zwei halbe Tage ein.

Inhalte

Die Titel der Blöcke (mit Dozenten) sind:

Detailinformationen weiter unten.

Leistungsnachweis

Der erfolgreiche Abschluss eines Blocks durch die Teilnahme und Abgabe von Übungsaufgaben wird mit je 1 ECTS-Punkt bewertet.

Anmeldung

Wenn Sie teilnehmen möchten, benötigen wir folgende Angaben:

  • Vor- und Nachname
  • Affiliation (Universität, Institut, ggf. Doktoratsprogramm)
  • Blöcke, an denen Sie teilnehmen möchten (Nummer genügt)
  • Leistungsnachweis ja/nein
  • Ggf. Themen innerhalb der vorgegebenen Blöcke, die Sie besonders interessieren

Falls Sie nicht Mitglied des Doktoratsprogramms Linguistik der UZH sind, fügen Sie bitte ausserdem Ihren Lebenslauf und ein Motivationsschreiben im Pdf-Format bei.

Die Informationen und ggf. die Dokumente senden Sie an:

Die Benachrichtigung über die Annahme erfolgt bis 30. April (VariaForMea) bzw. 15. Mai (DPL, sonstige).

Bitte haben Sie Verständnis, dass die Anzahl der Teilnehmer auf 20 je Kurs begrenzt ist. Dabei sind zunächst jeweils 10 Plätze für Angehörige des Doktoratsprogramms Linguistik und für andere Doktoranden reserviert. Ausgleiche zugunsten einer der beiden Gruppen können nach dem 15. April vorgenommen werden, wenn weniger Anmeldungen als vorgesehen eingegangen sind.

Details zu den Kursblöcken

① Practical introduction to statistics

  • Zeit: 22. + 23.7., 9-13 Uhr
  • Dozent: Gerold Schneider
  • Beschreibung: Statistische Methoden sind aus der Linguistik nicht mehr wegzudenken und kommen in so unterschiedlichen Bereichen zum Einsatz wie Phonetik, Typologie, historischer Sprachwissenschaft oder Korpuslinguistik. Sie sind das wichtigste Hilfsmittel für die Auswertung quantitativer Daten und sind insbesondere für die Beurteilung der Aussagekraft von Daten unerlässlich. Dieser Kurs bietet eine kurze praktische Einführung in statistische Methoden und ihre Anwendung in der Linguistik. Wir werden zunächst Methoden zur Beschreibung quantitativer Daten betrachten, wie etwa Mittelwert und Standardabweichung. Anschliessend werden einige statistische Signifikanztests wie der T-Test und der χ2-Test mit ihrem jeweiligen Hintergrund vorgestellt werden. Zuletzt werden wir einen Blick auf das Konzept statistischer Modelle werfen.
  • Anforderungen: Übungen werden in Tabellenkalkulationssoftware und der Programmiersprache R durchgeführt. Beide sollten daher vorinstalliert sein. Zur Tabellenkalkulation eignen sich z.B. Excel (für Windows, kostenpflichtig) oder die Freeware OpenOffice. R ist frei verfügbar auf www.r-project.org. Vorkenntnisse in Programmierung sind nicht erforderlich.
  • Sprache:Deutsch oder Englisch (richtet sich nach Teilnehmern)

② Database design

  • Zeit: 22. + 23.7., 14:30-18:30 Uhr
  • Dozent: Steven Moran
  • Beschreibung: Datenbanken sind eine strukturierte Form der Speicherung von Daten, die Aufgaben wie Eingabe, Abruf, Analyse und Aktualisierung so einfach und effizient wie möglich machen soll. Datenbanken werden in der Linguistik umso wichtiger, je grösser die Datenmengen und je komplexer die Beziehungen zwischen den Daten werden. Dieser Kurs führt kurz in die Grundlagen der Datenbanktheorie ein und konzentriert sich dann vor allem auf praktische Aspekte: Welche Fragen sind vor dem Anlegen einer Datenbank zu klären? Welche Datenbankmanagementsysteme (DBMS) gibt es, und für welche Anwendungen eignen sie sich? Wie lässt sich die Datensammlung effizient gestalten? Welche Möglichkeiten der Analyse bieten DBMS, und welche Schnittstellen gibt es zu anderen Analysetools?
  • Anforderungen: Folgende Softwares müssen vorinstalliert sein:
    • eine beliebige Tabellenkalkulationssoftware (z.B. MS Excel, OpenOffice Calc)
    • MAMP (Mac) oder XAMP (Windows)
    • Navicat für MySQL (LOCALHOST-Version, benötigt evtl. MAMP/XAMP). Eine Testversion ist frei verfügbar.
    Weitere Softwares, die in Beispielen verwendet werden (Installation optional):
  • Sprache: Englisch

③ From theory to data and back

  • Zeit: 24. + 25.7., 9-13 Uhr
  • Dozent: Tanja Samardžić
  • Beschreibung: Die Verwendung quantitativer Daten in der Linguistik bringt viele Vorteile mit sich - u.a. eignen sich solche Daten für statistische Anwendungen, sind leichter objektiv messbar als qualitative Daten und sind einfacher mit anderen Daten in Beziehung zu setzen. Dabei sollte aber nicht vergessen werden, dass Daten immer erst einer theoretischen Interpretation bedürfen, um wissenschaftlich verwertbar zu werden. Dieser Kurs widmet sich daher der Frage, wie sich quantitative Daten mit linguistischen Theorien und konkreten Fragestellungen verknüpfen lassen. Auf der Grundlage zweier ausführlicher Beispiele werden wir untersuchen, wie linguistische Hypothesen so definiert werden können, dass sie sich quantitativ überprüfen lassen. Dabei werden wir insbesondere auch die folgenden Fragen diskutieren: Welche Art von Daten benötige ich, um meine Theorie zu beweisen oder zu unterstützen? Wie betrachte ich meine Daten? Wie ziehe ich die richtigen Schlüsse aus meinen Daten?
  • Anforderungen: Teilnehmer laden den Fragebogen herunter und bringen ihn ausgefüllt zum Kurs mit. Der Fragebogen enthält auch Angaben zu empfohlener Literatur mit Links. Zwei Texte sind nicht auf anderen Seiten online verfügbar, sondern hier verlinkt: Croft und Poole (2008) und Samardžić (2014).
  • Sprache: Englisch

④ Data transformation

  • Zeit: 24. + 25.7., 14:30 - 18:30 Uhr
  • Dozent: Taras Zakharko
  • Beschreibung: Statistische Analysen setzen für gewöhnlich voraus, dass Daten in einem bestimmten Format vorliegen. Reale Daten sehen aber häufig ganz anders aus - ein Textkorpus, eine typologische Datenbank oder eine Sammlung von Fragebögen können daher nicht unmittelbar verwertet werden. Hierfür müssen die Daten zunächst aggregiert, umgeformt und wieder zusammengesetzt werden. Dieser Prozess heisst Datentransformation. Dieser Kurs führt in die Datentransformation mit Hilfe von R ein, einer Programmierumgebung für statistische Berechnungen und Data Mining. R erfreut sich auch unter Linguisten zunehmender Beliebtheit, weil es flexible Anwendungen erlaubt und einfach zu lernen und zu benutzen ist. Neben der Datentransformation werden wir auch das Thema der Datenvisualisierung streifen.
  • Anforderungen: R (downloadbar von www.r-project.org) sollte auf dem Rechner der Teilnehmer vorinstalliert sein.
  • Sprache: Deutsch oder Englisch (richtet sich nach Teilnehmern)