Zum Inhalt springenZur Suche springen

Daten finden leicht(er) gemacht

In der Linguistik begegnen einem Daten überall, doch was versteht man eigentlich unter Daten? The Open Handbook of Linguistic Data Management definiert Daten als "entities used as evidence of phenomena for the purposes of research or scholarship" (Berez-Kroeker et al. 2022: 3, adopted from Borgman 2015). Das Spektrum von linguistischen Daten wird z.B. in dem Artikel "The Scope of Linguistic Data" von Jeff Good in The Open Handbook of Linguistic Data Management thematisiert.

In vielen Fällen werden digitale Sprachdaten auch als Sprachressourcen bezeichnet. Die ELRA Language Resources Association definiert Sprachressourcen als "a set of speech or language data and descriptions in machine readable form." Als Beispiele für Sprachressourcen gibt die ELRA geschriebene/gesprochene Korpora, Sprachsammlungen, computergestützte Lexika, Terminologiedatenbanken und Tools an.

Abhängig von Ihrer Forschungsfrage kann es sein, dass Sie zum Beispiel ein Experiment oder eine Umfrage durchführen und hierdurch Daten erheben oder Sie analysieren gesprochene oder geschriebene Daten aus bestehenden Korpora.

Es ist empfehlenswert festzulegen welche Art von Daten für die eigenen Forschungsfragen benötigt werden, bevor man mit der Suche anfängt.

Wo kann ich suchen?

Die folgende Übersicht listet neben einigen der wichtigsten Katalogen für Sprachressourcen auch Datenbanken, Repositorien und einzelne Korpora. Weitere Ressourcen sind im DBIS und im ULB-Katalog zu finden.

Bitte beachten Sie, dass unter den gelisteten Ressourcen auch nicht frei verfügbare Datensätze zu finden sind. Bitte beachten Sie die Nutzungsbedingungen der Anbieter und die Lizenzangaben zu den einzelnen Datensätzen.

Wenn man mit Daten arbeitet, ist es empfehlenswert zu überlegen, wie die Daten verwaltet werden. The Open Handbook of Linguistic Data Management adressiert Aspekte aus dem Bereich Forschungsdatenmanagement, wie Archivierung, Teilen von Daten und Zitieren von Daten.

  • re3data
    Das Registry of Research Data Repositories ist ein international anerkanntes Nachweisinstrument für Forschungsdatenrepositorien.
  • Zenodo
    Das Forschungsdaten-Repositorium Zenodo bietet Zugang zu Daten aus allen Disziplinen, auch aus der Linguistik.
  • LinguistList
    Diese internationale Kommunikationsplattform für Sprachwissenschaftler*innen verzeichnet auch Informationen zu Daten und Tools aus der Linguistik.
  • CLARIN Virtual Language Observatory (VLO)
    Eine Forschungsinfrastruktur für die Geistes-, Kultur- und Sozialwissenschaften, die Daten und Tools aus dem Bereich aufbewahrt und über den VLO auffindbar macht.
    Link: https://vlo.clarin.eu/
  • Linguistic Data Consortium (LDC)
    Ein Konsortium aus Universitäten, Bibliotheken und Forschungslaboren, das Sprachressourcen erstellt und vertreibt.
    Link: https://catalog.ldc.upenn.edu/
  • Open Language Archives Community (OLAC)
    Eine internationale virtuelle Bibliothek für Sprachressourcen.
    Link: http://www.language-archives.org/
  • Sketch Engine
    Eine Sprachkorpusmanager- und Textanalysesoftware, die für die HHU lizenziert ist.
  • CoRD
    Eine Auflistung englischsprachigen Korpora von der Forschungsgruppe Variation, Contacts and Change in English an der University of Helsinki.
    Link: https://varieng.helsinki.fi/CoRD/
  • The Tromsø Repository of Language and Linguistics (TROLLing)
    Ein Open Access Repositorium und CLARIN Zentrum für Daten und Code aus dem Bereich der Linguistik.
    Link: https://dataverse.no/dataverse/trolling
  • OPUS the open parallel corpus
    Eine Sammlung von frei verfügbaren Parallelkorpora, entstanden unter der Leitung von Jörg Tiedemann von der University von Helsinki.
    Link: https://opus.nlpl.eu/
  • TalkBank
    Ein Open Access Repositorium für Sprachdaten, insbesondere gesprochene Sprache.
    Link: https://www.talkbank.org/
  • GESIS Leibnitz-Institut für Sozialwissenschaften
    Eine Sammlung von Social-Media sowie weiteren digitalen Verhaltensdaten.
    Link: https://www.gesis.org/
  • Fachinformationsdienst (FID) Linguistik
    Das Lin|gu|is|tik-Portal bietet Fachinformationen zu allen Bereichen der Sprachwissenschaft.
  • Die Nationale Forschungsdateninfrastruktur Text+
    Link (Federated Content Search, CLARIN-FCS): https://text-plus.org/, https://fcs.text-plus.org/
  • META-SHARE
    Ein Repositoriennetzwerk mit einem Katalog, der über 2.500 Sprachressourcen verzeichnet.
    Link: http://www.meta-share.org/
  • European Language Resources Association (ELRA) Catalogue
    Link: https://catalog.elra.info/
  • LRE Map
    Datenkatalog für einige der wichtigsten NLT Konferenzen, wie LREC, COLING und LTC.
    Link: https://lremap.elra.info/
  • Kaggle
    Eine Online-Plattform für den Wissensaustausch und Wettbewerbe rund um Datenanalyse, Machine Learning (ML), Data Mining und Big Data.
  • Hugging Face
    Eine Online-Plattform aus dem Machine Learning Bereich, wo u.a. Datensätze und Modelle geteilt werden können.
    Link: https://huggingface.co/datasets
  • Natural Language Toolkit (NLTK)
    Eine Kollektion von Python Bibliotheken und Programmen im Bereich der Coputerlinguistik mit Schnittstellen zu verschiedene Korpora.
    Link: https://www.nltk.org/data.html
  • Glottolog
    Die Datenbank bietet freien Zugang zu wissenschaftlichen Informationen über die Sprachen der Welt, insbesondere über bedrohte Sprachen, Sprachfamilien und Dialekte.
  • Ethnologue
    Die Datenbank enthält Basisinformationen zu allen bekannten lebenden Sprachen der Welt und ist für die HHU lizenziert.
  • The World Atlas of Language Structures (WALS)
    Eine umfangreiche Datenbank struktureller Eigenschaften von Sprachen (z.B. phonologische, grammatikalische, lexikalische).
  • MLA Langage Map
    Eine Ressource der Modern Language Association, die ein einfaches und intuitives Entdecken und Untersuchen der unterschiedlichen Regionen in den USA bezogen auf deren sprachliches Umfeld erlaubt.
  • SIL Language and Culture Archives
    Eine Bibliographie, die über 40.000 Nachweise von Büchern, Zeitschriftenartikeln, Dissertationen und Daten über ca. 1.600 Sprachen und Kulturen enthält.
  • Endangered Languages Archive (ELAR)
    Listet multimediale Materialien aus dem Sprachalltag gefährdeter Sprachen aus aller Welt.
  • The Language Archive (TLA) vom Max Plank Institute
    Link: https://archive.mpi.nl/tla/
  • Language Data Commons of Australia (LDaCA)
    Link: https://www.ldaca.edu.au/

Zugang zu den Ressourcen

Nicht alle gelisteten Ressourcen sind frei verfügbar. Sollten Sie Interesse haben eine noch nicht lizenzierte Ressource zu nutzen, kontaktieren Sie die*den zuständige*n Fachreferent*in, um zu klären, ob und ggf. wie die gewünschte Ressource verfügbar gemacht werden könnte.

Bitte beachten Sie die Nutzungsbedingungen der Anbieter und die Lizenzangaben zu den einzelnen Datensätzen.

Text and Data Mining von ULB-Ressourcen

Sollten Sie Ressourcen, die durch die ULB lizenziert sind, für Text and Data Mining (TDM) nutzen wollen, beachten Sie bitte, dass dies mitunter nicht von der Lizenz abgedeckt ist. Kontaktieren Sie die*den zuständige*n Fachreferent*in, um zu klären, ob eine Lizenz TDM beinhaltet. 

In unseren Digitalen Sammlungen finden Sie eine große Anzahl an digitalen Faksimiles, die möglichst frei, in verschiedenen Formaten und über diverse Schnittstellen auch für TDM zur Verfügung gestellt werden. Sollten Sie Fragen zu den Digitalen Sammlungen haben, kontaktieren Sie uns unter .

Verantwortlichkeit: