Zum Hauptinhalt

Linking Textual Data

Verknüpfung von Textdaten mit anderen Datenarten.

Textdaten stehen in rasch wachsendem Umfang zur Verfügung und können mit zunehmend leistungsfähigen Methoden bearbeitet werden. Die integrierte qualitative und quantitative Analyse dieser Daten bietet für viele Disziplinen großes Potential zur Beantwortung neuer Forschungsfragen. Jedoch fehlt oft die Verzahnung neuer Textdaten mit anderen, bereits weitläufig genutzten Daten der Sozialwissenschaften, wie Daten aus sozialen Medien oder Umfragen. Wir erareiten einen Dienst, der diese Verknüpfung über eindeutige Identifikatoren beispielsweise für Personen und Organisationen ermöglicht. Dabei ist nicht nur die technische Umsetzung, sondern auch die Nutzer:innenfreundlichkeit der dafür zu entwickelnden Werkzeuge zentral.

“Linking Textual Data” arbeitet an der Verknüpfung von Textdaten mit anderen Datenarten, um das Potential sozialwissenschaftlicher Daten bestmöglich auszuschöpfen, neue Forschungswege zu erschließen und diese Verknüpfungsmöglichkeiten für die Nachnutzung zu dokumentieren und zur Verfügung zu stellen. Die Dienste können dabei auf den Erfahrungen des PolMine-Projektes (https://polmine.github.io) aufbauen, in dem Textdaten für die sozialwissenschaftliche Forschung aufbereitet sowie Workflows und Tools für die Aufbereitung und Analyse solcher Textdaten entwickelt und für die Community zur Verfügung gestellt werden. Im Rahmen von KonsortSWD werden Daten und Verfahren den Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften systematisch für die Sekundärnutzung zur Verfügung gestellt.

Mit dem GermaParl Korpus von 1949 bis 2021 steht nun ein Korpus mit Plenardebatten des Deutschen Bundestages zur Verfügung, das erste Annotationen zur Datenverknüpfung enthält. Der Zugang zur Beta-Version kann über Zenodo (https://doi.org/10.5281/zenodo.6539967) angefragt werden und alle sind herzlich dazu eingeladen, mit den Daten zu arbeiten und durch ihr Feedback zur Verbesserung der Nutzer:innenfreundlichkeit beizutragen. Ab Herbst 2022 soll das Korpus Open Access veröffentlicht werden. Neben den Daten werden generische, in R implementierte Tools zur linguistischen Annotation großer Korpora (R-Paket ‘bignlp’) sowie zur Zuweisung eindeutiger Identifikatoren (R-Paket linktools) bereitgestellt.