Zum Hauptinhalt

Linking Textual Data

Verknüpfung von Textdaten mit anderen Datenarten.

Textdaten stehen in rasch wachsendem Umfang zur Verfügung und können mit zunehmend leistungsfähigen Methoden bearbeitet werden. Die integrierte qualitative und quantitative Analyse dieser Daten bietet für viele Disziplinen großes Potential zur Beantwortungneuer Forschungsfragen. Jedoch fehlt oft die Verzahnung neuer Textdaten mit anderen, bereits weitläufig genutzten Daten der Sozialwissenschaften, wie Daten aus sozialen Medien oder Umfragen. Wir erareiten einen Dienst, der diese Verknüpfung über eindeutige Identifikatoren beispielsweise für Personen und Organisationen ermöglicht. Dabei ist nicht nur die technische Umsetzung, sondern auch die Nutzer:innenfreundlichkeit der dafür zu entwickelnden Werkzeuge zentral.

“Linking Textual Data” arbeitet an der Verknüpfung von Textdaten mit anderen Datenarten, um das Potential sozialwissenschaftlicher Daten bestmöglich auszuschöpfen, neue Forschungswege zu erschließen und diese Verknüpfungsmöglichkeiten für die Nachnutzung zu dokumentieren und zur Verfügung zu stellen. Die Dienste können dabei auf den Erfahrungen des PolMine-Projektes (https://polmine.github.io) aufbauen, in dem Textdaten für die sozialwissenschaftliche Forschung aufbereitet sowie Workflows und Tools für die Aufbereitung und Analyse solcher Textdaten entwickelt und für die Community zur Verfügung gestellt werden. Im Rahmen von KonsortSWD werden Daten und Verfahren den Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften systematisch für die Sekundärnutzung zur Verfügung gestellt.

Korpora mit ersten Annotationen zur Datenverknüpfung stehen voraussichtlich ab Mitte 2022 zur Verfügung ab. Neben den Daten werden generische, in der R implementierte Tools zur linguistischen Annotation großer Korpora (R-Paket ‘bignlp’) sowie zur Zuweisung eindeutiger Identifikatoren (R-Paket linktools) bereitgestellt.