Zum Hauptinhalt

CODI – Automatische Kodierung offener Angaben

Textantworten auf offene Fragen effizient und qualitätsgesichert automatisch in standardisierte Kategorien fassen.

Offene und halboffene Antwortformate sind nahezu in allen sozialwissenschaftlichen und vielen anderen Umfragen enthalten. Zumeist dienen sie der Operationalisierung von komplexen Konstrukten, die z.B. aufgrund sehr vieler Kategorien nicht im Fragebogen abgebildet werden können. Ein typisches Beispiel sind Angaben zur beruflichen Tätigkeit. Das Nutzungspotenzial solcher Informationen für quantitative Analysen hängt dannin hohem Maße von der nachträglichen Klassifizierung der Texteinträge in geeignete Standardvariablen (z. B. KldB, ISCO) ab. Diemanuelle Kodierung ist dabei angesichts von oftmals hunderten oder gar tausenden Kategorien nicht nur zeit- und ressourcenaufwändig, sondern auch fehleranfällig.

Mit CODI wird eine Infrastruktur zur effizienten und qualitätsgesicherten Kodierung von Textinformationen etabliert. Das Hauptaugenmerk gilt den regelmäßig erhobenen Angaben zu Berufen und Branchen sowie zu Bildung und Ausbildung. Wesentliches Element der Infrastruktur ist ein datenbankgestütztes Software-Tool, das eine teilautomatisierte Kodierung von offenen Einträgen auf der Basis von Algorithmen ermöglicht. Der Zugriff erfolgt über entsprechende Schnittstellen und eine nutzerfreundlich gestaltete Bedienoberfläche. Das Tool erlaubt die (Mehrfach-)Kodierung und Validierung mit Hilfe automatisch generierter Vorschläge sowie eine Kommentierung und Prozessdokumentation. Ziel von CODI ist es, über die Anreicherung von Datenbeständen einen Beitrag zur Erschließung neuer Nachnutzungspotenziale zu leisten. CODI wird in Kooperation mit weiteren Partnern am Forschungsdatenzentrum des Leibniz-Instituts für Bildungsverläufe (LIfBi) in Bamberg entwickelt und betrieben.

CODI wird in einer ersten Beta-Version ab Juli 2022 verfügbar sein.