Zum Hauptinhalt

CODI – Automatisierte Kodierung offener Angaben

Textantworten auf offene Fragen effizient und qualitätsgesichert in standardisierte Kategorien fassen.

Offene und halboffene Antwortformate sind in nahezu allen sozialwissenschaftlichen und vielen anderen Umfragen enthalten. Zumeist dienen sie der Operationalisierung von komplexen Konstrukten, die z. B. aufgrund sehr vieler Kategorien nicht im Fragebogen abgebildet werden können. Ein typisches Beispiel sind Angaben zur beruflichen Tätigkeit. Das Nutzungspotenzial solcher Informationen für quantitative Analysen hängt in hohem Maße von der nachträglichen Klassifizierung der Texteinträge in geeignete Standardvariablen (z. B. KldB, ISCO) ab. Die manuelle Kodierung ist dabei angesichts von oftmals hunderten oder gar tausenden Kategorien nicht nur zeit- und ressourcenaufwändig, sondern auch fehleranfällig.

Mit CODI wird eine Infrastruktur zur effizienten und qualitätsgesicherten Kodierung von Textinformationen etabliert. Das Hauptaugenmerk gilt den regelmäßig erhobenen Angaben zu Berufen und Branchen sowie zu Bildung und Ausbildung. Wesentliches Element der Infrastruktur ist ein datenbankgestütztes Software-Tool, das eine teilautomatisierte Kodierung von offenen Einträgen auf der Basis von Algorithmen ermöglicht. Der Zugriff erfolgt über entsprechende Schnittstellen und eine nutzerfreundlich gestaltete Bedienoberfläche. Das Tool erlaubt die (Mehrfach-)Kodierungvon Textantworten auf offene Fragen mit Hilfe automatisch generierter Vorschläge sowie eine Validierung und Kommentierung bzw. Dokumentation des Prozesses. Ziel von CODI ist es, über die Anreicherung von Datenbeständen einen Beitrag zur Erschließung neuer Nachnutzungspotenziale zu leisten. CODI wird am Forschungsdatenzentrum des Leibniz-Instituts für Bildungsverläufe (LIfBi) in Bamberg entwickelt und betrieben.