Veranstaltungen 15. Wissenschaftliche Tagung am 20. und 21. Juni 2024

Datenerhebung, Datenqualität und Datenethik in Zeiten von künstlicher Intelligenz

Wie verständlich ist mein Text? Einfache Sprache zur Steigerung der Datenqualität und –quantität

Jannik Schmitt, Dr. Alexander Meier

deepsight GmbH

Abstract

Die Optimierung von Texten kann zum besseren Verständnis, dem Abbau sprachbezogener Barrieren und schließlich zu gehaltvolleren Daten führen. Wenn Fragen, z.B. im Bereich der Marktforschung, sich zu komplex gestalten, sind die Antworten nicht selten irreführend oder es wird sich komplett enthalten. Eine klare und leicht verständliche Formulierung würde sowohl die Datenqualität als auch die -quantität steigern. Im Kontext von Prüfungen findet daher die Textoptimierung seit Jahrzehnten Einzug und gewährleistet, dass das Verstehen von Fragen und Anweisungen nicht durch unnötige sprachliche Komplexität oder schwer verständliche Formulierungen behindert wird. Dies kann insbesondere für Menschen mit sprachlichen Herausforderungen oder mit Lernschwierigkeiten hilfreich sein. Eine zentrale Herausforderung besteht darin, die sprachliche Komplexität eines Textes zu beurteilen und konkrete Hinweise zur Vereinfachung zu liefern bzw. umzusetzen. Die Kombination aus regelbasierten Ansätzen und maschinellen Lernverfahren kann diese Herausforderung annehmen und die Voraussetzung für bessere Daten schaffen.

Der erste Schritt für verständliche Sprache ist die Erkennung der übergreifenden Komplexität, direkt gefolgt von der expliziten Erkennung der komplexen Satzbausteine. Weiterführend, jedoch hier nicht behandelt, ist die maschinelle Übersetzung von komplexen Texten in einfache Sprache. Die Bestimmung übergreifender Komplexität legt zunächst Lesbarkeits-Indizes als traditionelle Methoden nahe. Der Flesch-Kincaid-Index (Kincaid et al., 1975) und der Coleman-Liau-Index (Coleman and Liau, 1975) sind Beispiele für mathematische Formeln, die auf der durchschnittlichen Satzlänge, der Silbenanzahl pro Wort und anderen Faktoren basieren, greifen allerdings zu kurz. Lesbarkeits-Indizes beziehen die syntaktische Komplexität nicht mit ein, die als Ursprung von Verständnisproblemen mehrfach belegt wurde. Syntaktische Analysemethoden bieten über regelbasierte Ansätze und maschinelles Lernen die Möglichkeit, Satzstrukturen aufzuschlüsseln. Zum Beispiel kann die automatisierte Konstituentenanalyse u.a. die Syntax und Tiefe von Phrasen als möglicher Indikator von Komplexität bestimmen.

Wir schlagen zunächst einen regelbasierter Ansatz zur automatischen Quantifikation der syntaktischen Komplexität deutscher Texte vor, evaluieren und vergleichen diesen mit etablierten Lesbarkeits-Indizes. Mit Hilfe von automatisiert erstellten Syntaxbäumen werden die Anzahl, Länge und Richtung syntaktischer Abhängigkeiten (dependencies) ermittelt. In der Computerlinguistik existieren hierfür eine Reihe wertvoller Instrumente und vortrainierte KI-Modelle (z.B. für part-of-speech tagging und dependency parsing). Der numerische Komplexitätswert setzt sich additiv aus drei Komponenten zusammen: (1) Anzahl und Länge vorwärtsbezogener Abhängigkeiten, (2) Anzahl und Länge rückwärtsbezogener Abhängigkeiten sowie (3) der relativen Position und Anzahl der Kanten des Knotens mit den meisten Kanten (Zentralknoten). Ein Rückbezug stellt höhere Anforderungen an das Arbeitsgedächtnis. Deswegen werden rückbezogene Abhängigkeiten doppelt gewichtet. Die Syntaxbäume ermöglichen die automatisierte Identifikation komplexer Bestandteile und folglich deren gezielte Umformulierung.

In der Marktforschung und speziell für Befragungen kann die Verringerung des Komplexitätsgrads einen Mehrwert für die Anzahl und Informationsdichte der Antworten liefern. Der vorgestellte Ansatz ermöglicht eine schnelle Bestimmung der Komplexität, erspart (zumindest teilweise) User-Tests und spart schlussendlich Ressourcen.