Forschung und Entwicklung Geheimhaltungsverfahren in der Personalstatistik der außeruniversitären, öffentlichen und 
öffentlich geförderten Einrichtungen für Forschung und Entwicklung (FuE) 

Hintergründe zur Anwendung der Cell-Key-Methode

Ausgangssituation

Die Geheimhaltung in der amtlichen Statistik ist in § 16 Bundesstatistikgesetz (BStatG) geregelt. Danach sind Einzelangaben über persönliche und sachliche Verhältnisse, die für eine Bundesstatistik gemacht werden, geheim zu halten, soweit gesetzlich nichts anderes bestimmt ist. Für die Veröffentlichungen der FuE-Personalstatistik muss somit gewährleistet sein, dass sich den Beschäftigten der Forschungseinrichtungen und auch der Einrichtung selbst keine Einzelangaben zuordnen lassen. Auch muss die Möglichkeit zur Identifizierung einzelner Personen oder Einrichtungen unterbunden werden. In der Vergangenheit wurden individuelle Lösungen gefunden, um diesen gesetzlichen Anspruch zu gewährleisten. In Zeiten eines erhöhten Bedarfs an flexibleren und kurzfristig zur Verfügung stehenden Datenangeboten und der wachsenden Bedeutung kleinräumiger Daten stoßen diese individuellen Regelungen jedoch an ihre Grenzen.


Statistische Geheimhaltungsverfahren

Statistische Geheimhaltungsverfahren sollen sicherstellen, dass keine Rückschlüsse auf Einzelangaben über Personen, Einrichtungen und Unternehmen in Tabellen und anderen Veröffentlichungen der amtlichen Statistik möglich sind. Generelle Anforderungen an ein Geheimhaltungsverfahren sind eine möglichst hohe Sicherheit gegen Aufdeckung von geheim zuhaltenden Informationen bei gleichzeitig möglichst hoher Qualität der Ergebnisse. Das heißt, dass Detailinformationen in Veröffentlichungen nur soweit wie nötig reduziert beziehungsweise verändert werden. Weitere Anforderungen sind eine möglichst große Akzeptanz des jeweiligen Geheimhaltungsverfahrens bei den Nutzenden und ein möglichst geringer Umsetzungsaufwand. Außerdem sollten Auswertungen ohne Einschränkungen und koordinierte Absprachen durchführbar sein.

Man kann Geheimhaltungsverfahren nach informationsreduzierenden Verfahren (wie Zellsperrungen, Vergröberungen) oder datenverändernden Verfahren (zum Beispiel Rundungen oder stochastische Überlagerungen) unterteilen. In der amtlichen Statistik bisher häufig eingesetzt sind informationsreduzierende Verfahren durch Vergröberungen von Tabellen in Kombination mit Zellsperrungen. So geschieht dies bisher auch in den Statistiken über das Personal sowie über die Einnahmen und Ausgaben der außeruniversitären, öffentlichen und öffentlich geförderten FuE-Einrichtungen. Eine vollständige und konsistente Geheimhaltung geht bei dieser Vorgehensweise allerdings mit hohem Koordinations- und Zeitaufwand sowie vergleichsweise großen Informationsverlusten einher. Ebenso fehlen flexible Auswertungsmöglichkeiten (beispielsweise im Rahmen von Datenbanken und bei Sonderauswertungen für die Wissenschaft).

Bei der Statistik der Einnahmen und Ausgaben der außeruniversitären, öffentlichen und öffentlich geförderten FuE-Einrichtungen ist das Tabellenprogramm übersichtlich genug, um die weitgehend bekannten Bedarfe auch weiterhin mithilfe von Vergröberungen und automatisierten Zellsperrungsverfahren abdecken zu können. Der Informationsverlust durch die notwendigen Sperrung ist dabei gering. In der FuE-Personalstatistik sind nicht nur Einrichtungsdaten, sondern auch Personendaten vor einer Aufdeckung geheim zuhaltender Angaben zu schützen. Darüber hinaus besteht bei den Personalangaben ein höherer Bedarf an umfangreicheren, flexibleren und tiefer gegliederten Sonderauswertungen. Daher wird zum Berichtsjahr 2023 ein alternatives, datenveränderndes Geheimhaltungsverfahren eingeführt. Es wird zeitnah geprüft, ob das Verfahren auch für die Statistik der Einnahmen und Ausgaben der außeruniversitären, öffentlichen und öffentlich geförderten FuE-Einrichtungen angewendet werden kann.


Stochastische Überlagerung nach der Cell-Key-Methode (CKM)

Die stochastische Überlagerung nach der Cell-Key-Methode (kurz CKM) stellt sich nach eingehenden Prüfungen als eine adäquate Herangehensweise dar. Hierbei wird einerseits die Statistische Geheimhaltung gewährleistet und andererseits werden die oben dargestellten Bedarfe und Besonderheiten der Statistik mit einem geringstmöglichen Informationsverlust gedeckt. Die Geheimhaltung wird gewährleistet, indem jedes Originalergebnis (Wert in einem Tabellenfeld) mithilfe eines Zufallsschlüssels mit einer bestimmten Wahrscheinlichkeit verändert werden kann. Die hierdurch entstehende Unsicherheit gewährleistet, dass keine sicheren Schlüsse im Hinblick auf zugrundeliegende Einzelangaben gezogen werden können, aus denen sich der Wert in einem Tabellenfeld zusammensetzt.

Die stochastische Überlagerung nach der Cell-Key-Methode (kurz CKM) bietet im Vergleich zu anderen Geheimhaltungsverfahren

  • einen hohen Schutz der Originaldaten gegen Aufdeckung der Geheimhaltung bei geringem Grad der Veränderung durch die Überlagerung,
  • Konsistenz inhaltlich identischer Tabellenfelder über die Tabellen hinweg
  • und eine technisch nachvollziehbare und automatisierbare Implementierung.

Es ist ein post-tabulares Verfahren, das heißt es wird nach Erstellung der Auswertungsergebnisse auf die fertiggestellten Tabellen angewendet. Bei diesem Verfahren werden zu den Originaldaten mithilfe fest vergebener Zufallszahlen (sogenannte Cell-Keys) Überlagerungswerte bestimmt. Mit diesen Überlagerungswerten werden die Originaldaten verändert beziehungsweise überlagert.

Die stochastische Überlagerung nach der Cell-Key-Methode entstand ursprünglich zum Schutz von Häufigkeitsauswertungen. In der FuE-Personalstatistik wird das erweiterte Verfahren zum Schutz von Wertsummen (Wert in einem Tabellenfeld) angewendet. Die Überlagerung soll dabei insbesondere den wertmäßigen Beitrag einzelner Einrichtungen zu dieser Wertsumme schützen, auch dann, wenn dieser Beitrag einen großen Teil des im Tabellenfeld ausgewiesenen Werts ausmacht. Die zu erwartende Abweichung zwischen Originalwert und resultierendem/überlagertem Wert korreliert bei diesem Verfahren daher positiv mit dem größten Einzelbeitrag zum Tabellenfeld. Die maximale relative Abweichung ist dabei gebunden und wird als so gering wie möglich für ein gegebenes Niveau des Schutzes gegen Aufdeckung berechnet.

Das Verfahren wurde mit dem Ziel entwickelt, Geheimhaltungsprobleme zu lösen, die sich besonders im Zusammenhang mit dem Wunsch nach einer flexiblen Tabellierung statt eines fixen Tabellenaufbaus und -systems stellen. Mit diesem Verfahren wird zudem eine vollständige, tabellenübergreifende Konsistenz gewährleistet: Werte sachlogisch identischer Tabellenfelder werden – egal in welcher Tabelle sie auftreten – immer in gleicher Weise verändert (oder gleich gehalten). Randfelder, also Summen über alle Werte in einer Zeile oder Spalte, werden ebenfalls auf diese Weise verändert.

Ein Vorteil der stochastischen Überlagerung ist zudem, dass für alle Tabellenfelder Werte ausgewiesen werden können. Es sind also keine Sperrungen einzelner Tabellenfelder notwendig. Wenn eine mittlere bis große Zahl an Einheiten zu einem Tabellenfeld beitragen, ist zudem gewährleistet, dass die veränderten Werte relativ nah am tatsächlichen Wert liegen, bei passender Parameterwahl beim Berechnen der Überlagerungswerte. Bei Tabellenfeldern, zu denen nur sehr wenige Einrichtungen beitragen ist die Vergleichbarkeit allerdings eingeschränkt1.

Bedingt durch die Anwendung der Cell-Key-Methode addieren sich die jeweiligen Einzelwerte einer Tabellenzeile oder -spalte nicht notwendigerweise zur ausgewiesenen Gesamtsumme. Die Additivität ist bei der post-tabularen stochastischen Überlagerung also nicht gegeben, da die einzelnen Tabellenzellen und die Randsummen separat überlagert werden. Dadurch kann sich der Effekt ergeben, dass das im Randsummenfeld dargestellte Ergebnis kleiner oder größer ist als die Summe der zugehörigen dargestellten Innenfeld-Ergebnisse.

Die stochastische Überlagerung nach der Cell-Key-Methode wird derzeit bereits - in einer anderen Form - in weiteren Statistiken angewendet, beispielsweise in der Hochschulstatistik und beim Zensus 2022.

Eine ausführliche methodische Beschreibung des Verfahrens anhand eines Fallbeispiels ist dem Qualitätsbericht beigefügt. Dabei wird schrittweise die Überlagerung nach der Cell-Key-Methode bei einfachen Fallzahlentabellen beschrieben sowie die erweiterte Anwendung für Tabellen mit Wertsummen methodisch erläutert.

1: Felder mit sehr wenigen Beitragenden sind unter statistischen Gesichtspunkten hinsichtlich ihrer Belastbarkeit jedoch per se als kritisch einzustufen.