Sterbefälle und Lebenserwartung Statistische Geheimhaltung in den Bevölkerungsstatistiken

Hintergründe zur Anwendung der Cell-Key-Methode

Ausgangssituation

Die Geheimhaltung in der amtlichen Statistik ist in § 16 Bundesstatistikgesetz (BStatG) geregelt. Danach sind Einzelangaben über persönliche und sachliche Verhältnisse, die für eine Bundesstatistik gemacht werden, geheim zu halten, soweit gesetzlich nichts anderes bestimmt ist. Für die Veröffentlichungen der Bevölkerungsstatistiken muss somit gewährleistet sein, dass sich den Betroffenen keine Einzelangaben zuordnen lassen. In der Vergangenheit wurden individuelle Lösungen gefunden, um diesen gesetzlichen Anspruch zu gewährleisten. In Zeiten immer flexibler werdender Datenangebote in Datenbanken und der wachsenden Bedeutung kleinräumiger Daten stoßen diese individuellen Regelungen jedoch an ihre Grenzen. Für einen übergreifenden Ansatz stehen verschiedene Verfahren zur Auswahl.

Statistische Geheimhaltungsverfahren

Statistische Geheimhaltungsverfahren sollen sicherstellen, dass keine Rückschlüsse auf Einzelangaben möglich sind – beispielsweise durch Fallzahlen unter drei oder Randsummen, die identisch sind mit einzelnen Innenfeldern. Man kann sie nach informationsreduzierenden Verfahren (beispielsweise Zellsperrungen, Vergröberungen) oder datenverändernden Verfahren (wie Rundungen oder stochastischen Überlagerungen) unterteilen.

In der amtlichen Statistik wurde die Geheimhaltung der Daten durch Vergröberungen von Tabellen bisher häufig eingesetzt, falls notwendig in der Kombination mit Zellsperrverfahren. Eine vollständige und konsistente Geheimhaltung ist mit dieser Vorgehensweise allerdings in den meisten Bevölkerungsstatistiken kaum umsetzbar. Dies ginge mit hohem Koordinationsaufwand und fehlender Flexibilität in den Auswertungsmöglichkeiten (beispielsweise im Rahmen von Datenbanken und bei wissenschaftlichen Auswertungen in den Forschungsdatenzentren) sowie vergleichsweise großen Informationsverlusten einher. Einzig bei der Ehescheidungsstatistik wird seit dem Berichtsjahr 2018 ein Tabellenveröffentlichungsprogramm eingesetzt, das die bekannten Bedarfe mithilfe von Vergröberungen und – in letzter Instanz – Zellsperrungen abdecken kann. Für alle anderen Statistiken, bei denen Bedarf an der Einführung eines Geheimhaltungsverfahrens gesehen wird, wurden deshalb alternative Verfahren näher in Betracht gezogen.

Im Rahmen dieser Verfahren werden Auswertungstabellen geringfügig verändert. Diese kleinen Veränderungen sollen bewirken, dass aus den Veröffentlichungen keine eindeutigen Rückschlüsse auf Einzelfälle mehr gezogen werden können. Dies kann bei-
spielsweise mithilfe von einfachen Rundungsverfahren (wie 5er-Rundung) oder komplexeren stochastischen Überlagerungen gewährleistet werden. Stochastische Überlagerungen bieten gegenüber einfachen Rundungsverfahren den großen Vorteil, dass ein höherer Schutz der Einzeldaten mit einem geringeren Informationsverlust des veröffentlichten Datenmaterials bei gleichzeitiger Vermeidung systematischer Verzerrungen kombiniert werden kann. Aus diesem Grund wurde im statistischen Verbund die Einführung der stochastischen Überlagerung nach der Cell-Key-Methode (kurz CKM) für die Statistiken der Sterbefälle, der Geburten, der Eheschließungen, der Wanderungen und der Einbürgerungen beschlossen.

Cell-Key-Methode (CKM)

Bei Fallzahltabellen wird die Geheimhaltung im Rahmen der CKM dadurch gewährleistet, dass jedes Originalergebnis (Cell Frequency) mithilfe eines Zufallsschlüssels (Cell Key) mit einer bestimmten Wahrscheinlichkeit verändert wird. Die hierdurch entstehende Unsicherheit gewährleistet, dass durch potenzielle Datenangriffe keine sicheren Schlüsse im Hinblick auf Einzelangaben gezogen werden können. Zur Durchführung des Verfahrens wird im Originaldatenbestand jedem Fall eine Zufallszahl (ein sogenannter Record Key) zugewiesen, die für jeden Einzeldatensatz separat aus einer Gleichverteilung zwischen 0 und 1 gezogen wird. Bei jeder Aggregation der Daten werden nicht nur die Fälle selbst, sondern auch die zugehörigen Zufallszahlen dieser Fälle aufsummiert. Die Nachkommastellen dieser Summe ergeben dann erneut eine Zufallszahl – den Cell Key. Mithilfe dieser Cell Keys und einer sogenannten Überlagerungsmatrix werden dann konsistente geheimhaltende Tabellen erzeugt (siehe nachfolgendes Anwendungsbeispiel).

Die Überlagerungsmatrix legt für alle denkbaren Originalfallzahlen fest, welcher Prozentsatz der Ergebnisse wie stark verändert wird. Sie kann beispielsweise so konzipiert werden, dass große Fallzahlen selten, kleine (eher geheimhaltungsbedürftige) Fallzahlen jedoch häufiger verändert werden. Dabei ist gewährleistet, dass die Ergebnisse in den Tabellen unter Berücksichtigung der Geheimhaltung erwartungstreu sind, das heißt im Mittelwert den Originalergebnissen entsprechen. Tabellenfelder mit dem Originalwert „0“ sollen grundsätzlich nicht verändert werden, um keine Unplausibilitäten zu erzeugen. Um die Abweichung von der Originalfallzahl so gering wie möglich zu halten, werden konsequenterweise auch Randsummen überlagert. Die Ergebnistabellen sind dann allerdings nicht mehr additiv. Würde die Additivität nachträglich wiederhergestellt, ginge dies zwangsläufig auf Kosten der Konsistenz und der Genauigkeit der Ergebnisse.

Anwendungsbeispiele

Um Aufdeckungsrisiken zu minimieren, wird die tatsächlich genutzte Überlagerungsmatrix später nicht veröffentlicht. Die hier abgebildete Version in Form eines Überlagerungstableaus dient der Veranschaulichung der grundlegenden Prinzipien und Vorgehensweisen bei Anwendung der CKM.

Die graue Farbe signalisiert, welcher Anteil der Originalfallzahlen bei Nutzung dieser Überlagerungsmatrix nicht verändert wird. Hellblau steht für eine Veränderung um ±1, Blau für die in diesem Beispiel maximale Veränderung um ±2. Fallzahlen von 0 werden nicht verändert. Eine 1 in der Tabelle bleibt in 50 % der Fälle eine 1. Fallzahlen größer oder gleich 2 bleiben zu 70 % als Originalwert nach Durchführung des Verfahrens erhalten.

Die durch Aufsummierung der Record Keys generierte Zufallszahl entscheidet jeweils, ob und wie stark der Originalwert tatsächlich verändert wird. Dies geschieht, indem der Cell Key jeweils mit den kumulierten Übergangswahrscheinlichkeiten (siehe Abbildung oben) abgeglichen wird. Hierzu zwei Beispiele auf Grundlage der abgebildeten Überlagerungsmatrix:

Beispiel 1:

TabellenmerkmalAnzahl der Sterbefälle
Originalwert1
Record Key = Cell Key0,864
Veränderung+1
Veröffentlichtes Ergebnis2

Beispiel 2:

TabellenmerkmalAnzahl der Sterbefälle
Originalwert932 272
Summe der Record Keys467 212,652
Cell Key0,652
Veränderung±0
Veröffentlichtes Ergebnis932 272

Bei der tatsächlichen Ausgestaltung der Überlagerungsmatrix gilt es, einen Kompromiss zu finden. Auf der einen Seite muss sichergestellt sein, dass die Daten ausreichend geschützt sind.  Auf der anderen Seite sollen die Veränderungen so gering wie möglich sein, um das Nutzungspotenzial nicht einzuschränken.

Genauigkeit der Ergebnisse

Um die Auswirkung der CKM auf die publizierten Daten im Vergleich zu den Originaldaten einschätzen zu können, lässt sich in Bezug auf die Genauigkeit der betroffenen Bevölkerungsstatistiken festhalten:

  • Der in den Tabellen üblicherweise zu erwartende mittlere Betrag der Abweichung zwischen überlagerten und originalen Fallzahlen liegt unter 0,5.
  • Mindestens 90 % der Fallzahlen in den Tabellen bleiben unverändert oder weichen um maximal 1 vom Originalwert ab.
  • Bei höchstens 5 % der Fallzahlen in den Tabellen liegt die Abweichung bei 3 oder mehr.
  • Bei höchstens 0,5 % der Fallzahlen in den Tabellen liegt die Abweichung bei 4 oder mehr.

Weiterführende Informationen