Experimentelle Statistiken Bevölkerungsdarstellung mit Mobilfunkdaten

EXSTAT

Stand: 30.12.2019

Nutzen von Mobilfunkdaten für die amtliche Statistik

Zuverlässige Kenntnisse über die Verteilung der Bevölkerung und die Einwohnerzahl eines Landes auf kleinstmöglicher geografischer Ebene sind für eine evidenzbasierte Politikgestaltung unerlässlich. Detaillierte Informationen über die Verteilung der Bevölkerung im Tagesverlauf sind nicht nur im Fall von Katastrophen, Epidemien oder Konflikten entscheidend (Deville et al. 2014). Auch bei der Regionalplanung spielen diese eine entscheidende Rolle, zum Beispiel bei Entscheidungen über die Verkehrs- und Bildungsinfrastruktur oder bezüglich Kultur- und Sozialleistungen. Eine aktuelle Herausforderung in der Bevölkerungsstatistik besteht im Perspektivwechsel von einer statischen hin zu einer dynamischen (d.h. zeitlich aktuellen) Bevölkerungsabbildung. Diese Dynamik kann mit traditionellen Befragungsdaten nicht erfasst werden. Neue digitale Daten, wie beispielsweise Mobilfunkdaten, haben das Potenzial, diese Herausforderungen zu lösen. Aufgrund ihrer zeitlich umfangreichen und räumlich tiefen Auflösung können Mobilfunkdaten zu einer dynamischen und aktuelleren Abbildung der Bevölkerung beitragen.

Datengrundlage: Mobilfunkdaten

Zur Erforschung des Themas Mobilfunkdaten für die amtliche Statistik ist das Statistische Bundesamt im September 2017 eine Kooperation mit T-Systems International GmbH und Motionlogic GmbH (beide 100 %-ige Tochterunternehmen der Deutschen Telekom AG) eingegangen. Die Konzepte für die geplanten Machbarkeitsstudien wurden mit der Bundesnetzagentur, der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit sowie in Kooperation mit T-Systems abgestimmt. Ein primäres Ziel ist es, die Tages- und Wohnbevölkerung mit Hilfe der Mobilfunkdaten bundesweit valide abbilden und schätzen zu können. Zur Überprüfung der Repräsentativität dieser Daten werden dabei die Bevölkerungszahlen des Zensus 2011 als Vergleichsmaßstab herangezogen.

Der dem Statistischen Bundesamt zur Verfügung stehende Testdatensatz enthält anonymisierte, aggregierte mobile Aktivitäten von Telekom-Kundinnen und -Kunden für das Bundesland Nordrhein-Westfalen (NRW). Unter einer mobilen Aktivität wird ein Ereignis bzw. Signal an einem Funkmast verstanden, welches durch eine Mindestaufenthaltsdauer eines mobilen Endgerätes in einem Untersuchungsgebiet, im Folgenden auch Geometrie genannt, bedingt wird. Hierbei werden alle Signale ausgewertet, welche erzeugt werden sofern das mobile Endgerät nicht ausgeschaltet oder im Flugmodus ist. Diese sogenannten Signalisierungsdaten entstehen folglich automatisch und registrieren lediglich die Ortsangabe des Funkmastes, mit welchem das mobile Endgerät zu einem bestimmten Zeitpunkt verbunden ist. Die vorliegenden Testdaten umfassen die durchschnittlichen Aktivitäten einer sogenannten statistischen Woche, welche ausgewählte Tage der Monate April, Mai und September aus dem Jahr 2017 in einem 24-Stunden-Zeitraum umfasst. Diese Woche wird dabei in fünf Tagestypen unterteilt: Montag, Dienstag bis Donnerstag, Freitag, Samstag und Sonntag. Des Weiteren stehen unter anderem Informationen über die soziodemografischen Charakteristiken der vertraglichen Mobilfunknutzerinnen und -nutzer zur Verfügung, wie die Altersgruppe und das Geschlecht.

Für die Abbildung der Wohn- und Arbeitsbevölkerung mittels Mobilfunkdaten ist es notwendig, kurzzeitige mobile Aktivitäten (z.B. durch Pendlerbewegungen) herauszufiltern. Im verwendeten Datensatz liegen daher nur Mobilfunkaktivitäten mit einer Mindestaufenthaltsdauer von zwei Stunden vor.

Zudem wurden aufgrund datenschutzrechtlicher Regelungen nur anonymisierte Wertangaben ab einer Mindestzahl von 30 mobilen Aktivitäten pro Geometrie an das Statistische Bundesamt übermittelt. Diese Vorprozessierung der Daten verhindert daher einen Rückschluss auf einzelne Geräte oder Personen.

Abbildung der Bevölkerung mittels Mobilfunkdaten

Um einen ersten Eindruck der Korrelation, d.h. des Zusammenhangs von Mobilfunkaktivitäten des Jahres 2017 und den Bevölkerungszahlen des Zensus 2011 zu erhalten, wurden zunächst die beiden Datenbestände, gegliedert nach Tagestypen und Uhrzeiten für das Bundesland NRW, miteinander verglichen. Der Pearson-Korrelationskoeffizient ermittelt den linearen Zusammenhang bzw. die Stärke des Zusammenhangs zwischen einer mobilen Aktivität und der Bevölkerungszahl pro Stunde und Geometrie. Sind die Koeffizienten nahe 1, liegt ein enger linearerer Zusammenhang beider Werte vor. Abbildung 1 bildet diese Koeffizienten für alle Wochentage nach der Uhrzeit ab. Die abgebildeten Werte weisen insgesamt eine hohe Korrelation von über 0,8 zwischen mobilen Aktivitäten und Bevölkerungszahlen in den Abendstunden auf, sowie im gesamten Tagesverlauf am Samstag und Sonntag. Dies deutet auf starke regionale Ähnlichkeiten zwischen der Verteilung der Wohnbevölkerung und der Verteilung der Mobilfunknutzerinnen und -nutzer in diesen Zeiträumen hin. Wochentags sinkt die Korrelation im Tagesverlauf auf unter 0,7 und lässt auf stärkere regionale Unterschiede in den Verteilungen beider Datenquellen und damit auf die Tagesbevölkerung schließen. Abbildung 1 offenbart auf diese Weise eine deutliche Veränderung des Zusammenhangs im Tages- und Wochenverlauf, was wiederum auf eine Veränderung der Verteilung mobiler Aktivitäten zurückzuführen ist.

Zur Darstellung der Wohnbevölkerung mittels Mobilfunkdaten wurde daher – aufgrund der hohen Korrelation – ein Zeitraum von 20 bis 23 Uhr des statistischen Sonntags ausgewählt. Hierbei wird angenommen, dass sich die Mobilfunknutzerinnen und -nutzer an ihrem Wohnort befinden und ihre mobilen Endgeräte gleichzeitig noch mit höherer Wahrscheinlichkeit aktiv sind.

Für die weiterführenden Analysen zur Darstellung der Wohnbevölkerung wurde eine Umrechnung der Mobilfunkaktivitäten mittels Kerndichteschätzung und Kalibrierung dieser durchgeführt, was einen direkten Vergleich mit den Bevölkerungszahlen des Zensus 2011 ermöglicht (für nähere Informationen siehe Schmid et al. (2019), Hadam et al. (2020)). Die Durchschnittswerte der abendlichen Aktivitäten wurden daraufhin in einem direkten Vergleich mit den Bevölkerungszahlen des Zensus 2011 auf 31 Kreise und 396 Gemeinden, davon 22 kreisfreie Städte, in NRW bewertet, um die kleinräumige Betrachtungsebene weitestgehend beizubehalten. Im Folgenden werden nur die Ergebnisse auf Kreisebene betrachtet.

Abbildung 2 zeigt die geografische Verteilung der Einwohnerzahlen des Zensus 2011 (links) und der Mobilfunkaktivitäten in 2017 (rechts) auf Kreisebene. Zunächst ist in beiden Karten kein offensichtlich visueller bzw. regionaler Unterschied zwischen den Mobilfunkaktivitäten und den Bevölkerungszahlen sichtbar. Dies bedeutet, dass die Verteilung der mobilen Aktivitäten derjenigen der Bevölkerung aus dem Zensus stark ähnelt.

Für quantitative Aussagen wurden weiterhin die geografischen Differenzen beider Datenquellen in Abbildung 3 ermittelt. Sie zeigt die regionalen Unterschiede zwischen den Mobilfunkaktivitäten und den Einwohnerzahlen auf Kreisebene. Sind die Gebiete rot hinterlegt, bedeutet dies, dass dort mehr (kalibrierte) mobile Aktivitäten gezählt wurden, als Einwohner angegeben sind. Blaue Flächen hingegen deuten auf Regionen hin, in denen weniger (kalibrierte) mobile Aktivitäten erfasst wurden. Eine genaue Berechnung der Abweichung zwischen Mobilfunkaktivitäten und Bevölkerungszahlen bestätigt die in Abbildung 3 zu erkennenden regionalen Unterschiede. In 51 % der Kreise wird die Bevölkerung mit Mobilfunkaktivitäten am Sonntagabend zufriedenstellend geschätzt. Auf Gemeindeebene wird die Bevölkerung lediglich in 33 % der Gemeinden mittels Mobilfunkdaten akzeptabel geschätzt. Zudem werden im Durchschnitt die Bevölkerungszahlen auf Kreisebene deutlich besser abgebildet als auf Gemeindeebene (detaillierte Ergebnisse und weitere Informationen siehe Schmid et al. (2019) und Hadam et al. (2020)).

Die regionalen Unterschiede in Abbildung 3 lassen sich vor allem durch die höheren Marktanteile der Deutschen Telekom in den ländlichen Gebieten und den vergleichsweise geringen Marktanteilen in den städtischen Gebieten erklären, welche durch die bessere Netzabdeckung des Flächennetzes in ländlichen Regionen resultieren.

Weiterhin stand dem Statistischen Bundesamt im Rahmen des EU-Projekts "City Data from LFS and Big Data" ein weiterer Mobilfunkdatensatz zur Verfügung, welcher die durchschnittlichen mobilen Aktivitäten für einen statistischen Sonntagabend aus dem Jahr 2018 für die gesamte Bundesrepublik Deutschland auf Gemeinde- und Kreisebene enthielt (European Commission 2019). Erstmals konnte somit die Wohnbevölkerung mittels Mobilfunkdaten deutschlandweit abgebildet und geschätzt werden. Abbildung 4 zeigt eine Differenzkarte, wie sie bereits aus Abbildung 3 bekannt ist, und hebt wieder die regionalen Unterschiede zwischen den Einwohnerzahlen und Mobilfunkaktivitäten hervor. Wir erhalten für die gesamte Bundesrepublik dieselben Kernergebnisse bzw. das gleiche Muster wie für das Bundesland NRW. Auch deutschlandweit wird die Bevölkerung in den ländlicheren Regionen durch die Mobilfunkdaten aus dem Netz der Deutschen Telekom überschätzt und in städtischen unterschätzt (siehe beispielsweise Berlin und Brandenburg). Insgesamt wird die Einwohnerzahl auf Kreisebene auch deutschlandweit genauer abgebildet als auf Gemeindeebene (detaillierte Ergebnisse und weitere Informationen siehe European Commission 2019).

Fazit

Die Ergebnisse zeigen im Grundsatz, dass die Bevölkerung mit den vorliegenden Mobilfunkdaten teilweise gut abgebildet werden kann. Beobachtbare Unterschiede in der Bevölkerungsdarstellung mittels Mobilfunkdaten und den Bevölkerungszahlen können teilweise durch die zeitliche Differenz zwischen den Mobilfunkdaten aus dem Jahr 2017/2018 und dem Zensus aus dem Jahr 2011, aber auch durch das seitens des Datenanbieters angewandte Hochrechnungsverfahren hervorgerufen werden. Durch die weitere Umverteilung der Mobilfunkaktivitäten können – unabhängig von der zugrundeliegenden Geometrie – weitere interessierende Untersuchungsgebiete herangezogen und erforscht werden. Gleichzeitig entsteht durch dieses Verfahren eine zusätzliche Unsicherheit in den Mobilfunkaktivitäten, die sich umso stärker auswirkt, je kleiner die Geometrien werden. Dies ist besonders bei der deutlich schlechteren Schätzung der Bevölkerung auf Gemeindeebene im Vergleich zur Kreisebene auffallend. Zudem wurden nur Mobilfunkaktivitäten eines Netzanbieters in Deutschland analysiert. Die dadurch entstehenden Abweichungen werden durch die jeweiligen Marktanteile bedingt und sind in der räumlichen Verteilung der Mobilfunkaktivitäten sichtbar. Auch in den soziodemografischen Merkmalen spiegelt sich im Übrigen die Kundinnen- und Kundenstruktur des Mobilfunkanbieters wieder. Da die bundesweite Repräsentativität der Daten essentiell ist, müssen daher weitere Schritte unternommen werden, um künftig möglichst Daten aller Mobilfunkanbieter in Deutschland zu erhalten.

Literatur

Deville, P. et al. (2014): Dynamic population mapping using mobile phone data. Proceedings of the National Academy of Sciences. 111 (45) 15888-15893

European Commission (2019): City data from LFS and Big Data (Final report)

Schmid, T., Hadam, S., Salvati, N., Bruckschen, F., Zbiranski, T. (2019): Kleinräumige Prädiktion von Indikatoren basierend auf Mobilfunkdaten. 13. Wissenschaftliche Fachtagung zum Thema "Qualität bei zusammengeführten Daten – Befragungsdaten, Administrative Daten, Neue digitale Daten: Miteinander besser?"

Hadam, S., Schmid, T., Simm, J. (2020): Kleinräumige Prädiktion von Bevölkerungszahlen basierend auf Mobilfunkdaten aus Deutschland. In: Klumpe, B., Schröder, J., Zwick, M. (Hrsg.) Qualität bei zusammengeführten Daten – Befragungsdaten, Administrative Daten, Neue digitale Daten: Miteinander besser? Springer, Wiesbaden, S 27-44 DOI-Fundstelle