Das Statistische Bundesamt untersucht in verschiedenen Machbarkeitsstudien die Nutzbarkeit von Mobilfunkdaten für die amtliche Statistik. Eine unterschiedliche Netzabdeckung bei den Mobilfunkanbietern und verschiedene Vorgehensweisen bei der Kundenakquise haben dabei einen maßgeblichen Einfluss auf die Datenstruktur und damit die Nutzungsmöglichkeiten der Mobilfunkdaten. Um Aussagen über Repräsentativität und Struktur der Mobilfunkdaten treffen zu können, stehen dem Statistischen Bundesamt daher seit Frühjahr 2019 neben den Daten der Telekom Deutschland erstmals Daten aus dem Netz der Telefónica Deutschland für das Bundesland Nordrhein-Westfalen (NRW) zur Verfügung. Da sich in Deutschland drei Mobilfunkanbieter mit je ca. einem Drittel Marktanteil auf dem deutschen Mobilfunkmarkt befinden (siehe Bundesnetzagentur), können mit den Datensätzen dieser zwei Anbieter annahmegemäß zwei Drittel der Mobilfunkkundinnen und -kunden in NRW abgebildet werden. Das primäre Ziel, das das Statistische Bundesamt bei der Nutzung beider Datensätze verfolgt, ist die Steigerung der Repräsentativität der Mobilfunkdaten und damit einhergehend die Durchführung eines Strukturvergleiches beider Mobilfunkdatenbestände.
Datengrundlage: Mobilfunkdaten zweier Anbieter
Die zur Verfügung stehenden Datensätze enthalten anonymisierte, aggregierte mobile Aktivitäten von Telekom- und Telefónica-Kundinnen und -Kunden in NRW. Unter einer mobilen Aktivität wird ein Ereignis bzw. ein Signal an einem Funkmast verstanden, welches durch eine Mindestaufenthaltsdauer des mobilen Endgerätes in einem Untersuchungsgebiet bedingt wird. Die vorliegenden Datensätze umfassen die durchschnittlichen mobilen Aktivitäten einer sogenannten statistischen Woche, welche ausgewählte Tage und Monate aus den Jahren 2018/2019 in einem 22-Stunden-Zeitraum enthält. Diese Woche wird in fünf Tagestypen unterteilt: Montag, Dienstag bis Donnerstag, Freitag, Samstag und Sonntag. Die geografische Auflösung des Untersuchungsgebietes ist in beiden Datensätzen identisch und basiert auf INSPIRE-konformen Gitterzellen, welche den Gitterzellen des Zensusatlas 2011 entsprechen. Die Infrastructure for Spatial Information in the European Community (INSPIRE) ist eine Initiative der Europäischen Kommission mit dem Ziel, eine europäische Geodateninfrastruktur zu schaffen.
Um eine mögliche Steigerung der Repräsentativität der Mobilfunkdaten zu untersuchen, werden beide Datenbestände zusammengeführt. Dafür ist es zwingend erforderlich, nicht-hochgerechnete Mobilfunkdaten zu verwenden. Die mobilen Aktivitäten der beiden vorliegenden Datensätze sind folglich im Gegensatz zu den bislang verwendeten und diskutierten Mobilfunkdaten (siehe hierzu den EXSTAT-Artikel "Bevölkerungsdarstellung mit Mobilfunkdaten") weder anhand der regionalen Marktanteile noch auf die Bevölkerung hochgerechnet. Das bedeutet, die aggregierten mobilen Aktivitäten entsprechen den tatsächlich gezählten Signalen mobiler Endgeräte im Netzwerk des entsprechenden Mobilfunkanbieters, sofern mindestens fünf Signale pro Untersuchungsgebiet vorliegen. Aufgrund datenschutzrechtlicher Regelungen werden nur anonymisierte Wertangaben ab einer Mindestzahl von fünf mobilen Aktivitäten pro Untersuchungsgebiet an das Statistische Bundesamt übermittelt, sodass ein Rückschluss auf einzelne Geräte oder Personen verhindert wird. Anhand dieser Daten können damit erstmals Mobilfunkdaten zweier Mobilfunkanbieter zeitlich und geografisch zusammengeführt und auf Schiefen und Verzerrungen untersucht werden. Des Weiteren stehen die soziodemografischen Merkmale Alter und Geschlecht der Vertragskundinnen und -kunden dieser beiden Mobilfunkunternehmen zur Verfügung, die ebenfalls anonymisiert, aggregiert und nicht hochgerechnet sind.
Strukturvergleich der Mobilfunkdaten nach mobilen Aktivitäten und soziodemografischen Merkmalen
Zur Überprüfung der Repräsentativität werden die beiden nicht-hochgerechneten Mobilfunkdatensätze mit mobilen Aktivitäten aus dem Netz der Telekom Deutschland und der Telefónica Deutschland zusammengeführt. Dazu werden die mobilen Aktivitäten nach den Wochentagen und Stundenwerten gefiltert und anhand der zugrundeliegenden Gitterzellen miteinander verknüpft. Durch das Addieren der geografisch verknüpften Werte kann anschließend ein zusammengeführter Datensatz gebildet werden. Dies wird sowohl für die mobilen Aktivitäten als auch für die soziodemografischen Merkmale durchgeführt. Hierbei wird angenommen, dass eine Zusammenführung von Mobilfunkdaten unterschiedlicher Anbieter zu einer Steigerung der Repräsentativität der Daten sowie zu einer Abnahme möglicher Verzerrungen führen kann.
Mobile Aktivitäten
Um zu untersuchen, ob und inwieweit eine Zusammenführung beider Mobilfunkdatensätze zu einer Steigerung der Repräsentativität führt, wird im Folgenden der Zusammenhang der kombinierten Mobilfunkaktivitäten (Telefónica + Telekom) des Jahres 2018/2019 und der Bevölkerungszahlen des Zensus 2011 ermittelt. Die Bevölkerungszahlen des Zensus 2011 werden dabei als Vergleichsmaßstab zur Überprüfung der Repräsentativität der zusammengeführten Mobilfunkdaten herangezogen. Der resultierende Pearson-Korrelationskoeffizient in Abbildung 1 stellt den linearen Zusammenhang beider Datenquellen für alle Wochentage nach der Uhrzeit dar. Je näher der Koeffizient am Wert 1 liegt, desto perfekter ist die Korrelation und damit der lineare Zusammenhang beider Datenquellen.
Die Werte des Korrelationskoeffizienten in Abbildung 1 weisen insgesamt eine sehr hohe positive Korrelation von bis zu 0,95 zwischen den zusammengeführten mobilen Aktivitäten und den Bevölkerungszahlen in den Abendstunden sowie im gesamten Tagesverlauf am Samstag und Sonntag auf. Im Vergleich zur Korrelationsanalyse mit Daten nur eines Mobilfunkanbieters (vergleiche EXSTAT-Artikel "Bevölkerungsdarstellung mit Mobilfunkdaten" Abbildung 1) führt eine Zusammenführung mobiler Aktivitäten unterschiedlicher Mobilfunkanbieter in Deutschland zu einer deutlich verbesserten Annährung an die Verteilung der amtlichen Bevölkerungszahl. Weiterhin führt dieses Vorgehen, insbesondere am Sonntagabend, zu einem beinahe perfekten linearen Zusammenhang zwischen Mobilfunkaktivitäten und den Bevölkerungszahlen des Zensus 2011, wie nachstehend in Abbildung 2 dargestellt. Die mobilen Aktivitäten an einem Sonntagabend eignen sich aufgrund der hohen Korrelation mit den Bevölkerungszahlen des Zensus 2011 zur Herleitung der Wohnbevölkerung auf Basis von Mobilfunkdaten.
Abbildung 2 stellt die Verteilung der relativen Häufigkeit der Mobilfunkaktivitäten an einem Sonntagabend im Verhältnis zur relativen Häufigkeit der Einwohnerzahl aus dem Zensus 2011 dar. Eine perfekte Übereinstimmung beider Verteilungen ist durch die schwarze Gerade gekennzeichnet. Die relativen Häufigkeiten der Mobilfunkaktivitäten werden sowohl getrennt nach Anbieter wie auch zusammengeführt (Telefónica + Telekom) dargestellt. Beginnend mit der relativen Häufigkeit der mobilen Aktivitäten aus dem Netz der deutschen Telekom (rote Punkte), ist im Vergleich zur relativen Häufigkeit der Einwohnerzahl deutlich zu erkennen, dass die Punkte stark um die schwarze Gerade streuen. Dies ist besonders zu Beginn der Geraden, bei einer relativen Häufigkeit der Mobilfunkaktivitäten von ca. 0,03 zu sehen. In diesem Bereich wird die potentielle Wohnbevölkerung auf Basis von Mobilfunkdaten aus dem Netz der Telekom Deutschland in Gebieten mit tendenziell niedriger Einwohnerzahl sichtbar überschätzt. In der Folge unterschätzen die Mobilfunkaktivitäten die potentielle Wohnbevölkerung in Gebieten mit tendenziell hoher Einwohnerzahl ab einer relativen Häufigkeit der Einwohnerzahl von ca. 0,08. Betrachtet man darüber hinaus die relative Häufigkeit der mobilen Aktivitäten aus dem Netz der Telefónica Deutschland (blaue Punkte) wird die potentielle Wohnbevölkerung mit tendenziell niedriger Einwohnerzahl unterschätzt und in Gebieten mit tendenziell höherer Einwohnerzahl ab einer relativen Häufigkeit der Einwohnerzahl von ca. 0,04 überschätzt. Führt man nun beide Verteilungen – durch die Zusammenführung der Mobilfunkaktivitäten beider Anbieter – zusammen, ergeben sich sichtbar angenäherte relative Häufigkeiten (grüne Punkte) an die schwarze Gerade und damit an die relativen Häufigkeiten der Einwohnerzahl aus dem Zensus 2011. Die zusammengeführten Verteilungen streuen sowohl zu Beginn als auch am Ende ihrer Verteilung weniger stark um die schwarze Gerade und heben so die Verzerrungen in den einzelnen Verteilungen beider Anbieter größtenteils auf. Wie auch die Korrelationsanalyse in Abbildung 1, zeigt der Vergleich der relativen Häufigkeiten von Mobilfunkaktivitäten und Bevölkerungszahlen aus dem Zensus 2011 in Abbildung 2, dass eine Zusammenführung der mobilen Aktivitäten unterschiedlicher Mobilfunkanbieter zu einer deutlichen Steigerung der Repräsentativität am Beispiel der Darstellung der Wohnbevölkerung auf Basis von Mobilfunkdaten führt.
Soziodemografische Merkmale
Da die Zusammenführung der Daten und die oben beschriebenen Korrelationen und Analysen der relativen Häufigkeiten eine Steigerung der Repräsentativität der Mobilfunkdaten zeigen, wird in einem nächsten Schritt die Repräsentativität der soziodemographischen Merkmale näher betrachtet.
Aufgrund unterschiedlicher Kundenstrukturen bei den einzelnen Mobilfunkanbietern kommen einige soziodemographische Merkmalsausprägungen in den Mobilfunkdaten häufiger vor als andere. Die daraus resultierenden selektiven Stichproben bzw. selektiven Mobilfunkdaten können Verzerrungen in den Merkmalsausprägungen verursachen. Diese Selektivitäten erzeugen somit ein klares Bild der Kundenstruktur des jeweiligen Anbieters und fördern andererseits eine verzerrte Darstellung der Bevölkerung unter Verwendung von Mobilfunkdaten einzelner Anbieter. Weiterhin liegen die soziodemografischen Merkmale nur von Vertragskundinnen und -kunden beider Mobilfunkanbieter über das sogenannte Customer Relationship Management System vor. Führt man die soziodemografischen Merkmale beider Anbieter zusammen, ergibt sich das folgende Bild. Abbildung 3 und 4 zeigen beispielhaft die prozentuale Verteilung des Geschlechts und der Altersgruppen der zusammengeführten Vertragskundinnen und -kunden beider Anbieter (Telefónica + Telekom) sowie die prozentualen Anteile nach dem Zensus 2011 auf. Da die soziodemografischen Merkmale nur von Vertragskundinnen und -kunden ab 20 Jahren beider Anbieter stammen, wird auch im Zensus 2011 nur auf die Bevölkerung ab 20 Jahren eingegangen, um eine Vergleichbarkeit der Merkmale zu gewährleisten.
Es wird deutlich, dass sich die prozentualen Anteile des Geschlechts und der Altersgruppen beider Mobilfunkanbieter trotz einer Zusammenführung weiterhin deutlich von der Verteilung des Zensus 2011 unterscheiden. Im Vergleich zum Zensus 2011 werden bei Zusammenführung der soziodemographischen Angaben beider Mobilfunkanbieter der Anteil der Frauen um 13 Prozentpunkte unterschätzt und die der Männer um 13 Prozentpunkte überschätzt (siehe Abbildung 3). Werden die prozentualen Anteile der Altersgruppen beider Mobilfunkanbieter den jeweiligen Anteilen im Zensus 2011 gegenübergestellt, wie in Abbildung 4 dargestellt, so ist auch hier eine merkliche Verzerrung in der Verteilung der Altersgruppe der zusammengeführten Mobilfunkdaten sichtbar. Im Vergleich zum Zensus 2011 ist besonders die Altersgruppe 50 - 59 Jahre mit einer Differenz von 8 Prozentpunkten in den zusammengeführten Mobilfunkdaten überrepräsentiert. Des Weiteren wird die Altersgruppe 69+ in den Mobilfunkdaten deutlich unterrepräsentiert, wobei hier ein Unterschied von 13 Prozentpunkten im Vergleich zum Zensus 2011 vorliegt. Ein Grund hierfür könnte in der vergleichsweise niedrigen Penetrationsrate in der deutschen Bevölkerung im höheren Alter liegen. Des Weiteren deuten die sichtbaren Schiefen der Merkmale in den kombinierten Mobilfunkdaten auf nicht ausgleichbare Unterschiede zwischen den soziodemografischen Charakteristiken beider Kundenstämme hin. Die jeweiligen Merkmalsausprägungen können sich zwar zu einem geringen Anteil ergänzen, doch eine vollumfängliche Korrektur der Schiefen bzw. Verzerrungen ist mit dem hier beschriebenen Verfahren nicht möglich, weshalb nicht von repräsentativen Merkmalen gesprochen werden kann.
Fazit
Die Ergebnisse zeigen, dass eine Zusammenführung von mobilen Aktivitäten verschiedener Mobilfunkanbieter zu einer deutlichen Steigerung der Repräsentativität führt. Da rund 97,5 % der privaten Haushalte in Deutschland im Jahr 2020 ein Mobiltelefon (Handy, Smartphone) besitzen (siehe Laufende Wirtschaftsrechnung (LWR)), kann weiterhin angenommen werden, dass eine weitere Zusammenführung von Mobilfunkaktivitäten aller drei Mobilfunkanbieter in Deutschland zu einer nahezu perfekten und repräsentativen Abbildung der aktuellen Bevölkerungsverteilung führt. In den Daten nicht enthalten sind hauptsächlich Kinder sowie Teile der älteren Bevölkerung, die kein mobiles Endgerät besitzen. Diese gilt es zukünftig anhand eines eigens dafür entwickelten Hochrechnungsrahmens zu inkludieren.
Zudem konnte aufgezeigt werden, dass Verzerrungen in den Merkmalsausprägungen durch dieses Vorgehen nur bedingt ausgeglichen werden können. Ursachen hierfür können möglicherweise unterschiedlich große Marktanteile beider Anbieter in NRW sein, das heißt eine Über- bzw. Unterrepräsentation eines Anbieters in diesem Bundesland und demnach unterschiedlich große Kundenstämme im Untersuchungsgebiet. Da die soziodemographischen Charakteristiken zudem nur von den Vertragskundinnen und -kunden ab 20 Jahren vorliegen, ist weiterhin unklar, wie sich die Merkmale von Vertrags- im Verhältnis zu Prepaid-Kundinnen und -Kunden verteilen. Familienverträge, doppelte SIM-Karten und fehlende Informationen u. a. der Prepaid-Kundinnen und -Kunden erschweren ein repräsentatives und differenziertes Abbilden der soziodemografischen Merkmale auf Basis von Mobilfunkdaten zusätzlich. Weiterhin bestehen seitens des Statistischen Bundesamtes noch Unsicherheiten bezüglich des Datengenerierungsprozesses, da die Anonymisierung und Aggregation der Mobilfunkdaten von den jeweiligen Datenanbietern nach eigenen und vermutlich unterschiedlichen Methoden und Konzepten vorgenommen wird.
Schließlich müssen weitere Schritte unternommen werden, um künftig möglichst Daten von allen Mobilfunkanbietern in Deutschland zu erhalten und somit die bundesweite Repräsentativität der Daten weiter zu steigern. Ebenso müssen Rechtsgrundlagen geschaffen werden, um den Zugang zu privat gehaltenen Daten dauerhaft zu sichern und diese langfristig in die amtliche Statistikproduktion integrieren zu können.