Experimentelle Statistiken Strukturvergleich von Mobilfunkdaten zweier Mobilfunkanbieter

EXSTAT

Das Statistische Bundesamt untersucht in verschie­denen Machbarkeits­studien die Nutz­barkeit von Mobilfunk­daten für die amtliche Statistik. Eine unterschiedliche Netz­abdeckung bei den Mobilfunk­anbietern und verschiedene Vorgehens­weisen bei der Kunden­akquise haben dabei einen maßgeb­lichen Ein­fluss auf die Daten­struktur und damit die Nutzungs­möglich­keiten der Mobilfunk­daten. Um Aussagen über Repräsen­tativität und Struktur der Mobilfunk­daten treffen zu können, stehen dem Statistischen Bundesamt daher seit Frühjahr 2019 neben den Daten der Telekom Deutschland erstmals Daten aus dem Netz der Telefónica Deutschland für das Bundesland Nordrhein-Westfalen (NRW) zur Verfügung. Da sich in Deutschland drei Mobilfunk­anbieter mit je ca. einem Drittel Markt­anteil auf dem deutschen Mobilfunk­markt befinden (siehe Bundesnetzagentur), können mit den Daten­sätzen dieser zwei Anbieter annahme­gemäß zwei Drittel der Mobilfunk­kundinnen und -kunden in NRW abgebildet werden. Das primäre Ziel, das das Statistische Bundesamt bei der Nutzung beider Daten­sätze verfolgt, ist die Steige­rung der Repräsen­tativität der Mobilfunk­daten und damit einher­gehend die Durch­führung eines Struktur­vergleiches beider Mobilfunk­datenbestände.

Datengrundlage: Mobilfunk­daten zweier Anbieter

Die zur Verfügung stehenden Daten­sätze enthalten anonymisierte, aggregierte mobile Aktivitäten von Telekom- und Telefónica-Kundinnen und -Kunden in NRW. Unter einer mobilen Aktivität wird ein Ereignis bzw. ein Signal an einem Funk­mast verstanden, welches durch eine Mindest­aufenthalts­dauer des mobilen End­gerätes in einem Untersuchungs­gebiet bedingt wird. Die vor­liegenden Daten­sätze umfassen die durch­schnitt­lichen mobilen Aktivitäten einer sogenannten statistischen Woche, welche ausgewählte Tage und Monate aus den Jahren 2018/2019 in einem 22-Stunden-Zeitraum enthält. Diese Woche wird in fünf Tages­typen unterteilt: Montag, Dienstag bis Donnerstag, Freitag, Samstag und Sonntag. Die geografische Auflösung des Untersuchungs­gebietes ist in beiden Datensätzen identisch und basiert auf INSPIRE-konformen Gitter­zellen, welche den Gitter­zellen des Zensusatlas 2011 entsprechen. Die Infrastructure for Spatial Information in the European Community (INSPIRE) ist eine Initiative der Europäischen Kommission mit dem Ziel, eine europäische Geodaten­infrastruktur zu schaffen.

Um eine mögliche Steigerung der Repräsen­tativität der Mobilfunk­daten zu untersuchen, werden beide Daten­bestände zusammen­geführt. Dafür ist es zwingend erforderlich, nicht-hochgerechnete Mobilfunk­daten zu verwenden. Die mobilen Aktivitäten der beiden vorliegenden Daten­sätze sind folglich im Gegen­satz zu den bislang verwendeten und diskutierten Mobilfunk­daten (siehe hierzu den EXSTAT-Artikel "Bevölkerungsdarstellung mit Mobilfunkdaten") weder anhand der regionalen Markt­anteile noch auf die Bevölke­rung hoch­gerechnet. Das bedeutet, die aggre­gierten mobilen Aktivitäten entsprechen den tatsächlich gezählten Signalen mobiler Endgeräte im Netzwerk des entsprechenden Mobilfunk­anbieters, sofern mindestens fünf Signale pro Untersuchungs­gebiet vorliegen. Aufgrund datenschutz­rechtlicher Regelungen werden nur anonymisierte Wert­angaben ab einer Mindest­zahl von fünf mobilen Aktivitäten pro Untersuchungs­gebiet an das Statistische Bundesamt über­mittelt, sodass ein Rück­schluss auf einzelne Geräte oder Personen verhindert wird. Anhand dieser Daten können damit erstmals Mobilfunk­daten zweier Mobilfunk­anbieter zeitlich und geografisch zusammen­geführt und auf Schiefen und Verzerrungen unter­sucht werden. Des Weiteren stehen die sozio­demo­grafischen Merk­male Alter und Geschlecht der Vertrags­kundinnen und -kunden dieser beiden Mobilfunk­unternehmen zur Verfügung, die ebenfalls anonymisiert, aggregiert und nicht hochg­erechnet sind.

Strukturvergleich der Mobilfunk­daten nach mobilen Aktivitäten und sozio­demo­grafischen Merkmalen

Zur Überprüfung der Repräsen­tativität werden die beiden nicht-hoch­gerechneten Mobilfunk­datensätze mit mobilen Aktivitäten aus dem Netz der Telekom Deutschland und der Telefónica Deutschland zusammen­geführt. Dazu werden die mobilen Aktivitäten nach den Wochen­tagen und Stunden­werten gefiltert und anhand der zugrunde­liegenden Gitter­zellen miteinander verknüpft. Durch das Addieren der geografisch verknüpften Werte kann anschließend ein zusammen­geführter Datensatz gebildet werden. Dies wird sowohl für die mobilen Aktivitäten als auch für die sozio­demo­grafischen Merk­male durch­geführt. Hierbei wird angenommen, dass eine Zusammen­führung von Mobilfunk­daten unter­schiedlicher Anbieter zu einer Steigerung der Repräsen­tativität der Daten sowie zu einer Abnahme möglicher Verzerrungen führen kann.

Mobile Aktivitäten

Um zu untersuchen, ob und inwieweit eine Zusammen­führung beider Mobilfunk­datensätze zu einer Steigerung der Repräsen­tativität führt, wird im Folgenden der Zusammen­hang der kombinierten Mobilfunk­aktivitäten (Telefónica + Telekom) des Jahres 2018/2019 und der Bevölkerungs­zahlen des Zensus 2011 ermittelt. Die Bevölkerungs­zahlen des Zensus 2011 werden dabei als Vergleichs­maßstab zur Über­prüfung der Repräsen­tativität der zusammen­geführten Mobilfunk­daten heran­gezogen. Der resultierende Pearson-Korrelations­koeffizient in Abbildung 1 stellt den linearen Zusammen­hang beider Daten­quellen für alle Wochen­tage nach der Uhrzeit dar. Je näher der Koeffizient am Wert 1 liegt, desto perfekter ist die Korrelation und damit der lineare Zusammen­hang beider Datenquellen.

Die Werte des Korrelations­koeffizienten in Abbildung 1 weisen insgesamt eine sehr hohe positive Korrelation von bis zu 0,95 zwischen den zusammen­geführten mobilen Aktivitäten und den Bevölkerungs­zahlen in den Abend­stunden sowie im gesamten Tages­verlauf am Samstag und Sonntag auf. Im Vergleich zur Korrelations­analyse mit Daten nur eines Mobilfunk­anbieters (vergleiche EXSTAT-Artikel "Bevölkerungs­darstellung mit Mobilfunkdaten" Abbildung 1) führt eine Zusammen­führung mobiler Aktivitäten unter­schiedlicher Mobilfunk­anbieter in Deutschland zu einer deutlich verbesserten Annährung an die Verteilung der amtlichen Bevölkerungs­zahl. Weiterhin führt dieses Vorgehen, insbesondere am Sonntag­abend, zu einem beinahe perfekten linearen Zusammen­hang zwischen Mobilfunk­aktivitäten und den Bevölkerungs­zahlen des Zensus 2011, wie nach­stehend in Abbildung 2 dargestellt. Die mobilen Aktivitäten an einem Sonntag­abend eignen sich aufgrund der hohen Korrelation mit den Bevölkerungs­zahlen des Zensus 2011 zur Herleitung der Wohn­bevölkerung auf Basis von Mobilfunkdaten.

Abbildung 2 stellt die Verteilung der relativen Häufigkeit der Mobilfunk­aktivitäten an einem Sonntag­abend im Verhältnis zur relativen Häufigkeit der Einwohner­zahl aus dem Zensus 2011 dar. Eine perfekte Überein­stimmung beider Verteilungen ist durch die schwarze Gerade gekenn­zeichnet. Die relativen Häufigkeiten der Mobilfunk­aktivitäten werden sowohl getrennt nach Anbieter wie auch zusammen­geführt (Telefónica + Telekom) dargestellt. Beginnend mit der relativen Häufigkeit der mobilen Aktivitäten aus dem Netz der deutschen Telekom (rote Punkte), ist im Vergleich zur relativen Häufigkeit der Einwohner­zahl deutlich zu erkennen, dass die Punkte stark um die schwarze Gerade streuen. Dies ist besonders zu Beginn der Geraden, bei einer relativen Häufigkeit der Mobilfunk­aktivitäten von ca. 0,03 zu sehen. In diesem Bereich wird die potentielle Wohn­bevölkerung auf Basis von Mobilfunk­daten aus dem Netz der Telekom Deutschland in Gebieten mit tendenziell niedriger Einwohner­zahl sichtbar über­schätzt. In der Folge unter­schätzen die Mobilfunk­aktivitäten die potentielle Wohn­bevölkerung in Gebieten mit tendenziell hoher Einwohner­zahl ab einer relativen Häufigkeit der Einwohner­zahl von ca. 0,08. Betrachtet man darüber hinaus die relative Häufigkeit der mobilen Aktivitäten aus dem Netz der Telefónica Deutschland (blaue Punkte) wird die potentielle Wohn­bevölkerung mit tendenziell niedriger Einwohner­zahl unterschätzt und in Gebieten mit tendenziell höherer Einwohner­zahl ab einer relativen Häufigkeit der Einwohner­zahl von ca. 0,04 über­schätzt. Führt man nun beide Verteilungen – durch die Zusammen­führung der Mobilfunk­aktivitäten beider Anbieter – zusammen, ergeben sich sichtbar angenäherte relative Häufig­keiten (grüne Punkte) an die schwarze Gerade und damit an die relativen Häufigkeiten der Einwohner­zahl aus dem Zensus 2011. Die zusammen­geführten Verteilungen streuen sowohl zu Beginn als auch am Ende ihrer Verteilung weniger stark um die schwarze Gerade und heben so die Verzerrungen in den einzelnen Verteilungen beider Anbieter größten­teils auf. Wie auch die Korrelations­analyse in Abbildung 1, zeigt der Vergleich der relativen Häufigkeiten von Mobilfunk­aktivitäten und Bevölkerungs­zahlen aus dem Zensus 2011 in Abbildung 2, dass eine Zusammen­führung der mobilen Aktivitäten unter­schiedlicher Mobilfunk­anbieter zu einer deutlichen Steigerung der Repräsen­tativität am Beispiel der Darstellung der Wohn­bevölkerung auf Basis von Mobil­funkdaten führt.

Soziodemografische Merkmale

Da die Zusammen­führung der Daten und die oben beschriebenen Korrelationen und Analysen der relativen Häufig­keiten eine Steigerung der Repräsen­tativität der Mobilfunk­daten zeigen, wird in einem nächsten Schritt die Repräsen­tativität der sozio­demo­graphischen Merk­male näher betrachtet.

Aufgrund unter­schiedlicher Kunden­strukturen bei den einzelnen Mobilfunk­anbietern kommen einige sozio­demo­graphische Merkmals­ausprägungen in den Mobilfunk­daten häufiger vor als andere. Die daraus resultierenden selektiven Stich­proben bzw. selektiven Mobilfunk­daten können Verzerrungen in den Merkmals­ausprägungen verursachen. Diese Selektivitäten erzeugen somit ein klares Bild der Kunden­struktur des jeweiligen Anbieters und fördern anderer­seits eine verzerrte Darstellung der Bevölkerung unter Verwendung von Mobilfunk­daten einzelner Anbieter. Weiterhin liegen die sozio­demo­grafischen Merkmale nur von Vertrags­kundinnen und -kunden beider Mobilfunk­anbieter über das sogenannte Customer Relationship Management System vor. Führt man die sozio­demo­grafischen Merk­male beider Anbieter zusammen, ergibt sich das folgende Bild. Abbildung 3 und 4 zeigen beispiel­haft die prozentuale Verteilung des Geschlechts und der Alters­gruppen der zusammen­geführten Vertrags­kundinnen und -kunden beider Anbieter (Telefónica + Telekom) sowie die prozentualen Anteile nach dem Zensus 2011 auf. Da die sozio­demo­grafischen Merk­male nur von Vertrags­kundinnen und -kunden ab 20 Jahren beider Anbieter stammen, wird auch im Zensus 2011 nur auf die Bevölkerung ab 20 Jahren einge­gangen, um eine Vergleich­barkeit der Merkmale zu gewährleisten.

Es wird deutlich, dass sich die prozentualen Anteile des Geschlechts und der Alters­gruppen beider Mobilfunk­anbieter trotz einer Zusammen­führung weiterhin deutlich von der Verteilung des Zensus 2011 unterscheiden. Im Vergleich zum Zensus 2011 werden bei Zusammen­führung der sozio­demo­graphischen Angaben beider Mobilfunk­anbieter der Anteil der Frauen um 13 Prozent­punkte unter­schätzt und die der Männer um 13 Prozent­punkte über­schätzt (siehe Abbildung 3). Werden die prozentualen Anteile der Alters­gruppen beider Mobilfunk­anbieter den jeweiligen Anteilen im Zensus 2011 gegenüber­gestellt, wie in Abbildung 4 dargestellt, so ist auch hier eine merkliche Verzerrung in der Verteilung der Alters­gruppe der zusammen­geführten Mobilfunk­daten sichtbar. Im Vergleich zum Zensus 2011 ist besonders die Altersgruppe 50 - 59 Jahre mit einer Differenz von 8 Prozent­punkten in den zusammen­geführten Mobilfunk­daten über­repräsentiert. Des Weiteren wird die Altersgruppe 69+ in den Mobilfunk­daten deutlich unter­repräsentiert, wobei hier ein Unter­schied von 13 Prozentpunkten im Vergleich zum Zensus 2011 vorliegt. Ein Grund hierfür könnte in der vergleichs­weise niedrigen Penetrations­rate in der deutschen Bevölkerung im höheren Alter liegen. Des Weiteren deuten die sichtbaren Schiefen der Merkmale in den kombinierten Mobilfunk­daten auf nicht ausgleich­bare Unter­schiede zwischen den sozio­demo­grafischen Charakteristiken beider Kunden­stämme hin. Die jeweiligen Merkmals­ausprägungen können sich zwar zu einem geringen Anteil ergänzen, doch eine voll­umfängliche Korrektur der Schiefen bzw. Verzerrungen ist mit dem hier beschriebenen Verfahren nicht möglich, weshalb nicht von repräsentativen Merk­malen gesprochen werden kann.

Fazit

Die Ergebnisse zeigen, dass eine Zusammen­führung von mobilen Aktivitäten verschiedener Mobilfunk­anbieter zu einer deutlichen Steigerung der Repräsen­tativität führt. Da rund 97,5 % der privaten Haushalte in Deutschland im Jahr 2020 ein Mobil­telefon (Handy, Smartphone) besitzen (siehe Laufende Wirtschafts­rechnung (LWR)), kann weiterhin angenommen werden, dass eine weitere Zusammen­führung von Mobilfunk­aktivitäten aller drei Mobilfunk­anbieter in Deutschland zu einer nahezu perfekten und repräsen­tativen Abbildung der aktuellen Bevölkerungs­verteilung führt. In den Daten nicht enthalten sind haupt­sächlich Kinder sowie Teile der älteren Bevölkerung, die kein mobiles Endgerät besitzen. Diese gilt es zukünftig anhand eines eigens dafür entwickelten Hochrechnungs­rahmens zu inkludieren.

Zudem konnte aufgezeigt werden, dass Verzerrungen in den Merkmals­ausprägungen durch dieses Vorgehen nur bedingt aus­geglichen werden können. Ursachen hierfür können möglicher­weise unter­schiedlich große Markt­anteile beider Anbieter in NRW sein, das heißt eine Über- bzw. Unter­repräsentation eines Anbieters in diesem Bundesland und demnach unter­schiedlich große Kunden­stämme im Untersuchungs­gebiet. Da die sozio­demo­graphischen Charakteristiken zudem nur von den Vertrags­kundinnen und -kunden ab 20 Jahren vorliegen, ist weiterhin unklar, wie sich die Merk­male von Vertrags- im Verhältnis zu Prepaid-Kundinnen und -Kunden verteilen. Familien­verträge, doppelte SIM-Karten und fehlende Informationen u. a. der Prepaid-Kundinnen und -Kunden erschweren ein repräsentatives und differenziertes Abbilden der sozio­demo­grafischen Merk­male auf Basis von Mobilfunk­daten zusätzlich. Weiterhin bestehen seitens des Statistischen Bundesamtes noch Unsicher­heiten bezüglich des Daten­generierungs­prozesses, da die Anonymi­sierung und Aggregation der Mobilfunk­daten von den jeweiligen Daten­anbietern nach eigenen und vermutlich unter­schiedlichen Methoden und Konzepten vor­genommen wird.

Schließlich müssen weitere Schritte unter­nommen werden, um künftig möglichst Daten von allen Mobilfunk­anbietern in Deutschland zu erhalten und somit die bundes­weite Repräsen­tativität der Daten weiter zu steigern. Ebenso müssen Rechts­grundlagen geschaffen werden, um den Zugang zu privat gehaltenen Daten dauer­haft zu sichern und diese lang­fristig in die amtliche Statistik­produktion integrieren zu können.