silicon.de: Der größte Teil der Zensus 2011 findet in den Rechnern der Verwaltungen statt. Können Sie schätzen, wie viele Datensätze insgesamt bewegt werden?
Neuer: Bei rund 80 Millionen Deutschen handelt es sich um eine sehr große Datenmenge. Ich schätze, dass beim Zensus Daten im Petabyte-Bereich bewegt werden. Allerdings ist dies wirklich nur eine Schätzung.
silicon.de: Die Volkszählung 1987 ist schon eine Weile her. Haben die jetzt Zuständigen – Statistisches Bundesamt, Statistische Landesämter und Kommunen – überhaupt das technologische Know-how?
Neuer: Das Know-how ist vorhanden. Projekte dieser Größenordnung werden bereits in der Wirtschaft durchgeführt.
silicon.de: Was wird der Zensus kosten?
Neuer: Die statistischen Ämter haben die Kosten im Vorfeld kalkuliert: Die gesamten Kosten sollen sich demnach auf rund 710 Millionen Euro belaufen. Ob es bei dieser Summe bleiben wird, lässt sich vorab noch nicht sagen.
silicon.de: Stichtag der Datenerhebung war der 9. Mai, mit Ergebnissen ist jedoch erst Ende 2012 zu rechnen. Warum dauert dies so lange?
Neuer: Die Daten müssen aufbereitet und auf ihre Richtigkeit und Vollständigkeit überprüft werden, bevor man sie zusammenführen kann. Es besteht beispielsweise die Gefahr, dass Personen aufgrund falscher Namensschreibung doppelt erfasst werden. Dies muss sorgfältig kontrolliert und gegebenenfalls korrigiert werden. Nur wenn die Datenqualität stimmt, erhält man verwertbare Ergebnisse.
silicon.de: Die Volkszählung wird nach einer gemischten Methode durchgeführt, bei der mehrere Datenquellen – zum Beispiel Melde-Register, Bundesagentur für Arbeit – sowie Daten aus den Interviews zum Einsatz kommen. Erhöht diese Vielzahl an Quellen nicht die Fehlerrate?
Neuer: Selbstverständlich. Je mehr Daten und unterschiedliche Datenformate im Spiel sind, umso größer ist das Risiko, dass etwas schief gehen kann. Aber das muss nicht sein. Wenn das Projekt ordentlich aufgesetzt ist, lassen sich Pannen vermeiden. Bei der letzten Volkszählung wurde zum Beispiel zu spät bemerkt, dass ein Teil der Daten nicht eingereicht wurde. Solche Pannen lassen sich durch eine regelmäßige Synchronisierung der Daten vermeiden. Es können beispielsweise Alarmfunktionen eingerichtet werden, die melden, wenn Daten fehlen.
silicon.de: Was muss berücksichtigt werden, wenn so viele Daten zusammengeführt werden?
Neuer: Die Integration beziehungsweise Zusammenführung großer Datenmengen, die aus unterschiedlichen Datenquellen stammen und unterschiedliche Datenformate aufweisen, ist eine große Herausforderung. Bei der Programmierung der Software für diese Aufgabe muss größte Sorgfalt angewendet werden. Denn bei der Integration der Daten werden diese erfasst, indem in der Software alle für sie relevanten Kategorien aufgeführt werden. Wird eine Kategorie vergessen, kann dies das ganze Ergebnis verzerren. Da die Datenintegration mehrfach, sowohl auf Landes- als auch auf Bundesebene erfolgt, liegt hier eine Gefahr, dass sich Fehler einschleichen.
Ein weiterer wichtiger Aspekt ist die Datensäuberung und das Herausfiltern von Dubletten. Auch der Sicherstellung des Datenschutzes, insbesondere durch die Maskierung der Daten, kommt eine hohe Bedeutung bei. Neben den Kernaufgaben – der Zusammenführung und Säuberung der Daten – sind es auch die Einhaltung der geplanten Deadlines und der damit verbunden Kosten, die Schwierigkeiten bereiten können. Mitunter sind Datenprojekte komplexer, als anfangs vom Kunden dargestellt und demzufolge zeit- und kostenintensiver als ursprünglich geplant. Gute Projektvorbereitung im Vorfeld ist das A und O, um solche Probleme zu vermeiden.
silicon.de: Der Vorsitzende der Zensuskommission, Professor Dr. Gert G. Wagner, hat den BigBrotherAward 2011 in der Kategorie ‘Behörden und Verwaltung’ erhalten. Können Sie die Bedenken von Datenschützern nachvollziehen, wie sie sich auf der Seite zensus11.de äußern?
Neuer: Die Sorge um eine wirksame Anonymisierung der Daten ist durchaus verständlich, immerhin geht es ja um ganz persönliche Informationen. Eine wirklich wirksame Methode zu entwickeln ist schwierig, wir kennen diese Problematik aus verschiedenen Situationen.
silicon.de: Eine EU-Verordnung sieht vor, dass künftig alle zehn Jahre eine Volkszählung stattfinden soll. Stehen Aufwand und Nutzen hier in der richtigen Relation?
Neuer: Der Zensus liefert wichtige Informationen mit weitreichenden Konsequenzen für die Bürger: Die Daten sind beispielsweise relevant für den Länderfinanzausgleich, die Einteilung der Bundestagswahlkreise oder für die Berechnung des jährlichen Bruttoinlandsprodukts. Insofern ist es wichtig, dass man mit präzisen und korrekten Werten arbeitet. Mit der einfachen Hochrechnung der Ergebnisse alter Volkszählungen erhält man diese Präzision nicht. Die neue Register-basierte Methode wurde gewählt, um Kosten und Aufwand im Vergleich zur herkömmlichen Methode zu reduzieren. Ob die Methode sich bewährt und was besser gemacht werden kann, wird sich jetzt zeigen.
Angriffe auf APIs und Webanwendungen sind zwischen Januar 2023 und Juni 2024 von knapp 14…
Mit täglich über 45.000 eingehenden E-Mails ist die IT-Abteilung des Klinikums durch Anhänge und raffinierte…
Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…
Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…
DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).
Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.
View Comments
Petabyte
Wenn wirklich alle 80 Mio. Einwohner Deutschlands befragt würden und dabei 1 Petabyte Daten zusammen kämen, dann wären die Fragebogenergebnisse 13 MB groß je Einwohner. In 13 MB lassen sich 10 hochauflösende Fotos oder 6,5 Mio. Zeichen Text ablegen. Das ist eine sehr uneffiziente Speicherung. Außerdem werden nicht alle 80 Mio. Einwohner befragt, sondern lediglich eine repräsentative Gruppe (was auch immer das bedeutet).
Ich glaube Herr Neuer übertreibt ein wenig.