Fachthemen

Geocoding ist mehr als die Anzeige einer Adresse auf einer Karte

Geocoding ist mehr als die Anzeige einer Adresse auf einer Karte

Was ist Geocoding eigentlich?

Walter Eichhorn, Solution & Product Manager, Uniserv GmbH

Geocoding (deutsch Geokodierung) ist ein Verfahren, das die Zuordnung geografischer Informationen zu einer Adresse oder einem bekannten Ort ermöglicht. Geographische Informationen sind häufig geographische Koordinaten, aber auch soziodemographische Daten, statistische Daten zur Umwelt und Wetter sowie jede andere Form von Daten mit einem räumlichen Bezug. Ein Anwendungsszenario, das aus dem Alltag nicht mehr wegzudenken ist, sind Navigationssysteme. Sie ermitteln die entsprechende geographische Position zu einer Zieladresse und berechnen dann - ausgehend vom aktuellen Standort sowie von Informationen über den Straßenverlauf und die aktuelle Verkehrssituation - eine Route.

Reverse Geocoding (deutsch umgekehrte Geokodierung) bedeutet im Gegensatz dazu, dass einer Koordinate ein Gebäude oder ein benannter Platz in der Nähe zugeordnet wird. Ein typisches Anwendungsszenario ist das „location-based“ Marketing, in dem die Aufenthaltsorte eines Zielgruppensegments zu bestimmten Zeiten, etwa über eine mobile App, ermittelt werden. So können Anzeigen auf digitalen Werbeflächen zum richtigen Zeitpunkt für diese Zielgruppen geschaltet werden.

Geocoding mit Shapefiles stellt eine Erweiterung des Geocodings dar. Ein Shapefile ist eine Datenstruktur, die über eine Liste von verbundenen Eckpunkten (Polygonzug) ein geographisches Gebiet beschreibt. Damit kann über eine zugeordnete Koordinate für jede Adresse entschieden werden, in welchem geographischen Gebiet sie liegt. Einen typischen Anwendungsfall stellt die Zuweisung einer Sendung an das zuständige Zustelldepot dar, wenn der Zuständigkeitsbereich des Zustelldepots über ein Shapefile beschrieben ist.

Geofencing ist ein weiterer, wichtiger Teilbereich des Geocodings. Geofencing ist ein Kunstwort aus den englischen Begriffen geographic und fence (Zaun). Es bedeutet, die digitale Implementierung einer Grenzlinie, häufig als geschlossener Bereich, bei dessen Überschreitung eine Aktion ausgelöst wird. Die Grenzlinie kann im einfachsten Fall ein Kreis oder Rechteck, in anspruchsvolleren Fällen aber auch ein komplexer Polygonzug in Form eines Shapefiles sein. Ein typisches Beispiel ist die elektronische Fußfessel, die sicherstellt, dass eine Person einen bestimmten Bereich nicht verlassen kann, ohne einen Alarm auszulösen.

Wie nutzen Firmen Geocoding für ihre Geschäftsprozesse?

Das Geomarketing ist das klassische Anwendungsfeld von Geocoding. Mithilfe von statistischen Daten über den sozialen Hintergrund und das Kaufverhalten, werden Zielgruppen für Kampagnen nach geographischen Kriterien selektiert oder Interessenten zu einem frühen Zeitpunkt klassifiziert und differenziert angesprochen. Im Rahmen einer zunehmend personalisierten Ansprache von Interessenten sind die Segmentierungen, die das traditionelle Geomarketing erlaubt, für sich alleine in vielen Fällen zu grob.  

Die Routenplanung für Zustelldienste sieht auf den ersten Blick wie ein Navigationssystem aus, entpuppt sich bei näherem Hinsehen aber als deutlich komplexer. Hier muss nicht nur eine Route zwischen einem Start- und einem Zielpunkt ermittelt werden, sondern eine Route, die eine Reihe vorgegebener Anfahrpunkte optimal miteinander verbindet. Zusätzliche Geocoding-Informationen können genutzt werden, um die Routenplanung weiter zu optimieren. So kann die Berücksichtigung der Information, ob ein Gebäude geschäftlich oder privat genutzt wird, in der Routenplanung helfen, die Wahrscheinlichkeit einer Zustellung der Lieferung zu erhöhen.

Zur Standortplanung für Handelsketten werden unterschiedliche Geocoding-Informationen herangezogen. Mit den Mitteln des klassischen Geo-Marketing (z.B. soziodemographischer Daten) kann festgestellt werden, wo die Zielgruppe für ein bestimmtes Angebot überwiegend wohnt. Ein Billigpreisangebot muss für andere Zielgruppen erreichbar sein, als ein Angebot im Hochpreissegment. Eine neue Niederlassung muss für die adressierte Zielgruppe gut erreichbar sein. Dazu müssen neben der räumlichen Nähe wiederum Daten über Straßenverläufe einbezogen werden. Es reicht dabei nicht, das Wohnviertel der Zielgruppe und Niederlassung nahe bei einander liegen, wenn beide durch eine Autobahn getrennt sind und die nächste Brücke über die Autobahn mehrere Kilometer weit entfernt ist. 

Die automatische Zuordnung eines Interessenten zum zuständigen Vertriebsagenten im Rahmen einer regionalen Vertriebsstruktur kann nach unterschiedlichen Kriterien erfolgen. Im einfachsten Fall kann die räumliche Nähe als Merkmal genutzt werden. Dabei wird basierend auf der geographischen Position der Standorte der Vertriebsagenten und der geocodierten Adresse des Interessenten der Vertriebsagent mit dem geringsten Abstand zum Interessenten ausgewählt. Eine Alternative stellen geographisch definierte Vertriebsgebiete (z.B. in Form von Shapefiles) dar. Sie können auf Grund von Kriterien wie Erreichbarkeit und vertrieblichem Potential optimiert werden. Über ein Shapefile-Geocoding wird dann der Interessent basierend auf seiner geocodierten Adresse dem entsprechenden Vertriebsgebiet zugeordnet. Dieselben Verfahren sind auch bei Zuordnung eines Interessenten, der sich in einem Online-Portal registriert, zu einer Verkaufsfiliale anwendbar.

Beim location-based mobile Marketing geht es darum, einen potentiellen Kunde in der Nähe einer Filiale zu identifizieren und ihn dann mit einem besonderen Angebot in die Filiale zu locken. Um dies zu realisieren, kommen in der Regel eine Mobile-App und ein Geo-Fencing zum Einsatz. Die App stellt dabei die aktuellen Koordinaten des mobilen Gerätes bereit und das Geo-Fencing löst das aktivierende Angebot beim Kunden aus. Das kann zum Beispiel ein attraktiver Gutschein sein, der über die App dargestellt wird. Voraussetzung ist die Geocodierung aller in Frage kommenden Filialen mit geographischen Koordinaten. 

Referenzdaten für ein effektives Geocoding

Einer Adresse eine Koordinate zuordnen klingt einfach, ist es aber nicht. Zunächst einmal werden dazu Referenzdaten benötigt, die zu jeder Adresse die benötigte Information, zum Beispiel eine geographische Koordinate, enthalten. Solche Daten sind aus unterschiedlichen Quellen erhältlich, unterscheiden sich aber stark in Vollständigkeit, Korrektheit, Genauigkeit und Aktualität.

Der Grad der Vollständigkeit gibt den relativen Anteil von Gebäuden oder Plätzen an, die in den Referenzdaten erfasst sind. Fehlen Gebäude in den Referenzdaten, dann können die entsprechenden Adressen gar nicht oder nur mit einer geringeren Genauigkeit geocodiert werden. 

Die Korrektheit der Referenzdaten gibt an, inwieweit die Informationen zu Adressen und Plätzen mit den gängigen Namen (wie sie für Orte, Gemeinden, Teilorte und Straßen verwendet werden) übereinstimmen. Das sind natürlich in erste Linie die offiziellen Orts- und Straßennamen, wie sie z.B. auf den Straßenschildern stehen. Das sind aber auch übliche Synonyme oder Kurzschreibweisen, die häufig verwendet werden. Nur wenn die Schreibweise in den Referenzdaten korrekt ist, kann eine hochgradig automatisierte Zuordnung von Geocoding-Informationen erfolgen.

Die Genauigkeit der Referenzdaten gibt an, auf welcher Ebene die Zuordnung zu einer Adresse tatsächlich erfolgt. So können Koordinaten etwa exakt für ein Gebäude gemessen oder aus Gebäuden „in der Nähe“ interpoliert werden. Im Extremfall geben sie nur den Mittelpunkt der Straße oder der Gemeinde an, in der das Gebäude liegt. Für soziodemographische Daten definiert der Datenschutz in Deutschland eine maximale Genauigkeit, die nicht überschritten werden darf, um Rückschlüsse auf einzelne Personen zu verhindern. Welche Genauigkeit jeweils erforderlich ist, hängt ganz von der Anwendung ab.

Die Aktualität von Referenzdaten beschreibt wie schnell Veränderung in der realen Welt Eingang in die Referenzdaten finden. Vollständigkeit und Korrektheit gelten immer für einen bestimmten Zeitpunkt. Neu entstehende Straßen und Gebäude haben zur Folge, dass die Vollständigkeit von Referenzdaten immer weiter abnimmt, wenn die entsprechenden Informationen nicht immer wieder recherchiert und ergänzt werden. Umbenennungen von Straßennamen und Eingemeindungen führen dazu, dass einmal korrekte Adresseninformationen in den Referenzdaten nicht automatisch auf Dauer korrekt bleiben. Änderungen müssen regelmäßig aufgenommen und die zugehörigen Daten aktualisiert werden.

Software für ein effektives Geocoding

Außer Referenzdaten benötigt Geocoding eine leistungsstarke Software, die den Adressen aus einem Datenbestand unter Verwendung der Referenzdaten benötigten Informationen zuordnet. Dabei gilt:

  • Eine Geocoding-Lösung bestehend aus Referenzdaten und Software kann nur so gut sein, wie die Referenzdaten es erlauben. Die leistungsstärkste Software kann Defizite in den Referenzdaten nicht kompensieren. 
  • Allerdings verhindert eine schwache Software, dass aus guten Referenzdaten der volle Nutzen gezogen wird. 

Bei der Geocoding-Software gibt es erhebliche Unterschiede bezogen auf Trefferquote, Genauigkeit und Performance. 

Die Trefferquote (englisch Recall) drückt aus, wie groß der Anteil der Datensätze ist, denen ein Ergebnis zugeordnet werden kann.  Adressen können in unterschiedlichen, aber durchaus gebräuchlichen Schreibweisen vorliegen, oder wurden möglicherweise fehlerhaft oder unvollständig erfasst. Um eine hohe Trefferquote zu erreichen, muss die Geocoding-Software fehlertolerante Algorithmen anwenden, die trotz unterschiedlicher oder fehlerhafter Schreibweisen der einzelnen Adresselemente eine hohe Trefferquote ermöglicht. Allerdings darf die hohe Trefferquote nicht zu Lasten der Genauigkeit gehen. 

Die Genauigkeit (englisch Precision) drückt aus, wie groß der Anteil der Treffer ist, die ein Fachexperte als „gute“ Treffer (englisch true positives) akzeptieren würde. Die für eine hohe Trefferquote erforderliche Fehlertoleranz darf eben nicht dazu führen, dass Fehlzuordnungen (englisch false positives) erfolgen. Eine Fehlzuordnung führt im besten Fall dazu, dass eine Zuordnung nicht automatisiert erfolgen kann, weil neben dem richtigen Treffer noch weitere falsche Treffer und damit ein mehrdeutiges Ergebnis zurückgeliefert wird. Im schlimmsten Fall führt sie dazu, dass die Zuordnung zu einem falschen Ergebnis erfolgt, wenn zum Beispiel der richtige Treffer auf Grund von eingeschränkter Vollständigkeit oder Aktualität gar nicht in den Referenzdaten enthalten ist.

Die Performance drückt aus, wie schnell die Software vollständige und genaue Zuordnungen bereitstellen kann. Hier ist es sinnvoll, zwischen interaktiven Szenarien (Real-Time) und der Verarbeitung von Massendaten (Batch) zu unterscheiden. Während bei Real-Time-Szenarien eine schnelle Antwort für den einzelnen Datensatz benötigt wird, ist bei einem Batch-Szenario die Gesamtzeit relevant, die die Verarbeitung benötigt. Die erforderliche Performance ergibt sich aus den Anforderungen des Prozesses, in die das Geocoding integriert wird. 

Ausreichende Qualität der Geocoding-Lösung sicherstellen

Im Zweifelsfall geht auch hier probieren über studieren. Im ersten Schritt müssen die Anforderungen aus Sicht des Geschäftsprozesses definiert werden. Über eine Testverarbeitung oder eine Testinstallation sollte immer sichergestellt werden, dass die Qualität der Geocoding-Lösung, Software und Referenzdaten die Anforderungen tatsächlich erfüllt.

W. Eichhorn



Walter Eichhorn
Solution & Product Manager, Uniserv GmbH