• Alumni  
  • FacebookTwitterLinkedInXingGoogle+RSS
  • Länderseiten
 
 
 

Vom Hype zur Umsetzung - Checkliste für die Big-Data-Strategie

Andreas Dietze
Dr. Andreas Dietze ist Partner im Competence Center InfoCom
Großrechner, Desktop-Clients, Smartphones, Selbstbedienungsautomaten und eingebettete Systeme in Kraftfahrzeugen oder Flugzeugen – all diese Systeme erzeugen enorme Datenmengen, die wertvolle Informationen über Geschäftsprozesse, Produkte und Kunden enthalten. Obwohl günstige Infrastrukturen die Verarbeitung dieser Datenmengen ermöglichen, nutzen Unternehmen diese Informationen noch nicht systematisch, um sich Wettbewerbsvorteile zu verschaffen.

Einer der Hauptgründe: Die Datenverarbeitungsprinzipien haben sich nur wenig an die geänderten Rahmenbedingungen angepasst. Die heute in Unternehmen eingesetzten relationalen Datenbanken beruhen auf einem Modell, das bei Schreib- und Lesezugriffen absolut zuverlässig ist. Doch dieses Modell ist für große Datenmengen im Tera- oder sogar Petabyte-Bereich nicht ausgelegt. Derartige Systeme lassen sich nur durch die Erweiterung der Komponenten des Datenbankservers skalieren ("scale up"), wodurch sie in ihrer Größe begrenzt sind.
Big Data geht neue Wege

Big Data bricht mit dieser Tradition und etabliert ein neues Datenverarbeitungsprinzip, das voraussetzt, dass die vorhandene Datenbasis nur gelesen und nicht verändert wird. Die Verarbeitung wird dabei so aufgeteilt, dass die Infrastruktur flexibel an die Problemgröße angepasst werden kann ("scale out"). Google hat diesen Ansatz als Kern seiner Produktionsinfrastruktur unter dem Namen "MapReduce" entwickelt. Daraus entstand das populäre Open-Source-Projekt "Hadoop" – heute der Standard für die Big-Data-Technologie.

Die Vorteile dieser Technologie liegen auf der Hand: die Möglichkeit, große Datenvolumen (Petabyte-Bereich) zu verarbeiten, und die Flexibilität bei der Auswahl der Basis-Infrastruktur. Von der einfachen, kostengünstigen Commodity-Hardware bis hin zu einer Cloud-basierten Infrastruktur sind hier keine Grenzen gesetzt. So bieten zum Beispiel "Amazon Web Services" und in Kürze auch "Microsoft Azure" vorkonfigurierte Hadoop-Umgebungen an.
Curt Cramer
Curt Cramer ist Projektleiter und Co-Autor der Kolumne
Auch China Mobile, der größte chinesische Mobilfunkprovider hat eine Hadoop-basierte Lösung entwickelt, um etwa die Verbindungsdaten hinsichtlich des Nutzungsverhaltens und der Abwanderungswahrscheinlichkeit seiner Kunden zu analysieren. Diese Auswertungen unterstützen das Marketing und tragen zur Verbesserung der Netze und der Servicequalität bei. Denn die zuvor eingesetzte "scale up"-Lösung ermöglichte es dem Unternehmen, die Daten von nur etwa 10% der Kunden auszuwerten. Dank der Hadoop-basierten Lösung wurden zwei Ziele erreicht: Alle Verbindungsdaten konnten ausgewertet werden und zeitgleich konnte die Firma die Kosten senken. Durch den Einsatz der Commodity-Hardware kostete die neue Lösung etwa ein Fünftel der bisherigen Lösung – und das bei einer deutlich besseren Leistung.

Wenig Fallstudien erschweren die Big Data-Vermarktung

Trotz technologischer Vorteile haben sich Big Data-Ansätze noch nicht im Markt durchsetzen können. So geht das IT-Marktforschungsunternehmen Gartner davon aus, dass sich lediglich 20% der aktuellen Big Data-Initiativen im Implementierungsstadium befinden. Und im Jahr 2015 werden sich nur ca. 15% der Unternehmen auf die Verarbeitung großer Datenmengen eingestellt haben.

Eine der großen Hürden beim Markterfolg von Big Data sind die mangelnden Fallbeispiele aus verschiedenen Bereichen – Big Data ist für die meisten nicht genug greifbar. Es fehlen konkrete Anwendungsbeispiele, die den Mehrwert dieser Technologie tatsächlich belegen. Dennoch haben einige Unternehmen und Institutionen bereits angekündigt, verstärkt auf Big Data setzen zu wollen:
  • Das New York Presbyterian Hospital hat durch die systematische Auswertung von Patientengeschichten die Anzahl tödlicher Thrombosefälle um 25% gesenkt (Quelle: Hortonworks).
  • Das Los Angeles Police Department hat in einem Pilotprojekt eine "Predictive Policing"-Lösung eingesetzt. Dadurch konnte die Polizei Verbrechensschauplätze und –zeitpunkt im Vorfeld genauer identifizieren (Quelle: Cloudera).
  • Das Speditionsunternehmen US Xpress spart durch die Auswertung von Sensor- und Geodaten seiner LKW-Flotte jährlich mehrere Millionen Dollar. Geringerere Leerlaufzeiten und der reduzierte Treibstoffverbrauch tragen zu diesen Einsparungen bei (Quelle: Informatica).
  • Der Finanzdienstleister JP Morgan Chase setzt Hadoop seit rund drei Jahren für Betrugserkennung und für IT-Risikomanagement ein (Quelle: JP Morgan Chase).
  • Der Einzelhändler Sears kann durch Hadoop die Preiselastizität seiner Produkte wöchentlich analysieren. Dabei werden etwa Produktverfügbarkeit und Konkurrenzpreise unter die Lupe genommen. Zuvor konnte das Unternehmen nur 10% der verfügbaren Daten dafür nutzen; die Berechnungen dauerten ca. acht Wochen (Quelle: Wall Street Journal).
Der IT-Lösungsmarkt für Big Data ist im Frühstadium

Eine weitere Hürde auf dem Weg zum Big Data-Erfolg stellt die aktuelle Marktlage für entsprechende IT-Lösungen dar. Mehrere Dienstleister bieten momentan Lösungen auf Hadoop-Basis. Dazu gehören Firmen wie Cloudera, Hortonworks, Datameer und HStreaming, aber auch große Namen wie IBM und EMC.

Doch die Anbieter stoßen alle an eine wichtige Grenze: Keiner besitzt standardisierte Industrielösungen, die sich schnell an die Kundenbedürfnisse anpassen lassen. Oft müssen diese Lösungen erst in gemeinsamen Kundenprojekten entwickelt werden, da sich die Anbieter auf die Anpassung der Basis-Technologien rund um Hadoop spezialisiert haben.
IT- und Fachbereiche im Unternehmen sind noch nicht auf Big Data ausgerichtet

Um einen Big Data-Ansatz umzusetzen, müssen die IT-Experten des Unternehmens andere Fähigkeiten besitzen, als für Systeme, die eine Datenverarbeitung nach heutigen Standards unterstützen. Dabei sind drei Aspekte besonders relevant: die Datenanalyse, die Datenvisualisierung und die technischen Fähigkeiten.
 
Das Big-Data-Modell unterscheidet sich grundlegend von dem etablierten relationalen Datenmodell
 
Eine Datenverarbeitungsaufgabe umfasst normalerweise eine Analyse in Form einer Standardabfrage in ausgereiften und nutzerfreundlichen BI-Programmen und eines anschließenden Standardberichts. Für eine Big Data-Anwendung muss der Analyst zunächst die Datenquellen bestimmen und so aufbereiten, dass sie automatisiert weiterverarbeitet werden können. Der Analyst muss daher Säuberungsregeln, Datenformate und die wichtigsten Kenngrößen unter den vielen Datenquellen im Vorfeld festlegen. Dieser explorative Ansatz unterscheidet sich von dem heute üblichen, standardisierten Vorgehen.

Die Visualisierung spielt hierbei eine besondere Rolle: Berichte helfen heute, Analyseergebnisse in einheitlicher Form an die Entscheider zu kommunizieren. Bei der Entwicklung einer Big Data-Anwendung greift aber der Analyst nicht auf standardisierte Berichte zurück, sondern nutzt die Visualisierung als Hilfsmittel, um statistische Muster und Verläufe schnell erkennen zu können. Erst im nächsten Schritt kann er dem Kunden durch Standardberichte Fakten präsentieren, die aus verschiedenen Datenquellen zusammengesetzt sind.

Für einen Hadoop-basierten Analyseansatz benötigen die Experten aber gute Kenntnisse des Frameworks selbst sowie angrenzender Technologien (HDFS, HBase, Hive, Mahout). Diese Fähigkeiten sind jedoch nicht nur für die Analyse erforderlich, sondern auch schon im Vorfeld, um die Big Data-Ansätze zu bewerten. Unternehmen können heute intern nicht auf die entsprechenden Ressourcen zurückgreifen. Denn die notwendigen Technologien wurden nicht von den führenden Datenbankherstellern entwickelt; Unternehmensmitarbeiter kennen sich dementsprechend nicht damit aus. CIOs sollten daher entsprechende Innovationsimpulse sowohl in ihren IT-Bereich als auch in die Fachbereiche geben.

Schritt für Schritt zur Big Data-Strategie

Unabhängig von der heutigen Verfügbarkeit von Out-of-the-Box-Lösungen müssen Unternehmen frühzeitig eine Strategie entwickeln, um ihre Daten sinnvoll zu nutzen. Eine "Data Due Diligence" hilft dabei, die wesentlichen strategischen Fragen zu beantworten.

Eine Checkliste:
  • Welche Herausforderungen soll die Datennutzung lösen?
  • Warum sollen diese Herausforderungen gelöst werden? Wie sieht der Business-Case aus?
  • Welche Daten benötigt das Unternehmen dafür?
  • Welche Daten liegen heute in welchen Systemen vor? Ist der Detailgrad ausreichend?
  • Welche der erforderlichen Daten werden heute noch nicht systematisch erfasst?
  • Können die fehlenden Daten als Nebenprodukt bestehender Prozesse erzeugt werden? Oder sind neue Erfassungswege dafür erforderlich?
Entsprechend lassen sich dann die wichtigsten Eckpunkte einer Infrastrukturstrategie definieren. Diese umfasst mehrere Aspekte:
  • Daten-Infrastruktur/-Architektur:

    Das Unternehmen muss festlegen, welche Systeme für die jeweiligen Datensätze in Zukunft führend sein werden, wenn dies aktuell noch nicht definiert ist.
  • Software-Infrastruktur:

    Unternehmen müssen die Mittel für die Datenanalysen festlegen. Normalerweise geht es dabei um etablierte BI-Werkzeuge, die Standard-Reports aus den vorhandenen Daten erstellen können. Im Falle eines Big Data-Ansatzes besteht diese Software-Infrastruktur aus einer Big Data-Plattform wie Hadoop, Konnektoren zu den relevanten Datenquellen in der Daten-Architektur sowie Analyse-Tools wie "Hive" für Data Warehousing, "Mahout" für Machine Learning oder "Pig" als interaktive Shell.
  • Technische Infrastruktur:

    Hier geht es um die technische Infrastruktur für die Umsetzung des Big Data-Ansatzes. Für das Unternehmen heißt es: eine klassische "Make or Buy"-Entscheidung. Wenn Analysen nur einmalig erfolgen bzw. große Schwankungen im Datenvolumen oder in der Analysenachfrage bestehen, dann lohnt sich eher, auf Cloud-basierte Infrastrukturen zurückzugreifen, als in eine eigene Hardware zu investieren. Aufschluss darüber liefert der in der "Data Due Diligence" entwickelte Business Case.
Unternehmen sollten daher zuerst eine umfassende Bestandsaufnahme im Rahmen einer "Data Due Diligence" erstellen. Dabei können sie wirtschaftlich sinnvolle Ansätze identifizieren, die Technologiefrage klären und dann erste Schritte für eine Pilotumsetzung in die Wege leiten.
21.09.2012
Top

Checkliste für die Big-Data-Strategie

Besuchen Sie unser Buch "Data Unser - Wie Kundendatend die Wirtschaft revolutionieren" auf Facebook.  

In Data We Trust

More news