Einsatz von Data Lake als Big Data-Plattform für ein optimales Datenmanagement

Unternehmen stehen vor dem Hintergrund steigender Datenmengen, der erhöhten Geschwindigkeit, vielfältigster Datenformate sowie regulatorischer Anforderungen in Bezug auf ihr Datenmanagement vor großen Herausforderungen. Gleichzeitig ist es aber gerade der intelligente Umgang mit Big Data, der heute den Geschäftserfolg maßgeblich erhöhen kann. So müssen Unternehmen in der Lage sein, relevante Zusammenhänge zwischen internen und externen Daten zu erkennen, um daraus wichtige Erkenntnisse zu schließen. Auf Grundlage dieser können dann fundierte Entscheidungen getroffen, Geschäftsprozesse optimiert und Wettbewerbsvorteile geschaffen werden. Aufgrund der oben genannten Herausforderungen stoßen die bis dato etablierten Systeme (z.B. Data Warehouse) jedoch an Ihre technischen und organisatorischen Grenzen.

Hier kommt ein sogenannter Data Lake ins Spiel. Doch was ist das eigentlich genau? Ein Data Lake ermöglicht es, Daten aus den unterschiedlichsten Quellen im Rohformat sowie strukturiert als auch unstrukturiert zu speichern, weiterzuverarbeiten, zu analysieren und unternehmensweit unter dem Aspekt des Datenschutzes verfügbar zu machen. 

Als Bestandteil einer Data Analytics-Plattform trägt er als zentralisierte Sammelstelle von internen und externen Daten dazu bei, anspruchsvolle Analysen (Advanced Analytics) im Kontext von Data Science zu liefern und einen schnellen und flexiblen Zugriff zu ermöglichen. Hierauf greifen auch Mechanismen zum Machine Learning, Big Data Processing und der Visualisierung zu. Im Ergebnis wird dem Wunsch der Fachabteilungen nach immer komplexeren Analysen in Echtzeit auf Basis verschiedener Datenquellen und Datenformaten nachgekommen.

Dabei zeichnet sich die Big Data-Technologie konkret durch folgende Aspekte aus:

  • Verarbeitung sämtlicher Datenformate
  • Kostengünstige Speicherung von großen Datenmengen
  • Real-Time- und Batchverarbeitung
  • Verteilte Verarbeitung und verteiltes Rechnen
  • Hohe Skalierbarkeit
  • Integration, Analyse und Auswertung von unstrukturierten Datenquellen
  • Advanced Analytics auf Daten jeglicher Art

Mit uns Schritt für Schritt zur Big Data Plattform

Wir unterstützen Sie beim schrittweisen Aufbau und Einsatz einer Big Data-Plattform in Form eines Data Lakes, damit Sie mit Big Data wettbewerbsfähig bleiben. So können Sie auch zukünftig die Echtzeit-Verarbeitung von großen Datenmengen in semi- und unstrukturierter Form auf besonders effiziente Weise bewältigen. Darüber hinaus ermöglichen wir Ihnen damit zur Nutzung der klassisches Business Intelligence und Big Data Analysen den problemlosen Zugriff auf externe Daten, indem diese automatisiert in den Data Lake integrieret werden. Viele Daten können in der Data Science ihr volles Potential nämlich erst dann ausschöpfen, wenn diese in Verbindung mit anderen Daten gebracht werden.

Wir unterstützen Sie bei Bedarf auch dabei, Data Warehouse-Anforderungen im Data Lake umsetzen. Bei solchen Anforderungen stehen grundsätzlich zwei Szenarien zur Verfügung.

1.     Data Warehouse im Data Lake

2.     Hybrid, d.h. Verknüpfung von Data Warehouse und Data Lake

Dank der gestiegenen Popularität haben sich Big Data-Technologien rasch weiterentwickelt, sodass bei nicht Vorhandensein eines Data Warehouse nicht zwingend darauf zurückgegriffen werden muss. So stellt die Umsetzung von z.B. einer SCD2-Logik (Slowly Changing Dimension) im Data Lake keine Hürde mehr dar. Daher verwundert es nicht, dass sich aufgrund der flexiblen und schnellen Integration von Daten eine Big Data-Plattform bzw. ein Data Lake perfekt als Datendrehscheibe im Unternehmen eignet. Unsere Erfahrung zeigt, dass auch Unternehmen mit geringeren Anforderungen und kleinen Datenmengen die Datenverarbeitung mit einer Big Data Plattform bzw. einem Data Lake nicht scheuen. So können auch mit verhältnismäßig kleinen Datenmengen bereits neue Erkenntnisse gewonnen und damit konkrete Mehrwerte generiert werden.

Ob nun große oder kleine Datenmengen, ob Echtzeit oder Batch, beim Aufbauen einer solchen Plattform berücksichtigen wir vor dem Hintergrund Ihrer individuellen Anforderungen und Gegebenheiten stets die folgenden wichtigen Aspekte:

  • Generischer Aufbau
  • Automatisierung der Datenintegration
  • IT-Sicherheit
  • Metadaten
  • Cloud vs. On-Premise
  • Datenqualität
  • Benutzerfreundlicher Zugriff auf Daten
  • Flexible Analysemöglichkeiten

Lassen Sie sich also von den bevorstehenden Herausforderungen nicht bremsen und bauen Sie mit uns Ihre gewinnsteigernde Big Data Plattform zur optimalen Nutzung Ihrer Daten Schritt für Schritt auf!

Nutzen Sie die Vorteile einer Big Data Plattform in der Cloud

Wir begleiten Kunden zudem häufig beim Aufbau einer Big Data-Plattform in der Cloud. Die Cloud hilft dabei, schnell und ohne hohe Investitionskosten für Infrastruktur erste Machbarkeitsanalysen (sogenannte Proof of Concepts) durchzuführen. Erste Erkenntnisse und Mehrwerte können so innerhalb weniger Wochen erzielt und nächste Schritte abgeleitet werden. Viele Cloud-Anbieter haben ein großes Spektrum an Services. Sie können sich z.B. ein „fertiges“ Big Data Cluster in der Cloud mieten und in kürzester Zeit ohne eigene Hardware vom Nutzen profitieren. Dabei können sowohl erste Gehversuche aber auch produktive Big Data Cluster in der Cloud realisiert werden. Aspekte wie IT-Sicherheit, generische Datenintegration sowie die Skalierbarkeit spielen dabei in der Cloud ebenso wie „on-premise“ eine wichtige Rolle und dürfen bei der Umsetzung in der Cloud nicht fehlen. In puncto „Skalierbarkeit“ bietet die Cloud einen weiteren großen Vorteil. Bei Bedarf können in nur wenigen „Klicks“ weitere Ressourcen manuell oder dynamisch dem Cluster hinzugefügt werden, sodass die Datenintegration sowie die darauf basierenden Advanced Analytics Anwendungsfälle (Use Case) zu jeder Zeit den Anforderungen gerecht werden.

Nutzen Sie Möglichkeit, sich auf die Verarbeitung sowie die Analyse der Daten zu konzentrieren und so schnell erste Erfolge zu erzielen!

Vorteile eines Data Lakes / einer Big Data-Plattform im Überblick

Der Einsatz einer Big Data-Plattform schafft eine Datendrehscheibe im Unternehmen, die zu einem Vorreiter in der intelligenten Nutzung von Daten werden lässt. Profitieren Sie von den konkreten Vorteilen:

  • Echtzeit- und Batchverarbeitung
  • Umsetzen von Data Warehouse Anforderungen im Data Lake
  • Integration, Analyse und Auswertung von unstrukturierten Datenquellen
  • Automatisierte Datenintegration auf Basis von Metadaten
  • Schnelle Bereitstellung von Daten
  • Ermöglichen von Advanced Analytics
  • Verkürzung von Implementierungszeiten (Time-to-Market)

Top Referenz

Top Referenz

Kundensegmentierung im Einzelhandel: Aufbau eines Data Lake in der Cloud, Einsatz von Data Science

Das Ziel unseres Kunden aus der Lebensmittel-Großhandel-Branche bestand im Rahmen dieses Projektes darin, mehr über seine Kunden zu erfahren, um auf Grund optimierter Vertriebs- und Marketingaktivitäten höheren Umsatz zu generieren. In der Ausgangssituation bestand ein Oracle Data Warehouse, jedoch kein Data Lake. Die große Herausforderung bestand darin, wenige vorliegende Informationen zu Kunden in den eigenen Datentöpfen durch externe Daten anzureichern. Im ersten Schritt haben wir daher zunächst einen Data Lake in der Cloud aufgebaut. Im nächsten Schritt konnten dann mittels Data Science in Hinblick auf die Kundenbedürfnisse umfangreiche relevante Informationen aus den Daten gezogen und entsprechende Maßnahmen abgeleitet werden.

Ansprechpartner

Ralf Böhme

Ralf Böhme

Bereichsleiter Analytics