Einsatz von Data Lake als Big-Data-Plattform für ein optimales Datenmanagement

Unternehmen stehen vor dem Hintergrund steigender Datenmengen, der erhöhten Geschwindigkeit, vielfältigster Datenformate sowie regulatorischer Anforderungen in Bezug auf ihr Datenmanagement vor großen Herausforderungen. Gleichzeitig ist es gerade der intelligente Umgang mit Big Data, der heute den Geschäftserfolg maßgeblich erhöhen kann. So müssen Unternehmen in der Lage sein, relevante Zusammenhänge zwischen internen und externen Daten zu erkennen, um daraus wichtige Erkenntnisse zu schließen. Auf Grundlage dieser können dann fundierte Entscheidungen getroffen, Geschäftsprozesse optimiert und Wettbewerbsvorteile geschaffen werden. Aufgrund der Herausforderungen stoßen die bis dato etablierten Systeme (wie Data Warehouse) jedoch an Ihre technischen und organisatorischen Grenzen.

Hier kommt ein sogenannter Data Lake ins Spiel. Doch was ist das eigentlich genau? Ein Data Lake ermöglicht es, Daten aus den unterschiedlichsten Quellen im Rohformat sowie strukturiert als auch unstrukturiert zu speichern, weiterzuverarbeiten, zu analysieren und unternehmensweit unter dem Aspekt des Datenschutzes verfügbar zu machen. 

Als Bestandteil einer Data-Analytics-Plattform trägt er als zentralisierte Sammelstelle von internen und externen Daten dazu bei, anspruchsvolle Analysen (Advanced Analytics) im Kontext von Data Science zu liefern und einen schnellen und flexiblen Zugriff zu ermöglichen. Hierauf greifen auch Mechanismen zum Machine Learning, Big Data Processing und der Visualisierung zu. Im Ergebnis wird dem Wunsch der Fachabteilungen nach immer komplexeren Analysen in Echtzeit auf Basis verschiedener Datenquellen und -formaten nachgekommen.

Dabei zeichnet sich die Big-Data-Technologie konkret durch folgende Aspekte aus:

  • Verarbeitung sämtlicher Datenformate
  • Kostengünstige Speicherung von großen Datenmengen
  • Real-Time- und Batchverarbeitung
  • Verteilte Verarbeitung und verteiltes Rechnen
  • Hohe Skalierbarkeit
  • Integration, Analyse und Auswertung von unstrukturierten Datenquellen
  • Advanced Analytics auf Daten jeglicher Art

Mit uns Schritt für Schritt zur Big-Data-Plattform

Bleiben Sie mit Big Data wettbewerbsfähig: Wir unterstützen Sie beim schrittweisen Aufbau und Einsatz einer Big-Data-Plattform in Form eines Data Lakes. So können Sie auch zukünftig die Echtzeit-Verarbeitung von großen Datenmengen in semi- und unstrukturierter Form auf besonders effiziente Weise bewältigen. Darüber hinaus ermöglichen wir Ihnen damit zur Nutzung der klassisches Business Intelligence und Big-Data-Analysen den problemlosen Zugriff auf externe Daten, indem diese automatisiert in den Data Lake integrieret werden. Viele Daten können in der Data Science ihr volles Potential nämlich erst in Verbindung mit anderen Daten ausschöpfen.

Wir unterstützen Sie bei Bedarf dabei, Data-Warehouse-Anforderungen im Data Lake umsetzen. Bei solchen Anforderungen stehen grundsätzlich zwei Szenarien zur Verfügung.

1.     Data Warehouse im Data Lake

2.     Hybrid, das heißt Verknüpfung von Data Warehouse und Data Lake

Dank der gestiegenen Popularität haben sich Big-Data-Technologien rasch weiterentwickelt, sodass bei nicht Vorhandensein eines Data Warehouse nicht zwingend darauf zurückgegriffen werden muss. So stellt die Umsetzung zum Beispiel einer SCD2-Logik (Slowly Changing Dimension) im Data Lake keine Hürde mehr dar. Daher verwundert es nicht, dass sich aufgrund der flexiblen und schnellen Integration von Daten eine Big-Data-Plattform oder ein Data Lake perfekt als Datendrehscheibe im Unternehmen eignet. Unsere Erfahrung zeigt, dass auch Unternehmen mit geringeren Anforderungen und kleinen Datenmengen die Verarbeitung mit einer Big-Data-Plattform oder einem Data Lake nicht scheuen. So können auch mit verhältnismäßig kleinen Datenmengen bereits neue Erkenntnisse gewonnen und konkrete Mehrwerte generiert werden.

Ob nun große oder kleine Datenmengen, ob Echtzeit oder Batch: Beim Aufbauen einer solchen Plattform berücksichtigen wir vor dem Hintergrund Ihrer individuellen Anforderungen und Gegebenheiten stets die folgenden Aspekte:

  • Generischer Aufbau
  • Automatisierung der Datenintegration
  • IT-Sicherheit
  • Metadaten
  • Cloud vs. On-Premise
  • Datenqualität
  • Nutzungsfreundlicher Zugriff auf Daten
  • Flexible Analysemöglichkeiten

Lassen Sie sich von den bevorstehenden Herausforderungen nicht bremsen und bauen Sie mit uns Ihre gewinnsteigernde Big-Data-Plattform zur optimalen Nutzung Ihrer Daten Schritt für Schritt auf!

Nutzen Sie die Vorteile einer Big-Data-Plattform in der Cloud

Wir begleiten Unternehmen zudem häufig beim Aufbau einer Big-Data-Plattform in der Cloud. Die Cloud hilft dabei, schnell und ohne hohe Investitionskosten für Infrastruktur erste Machbarkeitsanalysen (sogenannte Proof of Concepts) durchzuführen. Erste Erkenntnisse und Mehrwerte können so innerhalb weniger Wochen erzielt und nächste Schritte abgeleitet werden. Viele Cloud-Anbieter haben ein großes Spektrum an Services. So können Sie sich ein „fertiges“ Big Data Cluster in der Cloud mieten und in kürzester Zeit ohne eigene Hardware vom Nutzen profitieren. Dabei können sowohl erste Gehversuche aber auch produktive Big Data Cluster in der Cloud realisiert werden. Aspekte wie IT-Sicherheit, generische Datenintegration sowie die Skalierbarkeit spielen in der Cloud ebenso wie on-premise eine wichtige Rolle und dürfen bei der Umsetzung in der Cloud nicht fehlen. In puncto Skalierbarkeit bietet die Cloud einen weiteren großen Vorteil. Bei Bedarf können mit nur wenigen Klicks weitere Ressourcen manuell oder dynamisch dem Cluster hinzugefügt werden, sodass die Datenintegration sowie die darauf basierenden Advanced-Analytics-Anwendungsfälle (Use Case) zu jeder Zeit den Anforderungen gerecht werden.

Nutzen Sie die Möglichkeit, sich auf die Verarbeitung sowie die Analyse der Daten zu konzentrieren und schnell erste Erfolge zu erzielen!

Vorteile eines Data Lakes / einer Big-Data-Plattform im Überblick

Der Einsatz einer Big Data-Plattform schafft eine Datendrehscheibe im Unternehmen, die es zu einem Vorreiter in der intelligenten Nutzung von Daten werden lässt. Profitieren Sie von den konkreten Vorteilen:

  • Echtzeit- und Batchverarbeitung
  • Umsetzen von Data-Warehouse-Anforderungen im Data Lake
  • Integration, Analyse und Auswertung von unstrukturierten Datenquellen
  • Automatisierte Datenintegration auf Basis von Metadaten
  • Schnelle Bereitstellung von Daten
  • Ermöglichen von Advanced Analytics
  • Verkürzung von Implementierungszeiten (Time-to-Market)

Top-Referenz

Top Referenz

Kundensegmentierung im Einzelhandel: Aufbau eines Data Lake in der Cloud, Einsatz von Data Science

Das Ziel unseres Kunden aus der Lebensmittel-Großhandel-Branche bestand im Rahmen dieses Projektes darin, mehr über seine Kundschaft zu erfahren, um auf Grund optimierter Vertriebs- und Marketingaktivitäten höheren Umsatz zu generieren. In der Ausgangssituation bestand ein Oracle Data Warehouse, jedoch kein Data Lake. Die große Herausforderung bestand darin, wenige vorliegende Informationen zur Kundschaft in den eigenen Datentöpfen durch externe Daten anzureichern. Im ersten Schritt haben wir daher einen Data Lake in der Cloud aufgebaut. Anschließend konnten mittels Data Science in Hinblick auf die Bedürfnisse der Kundschaft umfangreiche relevante Informationen aus den Daten gezogen und entsprechende Maßnahmen abgeleitet werden.

Ansprechpartner

Ralf Böhme

Ralf Böhme

Bereichsleiter Analytics