• Data Lake - Ein See voller Daten

    Manche nennen Google die allwissende Müllhalde. Ganz schön despektierlich für die vielleicht beste Suchmaschine, die die Welt je gesehen hat. Tatsächlich macht aber genau das die Qualität einer hervorragenden Datenquelle aus: Vermeintlich irrelevante Daten entpuppen sich später als elementare Faktoren. Genau das ist der Unterschied zwischen einem Data Lake und einem Data Warehouse.

     
    X

Erfassung, Speicherung und Interpretation von Informationen im Data Lake

Rohdaten

Aufnahme der Rohdaten

Im Gegen­satz zum Data Ware­house weiß man im Data Lake zum Zeit­punkt der Erfas­sung noch nicht, welche Daten man hinter­her ge­nau be­nötigt. Ent­spre­chend groß ist die Daten­menge und ent­spre­chend wich­tig ist eine ein­fache und un­kom­plizier­te Er­fas­sung ver­schie­den­ster Daten­formate. Eine Sche­ma-ag­nos­tische Spei­cher­ung ist zum Zeit­punkt der Er­fas­sung also sinn­voll.

Data Lake

Speicherung im Daten-See

In kurzer Zeit kön­nen da­durch er­heb­liche Daten­meng­en anfallen: Der Data Lake. Er ist die sprich­wört­liche Quel­le spä­ter­er Ana­lysen. Um ste­tig stei­gen­dem Platz­bedarf ge­wachs­en zu sein, müs­sen ska­lier­bare Spei­cher- und Daten­bank­lösung­en zum Ein­satz kom­men, die mit Ih­ren An­for­der­ung­en wach­sen kön­nen.

Analyse

Interpretation auf Abruf

Der Vor­teil zum klas­sisch­en Data Ware­house: Sie kön­nen den auf­wen­di­gen Teil der Da­ten­ana­lyse auf ei­nen Zeit­punkt ver­schie­ben, an dem sie ihn tat­säch­lich be­nö­ti­gen. Sie müs­sen nicht heu­te ent­schei­den, wel­che Da­ten Sie in drei Mo­na­ten oder zwei Jah­ren be­nö­ti­gen, son­dern kön­nen Aus­wert­ung­en ziel­genau nach Be­darf an­fertig­en.

 

 

Offene Lösung für maximale Investitionssicherheit

Eine Herausforderung beim Aufbau eines Data-Lakes ist das Vermeiden eines Vendor-LockIns, also der Abhängigkeit von einem Dienstleister oder Hersteller: Die Initialkosten für das Aufsetzen des Systems sind oft überschaubar - über Zeit werden jedoch immer mehr Anforderungen gestellt und durch individuelle Erweiterungen gelöst. Je länger das System in Betrieb ist, umso höher ist auch sein Wert - sowohl in Form der darin enthaltenen Daten, als auch im Bezug auf die Arbeitsstunden, die in die Anbindung von Datenquellen und die Datenanalyse geflossen sind.

Das ist in Ordnung, so lange sie mit Ihrem Dienstleister und dem Hersteller dieser Lösung zufrieden sind. Sollte dies irgendwann nicht mehr der Fall sein, müssen Sie die Flexibilität haben mit ihrem bestehenden System zu einem anderen Anbieter wechseln zu können, um Ihre dann meist schon umfangreiche Investition abzusichern. Diese Unabhängigkeit ist nur dann gewährleistet, wenn Sie konsequent auf quelloffene Systeme wie den Komponenten des SMACK-Stack (Spark, Mesos, Akka, Cassandra und Kafka) oder den Freien Varianten der elastic-Software (z.B. ElasticSearch, Logstash, Kibana) setzen. Und auf Dienstleister, die diese implementieren - wie die ESONO AG.

Kontaktieren Sie uns für weitere Informationen zum Aufbau eines Data-Lakes, für den wir verschiedene Umsetzungskonzepte vom Mid-Range bis zum Enterprise-Segment anbieten.