Hausarbeiten logo
Shop
Shop
Tutorials
En De
Shop
Tutorials
  • How to find your topic
  • How to research effectively
  • How to structure an academic paper
  • How to cite correctly
  • How to format in Word
Trends
FAQ
Go to shop › Computer Science - Internet, New Technologies

Data Lake. Grundlagen, Aufbau und Funktionsweise

Title: Data Lake. Grundlagen, Aufbau und Funktionsweise

Term Paper , 2022 , 26 Pages , Grade: 1,2

Autor:in: Dennis Hodapp (Author)

Computer Science - Internet, New Technologies

Excerpt & Details   Look inside the ebook
Summary Excerpt Details

In der vorliegenden Arbeit soll eruiert werden, was allgemeinhin unter Data Lake verstanden wird. Der Aufbau eines Data Lake, sowie die grundlegende Funktionsweise und Konzepte sollen zusammengefasst und erläutert werden.

Der Begriff Data Lake (Datensee) wurde 2010 geprägt. In diesem Jahr wurde in einer Metapher der Data Mart (Datenmarkt) als Getränkemarkt beschrieben, in welchem das Wasser gereinigt, verpackt und strukturiert wird, zugunsten einfachen Konsums. Hingegen soll der Data Lake ein großes natürliches Gewässer sein, denn die Inhalte werden in Strömen (streams) von der Quelle (source) in den See gespült. Nutzer können hier Daten prüfen, Datenproben nehmen oder in die Daten eintauchen. Durch die Natürlichkeit und Größe des Gewässers ist der Datenkonsum weniger praktisch als beim Data Mart.
Auch wenn diese Erklärung wenig technisch ist und durchaus Lücken aufweist, hilft dieses neue Konzept IT-Abteilungen vieler Unternehmen, große heterogene Datenmengen zu unterhalten. Stetig wird dieses Unterfangen herausfordernder, denn das Volumen der Datenmenge, welche sich auf den Bereich Big Data bezieht, wird für 2021 auf 403 Exabyte prognostiziert. Dies ist eine Steigerung von 225% gegenüber 2018 und 790% gegenüber 2016. Im Kontext von Big Data geht es den Firmen darum, große Mengen an verschiedenartigen Daten zu speichern und Erkenntnisse (Insights) daraus zu extrahieren, um das Unternehmen in der Entscheidungsfindung und Wertschöpfung zu unterstützen. Dieses neue Konzept eines Systems zu Datenspeicherung, welches speziell auf auf die Herausforderungen im Big Data Bereich ausgelegt wurde, ist der Data Lake.
Mit diesem System sollen Daten des gesamten Unternehmens in jedem Format gespeichert und verwaltet werden. Doch die Gestaltung eines Data Lake ist nicht trivial. Denn genau wie die zuvor genannte Metapher als lückenhaft beschrieben wurde, können u.a. widersprüchliche Definitionen, sowie fehlende oder unscharfe Konzepte zu Verzögerungen oder Rückschläge in der praktischen Umsetzung des Data Lake führen.

Excerpt


Inhaltsverzeichnis

  • 1 Einleitung
    • 1.1 Einführung in die Thematik
    • 1.2 Problemstellung und Zielsetzung
    • 1.3 Methodischer Aufbau der Arbeit
  • 2 Begriffsdefinitionen
    • 2.1 Prinzip der Trennung der Verantwortlichkeiten
    • 2.2 Datensilo
    • 2.3 Daten
    • 2.4 NoSQL
    • 2.5 Data Scientist
    • 2.6 Data Swamp
  • 3 Data Warehouse
    • 3.1 Grundlagen
      • 3.1.1 Konzept von Data Warehouse und Data Mart
      • 3.1.2 Extract-Transform-Load und Schema on write
  • 4 Data Lake
    • 4.1 Grundlagen
      • 4.1.1 Konzept
      • 4.1.2 Anforderung
      • 4.1.3 Data Lake Technologien
      • 4.1.4 Extract-Load-Transform und Schema on read
    • 4.2 Funktionsweise
      • 4.2.1 Zonen
      • 4.2.2 Data Ponds
    • 4.3 Aufbau
      • 4.3.1 Lambda Architektur
      • 4.3.2 Speicher
      • 4.3.3 Datenaufnahme
      • 4.3.4 Datenverarbeitung
      • 4.3.5 Metadatenmanagement
      • 4.3.6 Data Governance
  • 5 Schluss
    • 5.1 Grenzen
    • 5.2 Zusammenfassung
    • 5.3 Ausblick

Zielsetzung und Themenschwerpunkte

Diese Hausarbeit befasst sich mit Data Lakes. Ziel ist es, die Grundlagen, den Aufbau und die Funktionsweise von Data Lakes zu erläutern und zu analysieren. Die Arbeit soll ein umfassendes Verständnis dieser Technologie vermitteln.

  • Grundlagen und Konzepte von Data Lakes
  • Vergleich mit Data Warehouses
  • Architektur und Aufbau von Data Lakes
  • Funktionsweise und Prozesse in Data Lakes
  • Herausforderungen und Grenzen von Data Lakes

Zusammenfassung der Kapitel

1 Einleitung: Dieses Kapitel führt in die Thematik der Data Lakes ein, beschreibt die Problemstellung und die Zielsetzung der Arbeit sowie den methodischen Aufbau.

2 Begriffsdefinitionen: Hier werden wichtige Begriffe wie "Prinzip der Trennung der Verantwortlichkeiten", "Datensilo", "Data Scientist" und "Data Swamp" im Kontext von Data Lakes definiert und erläutert, um ein gemeinsames Verständnis der Terminologie zu schaffen und Missverständnisse zu vermeiden. Der Fokus liegt auf der Abgrenzung dieser Konzepte zueinander und ihrer Relevanz für das Verständnis von Data Lakes.

3 Data Warehouse: Dieses Kapitel beschreibt die Grundlagen von Data Warehouses, insbesondere das Konzept von Data Warehouse und Data Mart sowie den ETL-Prozess (Extract-Transform-Load) und das Schema on write Prinzip. Der Vergleich mit Data Lakes wird implizit vorbereitet.

4 Data Lake: Der Hauptteil der Arbeit widmet sich den Data Lakes. Es werden die Grundlagen, die Funktionsweise und der Aufbau detailliert erläutert. Dies beinhaltet das Konzept, die Anforderungen, verschiedene Technologien, den ELT-Prozess (Extract-Load-Transform) und das Schema on read Prinzip. Die Kapitel behandeln die Architektur (insbesondere die Lambda-Architektur), Speicheraspekte, Datenaufnahme, Datenverarbeitung, Metadatenmanagement und Data Governance. Die einzelnen Abschnitte beleuchten die unterschiedlichen Facetten von Data Lakes und deren Interaktionen.

Schlüsselwörter

Data Lake, Data Warehouse, Big Data, ELT, ETL, Lambda-Architektur, Schema on Read, Schema on Write, Datenintegration, Datenmanagement, Data Governance, Metadatenmanagement, Datensilo, NoSQL.

Häufig gestellte Fragen

Was ist das Thema dieser Arbeit?

Diese Hausarbeit befasst sich mit Data Lakes und deren Grundlagen, Aufbau und Funktionsweise. Ziel ist es, ein umfassendes Verständnis dieser Technologie zu vermitteln.

Welche Themen werden in der Arbeit behandelt?

Die Arbeit behandelt folgende Themen:

  • Grundlagen und Konzepte von Data Lakes
  • Vergleich mit Data Warehouses
  • Architektur und Aufbau von Data Lakes
  • Funktionsweise und Prozesse in Data Lakes
  • Herausforderungen und Grenzen von Data Lakes

Was ist ein Data Lake?

Die Arbeit erläutert die Grundlagen, die Funktionsweise und den Aufbau eines Data Lakes detailliert. Dies beinhaltet das Konzept, die Anforderungen, verschiedene Technologien, den ELT-Prozess (Extract-Load-Transform) und das Schema on read Prinzip.

Wie unterscheidet sich ein Data Lake von einem Data Warehouse?

Die Arbeit vergleicht Data Lakes mit Data Warehouses, insbesondere hinsichtlich des ETL-Prozesses (Extract-Transform-Load) und des Schema on write Prinzips bei Data Warehouses, im Gegensatz zum ELT-Prozess (Extract-Load-Transform) und dem Schema on read Prinzip bei Data Lakes.

Welche Architekturen werden im Zusammenhang mit Data Lakes behandelt?

Die Arbeit behandelt insbesondere die Lambda-Architektur im Zusammenhang mit Data Lakes.

Welche wichtigen Begriffe werden in der Arbeit definiert?

Die Arbeit definiert Begriffe wie "Prinzip der Trennung der Verantwortlichkeiten", "Datensilo", "Data Scientist", "Data Swamp", "Data Warehouse", "Data Mart", "Big Data", "ELT", "ETL", "Lambda-Architektur", "Schema on Read", "Schema on Write", "Datenintegration", "Datenmanagement", "Data Governance" und "Metadatenmanagement".

Welche Kapitel sind in der Arbeit enthalten?

Die Arbeit gliedert sich in folgende Kapitel:

  • Einleitung
  • Begriffsdefinitionen
  • Data Warehouse
  • Data Lake
  • Schluss

Was ist der Inhalt des Kapitels "Einleitung"?

Das Kapitel "Einleitung" führt in die Thematik der Data Lakes ein, beschreibt die Problemstellung und die Zielsetzung der Arbeit sowie den methodischen Aufbau.

Was ist der Inhalt des Kapitels "Begriffsdefinitionen"?

Das Kapitel "Begriffsdefinitionen" definiert und erläutert wichtige Begriffe im Kontext von Data Lakes, um ein gemeinsames Verständnis der Terminologie zu schaffen und Missverständnisse zu vermeiden.

Was ist der Inhalt des Kapitels "Data Warehouse"?

Das Kapitel "Data Warehouse" beschreibt die Grundlagen von Data Warehouses, insbesondere das Konzept von Data Warehouse und Data Mart sowie den ETL-Prozess (Extract-Transform-Load) und das Schema on write Prinzip. Der Vergleich mit Data Lakes wird implizit vorbereitet.

Was ist der Inhalt des Kapitels "Data Lake"?

Das Kapitel "Data Lake" widmet sich den Data Lakes. Es werden die Grundlagen, die Funktionsweise und der Aufbau detailliert erläutert. Dies beinhaltet das Konzept, die Anforderungen, verschiedene Technologien, den ELT-Prozess (Extract-Load-Transform) und das Schema on read Prinzip. Die Kapitel behandeln die Architektur (insbesondere die Lambda-Architektur), Speicheraspekte, Datenaufnahme, Datenverarbeitung, Metadatenmanagement und Data Governance.

Welche Schlüsselwörter sind relevant für das Thema Data Lake?

Relevante Schlüsselwörter sind: Data Lake, Data Warehouse, Big Data, ELT, ETL, Lambda-Architektur, Schema on Read, Schema on Write, Datenintegration, Datenmanagement, Data Governance, Metadatenmanagement, Datensilo, NoSQL.

Excerpt out of 26 pages  - scroll top

Details

Title
Data Lake. Grundlagen, Aufbau und Funktionsweise
College
University of applied sciences, Munich  (Wirtschaftsinformatik)
Course
IT-Infrastuktur
Grade
1,2
Author
Dennis Hodapp (Author)
Publication Year
2022
Pages
26
Catalog Number
V1602928
ISBN (eBook)
9783389145005
ISBN (Book)
9783389145012
Language
German
Tags
IT Infrastruktur infrastracture data lake datalake computer science pont
Product Safety
GRIN Publishing GmbH
Quote paper
Dennis Hodapp (Author), 2022, Data Lake. Grundlagen, Aufbau und Funktionsweise, Munich, GRIN Verlag, https://www.hausarbeiten.de/document/1602928
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  26  pages
Hausarbeiten logo
  • Facebook
  • Instagram
  • TikTok
  • Shop
  • Tutorials
  • FAQ
  • Payment & Shipping
  • About us
  • Contact
  • Privacy
  • Terms
  • Imprint