
Bitte wählen Sie die Bereiche, die Sie exportieren möchten:

Schulung Databricks für Softwareentwickler
Praxisnaher Einstieg in Lakehouse, SQL Warehouses und App-Entwicklung mit Databricks
Schulungsformen
Inhouse-/Firmenschulung
- 3 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Beschreibung
Darüber hinaus entwickeln Sie Databricks Apps mit Python, Node.js und Java und erfahren, wie Anwendungen direkt auf Lakehouse-Daten zugreifen können. Sie lernen typische Ingestion-Patterns, Batch- und Streaming-Pipelines sowie CI/CD- und Deployment-Strategien kennen.
Die Schulung zeigt Ihnen, wie Data- und Engineering-Teams auf einer gemeinsamen Plattform mit Apache Spark zusammenarbeiten, Performance optimieren und komplexe Data-Ingestion-Prozesse deutlich reduzieren können. Das Seminar ist als praxisnaher Entwickler-Workshop konzipiert und findet in Köln, remote oder bei Ihnen vor Ort statt.
Schulungsziel
Nach dem Seminar sind Sie in der Lage, mit Apache Spark und Databricks skalierbare Datenpipelines zu entwickeln und produktionsreife Daten für Anwendungen bereitzustellen. Sie verstehen die Architektur des Lakehouse, nutzen Delta Lake sicher und integrieren SQL Warehouses als Serving Layer. Darüber hinaus entwickeln und deployen Sie Databricks Apps mit Python, Node.js oder Java und setzen moderne Deployment- und Teststrategien professionell um.
Details
Inhalt
- Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
- Teil 1: Apache Spark Grundlagen
- Warum Big Data andere Werkzeuge benötigt
- Rolle von Spark im modernen Data Engineering
- Unterschied von lokaler vs. verteilter Verarbeitung
- Überblick Spark-Ökosystem (Spark SQL, Streaming, MLlib)
- Spark als Engine hinter Databricks
- Einführung Databricks Architektur (Workspace, Account Console, Unity Catalog)
- Teil 2: Apache Spark Core Konzepte
- Spark Architektur: Driver, Executors und Cluster-Ressourcen
- Spark Execution Model: Jobs, Stages und Tasks
- Lazy Evaluation und Optimierung von Ausführungsplänen
- Directed Acyclic Graph (DAG) in Spark
- Teil 3: Entwicklung mit Apache Spark
- DataFrames als zentrale Datenstruktur in Spark
- Nutzung von Spark SQL zur Datenverarbeitung
- Transformationen wie select, filter, join und groupBy
- Actions wie count, collect und write
- Teil 4: Delta Lake Grundlagen
- Delta Lake als ACID-Layer im Lakehouse
- Delta Transaction Log und Tabellenstruktur
- Time Travel und Versionierung
- Delta Lake vs. klassischer Data Lake
- Teil 5: Dateiformate im Lakehouse
- Apache Parquet als Standardformat im Lakehouse
- Columnar Storage für analytische Abfragen
- Vorteile von Parquet gegenüber CSV und JSON
- Predicate Pushdown und Data Skipping
- Parquet in Kombination mit Delta Lake
- Teil 6: Performance-Grundlagen in Spark
- Ursachen und Umgang mit Data Skew/Shuffle
- Partitionierung verstehen und sinnvoll einsetzen
- Einführung in AQE (Adaptive Query Execution)
- Teil 7: Data Ingestion mit Azure Databricks
- Typische Ingestion-Patterns im Lakehouse
- Batch-Ingestion aus Dateien, Datenbanken und APIs
- Streaming-Ingestion mit Auto Loader und Event Streams
- Append- und Merge-Strategien
- Verarbeitung inkrementeller Daten
- Teil 8: Pipelines & Jobs in Databricks
- Aufbau von ETL- und ELT-Pipelines
- Orchestrierung mit Databricks Workflows
- Job-Planung und Automatisierung
- Fehlerhandling und Retry-Strategien
- Task-Abhängigkeiten in Workflows
- Teil 9: Batch vs. Streaming Pipelines
- Unterschiede zwischen Batch und Streaming
- Einsatzszenarien für Batch- und Streaming-Pipelines
- Structured Streaming in Spark
- Trigger-Optionen und Checkpointing
- Exactly-Once-Semantik
- Teil 10: Teststrategien für produktive Pipelines
- Bedeutung von Testing in Datenpipelines
- Teststrategien für produktive Pipelines
- Unit Tests für Transformationen
- Data Quality Checks testen
- Teil 11: Versionskontrolle & Deployment
- Git-Integration in Databricks
- Arbeiten mit Databricks Repos
- Git vs. Databricks Asset Bundles
- Asset Bundles für CI/CD und Deployment
- Teil 12: Datenzugriff & Datenbereitstellung aus Databricks
- Zugriff über JDBC und ODBC
- Zugriff über REST APIs und SDKs
- SQL Warehouses als Serving Layer
- Database Lakebase als Serving Layer
- Integration von BI-Tools wie Power BI und Tableau
- Reverse ETL und Datenaustausch
- Best Practices für Datenbereitstellung
- Teil 13: Databricks Apps
- Einführung in Databricks Apps
- Typische Anwendungsfälle für Datenanwendungen
- Kombination von Data Engineering und Apps
- Deployment von Databricks Apps
- Security und Zugriffskonzepte
- Teil 14: Best Practices für Data Engineers
- Medaillon-Architektur mit Bronze, Silver und Gold
- Saubere Datenmodellierung im Lakehouse
- Dokumentation und Data Contracts
- Zusammenarbeit zwischen Data Engineering und Analytics
Zielgruppe & Vorkenntnisse
Dieses Seminar richtet sich an Softwareentwickler, Backend-Entwickler, Cloud-Developer und Full-Stack-Entwickler, die mit Databricks und Lakehouse-Daten arbeiten möchten.
Sie entwickeln Anwendungen mit Python, Node.js oder Java und möchten skalierbare Datenpipelines in Ihre Architektur integrieren.
Sie benötigen grundlegende Programmierkenntnisse in mindestens einer der genannten Sprachen.
Grundkenntnisse in SQL sind von Vorteil.
Das Seminar ist als praxisorientiertes Foundation- bis Intermediate-Training für Entwickler konzipiert.
Ihre Schulung
In Präsenz | Online |
|---|---|
| Lernmethode | |
Ausgewogene Mischung aus Theorie und Praxis | Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent. |
| Unterlagen | |
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. | Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. |
| Arbeitsplatz | |
|
|
| Lernumgebung | |
Neu aufgesetzte Remote-Systeme für jeden Kurs in Abstimmung mit dem Seminarleiter, sodass Sie über ein perfektes Setup für die Durchführung aller praktischen Übungen verfügen. | |
| Arbeitsmaterialien | |
Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its | |
| Teilnahmezertifikat | |
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF. | |
Organisation
In Präsenz | Online | |
|---|---|---|
| Teilnehmendenzahl | ||
min. 1, max. 8 Personen | ||
| Garantierte Durchführung * | ||
Ab 1 Teilnehmenden | ||
| Schulungszeiten | ||
| ||
| Ort der Schulung | ||
GFU SchulungszentrumAm Grauen Stein 27 51105 Köln-Deutz oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden. Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen. | ||
| Räumlichkeiten | ||
Helle und modern ausgestattete Räume mit perfekter Infrastruktur | Bequem aus dem Homeoffice von überall | |
| All-Inclusive | ||
Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch | Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu. | |
| Barrierefreiheit | ||
Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei | - | |
Kostenfreie Services
In Präsenz | Online |
|---|---|
|
|
Buchungsmöglichkeiten
Online oder in Präsenz teilnehmen
Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Was bedeutet Offene Schulung und Inhouse Schulung?
Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.
Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.
Ist eine Inhouse Schulung die richtige Wahl?
Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.
Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.
Wer kümmert sich um die Technik bei Inhouse Schulungen?
Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.
Vorteile einer Inhouse Schulung
- Kompetente Seminarberatung
- Dozenten aus der Praxis
- Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
- Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
- Unsere Inhouse Schulungen können Europaweit durchgeführt werden
- Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
- Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen
GFU Schulungszentrum