
Bitte wählen Sie die Bereiche, die Sie exportieren möchten:

Schulung Spark SQL: Datenanalyse und -transformation mit DataFrames
Big Data Analytics: Effiziente Datenverarbeitung mit DataFrames
Schulungsformen
Inhouse-/Firmenschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Individualschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Beschreibung
Unternehmen profitieren von massiv reduzierten Cloud-Kosten durch effizientere Abfragen, schnelleren Time-to-Insight Zyklen und einer stabilen Dateninfrastruktur, die mit wachsenden Datenmengen linear skaliert.
Weitere SQL Schulungen für Ihre gezielte Weiterbildung...
Schulungsziel
Die Teilnehmenden erlernen die sichere Anwendung der DataFrame-API und Spark SQL zur Verarbeitung massiver Datenmengen. Ziel ist es, komplexe Analyseabfragen mittels Window Functions zu implementieren, eigene Funktionen (UDFs) effizient einzubinden und durch techniken wie Bucketing und Broadcast Joins die Ausführungszeit von Abfragen drastisch zu reduzieren.
Details
Inhalt
- Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
- 1. Architektur von Spark SQL
- Vom SQL zum RDD: Der Lebenszyklus einer Abfrage.
- Catalyst Optimizer: Wie Spark logische Pläne in physische Pläne transformiert.
- Tungsten Engine: Hardware-nahe Speicherverwaltung und Code-Generierung.
- 2. Arbeiten mit DataFrames
- Struktur und Schema: Typisierte vs. untypisierte APIs (Datasets vs. DataFrames).
- Datenquellen: Einlesen und Schreiben von Parquet, Avro, JSON und Delta Lake.
- Transformationen & Actions: Lazy Evaluation und der Spark-DAG.
- 3. Fortgeschrittene SQL-Funktionen
- Window Functions: Berechnung von gleitenden Durchschnitten, Rankings und kumulierten Summen.
- Komplexe Datentypen: Umgang mit Arrays, Maps und verschachtelten Structs.
- Spark SQL CLI: Ad-hoc Analysen direkt auf dem Cluster durchführen.
- 4. User Defined Functions (UDFs)
- Custom Logic: Wann sind UDFs notwendig und was sind die Risiken?
- Performance-Falle: Serialisierungsoverhead und die Bedeutung von Vectorized UDFs (Pandas UDFs).
- Native vs. Python UDFs: Auswirkungen auf den Catalyst Optimizer.
- 5. Adaptive Query Execution (AQE)
- Dynamische Optimierung: Wie Spark während der Laufzeit auf Datenstatistiken reagiert.
- Coalescing Shuffle Partitions: Automatische Anpassung der Partitionsanzahl.
- Skew Join Optimization: Umgang mit ungleich verteilten Datenmengen.
- 6. Join-Strategien und Optimierung
- Broadcast Hash Join: Vermeidung von Shuffles bei kleinen Tabellen.
- Sort Merge Join: Der Standard für große Datenmengen.
- Shuffle Hash Join: Wann Spark diese Strategie bevorzugt.
- 7. Datenlayout: Partitioning und Bucketing
- Partitioning: Strategische Aufteilung der Daten im Dateisystem zur Vermeidung von Full Scans.
- Bucketing: Vor-Sortierung von Daten zur Vermeidung von Shuffles bei wiederkehrenden Joins.
- Partition Pruning: Wie Spark nur die Daten liest, die wirklich benötigt werden.
- 8. Performance Tuning & Debugging
- Spark UI: Analyse von Stages, Tasks und Shuffle-Metriken.
- Caching & Persistenz: Wann cache() sinnvoll ist und wann es schadet.
- Data Skew erkennen: Strategien zur Behebung von "hängenden" Tasks.
- 9. Praxis-Workshop: "The Optimization Challenge"
- Workshop: Refactoring einer langsamen SQL-Abfrage auf einem Multi-Millionen-Zeilen Datensatz.
- Tuning-Task: Implementierung von Broadcast Joins und Optimierung des Partitions-Layouts.
- Analysis-Task: Nutzung von Window Functions für komplexe Zeitreihenanalysen.
- Final Roadmap: Best Practices für das Design von Spark SQL Pipelines im Unternehmen.
Zielgruppe & Vorkenntnisse
- Data Engineers: Zur Entwicklung robuster ETL-Strecken und Datenpipelines.
- Data Scientists: Zur performanten Vorverarbeitung riesiger Datensätze.
- Data Architects: Zur Gestaltung effizienter Speicher- und Abfragestrategien im Data Lake.
- Business Analysts: Die SQL-Kenntnisse auf Big-Data-Umgebungen übertragen möchten.
Ihre Schulung
In Präsenz | Online |
|---|---|
| Lernmethode | |
Ausgewogene Mischung aus Theorie und Praxis | Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent. |
| Unterlagen | |
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. | Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. |
| Arbeitsplatz | |
|
|
| Lernumgebung | |
Neu aufgesetzte Remote-Systeme für jeden Kurs in Abstimmung mit dem Seminarleiter, sodass Sie über ein perfektes Setup für die Durchführung aller praktischen Übungen verfügen. | |
| Arbeitsmaterialien | |
Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its | |
| Teilnahmezertifikat | |
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF. | |
Organisation
In Präsenz | Online | |
|---|---|---|
| Teilnehmendenzahl | ||
min. 1, max. 8 Personen | ||
| Garantierte Durchführung * | ||
Ab 1 Teilnehmenden | ||
| Schulungszeiten | ||
| ||
| Ort der Schulung | ||
GFU SchulungszentrumAm Grauen Stein 27 51105 Köln-Deutz oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden. Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen. | ||
| Räumlichkeiten | ||
Helle und modern ausgestattete Räume mit perfekter Infrastruktur | Bequem aus dem Homeoffice von überall | |
| All-Inclusive | ||
Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch | Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu. | |
| Barrierefreiheit | ||
Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei | - | |
Kostenfreie Services
In Präsenz | Online |
|---|---|
|
|
Buchungsmöglichkeiten
Online oder in Präsenz teilnehmen
Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
- Lernumgebung in der Cloud
- 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Was bedeutet Offene Schulung und Inhouse Schulung?
Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.
Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.
Ist eine Inhouse Schulung die richtige Wahl?
Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.
Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.
Wer kümmert sich um die Technik bei Inhouse Schulungen?
Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.
Vorteile einer Inhouse Schulung
- Kompetente Seminarberatung
- Dozenten aus der Praxis
- Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
- Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
- Unsere Inhouse Schulungen können Europaweit durchgeführt werden
- Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
- Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen
GFU Schulungszentrum