Süddeutsche Zeitung Institut Auszeichnung

Alle SQL Schulungen

Schulung Spark SQL: Datenanalyse und -transformation mit DataFrames

Big Data Analytics: Effiziente Datenverarbeitung mit DataFrames

2 Tage / S6543

Neues Seminar

Per E-Mail senden

Schulungsformen

Offene Schulung

2 Tage
5 gesicherte Termine
Köln / Online
1.440,00 p. P. zzgl. MwSt.

Dritter Mitarbeitende kostenfrei
Learning & Networking in einem. Garantierte Durchführung ab 1 Teilnehmenden.

Präsenz Online

Termin auswählen

Inhouse-/Firmenschulung

2 Tage - anpassbar
Termin nach Wunsch
In Ihrem Hause oder bei der GFU
Preis nach Angebot

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

Individualschulung

2 Tage - anpassbar
Termin nach Wunsch
In Ihrem Hause oder bei der GFU
Preis nach Angebot

Lernumgebung in der Cloud
1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.

Präsenz Online Hybrid

Unverbindlich anfragen

	Offene Schulungen	Inhouse-Schulungen	Firmen-Schulungen	Individual-Schulungen
Seminar-Eigenschaften
Teilnehmerkreis	Teilnehmer:innen aus unterschiedlichen Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	1 Teilnehmer:in aus Ihrem Unternehmen
Schulungsort	bei GFU oder online	bei Ihnen	bei GFU, online oder hybrid	bei GFU, online oder hybrid
Empfohlene Teilnehmerzahl	ab 1	ab 4	ab 4	ab 1
Abrechnung	pro Teilnehmer:in	pro Tag	pro Tag	pro Tag
Seminaragenda anpassbar	—
Lernumgebung		bei GFU inklusive, online optional buchbar	bei GFU inklusive, online optional buchbar
Flexible Termine	Terminvorschlag möglich
Seminardauer und Zeiten individuell	—
Halbtagstermine	bei vielen Seminaren verfügbar
Beratung vorab durch Trainer:in (optional)
Networking mit Teilnehmenden aus anderen Unternehmen		—	—	—
Buchung und Zahlung
3=2 Rabatt: 3. Mitarbeitende nimmt kostenfrei teil		—	—	—
Garantierte Durchführung ab 1. Teilnehmenden*
Kostenfreie Stornierung	bis zu einem Werktag vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn
Rechnungsstellung erst nach dem Seminar
Seminarplatz unverbindlich vormerken		nicht notwendig	nicht notwendig	nicht notwendig
Services
Shuttleservice zum Bahnhof / GFU-Vertragshotel Bei der GFU		—
Buchung Ihrer Übernachtung in GFU-Vertragshotels Bei der GFU		—
Kostenlose Parkplätze am Schulungszentrum Bei der GFU		—
Bewirtung im Schulungszentrum Bei der GFU				optional buchbar
Brainfood-Box mit Snacks Online		—	—	—
Technik-Sofort-Support Bei der GFU Bei Ihnen Online		—
Notebooks mieten Bei Ihnen Online	—	optional buchbar	—	optional buchbar

Beschreibung

Dieses Fachseminar führt Sie tief in das Herzstück von Apache Spark ein: Spark SQL . Während die ursprüngliche RDD-API (Resilient Distributed Datasets) eine manuelle Steuerung erforderte, ermöglicht Spark SQL durch die DataFrame-API und den Catalyst Optimizer eine deklarative und hochoptimierte Datenverarbeitung. Sie lernen, wie Sie komplexe Transformationen durchführen, die Adaptive Query Execution (AQE) zu Ihrem Vorteil nutzen und Performance-Engpässe durch strategisches Partitioning und Broadcast Joins eliminieren.
Unternehmen profitieren von massiv reduzierten Cloud-Kosten durch effizientere Abfragen, schnelleren Time-to-Insight Zyklen und einer stabilen Dateninfrastruktur, die mit wachsenden Datenmengen linear skaliert.

Weitere SQL Schulungen für Ihre gezielte Weiterbildung...

Schulungsziel

Die Teilnehmenden erlernen die sichere Anwendung der DataFrame-API und Spark SQL zur Verarbeitung massiver Datenmengen. Ziel ist es, komplexe Analyseabfragen mittels Window Functions zu implementieren, eigene Funktionen (UDFs) effizient einzubinden und durch techniken wie Bucketing und Broadcast Joins die Ausführungszeit von Abfragen drastisch zu reduzieren.

Details

Inhalt

Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
1. Architektur von Spark SQL
- Vom SQL zum RDD: Der Lebenszyklus einer Abfrage.
- Catalyst Optimizer: Wie Spark logische Pläne in physische Pläne transformiert.
- Tungsten Engine: Hardware-nahe Speicherverwaltung und Code-Generierung.
2. Arbeiten mit DataFrames
- Struktur und Schema: Typisierte vs. untypisierte APIs (Datasets vs. DataFrames).
- Datenquellen: Einlesen und Schreiben von Parquet, Avro, JSON und Delta Lake.
- Transformationen & Actions: Lazy Evaluation und der Spark-DAG.
3. Fortgeschrittene SQL-Funktionen
- Window Functions: Berechnung von gleitenden Durchschnitten, Rankings und kumulierten Summen.
- Komplexe Datentypen: Umgang mit Arrays, Maps und verschachtelten Structs.
- Spark SQL CLI: Ad-hoc Analysen direkt auf dem Cluster durchführen.
4. User Defined Functions (UDFs)
- Custom Logic: Wann sind UDFs notwendig und was sind die Risiken?
- Performance-Falle: Serialisierungsoverhead und die Bedeutung von Vectorized UDFs (Pandas UDFs).
- Native vs. Python UDFs: Auswirkungen auf den Catalyst Optimizer.
5. Adaptive Query Execution (AQE)
- Dynamische Optimierung: Wie Spark während der Laufzeit auf Datenstatistiken reagiert.
- Coalescing Shuffle Partitions: Automatische Anpassung der Partitionsanzahl.
- Skew Join Optimization: Umgang mit ungleich verteilten Datenmengen.
6. Join-Strategien und Optimierung
- Broadcast Hash Join: Vermeidung von Shuffles bei kleinen Tabellen.
- Sort Merge Join: Der Standard für große Datenmengen.
- Shuffle Hash Join: Wann Spark diese Strategie bevorzugt.
7. Datenlayout: Partitioning und Bucketing
- Partitioning: Strategische Aufteilung der Daten im Dateisystem zur Vermeidung von Full Scans.
- Bucketing: Vor-Sortierung von Daten zur Vermeidung von Shuffles bei wiederkehrenden Joins.
- Partition Pruning: Wie Spark nur die Daten liest, die wirklich benötigt werden.
8. Performance Tuning & Debugging
- Spark UI: Analyse von Stages, Tasks und Shuffle-Metriken.
- Caching & Persistenz: Wann cache() sinnvoll ist und wann es schadet.
- Data Skew erkennen: Strategien zur Behebung von "hängenden" Tasks.
9. Praxis-Workshop: "The Optimization Challenge"
- Workshop: Refactoring einer langsamen SQL-Abfrage auf einem Multi-Millionen-Zeilen Datensatz.
- Tuning-Task: Implementierung von Broadcast Joins und Optimierung des Partitions-Layouts.
- Analysis-Task: Nutzung von Window Functions für komplexe Zeitreihenanalysen.
- Final Roadmap: Best Practices für das Design von Spark SQL Pipelines im Unternehmen.

Zielgruppe & Vorkenntnisse

Data Engineers: Zur Entwicklung robuster ETL-Strecken und Datenpipelines.
Data Scientists: Zur performanten Vorverarbeitung riesiger Datensätze.
Data Architects: Zur Gestaltung effizienter Speicher- und Abfragestrategien im Data Lake.
Business Analysts: Die SQL-Kenntnisse auf Big-Data-Umgebungen übertragen möchten.

Ihre Schulung

In Präsenz	Online
Lernmethode
Ausgewogene Mischung aus Theorie und Praxis	Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.
Unterlagen
Seminarunterlagen oder Fachbuch zum Seminar inklusive, das man nach Rücksprache mit dem Trainer individuell auswählen kann.	Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.
Arbeitsplatz
PC/VMs für jeden Teilnehmenden Hochwertige und performante Hardware Große, höhenverstellbare Bildschirme Zugang zu Ihrem Firmennetz erlaubt	Online Meeting + Remote Zugriff auf persönlichen GFU-Schulungs-PC Keine Installation auf dem eigenen PC notwendig
Lernumgebung
Neu aufgesetzte Systeme für jeden Kurs in Abstimmung mit dem Seminarleiter.
Arbeitsmaterialien
DIN A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its
Teilnahmezertifikat
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.

Organisation

In Präsenz

Online

Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung

Ab 1 Teilnehmenden*

Schulungszeiten

2 Tage, 09:00 - 16:00 Uhr

Ort der Schulung

GFU Schulungszentrum oder Virtual Classroom

GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

Preisvorteil

Dritter Mitarbeitende nimmt kostenfrei teil.
(Nicht mit anderen Rabatten kombinierbar.)

Eventuell anfallende Prüfungskosten für den dritten Teilnehmenden werden zusätzlich berechnet.

Hinweis: Um den Erfolg der Schulung zu gewährleisten, sollte auch der dritte Teilnehmende die erwarteten Vorkenntnisse mitbringen.

All-Inclusive

Gebäck, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.

Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

Buchen ohne Risiko

Rechnungsstellung

Erst nach dem erfolgreichen Seminar. Keine Vorkasse.

Stornierung

Kostenfrei bis zum Vortag des Seminars

Vormerken statt buchen

Sichern Sie sich unverbindlich Ihren Seminarplatz schon vor der Buchung - auch wenn Sie selbst nicht berechtigt sind zu buchen

Kostenfreie Services

In Präsenz	Online
Eigener Shuttle-Service Reservierte Parkplätze Hotelreservierung	Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Mehr Infos

Gesicherte offene Termine

Weiterbildung Spark SQL: Datenanalyse und -transformation mit DataFrames
Termin	Ort	Preis
31.08.-01.09.2026 Plätze vorhanden Köln / Online 1.440,00	Köln / Online	1.440,00	Buchen Vormerken
02.11.-03.11.2026 Plätze vorhanden Köln / Online 1.440,00	Köln / Online	1.440,00	Buchen Vormerken
2027
01.03.-02.03.2027 Plätze vorhanden Köln / Online 1.440,00	Köln / Online	1.440,00	Buchen Vormerken
03.05.-04.05.2027 Plätze vorhanden Köln / Online 1.440,00	Köln / Online	1.440,00	Buchen Vormerken
05.07.-06.07.2027 Plätze vorhanden Köln / Online 1.440,00	Köln / Online	1.440,00	Buchen Vormerken

Kein passender Termin? Termin vorschlagen

Buchen ohne Risiko
Keine Vorkasse
Kostenfreies Storno bis zum Vortag des Seminars
Rechnung nach erfolgreichem Seminar
All-Inclusive-Preis

Garantierter Termin und Veranstaltungsort
Preise pro Person zzgl. Mehrwertsteuer
Dritter Mitarbeitende kostenfrei (Nicht mit anderen Rabatten kombinierbar.)
Flex-Option inklusive

Inhouse-/Firmenschulung

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

Individualschulung

Lernumgebung in der Cloud
1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.

Präsenz Online Hybrid

Unverbindlich anfragen

Nachbetreuung

Unterstützung nach der Schulung durch
individuelle Nachbetreuung

Details & Anfrage

FAQ für Offene Schulungen

Welche Schulungsform ist ideal für mich?

Alle folgenden Schulungsformen können auch Online als Virtual Classroom durchgeführt werden.
Eine Offene Schulung findet zu einem festgelegten Zeitpunkt im voll ausgestatteten Schulungszentrum oder Online/Remote statt. Sie treffen auf Teilnehmende anderer Unternehmen und profitieren vom direkten Wissensaustausch.
Eine Inhouse-/Firmen-Schulung geht auf die individuellen Bedürfnisse Ihres Unternehmens ein. Sie erhalten eine kostenfreie Beratung von Ihrem Seminarleiter und können Inhalte und Dauer auf Ihren Schulungsbedarf anpassen. Inhouse-Schulungen können Europaweit durchgeführt werden.
Bei einer Individual-Schulung erhalten Sie eine 1-zu-1 Betreuung und bestimmen Inhalt, Zeit und Lerntempo. Der Dozent passt sich Ihren Wünschen und Bedürfnissen an.

Wie kann ich an einer Online Schulung teilnehmen?

Sie können unsere Schulungen auch als Remote Schulung im Virtual Classroom anfragen.

In drei Schritten zum Online Seminar im Virtual Classroom:

Seminar auswählen und auf "Buchen" klicken
Wählen Sie bei "Wie möchten Sie teilnehmen?" einfach "Online" aus.
Formular ausfüllen und über den Button "Jetzt buchen" absenden.

Unser Kundenservice meldet sich bei Ihnen mit der Buchungsbestätigung.

Was ist ein Virtual Classroom?

Unsere Online Schulungen finden im Virtual Classroom statt. Ein Virtual Classroom bündelt mehrere Werkzeuge, wie Audio-Konferenz, Text-Chat, Interaktives Whiteboard, oder Application Sharing.

Vorteile von Virtual Classroom:

Sie erhalten 1 zu 1 die gleiche Lernumgebung, die Sie auch vor Ort bei uns vorfinden
Die technische Vorbereitung wird von den GFU-Technikern vorgenommen
Sie erhalten remote Zugriff auf Ihren persönlichen Schulungs-PC im GFU-Seminarraum
Die Virtual Classroom Lösung lässt sich auch im Browser betreiben
Die GFU-Technik leistet wie gewohnt Soforthilfe bei Problemen
Die Schulungsunterlagen bekommen Sie via DHL zugeschickt
Sie sparen Reisekosten und Zeit

Welche gesicherten Termine gibt es?

31. Aug. - 01. Sep. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
02. Nov. - 03. Nov. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
01. Mär. - 02. Mär. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
03. Mai - 04. Mai ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
05. Jul. - 06. Jul. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
Auch als Inhouse-Schulung, bundesweit mit Termin nach Wunsch und individuellen Inhalten
Buchen ohne Risiko! Kostenfreie Stornierung bis zum Vortag des Seminars

Das GFU-Sorglos-Paket

Die Seminare der GFU finden in angenehmer Atmosphäre statt und sind perfekt organisiert. Profitieren Sie von dem Rundum-Service der GFU!

Shuttle-Service

Machen Sie sich keinen Kopf um die Anreise! Unser Shuttle fährt Sie. Oder Sie parken einfach auf einem extra für Sie reservierten Parkplatz.

Hotelreservierung

Hotelzimmer gesucht? Wir organisieren Ihnen eins. Ihr Vorteil: Sie sparen Zeit und Geld!

Kostenfreies Storno

Stornierung bei offenen Seminaren kostenfrei bis einen Tag vor Schulungsbeginn.

Technik-Support

Unsere Techniker sind immer zur Stelle, egal ob online oder vor Ort.

Weitere Services entdecken

Schulung Spark SQL: Datenanalyse und -transformation mit DataFrames

Schulungsformen

Offene Schulung

Inhouse-/Firmenschulung

Individualschulung

Beschreibung

Schulungsziel

Details

Inhalt

Zielgruppe & Vorkenntnisse

Ihre Schulung

Organisation

Buchen ohne Risiko

Kostenfreie Services

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Gesicherte offene Termine

Weiterbildung Spark SQL: Datenanalyse und -transformation mit DataFrames

So haben GFU-Kunden gestimmt

Verwandte Seminare