settings
Süddeutsche Zeitung Institut Auszeichnung
 Image
Alle Python Schulungen

Schulung PySpark Einführung

Big-Data-Verarbeitung mit Python und Spark

2 Tage / S5453
Neues Seminar

Schulungsformen

Offene Schulung


  • Dritter Mitarbeitende kostenfrei
  • Learning & Networking in einem. Garantierte Durchführung ab 1 Teilnehmenden.
Präsenz Online

Inhouse-/Firmenschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • Preis nach Angebot
  • In Ihrem Hause oder bei der GFU

  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

Individualschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • Preis nach Angebot
  • In Ihrem Hause oder bei der GFU

  • Lernumgebung in der Cloud
  • 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Präsenz Online Hybrid

Beschreibung

PySpark ermöglicht Unternehmen die effiziente Verarbeitung großer Datenmengen mit der Produktivität der Python-Ökosystems. Durch verteilte Berechnungen auf Cluster-Ressourcen werden Analysen beschleunigt und Skalierungsgrenzen überwunden. Unternehmen profitieren von kürzeren Time-to-Insight, Kosteneinsparungen durch optimierte Ressourcennutzung und der Möglichkeit, Data-Science-Workloads produktiv zu operationalisieren.

Erfahren Sie mehr durch eine zusätzliche Python Weiterbildung aus unserem Seminarangebot.

Schulungsziel

Die Teilnehmer entwickeln ein umfassendes Verständnis der PySpark-Architektur und Einsatzmöglichkeiten. Sie lernen die verschiedenen Komponenten kennen und können deren Nutzen für ihre spezifischen Datenverarbeitungsanforderungen einschätzen. Das Seminar vermittelt zudem Best Practices für die Planung von PySpark-Projekten.

Details

Inhalt

  • Ziele und Erwartungen der Teilnehmenden
    • Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
  • Grundlagen von PySpark
    • Einführung  in die Architektur von Apache Spark und die Rolle von PySpark:  Überblick der Komponenten (Spark Core, SQL, Streaming, MLlib) und deren  Integration mit Python. Vergleich mit anderen Big-Data-Technologien wie Pandas und Dask.
    • Entwicklungsumgebungen  für PySpark: Jupyter Notebooks, Zeppelin und IDEs (PyCharm, VS Code)  mit PySpark-Integration. Besonderheiten bei der lokalen Entwicklung und  Cluster-Umgebungen.
    • Lizenzierung  und Kosten: Open-Source-Aspekte von Spark, kommerzielle Distributionen  (Databricks, Cloudera) und Cloud-Anbieter-Integration (AWS EMR, Azure  Databricks).
  • Datenverarbeitung mit DataFrames
    • DataFrame-Konzept:  Vergleich mit Pandas DataFrames und relationalen Datenbanktabellen.  Vor- und Nachteile der verteilten Verarbeitung.
    • Datenimport/Export:  Arbeiten mit verschiedenen Datenquellen (CSV, JSON, Parquet, JDBC) in  PySpark. Performance-Optimierungen bei großen Datensätzen.
    • Grundlegende  Transformationen: Filterung, Aggregation, Joins und Fensterfunktionen  in PySpark. Unterschiede zu SQL-Implementierungen.
  • Spark-SQL Integration
    • SQL-Syntax  in PySpark: Nutzung von Spark-SQL für Data Scientists mit  SQL-Hintergrund. Abfragen auf registrierten Tabellen und temporären  Views.
    • UDFs (User Defined Functions): Erstellung und Nutzung von Python-Funktionen in Spark-SQL. Performance-Aspekte und Alternativen.
    • Katalogzugriff: Metadatenmanagement und Schema-Integration zwischen PySpark und Hive Metastore.
  • Performance-Optimierung
    • Ausführungsmodell verstehen: Spark-Execution-Pläne interpretieren und optimieren. Rolle der Catalyst-Optimierung.
    • Partitionierungsstrategien: Best Practices für physische Datenverteilung. Auswirkung auf Join- und Aggregationsoperationen.
    • Caching-Persistenz: Strategien für die Zwischenspeicherung von häufig genutzten DataFrames. Speicherlevel und Trade-Offs.
  • Datenvisualisierung
    • Integration mit Python-Visualisierungsbibliotheken: Nutzung von Matplotlib, Seaborn und Plotly mit PySpark-DataFrames.
    • Einschränkungen und Workarounds: Umgang mit Visualisierungen bei großen Datensätzen (Sampling, Aggregation).
    • Dashboard-Integration: Exportmöglichkeiten für BI-Tools (Tableau, Power BI) und Webanwendungen.
  • Machine Learning mit PySpark MLlib
    • Pipeline-Konzept: Aufbau von ML-Workflows mit PySpark. Vergleich mit scikit-learn.
    • Feature-Engineering: Nutzung der integrierten Transformationen für Datenvorbereitung.
    • Modelltraining und -evaluation: Implementierung und Bewertung von Algorithmen für Klassifikation, Regression und Clustering.
  • Streaming-Datenverarbeitung
    • Strukturiertes Streaming: Grundkonzepte der Echtzeitdatenverarbeitung mit PySpark. Vergleich mit Batch-Verarbeitung.
    • Quellen und Senken: Integration mit Kafka, Dateisystemen und Datenbanken.
    • Event-Time-Verarbeitung: Umgang mit verzögerten Daten und Fensteroperationen.
  • Praxisübung: End-to-End-Datenpipeline
    • Teilnehmer  implementieren eine komplette Datenverarbeitungspipeline von der  Datenextraktion über Transformationen bis zur Analyse und  Visualisierung.

Data Engineers, Data Scientists und Python-Entwickler mit Grundkenntnissen in Datenanalyse.


In Präsenz

Online
Lernmethode

Ausgewogene Mischung aus Theorie und Praxis

Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.

Unterlagen

Seminarunterlagen oder Fachbuch zum Seminar inklusive, das man nach Rücksprache mit dem Trainer individuell auswählen kann.

Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Arbeitsplatz
PC/VMs für jeden Teilnehmenden
Hochwertige und performante Hardware
Große, höhenverstellbare Bildschirme
Zugang zu Ihrem Firmennetz erlaubt
  • Online Meeting + Remote Zugriff auf persönlichen GFU-Schulungs-PC
  • Keine Installation auf dem eigenen PC notwendig
Lernumgebung

Neu aufgesetzte Systeme für jeden Kurs in Abstimmung mit dem Seminarleiter.

Arbeitsmaterialien

DIN A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its

Teilnahmezertifikat

Das Teilnahmezertifikat inkl. Inhaltsverzeichnis wird Ihnen am Ende des Seminars ausgehändigt.

Das Teilnahmezertifikat inkl. Inhaltsverzeichnis wird Ihnen via DHL zugesandt.


In Präsenz

Online
Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung

Ab 1 Teilnehmenden*

Schulungszeiten
2 Tage, 09:00 - 16:00 Uhr
Ort der Schulung
GFU Schulungszentrum oder Virtual Classroom
GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

Preisvorteil

Dritter Mitarbeitende nimmt kostenfrei teil.
(Nicht mit anderen Rabatten kombinierbar.)

Eventuell anfallende Prüfungskosten für den dritten Teilnehmenden werden zusätzlich berechnet.

Hinweis: Um den Erfolg der Schulung zu gewährleisten, sollte auch der dritte Teilnehmende die erwarteten Vorkenntnisse mitbringen.

All-Inclusive

Gebäck, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.

Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

-
Rechnungsstellung

Erst nach dem erfolgreichen Seminar. Keine Vorkasse.

Stornierung

Kostenfrei bis zum Vortag des Seminars

Vormerken statt buchen

Sichern Sie sich unverbindlich Ihren Seminarplatz schon vor der Buchung - auch wenn Sie selbst nicht berechtigt sind zu buchen


In Präsenz

Online
  • Eigener Shuttle-Service
  • Reservierte Parkplätze
  • Hotelreservierung
  • Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Weiterbildung PySpark Einführung

TerminOrtPreis
2026
25.05.-26.05.2026
Plätze vorhanden
Köln / Online 1.370,00
Köln / Online 1.370,00 Buchen Vormerken
27.07.-28.07.2026
Plätze vorhanden
Köln / Online 1.370,00
Köln / Online 1.370,00 Buchen Vormerken
28.09.-29.09.2026
Plätze vorhanden
Köln / Online 1.370,00
Köln / Online 1.370,00 Buchen Vormerken
30.11.-01.12.2026
Plätze vorhanden
Köln / Online 1.370,00
Köln / Online 1.370,00 Buchen Vormerken
01.02.-02.02.2027
Plätze vorhanden
Köln / Online 1.370,00
Köln / Online 1.370,00 Buchen Vormerken
  • Buchen ohne Risiko
  • Keine Vorkasse
  • Kostenfreies Storno bis zum Vortag des Seminars
  • Rechnung nach erfolgreichem Seminar
  • All-Inclusive-Preis
  • Garantierter Termin und Veranstaltungsort
  • Preise pro Person zzgl. Mehrwertsteuer
  • Dritter Mitarbeitende kostenfrei (Nicht mit anderen Rabatten kombinierbar.)
Inhouse-/Firmenschulung
  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid
Individualschulung
  • Lernumgebung in der Cloud
  • 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Präsenz Online Hybrid
Nachbetreuung

Unterstützung nach der Schulung durch
individuelle Nachbetreuung

Details & Anfrage

So haben GFU-Kunden gestimmt

Zu diesem Seminar wurden noch keine Bewertungen abgegeben.

FAQ für Offene Schulungen
  • Alle folgenden Schulungsformen können auch Online als Virtual Classroom durchgeführt werden.
  • Eine Offene Schulung findet zu einem festgelegten Zeitpunkt im voll ausgestatteten Schulungszentrum oder Online/Remote statt. Sie treffen auf Teilnehmende anderer Unternehmen und profitieren vom direkten Wissensaustausch.
  • Eine Inhouse-/Firmen-Schulung geht auf die individuellen Bedürfnisse Ihres Unternehmens ein. Sie erhalten eine kostenfreie Beratung von Ihrem Seminarleiter und können Inhalte und Dauer auf Ihren Schulungsbedarf anpassen. Inhouse-Schulungen können Europaweit durchgeführt werden.
  • Bei einer Individual-Schulung erhalten Sie eine 1-zu-1 Betreuung und bestimmen Inhalt, Zeit und Lerntempo. Der Dozent passt sich Ihren Wünschen und Bedürfnissen an.

Sie können unsere Schulungen auch als Remote Schulung im Virtual Classroom anfragen.

In drei Schritten zum Online Seminar im Virtual Classroom:

  1. Seminar auswählen und auf "Buchen" klicken
  2. Wählen Sie bei "Wie möchten Sie teilnehmen?" einfach "Online" aus.
  3. Formular ausfüllen und über den Button "Jetzt buchen" absenden.

Unser Kundenservice meldet sich bei Ihnen mit der Buchungsbestätigung.

Unsere Online Schulungen finden im Virtual Classroom statt. Ein Virtual Classroom bündelt mehrere Werkzeuge, wie Audio-Konferenz, Text-Chat, Interaktives Whiteboard, oder Application Sharing.

Vorteile von Virtual Classroom:

  • Sie erhalten 1 zu 1 die gleiche Lernumgebung, die Sie auch vor Ort bei uns vorfinden
  • Die technische Vorbereitung wird von den GFU-Technikern vorgenommen
  • Sie erhalten remote Zugriff auf Ihren persönlichen Schulungs-PC im GFU-Seminarraum
  • Die Virtual Classroom Lösung lässt sich auch im Browser betreiben
  • Die GFU-Technik leistet wie gewohnt Soforthilfe bei Problemen
  • Die Schulungsunterlagen bekommen Sie via DHL zugeschickt
  • Sie sparen Reisekosten und Zeit
  • 25. Mai - 26. Mai ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 27. Jul. - 28. Jul. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 28. Sep. - 29. Sep. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 30. Nov. - 01. Dez. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 01. Feb. - 02. Feb. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • Auch als Inhouse-Schulung, bundesweit mit Termin nach Wunsch und individuellen Inhalten
  • Buchen ohne Risiko! Kostenfreie Stornierung bis zum Vortag des Seminars
Das GFU-Sorglos-Paket

Die Seminare der GFU finden in angenehmer Atmosphäre statt und sind perfekt organisiert. Profitieren Sie von dem Rundum-Service der GFU!

Shuttle-Service

Machen Sie sich keinen Kopf um die Anreise! Unser Shuttle fährt Sie. Oder Sie parken einfach auf einem extra für Sie reservierten Parkplatz.

Hotelreservierung

Hotelzimmer gesucht? Wir organisieren Ihnen eins. Ihr Vorteil: Sie sparen Zeit und Geld!

Kostenfreies Storno

Stornierung bei offenen Seminaren kostenfrei bis einen Tag vor Schulungsbeginn.

Technik-Support

Unsere Techniker sind immer zur Stelle, egal ob online oder vor Ort.

aegallianzaxabayerElement 1boschdeutsche-bankdeutsche-postdouglasfordfujitsuhenkelhermeslufthansamercedesnokiasonytelekomvwzdf