Süddeutsche Zeitung Institut Auszeichnung

Schulung Trino: Distributed SQL Query Engine für Data Lakes und Multi-Source-Analysen

Trino, Iceberg & Superset: Der moderne Open-Source Data Stack

4 Tage / S6789

Per E-Mail senden

Schulungsformen

Inhouse-/Firmenschulung

4 Tage - anpassbar
Termin nach Wunsch
In Ihrem Hause oder bei der GFU
Preis nach Angebot

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

	Offene Schulungen	Inhouse-Schulungen	Firmen-Schulungen	Individual-Schulungen
Seminar-Eigenschaften
Teilnehmerkreis	Teilnehmer:innen aus unterschiedlichen Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	1 Teilnehmer:in aus Ihrem Unternehmen
Schulungsort	bei GFU oder online	bei Ihnen	bei GFU, online oder hybrid	bei GFU, online oder hybrid
Empfohlene Teilnehmerzahl	ab 1	ab 4	ab 4	ab 1
Abrechnung	pro Teilnehmer:in	pro Tag	pro Tag	pro Tag
Seminaragenda anpassbar	—
Lernumgebung		bei GFU inklusive, online optional buchbar	bei GFU inklusive, online optional buchbar
Flexible Termine	Terminvorschlag möglich
Seminardauer und Zeiten individuell	—
Halbtagstermine	bei vielen Seminaren verfügbar
Beratung vorab durch Trainer:in (optional)
Networking mit Teilnehmenden aus anderen Unternehmen		—	—	—
Buchung und Zahlung
3=2 Rabatt: 3. Mitarbeitende nimmt kostenfrei teil		—	—	—
Garantierte Durchführung ab 1. Teilnehmenden*
Kostenfreie Stornierung	bis zu einem Werktag vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn
Rechnungsstellung erst nach dem Seminar
Seminarplatz unverbindlich vormerken		nicht notwendig	nicht notwendig	nicht notwendig
Services
Shuttleservice zum Bahnhof / GFU-Vertragshotel Bei der GFU		—
Buchung Ihrer Übernachtung in GFU-Vertragshotels Bei der GFU		—
Kostenlose Parkplätze am Schulungszentrum Bei der GFU		—
Bewirtung im Schulungszentrum Bei der GFU				optional buchbar
Brainfood-Box mit Snacks Online		—	—	—
Technik-Sofort-Support Bei der GFU Bei Ihnen Online		—
Notebooks mieten Bei Ihnen Online	—	optional buchbar	—	optional buchbar

Beschreibung

Daten liegen heute oft verteilt in Silos: S3-Buckets, relationale Datenbanken, NoSQL-Stores und Streaming-Plattformen. Trino (ehemals PrestoSQL) ist die Antwort auf diese Fragmentierung. Dieses Fachseminar führt Sie in die Welt der Distributed SQL Query Engines ein. Wir analysieren die MPP-Architektur (Massive Parallel Processing) , mit der Trino Petabytes an Daten in Sekunden verarbeitet, ohne diese vorher verschieben zu müssen. Sie lernen die Konfiguration von über 50 Connectoren kennen - von PostgreSQL und MongoDB bis hin zu Kafka und Elasticsearch. Ein besonderer Fokus liegt auf dem Modern Data Lakehouse (Trino + Apache Iceberg), der Performance-Optimierung durch Predicate Pushdown und Dynamic Filtering sowie der Abgrenzung zu Spark SQL und Hive. Abschließend integrieren wir Trino als hochperformantes Backend für Apache Superset Dashboards.
Unternehmen profitieren von einer massiv beschleunigten "Time-to-Insight", da aufwendige ETL-Strecken entfallen. Sie ermöglichen Ihren Analysten echtes Self-Service-BI über alle Systeme hinweg und reduzieren gleichzeitig die Infrastrukturkomplexität durch eine einheitliche SQL-Schnittstelle.

Entdecken Sie auch unsere anderen SQL Seminare.

Schulungsziel

Die Teilnehmenden erlernen die Installation und Konfiguration eines Trino-Clusters. Ziel ist es, verschiedene Datenquellen (SQL, NoSQL, S3) über Connectoren anzubinden, komplexe Cross-Source-Joins performant auszuführen und Trino als zentrale Abfrageschicht für BI-Tools wie Apache Superset zu etablieren.

Details

Inhalt

Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
1. Trino Architektur: Coordinator & Workers
- MPP-Prinzip: Wie Trino Abfragen zerlegt und parallel auf Workern ausführt.
- In-Memory Processing: Warum Trino kein MapReduce nutzt und dadurch 10-100× schneller als Hive ist.
- Ecosystem: Die Geschichte von Presto zu Trino und die aktuelle Community-Entwicklung.
2. SQL on Everything: Das Connector-Konzept
- Kataloge, Schemata, Tabellen: Die hierarchische Struktur in Trino.
- RDBMS Connectors: Anbindung von PostgreSQL, MySQL und SQL Server.
- NoSQL & Search: Integration von MongoDB, Cassandra und Elasticsearch.
3. Data Lake Analytics: S3, ADLS und GCS
- Object Storage: Abfragen von Daten auf S3/Azure Data Lake ohne Import.
- Metadaten-Management: Die Rolle des Hive Metastore und AWS Glue.
- Dateiformate: Performance-Unterschiede zwischen Parquet, ORC, Avro und CSV.
4. Performance Tuning: Predicate Pushdown & Co.
- Optimizer: Wie Trino entscheidet, welche Daten gefiltert oder gejoint werden.
- Predicate Pushdown: Filtern direkt an der Datenquelle zur Reduktion des Netzwerktraffics.
- Dynamic Filtering: Optimierung von Joins durch Laufzeit-Informationen.
5. Das Lakehouse-Modell: Trino + Apache Iceberg
- Open Table Formats: ACID-Transaktionen auf dem Data Lake ermöglichen.
- Time Travel: Abfragen von historischen Datenständen mit SQL.
- Schema Evolution: Spalten hinzufügen oder ändern ohne Daten-Rewrites.
6. Distributed Joins: Datenquellen verschmelzen
- Cross-Source Joins: Ein Join zwischen einer PostgreSQL-Tabelle und einem Kafka-Stream.
- Join-Strategien: Broadcast Joins vs. Partitioned (Hash) Joins.
- Cost-Based Optimizer (CBO): Nutzung von Tabellenstatistiken für den besten Query-Plan.
7. Trino vs. Spark SQL vs. Hive
- Analyse-Szenarien: Wann ist Trino für interaktive Queries besser als Spark?
- ETL vs. Ad-hoc: Die Stärken von Spark bei Batch-Jobs und Trino bei schnellen Dashboards.
- Resource Management: Unterschiede in der Speicherverwaltung und Fehlertoleranz.
8. Streaming-Integration: Trino + Kafka
- Live-Daten abfragen: SQL-Queries direkt auf Kafka-Topics ausführen.
- Analytische Fenster: Zeitfenster-Analysen auf Streaming-Daten.
- Pinot & Druid: Integration spezialisierter OLAP-Datenbanken für Sub-Second-Latencies.
9. Sicherheit und Zugriffskontrolle
- Authentifizierung: LDAP, Kerberos und OAuth2/OIDC Integration.
- Autorisierung: Rollenbasierte Zugriffskontrolle (RBAC) mit Apache Ranger.
- Data Masking: Sensible Daten im Query-Ergebnis unkenntlich machen.
10. Trino im Dashboard: Integration mit Superset
- Backend-Anbindung: Konfiguration von Trino als SQLAlchemy-Quelle in Superset.
- Asynchrone Abfragen: Umgang mit langlaufenden Queries in BI-Tools.
- Semantic Layer: Nutzung von virtuellen Datensätzen zur Abstraktion der Quellen.
11. Monitoring und Troubleshooting
- Web UI: Analyse von Query-Plänen, Task-Verteilung und Operator-Statistiken.
- Query Profiling: Identifikation von "Slow Queries" und Ressourcen-Fressern.
- Scaling: Autoscaling von Trino-Workern in Kubernetes-Umgebungen.
12. Praxis-Workshop: „The Multi-Source Federation“
- Setup-Task: Anbindung einer PostgreSQL-DB und eines S3-Buckets (MinIO) an Trino.
- Query-Task: Schreiben eines Joins, der Nutzerdaten aus SQL mit Klickdaten aus S3 kombiniert.
- Iceberg-Task: Erstellung einer Iceberg-Tabelle und Durchführung eines "Time Travel" Updates.
- Final Roadmap: Sizing-Guide für den produktiven Trino-Cluster.

Zielgruppe & Vorkenntnisse

Data Engineers: Zur Bereitstellung einer föderierten Abfrageschicht.
Data Architects: Zur Planung von Lakehouse- und Multi-Cloud-Szenarien.
Business Intelligence Analysten: Zur Durchführung von Ad-hoc-Analysen über diverse Quellen.
Platform Engineers: Zur Skalierung und Wartung von Trino-Clustern auf Kubernetes.

Ihre Schulung

In Präsenz	Online
Lernmethode
Ausgewogene Mischung aus Theorie und Praxis	Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.
Unterlagen
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.	Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.
Arbeitsplatz
PC/VMs für alle Teilnehmenden Hochwertige und performante Hardware Große, höhenverstellbare Bildschirme Zugang zu Ihrem Firmennetz erlaubt 86-90 Zoll Bildschirm für perfekte Präsentationen in jedem Schulungsraum	Online Meeting + Remote Zugriff auf persönlichen GFU-Schulungs-PC Keine Installation auf dem eigenem PC notwendig
Lernumgebung
Neu aufgesetzte Remote-Systeme für jeden Kurs in Abstimmung mit dem Seminarleiter, sodass Sie über ein perfektes Setup für die Durchführung aller praktischen Übungen verfügen.
Arbeitsmaterialien
Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its
Teilnahmezertifikat
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.

Organisation

In Präsenz

Online

Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung *

Ab 1 Teilnehmenden

Schulungszeiten

4 Tage, 09:00 - 16:00 Uhr

Ort der Schulung

GFU Schulungszentrum oder Virtual Classroom

GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

All-Inclusive

Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.

Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

Kostenfreie Services

In Präsenz	Online
Eigener Shuttle-Service Reservierte Parkplätze Hotelreservierung	Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Mehr Infos

Inhouse-/Firmenschulung

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

FAQ für Inhouse Schulungen

Was bedeutet Offene Schulung und Inhouse Schulung?

Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.

Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.

Ist eine Inhouse Schulung die richtige Wahl?

Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.

Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.

Wer kümmert sich um die Technik bei Inhouse Schulungen?

Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.

Vorteile einer Inhouse Schulung

Kompetente Seminarberatung
Dozenten aus der Praxis
Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
Unsere Inhouse Schulungen können Europaweit durchgeführt werden
Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen

Schulung Trino: Distributed SQL Query Engine für Data Lakes und Multi-Source-Analysen

Schulungsformen

Inhouse-/Firmenschulung

Beschreibung

Schulungsziel

Details

Inhalt

Zielgruppe & Vorkenntnisse

Ihre Schulung

Organisation

Kostenfreie Services

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

So haben GFU-Kunden gestimmt

Was bedeutet Offene Schulung und Inhouse Schulung?

Ist eine Inhouse Schulung die richtige Wahl?

Wer kümmert sich um die Technik bei Inhouse Schulungen?

Vorteile einer Inhouse Schulung

Verwandte Seminare