Süddeutsche Zeitung Institut Auszeichnung

Schulung Datadog: Full-Stack-Observability für Cloud-Umgebungen

Metriken, Logs, Traces und Security in einer Plattform

2 Tage / S6823

Neues Seminar

Per E-Mail senden

Schulungsformen

Inhouse-/Firmenschulung

2 Tage - anpassbar
Termin nach Wunsch
In Ihrem Hause oder bei der GFU
Preis nach Angebot

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

	Offene Schulungen	Inhouse-Schulungen	Firmen-Schulungen	Individual-Schulungen
Seminar-Eigenschaften
Teilnehmerkreis	Teilnehmer:innen aus unterschiedlichen Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	1 Teilnehmer:in aus Ihrem Unternehmen
Schulungsort	bei GFU oder online	bei Ihnen	bei GFU, online oder hybrid	bei GFU, online oder hybrid
Empfohlene Teilnehmerzahl	ab 1	ab 4	ab 4	ab 1
Abrechnung	pro Teilnehmer:in	pro Tag	pro Tag	pro Tag
Seminaragenda anpassbar	—
Lernumgebung		bei GFU inklusive, online optional buchbar	bei GFU inklusive, online optional buchbar
Flexible Termine	Terminvorschlag möglich
Seminardauer und Zeiten individuell	—
Halbtagstermine	bei vielen Seminaren verfügbar
Beratung vorab durch Trainer:in (optional)
Networking mit Teilnehmenden aus anderen Unternehmen		—	—	—
Buchung und Zahlung
3=2 Rabatt: 3. Mitarbeitende nimmt kostenfrei teil		—	—	—
Garantierte Durchführung ab 1. Teilnehmenden*
Kostenfreie Stornierung	bis zu einem Werktag vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn
Rechnungsstellung erst nach dem Seminar
Seminarplatz unverbindlich vormerken		nicht notwendig	nicht notwendig	nicht notwendig
Services
Shuttleservice zum Bahnhof / GFU-Vertragshotel Bei der GFU		—
Buchung Ihrer Übernachtung in GFU-Vertragshotels Bei der GFU		—
Kostenlose Parkplätze am Schulungszentrum Bei der GFU		—
Bewirtung im Schulungszentrum Bei der GFU				optional buchbar
Brainfood-Box mit Snacks Online		—	—	—
Technik-Sofort-Support Bei der GFU Bei Ihnen Online		—
Notebooks mieten Bei Ihnen Online	—	optional buchbar	—	optional buchbar

Beschreibung

Datadog ist die meistgenutzte Observability-Plattform für Cloud-native Unternehmen - und das aus gutem Grund: Metriken, Logs, Traces, Synthetics, Security und CI/CD-Visibility in einer einzigen Plattform, mit 700+ Integrationen und KI-gestützter Anomalie-Erkennung. Statt Prometheus für Metriken, Loki für Logs, Jaeger für Traces und ein SIEM für Security separat zu betreiben, liefert Datadog alles aus einer Hand - mit eingebauter Korrelation zwischen allen Datentypen.
Dieses Seminar führt durch die gesamte Plattform: vom Agent-Rollout über Infrastructure Monitoring und APM bis zu Log Management, Synthetics und Security. Sie bauen produktionsreife Dashboards, konfigurieren Monitors mit intelligenten Schwellenwerten (Anomaly Detection, Forecast, Outlier) und lernen die Killer-Feature-Kombination : ein Metrik-Alert -> Klick auf den auffälligen Service -> korrelierte Traces -> zugehörige Logs -> Root Cause in 60 Sekunden. Im Workshop bauen Sie ein vollständiges Monitoring-Setup für eine Microservices-Anwendung.
Wer Datadog spezifisch mit Azure integrieren möchte, findet bei der GFU „Datadog: Integration mit Microsoft Azure" (S5322, 1T). Wer Open-Source-Alternativen bevorzugt, findet „Kubernetes Monitoring mit Prometheus, Grafana und OpenTelemetry" (S6504, 3T) und „Grafana LGTM Stack" (S6499, 3T). Wer andere kommerzielle Plattformen evaluiert, findet „Dynatrace" (S5313, 2T) und „New Relic" (S5321, 2T).

Erfahren Sie mehr durch eine zusätzliche Cloud Weiterbildung aus unserem Seminarangebot.

Schulungsziel

Ein funktionierendes Full-Stack-Monitoring-Setup mit Infrastructure Monitoring, APM, Log Management, Dashboard und Alerting.

Details

Inhalt

Tag 1: Agent, Infrastructure, APM und Logs

Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
1. Datadog-Plattform im Überblick: Architektur und Produktpalette
- Die Produkte: Infrastructure Monitoring, APM (Application Performance Monitoring), Log Management, Synthetics (uptime + Browser-Tests), RUM (Real User Monitoring), Security Monitoring (Cloud SIEM), CI Visibility, Database Monitoring, Network Performance Monitoring. Welches Produkt für welchen Use Case.
- Architektur: Datadog Agent (auf jedem Host/Container) -> Datadog Backend (SaaS, Multi-Region: US, EU) -> Datadog Web UI. Agent als zentraler Datenkollector: Metriken, Logs, Traces, Processes.
- Datadog vs. Open Source: Datadog (eine Plattform, SaaS, schneller Start, teuer bei Volumen) vs. Prometheus+Grafana+Loki+Tempo (kostenlos, aber Ops-Aufwand). Break-Even-Analyse: ab welcher Teamgröße lohnt sich was?
- Kostenmodell verstehen: Pro Host (Infrastructure), pro Span (APM), pro GB (Logs), pro Test (Synthetics). Die häufigsten Kostenfallen: Log-Explosion, zu viele Custom Metrics, APM ohne Sampling. Strategien zur Kostenkontrolle.
2. Agent-Installation und Infrastruktur-Monitoring
- Agent-Deployment: Installation auf Linux/Windows, Docker (Sidecar-Container), Kubernetes (DaemonSet via Helm Chart oder Datadog Operator), AWS ECS/Fargate (Task Definition). Cluster Agent für Kubernetes-Metadaten (Events, HPA-Metriken).
- Integrationen aktivieren: 700+ Out-of-the-Box-Integrationen - AWS (CloudWatch, RDS, Lambda, ELB), Azure (VMs, AKS, App Service), GCP, Docker, Kubernetes, NGINX, PostgreSQL, Redis, Kafka. Auto-Discovery in Containern: Datadog erkennt Services automatisch.
- Host Map und Container Map: Visuelle Infrastruktur-Übersicht - Hosts gruppiert nach Region/Environment/Service, farbcodiert nach CPU/Memory/Alerts. Container Map für Kubernetes: Pods gruppiert nach Namespace/Deployment.
- Live Processes und Network Performance: Echtzeit-Prozessliste auf jedem Host, Netzwerkflüsse zwischen Services (wer kommuniziert mit wem, wie viel Traffic, welche Latenz).
- Praxis-Übung: Datadog Agent per Docker Compose deployen, AWS- oder Cloud-Integration aktivieren, Host Map und Live Processes erkunden.
3. APM: Distributed Tracing und Service-Übersicht
- Tracing-Bibliotheken: Auto-Instrumentation für Java (dd-java-agent), Python (ddtrace), Node.js, .NET, Go, Ruby, PHP. Einbindung: ein Startparameter oder zwei Zeilen Code - der Agent sammelt Traces automatisch.
- Service Map: Automatisch generierte Topologie aller Services - wer ruft wen auf, wie oft, mit welcher Latenz und Error Rate. Engpässe und Abhängigkeiten auf einen Blick.
- Trace-Analyse: Einzelne Traces aufschlüsseln: Flame Graph (welcher Span dauert am längsten), Span-Details (SQL-Queries, HTTP-Calls, Cache-Hits), Error Spans (Stack Traces direkt im Trace).
- Service-Level-Metriken: Request Rate, Error Rate, Latenz (P50/P95/P99) pro Service und Endpoint - automatisch berechnet aus Traces. Dashboards und Monitors darauf aufsetzen.
- Trace -> Log-Korrelation: Vom auffälligen Trace direkt zu den zugehörigen Logs springen - Trace ID als Korrelations-Schlüssel. Einrichtung: Log-Bibliothek konfigurieren (trace_id und span_id in Log-Zeilen).
- Ingestion Controls und Sampling: Nicht jeden Trace aufbewahren (teuer!) - Head-based Sampling (Entscheidung am Anfang), Retention Filters (nur Fehler, nur langsame Traces aufbewahren). Ingestion vs. Retention trennen.
- Praxis-Übung: Eine Beispiel-App instrumentieren (Python oder Java), Service Map betrachten, einen langsamen Request im Trace analysieren, zum zugehörigen Log springen.
4. Log Management: Sammeln, Verarbeiten, Analysieren
- Log-Ingestion: Agent-basiert (tail files, journald, Docker), Log-Forwarder (Fluentd, Fluent Bit, Logstash -> Datadog), direkte API-Ingestion, Cloud-Integrationen (CloudWatch Logs, Azure Diagnostics).
- Log Pipelines und Processors: Grok Parser (unstrukturierte Logs in Felder zerlegen), Remapper (Felder umbenennen), Category Processor (Logs nach Regeln klassifizieren), Enrichment (GeoIP, User-Agent-Parsing).
- Log Explorer: Volltextsuche, Facetten-Filter (Service, Status, Environment), Pattern-Erkennung (Datadog gruppiert ähnliche Logs automatisch), Live Tail (Echtzeit-Log-Stream).
- Indexes und Exclusion Filters: Nicht alle Logs indexieren (teuer!) - Exclusion Filter: Debug-Logs ausschließen, Health-Check-Logs ausschließen. Mehrere Indexes mit unterschiedlicher Retention (7 Tage für Debug, 30 Tage für Errors, 90 Tage für Audit).
- Log-to-Metric: Aus Log-Einträgen Metriken generieren - z.B. „Anzahl Login-Fehler pro Minute" als Metrik, ohne jeden einzelnen Log-Eintrag zu speichern. Kostensparend und performant.
- Praxis-Übung: Logs der Beispiel-App in Datadog einbinden, eine Pipeline mit Grok Parser konfigurieren, Exclusion Filter für Health Checks setzen, Log-to-Metric für Error-Counts erstellen.

Tag 2: Dashboards, Monitors, Synthetics und Security

5. Dashboards: Operational und Executive Visibility
- Dashboard-Typen: Screenboards (frei positionierbare Widgets, flexibles Layout) vs. Timeboards (zeitlich synchronisierte Widgets, besser für Troubleshooting). Empfehlung: Timeboards für Operations, Screenboards für Management.
- Wichtige Widgets: Timeseries (Trends), Query Value (Einzelwert + Trend-Pfeil), Top List (Top-N-Services/Hosts/Endpoints), Heatmap (Latenzverteilung), Service Map (live), SLO Widget, Log Stream (Echtzeit-Logs im Dashboard).
- Template Variables: Dashboard-weite Filter - $env (prod/staging), $service, $region. Ein Dashboard für alle Environments.
- Notebook und PowerPacks: Notebooks für Incident-Postmortems (Grafiken + Markdown + Kommentare in einem Dokument), PowerPacks für wiederverwendbare Widget-Gruppen (z.B. „HTTP-Service-Übersicht" als Template für jeden Service).
- Praxis-Übung: Ein Operations-Dashboard für die Beispiel-App bauen - Service-Health (Query Value), Request Rate (Timeseries), Error Rate (Timeseries), Top-5-Endpoints nach Latenz (Top List), Live Logs (Log Stream).
6. Monitors und Alerting: Intelligent alarmieren
- Monitor-Typen: Metric Monitor (Schwellenwert), Anomaly Monitor (KI-basiert: weicht der Wert vom gelernten Muster ab?), Forecast Monitor (wird der Wert in X Stunden einen Schwellenwert erreichen?), Outlier Monitor (verhält sich ein Host anders als seine Peers?), Log Monitor (bestimmtes Log-Pattern erscheint zu oft), APM Monitor (Error Rate oder Latenz pro Service), Composite Monitor (Alert nur wenn A UND B gleichzeitig).
- Alerting Best Practices: Multi-Alert (ein Monitor pro Service statt ein Monitor für alle), Recovery Thresholds (Alert bei >5% Error Rate, Recovery bei <2% - Hysterese vermeidet Flapping), Evaluation Window (5 Min statt 1 Min - weniger False Positives), No Data Handling.
- Notification Channels: Slack, PagerDuty, OpsGenie, Microsoft Teams, E-Mail, Webhooks. Message Templates: Dashboard-Link, Runbook-Link, aktuelle Werte, betroffene Services.
- Downtime und Mute: Geplante Wartungsfenster - Monitors stumm schalten für bestimmte Services/Hosts/Zeiträume. Recurring Downtimes für regelmäßige Maintenance.
- SLOs in Datadog: SLO-Definition (99.9% Availability), Error Budget Tracking (wie viel Budget ist verbraucht?), SLO-basierte Alerts (Alert wenn Burn Rate zu hoch). Brücke zu SRE-Methodik.
- Praxis-Übung: Drei Monitors konfigurieren - Metric Monitor (CPU > 80%), Anomaly Monitor (ungewöhnlich hohe Latenz), APM Monitor (Error Rate > 5%). Slack-Notification mit Template.
7. Synthetics und RUM: Proaktives Monitoring und User-Perspektive
- Synthetic Tests: API-Tests (HTTP-Endpunkte auf Verfügbarkeit und Antwortzeit prüfen, von 60+ Standorten weltweit), Browser-Tests (echte User-Journeys aufzeichnen und wiederholen: Login -> Suche -> Bestellung -> Logout), SSL-Zertifikat-Checks, DNS-Checks, TCP/UDP-Checks.
- Multistep API-Tests: Verkettete API-Aufrufe - Login -> Token extrahieren -> API mit Token aufrufen -> Response validieren. Für komplexe Workflows und Microservices-Health-Checks.
- Real User Monitoring (RUM): JavaScript-Snippet im Frontend - reale Nutzer-Performance messen: Page Load Time, Largest Contentful Paint, First Input Delay, Core Web Vitals. Session Replay: einzelne User-Sessions nachspielen, Klicks und Scrollverhalten sehen.
- Synthetic -> APM-Korrelation: Ein fehlgeschlagener Synthetic Test -> Klick -> zugehöriger APM-Trace -> Root Cause im Backend. Proaktiv Probleme finden, bevor Kunden sie melden.
- Praxis-Übung: Einen API-Test und einen Browser-Test für die Beispiel-App konfigurieren. Alert bei Ausfall.
8. Cloud Security und Compliance (Überblick)
- Cloud Security Posture Management (CSPM): Fehlkonfigurationen in AWS/Azure/GCP erkennen - offene S3-Buckets, zu permissive IAM-Rollen, unverschlüsselte Datenbanken. Compliance-Frameworks: CIS Benchmarks, PCI DSS, HIPAA, SOC 2.
- Cloud SIEM: Log-basierte Threat Detection - vorgefertigte Detection Rules für AWS CloudTrail, Azure Activity Logs, Kubernetes Audit Logs. Correlation Rules: mehrere verdächtige Ereignisse zu einem Incident zusammenfassen.
- Application Security Monitoring (ASM): Runtime-Erkennung von Angriffen (SQL Injection, XSS, SSRF) direkt in der APM-Instrumentierung - kein separater WAF-Agent nötig.
- Abgrenzung: Datadog Security ist ein Einstieg - für tiefe Security-Themen bietet die GFU dedizierte Seminare (Wazuh 3×, SIEM 5×, Vulnerability Management S6781).
9. Praxis-Workshop: „Full-Stack Monitoring in 60 Minuten"
Phase 1 - Infrastruktur + APM (20 Min):
- Agent auf Container-Umgebung deployen, Auto-Discovery prüfen.
- Beispiel-App mit APM instrumentieren, Service Map verifizieren.
Phase 2 - Dashboard + Monitors (20 Min):
- Operations-Dashboard mit 6 Widgets bauen (Template Variables).
- 2 Monitors konfigurieren (Anomaly + APM Error Rate), Slack-Alert testen.
Phase 3 - Incident-Simulation (20 Min):
- Fehler in der Beispiel-App auslösen (Latenz-Spike, Error-Burst).
- Root-Cause-Analyse: Monitor-Alert -> Dashboard -> APM-Trace -> korrelierte Logs -> Ursache identifizieren. Ziel: unter 3 Minuten von Alert zu Root Cause.

Zielgruppe & Vorkenntnisse

DevOps- und Platform-Engineers: Die Datadog als zentrale Observability-Plattform für Cloud- und Container-Umgebungen einführen oder optimieren.
SRE-Teams: Die SLOs, Monitors und Incident Management in Datadog konfigurieren.
Cloud-Architekten: Die Datadog für AWS, Azure oder GCP evaluieren und integrieren.
Entwickler: Die Application Performance Monitoring (APM) und Log-Korrelation in ihren Services nutzen.

Voraussetzungen: Grundverständnis von Cloud-Infrastruktur (AWS, Azure oder GCP) und Containern (Docker/Kubernetes). Grundkenntnisse in Monitoring-Konzepten (Metriken, Logs, Traces) sind hilfreich

Ihre Schulung

In Präsenz	Online
Lernmethode
Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC.	Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.
Unterlagen
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.	Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.
Arbeitsmaterialien
Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its
Teilnahmezertifikat
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.

Organisation

In Präsenz

Online

Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung *

Ab 1 Teilnehmenden

Schulungszeiten

2 Tage, 09:00 - 16:00 Uhr

Ort der Schulung

GFU Schulungszentrum oder Virtual Classroom

GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

All-Inclusive

Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.

Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

Kostenfreie Services

In Präsenz	Online
Eigener Shuttle-Service Reservierte Parkplätze Hotelreservierung	Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Mehr Infos

Inhouse-/Firmenschulung

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

FAQ für Inhouse Schulungen

Was bedeutet Offene Schulung und Inhouse Schulung?

Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.

Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.

Ist eine Inhouse Schulung die richtige Wahl?

Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.

Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.

Wer kümmert sich um die Technik bei Inhouse Schulungen?

Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.

Vorteile einer Inhouse Schulung

Kompetente Seminarberatung
Dozenten aus der Praxis
Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
Unsere Inhouse Schulungen können Europaweit durchgeführt werden
Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen

Schulung Datadog: Full-Stack-Observability für Cloud-Umgebungen

Schulungsformen

Inhouse-/Firmenschulung

Beschreibung

Schulungsziel

Details

Inhalt

Zielgruppe & Vorkenntnisse

Ihre Schulung

Organisation

Kostenfreie Services

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

So haben GFU-Kunden gestimmt

Was bedeutet Offene Schulung und Inhouse Schulung?

Ist eine Inhouse Schulung die richtige Wahl?

Wer kümmert sich um die Technik bei Inhouse Schulungen?

Vorteile einer Inhouse Schulung

Verwandte Seminare