
Bitte wählen Sie die Bereiche, die Sie exportieren möchten:

Schulung Datadog: Full-Stack-Observability für Cloud-Umgebungen
Metriken, Logs, Traces und Security in einer Plattform
Schulungsformen
Inhouse-/Firmenschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Beschreibung
Dieses Seminar führt durch die gesamte Plattform: vom Agent-Rollout über Infrastructure Monitoring und APM bis zu Log Management, Synthetics und Security. Sie bauen produktionsreife Dashboards, konfigurieren Monitors mit intelligenten Schwellenwerten (Anomaly Detection, Forecast, Outlier) und lernen die Killer-Feature-Kombination : ein Metrik-Alert -> Klick auf den auffälligen Service -> korrelierte Traces -> zugehörige Logs -> Root Cause in 60 Sekunden. Im Workshop bauen Sie ein vollständiges Monitoring-Setup für eine Microservices-Anwendung.
Wer Datadog spezifisch mit Azure integrieren möchte, findet bei der GFU „Datadog: Integration mit Microsoft Azure" (S5322, 1T). Wer Open-Source-Alternativen bevorzugt, findet „Kubernetes Monitoring mit Prometheus, Grafana und OpenTelemetry" (S6504, 3T) und „Grafana LGTM Stack" (S6499, 3T). Wer andere kommerzielle Plattformen evaluiert, findet „Dynatrace" (S5313, 2T) und „New Relic" (S5321, 2T).
Erfahren Sie mehr durch eine zusätzliche Cloud Weiterbildung aus unserem Seminarangebot.
Schulungsziel
Ein funktionierendes Full-Stack-Monitoring-Setup mit Infrastructure Monitoring, APM, Log Management, Dashboard und Alerting.
Details
Inhalt
- Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
- 1. Datadog-Plattform im Überblick: Architektur und Produktpalette
- Die Produkte: Infrastructure Monitoring, APM (Application Performance Monitoring), Log Management, Synthetics (uptime + Browser-Tests), RUM (Real User Monitoring), Security Monitoring (Cloud SIEM), CI Visibility, Database Monitoring, Network Performance Monitoring. Welches Produkt für welchen Use Case.
- Architektur: Datadog Agent (auf jedem Host/Container) -> Datadog Backend (SaaS, Multi-Region: US, EU) -> Datadog Web UI. Agent als zentraler Datenkollector: Metriken, Logs, Traces, Processes.
- Datadog vs. Open Source: Datadog (eine Plattform, SaaS, schneller Start, teuer bei Volumen) vs. Prometheus+Grafana+Loki+Tempo (kostenlos, aber Ops-Aufwand). Break-Even-Analyse: ab welcher Teamgröße lohnt sich was?
- Kostenmodell verstehen: Pro Host (Infrastructure), pro Span (APM), pro GB (Logs), pro Test (Synthetics). Die häufigsten Kostenfallen: Log-Explosion, zu viele Custom Metrics, APM ohne Sampling. Strategien zur Kostenkontrolle.
- 2. Agent-Installation und Infrastruktur-Monitoring
- Agent-Deployment: Installation auf Linux/Windows, Docker (Sidecar-Container), Kubernetes (DaemonSet via Helm Chart oder Datadog Operator), AWS ECS/Fargate (Task Definition). Cluster Agent für Kubernetes-Metadaten (Events, HPA-Metriken).
- Integrationen aktivieren: 700+ Out-of-the-Box-Integrationen - AWS (CloudWatch, RDS, Lambda, ELB), Azure (VMs, AKS, App Service), GCP, Docker, Kubernetes, NGINX, PostgreSQL, Redis, Kafka. Auto-Discovery in Containern: Datadog erkennt Services automatisch.
- Host Map und Container Map: Visuelle Infrastruktur-Übersicht - Hosts gruppiert nach Region/Environment/Service, farbcodiert nach CPU/Memory/Alerts. Container Map für Kubernetes: Pods gruppiert nach Namespace/Deployment.
- Live Processes und Network Performance: Echtzeit-Prozessliste auf jedem Host, Netzwerkflüsse zwischen Services (wer kommuniziert mit wem, wie viel Traffic, welche Latenz).
- Praxis-Übung: Datadog Agent per Docker Compose deployen, AWS- oder Cloud-Integration aktivieren, Host Map und Live Processes erkunden.
- 3. APM: Distributed Tracing und Service-Übersicht
- Tracing-Bibliotheken: Auto-Instrumentation für Java (dd-java-agent), Python (ddtrace), Node.js, .NET, Go, Ruby, PHP. Einbindung: ein Startparameter oder zwei Zeilen Code - der Agent sammelt Traces automatisch.
- Service Map: Automatisch generierte Topologie aller Services - wer ruft wen auf, wie oft, mit welcher Latenz und Error Rate. Engpässe und Abhängigkeiten auf einen Blick.
- Trace-Analyse: Einzelne Traces aufschlüsseln: Flame Graph (welcher Span dauert am längsten), Span-Details (SQL-Queries, HTTP-Calls, Cache-Hits), Error Spans (Stack Traces direkt im Trace).
- Service-Level-Metriken: Request Rate, Error Rate, Latenz (P50/P95/P99) pro Service und Endpoint - automatisch berechnet aus Traces. Dashboards und Monitors darauf aufsetzen.
- Trace -> Log-Korrelation: Vom auffälligen Trace direkt zu den zugehörigen Logs springen - Trace ID als Korrelations-Schlüssel. Einrichtung: Log-Bibliothek konfigurieren (trace_id und span_id in Log-Zeilen).
- Ingestion Controls und Sampling: Nicht jeden Trace aufbewahren (teuer!) - Head-based Sampling (Entscheidung am Anfang), Retention Filters (nur Fehler, nur langsame Traces aufbewahren). Ingestion vs. Retention trennen.
- Praxis-Übung: Eine Beispiel-App instrumentieren (Python oder Java), Service Map betrachten, einen langsamen Request im Trace analysieren, zum zugehörigen Log springen.
- 4. Log Management: Sammeln, Verarbeiten, Analysieren
- Log-Ingestion: Agent-basiert (tail files, journald, Docker), Log-Forwarder (Fluentd, Fluent Bit, Logstash -> Datadog), direkte API-Ingestion, Cloud-Integrationen (CloudWatch Logs, Azure Diagnostics).
- Log Pipelines und Processors: Grok Parser (unstrukturierte Logs in Felder zerlegen), Remapper (Felder umbenennen), Category Processor (Logs nach Regeln klassifizieren), Enrichment (GeoIP, User-Agent-Parsing).
- Log Explorer: Volltextsuche, Facetten-Filter (Service, Status, Environment), Pattern-Erkennung (Datadog gruppiert ähnliche Logs automatisch), Live Tail (Echtzeit-Log-Stream).
- Indexes und Exclusion Filters: Nicht alle Logs indexieren (teuer!) - Exclusion Filter: Debug-Logs ausschließen, Health-Check-Logs ausschließen. Mehrere Indexes mit unterschiedlicher Retention (7 Tage für Debug, 30 Tage für Errors, 90 Tage für Audit).
- Log-to-Metric: Aus Log-Einträgen Metriken generieren - z.B. „Anzahl Login-Fehler pro Minute" als Metrik, ohne jeden einzelnen Log-Eintrag zu speichern. Kostensparend und performant.
- Praxis-Übung: Logs der Beispiel-App in Datadog einbinden, eine Pipeline mit Grok Parser konfigurieren, Exclusion Filter für Health Checks setzen, Log-to-Metric für Error-Counts erstellen.
- 5. Dashboards: Operational und Executive Visibility
- Dashboard-Typen: Screenboards (frei positionierbare Widgets, flexibles Layout) vs. Timeboards (zeitlich synchronisierte Widgets, besser für Troubleshooting). Empfehlung: Timeboards für Operations, Screenboards für Management.
- Wichtige Widgets: Timeseries (Trends), Query Value (Einzelwert + Trend-Pfeil), Top List (Top-N-Services/Hosts/Endpoints), Heatmap (Latenzverteilung), Service Map (live), SLO Widget, Log Stream (Echtzeit-Logs im Dashboard).
- Template Variables: Dashboard-weite Filter - $env (prod/staging), $service, $region. Ein Dashboard für alle Environments.
- Notebook und PowerPacks: Notebooks für Incident-Postmortems (Grafiken + Markdown + Kommentare in einem Dokument), PowerPacks für wiederverwendbare Widget-Gruppen (z.B. „HTTP-Service-Übersicht" als Template für jeden Service).
- Praxis-Übung: Ein Operations-Dashboard für die Beispiel-App bauen - Service-Health (Query Value), Request Rate (Timeseries), Error Rate (Timeseries), Top-5-Endpoints nach Latenz (Top List), Live Logs (Log Stream).
- 6. Monitors und Alerting: Intelligent alarmieren
- Monitor-Typen: Metric Monitor (Schwellenwert), Anomaly Monitor (KI-basiert: weicht der Wert vom gelernten Muster ab?), Forecast Monitor (wird der Wert in X Stunden einen Schwellenwert erreichen?), Outlier Monitor (verhält sich ein Host anders als seine Peers?), Log Monitor (bestimmtes Log-Pattern erscheint zu oft), APM Monitor (Error Rate oder Latenz pro Service), Composite Monitor (Alert nur wenn A UND B gleichzeitig).
- Alerting Best Practices: Multi-Alert (ein Monitor pro Service statt ein Monitor für alle), Recovery Thresholds (Alert bei >5% Error Rate, Recovery bei <2% - Hysterese vermeidet Flapping), Evaluation Window (5 Min statt 1 Min - weniger False Positives), No Data Handling.
- Notification Channels: Slack, PagerDuty, OpsGenie, Microsoft Teams, E-Mail, Webhooks. Message Templates: Dashboard-Link, Runbook-Link, aktuelle Werte, betroffene Services.
- Downtime und Mute: Geplante Wartungsfenster - Monitors stumm schalten für bestimmte Services/Hosts/Zeiträume. Recurring Downtimes für regelmäßige Maintenance.
- SLOs in Datadog: SLO-Definition (99.9% Availability), Error Budget Tracking (wie viel Budget ist verbraucht?), SLO-basierte Alerts (Alert wenn Burn Rate zu hoch). Brücke zu SRE-Methodik.
- Praxis-Übung: Drei Monitors konfigurieren - Metric Monitor (CPU > 80%), Anomaly Monitor (ungewöhnlich hohe Latenz), APM Monitor (Error Rate > 5%). Slack-Notification mit Template.
- 7. Synthetics und RUM: Proaktives Monitoring und User-Perspektive
- Synthetic Tests: API-Tests (HTTP-Endpunkte auf Verfügbarkeit und Antwortzeit prüfen, von 60+ Standorten weltweit), Browser-Tests (echte User-Journeys aufzeichnen und wiederholen: Login -> Suche -> Bestellung -> Logout), SSL-Zertifikat-Checks, DNS-Checks, TCP/UDP-Checks.
- Multistep API-Tests: Verkettete API-Aufrufe - Login -> Token extrahieren -> API mit Token aufrufen -> Response validieren. Für komplexe Workflows und Microservices-Health-Checks.
- Real User Monitoring (RUM): JavaScript-Snippet im Frontend - reale Nutzer-Performance messen: Page Load Time, Largest Contentful Paint, First Input Delay, Core Web Vitals. Session Replay: einzelne User-Sessions nachspielen, Klicks und Scrollverhalten sehen.
- Synthetic -> APM-Korrelation: Ein fehlgeschlagener Synthetic Test -> Klick -> zugehöriger APM-Trace -> Root Cause im Backend. Proaktiv Probleme finden, bevor Kunden sie melden.
- Praxis-Übung: Einen API-Test und einen Browser-Test für die Beispiel-App konfigurieren. Alert bei Ausfall.
- 8. Cloud Security und Compliance (Überblick)
- Cloud Security Posture Management (CSPM): Fehlkonfigurationen in AWS/Azure/GCP erkennen - offene S3-Buckets, zu permissive IAM-Rollen, unverschlüsselte Datenbanken. Compliance-Frameworks: CIS Benchmarks, PCI DSS, HIPAA, SOC 2.
- Cloud SIEM: Log-basierte Threat Detection - vorgefertigte Detection Rules für AWS CloudTrail, Azure Activity Logs, Kubernetes Audit Logs. Correlation Rules: mehrere verdächtige Ereignisse zu einem Incident zusammenfassen.
- Application Security Monitoring (ASM): Runtime-Erkennung von Angriffen (SQL Injection, XSS, SSRF) direkt in der APM-Instrumentierung - kein separater WAF-Agent nötig.
- Abgrenzung: Datadog Security ist ein Einstieg - für tiefe Security-Themen bietet die GFU dedizierte Seminare (Wazuh 3×, SIEM 5×, Vulnerability Management S6781).
- 9. Praxis-Workshop: „Full-Stack Monitoring in 60 Minuten"
- Phase 1 - Infrastruktur + APM (20 Min):
- Agent auf Container-Umgebung deployen, Auto-Discovery prüfen.
- Beispiel-App mit APM instrumentieren, Service Map verifizieren.
- Phase 2 - Dashboard + Monitors (20 Min):
- Operations-Dashboard mit 6 Widgets bauen (Template Variables).
- 2 Monitors konfigurieren (Anomaly + APM Error Rate), Slack-Alert testen.
- Phase 3 - Incident-Simulation (20 Min):
- Fehler in der Beispiel-App auslösen (Latenz-Spike, Error-Burst).
- Root-Cause-Analyse: Monitor-Alert -> Dashboard -> APM-Trace -> korrelierte Logs -> Ursache identifizieren. Ziel: unter 3 Minuten von Alert zu Root Cause.
Zielgruppe & Vorkenntnisse
- DevOps- und Platform-Engineers: Die Datadog als zentrale Observability-Plattform für Cloud- und Container-Umgebungen einführen oder optimieren.
- SRE-Teams: Die SLOs, Monitors und Incident Management in Datadog konfigurieren.
- Cloud-Architekten: Die Datadog für AWS, Azure oder GCP evaluieren und integrieren.
- Entwickler: Die Application Performance Monitoring (APM) und Log-Korrelation in ihren Services nutzen.
Ihre Schulung
In Präsenz | Online |
|---|---|
| Lernmethode | |
Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC. | Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent. |
| Unterlagen | |
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. | Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. |
| Arbeitsmaterialien | |
Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its | |
| Teilnahmezertifikat | |
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF. | |
Organisation
In Präsenz | Online | |
|---|---|---|
| Teilnehmendenzahl | ||
min. 1, max. 8 Personen | ||
| Garantierte Durchführung * | ||
Ab 1 Teilnehmenden | ||
| Schulungszeiten | ||
| ||
| Ort der Schulung | ||
GFU SchulungszentrumAm Grauen Stein 27 51105 Köln-Deutz oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden. Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen. | ||
| Räumlichkeiten | ||
Helle und modern ausgestattete Räume mit perfekter Infrastruktur | Bequem aus dem Homeoffice von überall | |
| All-Inclusive | ||
Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch | Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu. | |
| Barrierefreiheit | ||
Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei | - | |
Kostenfreie Services
In Präsenz | Online |
|---|---|
|
|
Buchungsmöglichkeiten
Online oder in Präsenz teilnehmen
Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Was bedeutet Offene Schulung und Inhouse Schulung?
Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.
Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.
Ist eine Inhouse Schulung die richtige Wahl?
Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.
Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.
Wer kümmert sich um die Technik bei Inhouse Schulungen?
Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.
Vorteile einer Inhouse Schulung
- Kompetente Seminarberatung
- Dozenten aus der Praxis
- Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
- Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
- Unsere Inhouse Schulungen können Europaweit durchgeführt werden
- Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
- Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen
GFU Schulungszentrum