settings
OTEX_BIG
Süddeutsche Zeitung Institut Auszeichnung
 Image
Alle Cloud Schulungen

Schulung Datadog: Full-Stack-Observability für Cloud-Umgebungen

Metriken, Logs, Traces und Security in einer Plattform

2 Tage / S6823
Neues Seminar
Per E-Mail senden

Schulungsformen

Inhouse-/Firmenschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • In Ihrem Hause oder bei der GFU
  • Preis nach Angebot

  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

Beschreibung

Datadog ist die meistgenutzte Observability-Plattform   für Cloud-native Unternehmen - und das aus gutem Grund: Metriken, Logs, Traces, Synthetics, Security und CI/CD-Visibility in einer einzigen Plattform, mit 700+ Integrationen und KI-gestützter Anomalie-Erkennung. Statt Prometheus für Metriken, Loki für Logs, Jaeger für Traces und ein SIEM für Security separat zu betreiben, liefert Datadog alles aus einer Hand - mit eingebauter Korrelation zwischen allen Datentypen.
Dieses  Seminar führt durch die gesamte Plattform: vom Agent-Rollout über  Infrastructure Monitoring und APM bis zu Log Management, Synthetics und  Security. Sie bauen produktionsreife Dashboards, konfigurieren Monitors mit intelligenten Schwellenwerten (Anomaly Detection, Forecast, Outlier) und lernen die Killer-Feature-Kombination : ein Metrik-Alert -> Klick auf den auffälligen Service -> korrelierte Traces -> zugehörige Logs -> Root Cause in 60 Sekunden. Im Workshop bauen Sie ein vollständiges Monitoring-Setup für eine Microservices-Anwendung.
Wer Datadog spezifisch mit Azure integrieren möchte, findet bei der GFU „Datadog: Integration mit Microsoft Azure" (S5322, 1T). Wer Open-Source-Alternativen bevorzugt, findet „Kubernetes Monitoring mit Prometheus, Grafana und OpenTelemetry" (S6504, 3T) und „Grafana LGTM Stack" (S6499, 3T). Wer andere kommerzielle Plattformen evaluiert, findet „Dynatrace" (S5313, 2T) und „New Relic" (S5321, 2T).

Erfahren Sie mehr durch eine zusätzliche Cloud Weiterbildung aus unserem Seminarangebot.

Schulungsziel

Ein funktionierendes Full-Stack-Monitoring-Setup   mit Infrastructure Monitoring, APM, Log Management, Dashboard und  Alerting. 

Details

Inhalt

Tag 1: Agent, Infrastructure, APM und Logs
  • Ziele und Erwartungen der Teilnehmenden
    • Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
  • 1. Datadog-Plattform im Überblick: Architektur und Produktpalette
    • Die Produkte:   Infrastructure Monitoring, APM (Application Performance Monitoring),  Log Management, Synthetics (uptime + Browser-Tests), RUM (Real User  Monitoring), Security Monitoring (Cloud SIEM), CI Visibility, Database  Monitoring, Network Performance Monitoring. Welches Produkt für welchen  Use Case.
    • Architektur:   Datadog Agent (auf jedem Host/Container) -> Datadog Backend (SaaS,  Multi-Region: US, EU) -> Datadog Web UI. Agent als zentraler  Datenkollector: Metriken, Logs, Traces, Processes.
    • Datadog vs. Open Source:   Datadog (eine Plattform, SaaS, schneller Start, teuer bei Volumen) vs.  Prometheus+Grafana+Loki+Tempo (kostenlos, aber Ops-Aufwand).  Break-Even-Analyse: ab welcher Teamgröße lohnt sich was?
    • Kostenmodell verstehen:   Pro Host (Infrastructure), pro Span (APM), pro GB (Logs), pro Test  (Synthetics). Die häufigsten Kostenfallen: Log-Explosion, zu viele  Custom Metrics, APM ohne Sampling. Strategien zur Kostenkontrolle.
  • 2. Agent-Installation und Infrastruktur-Monitoring
    • Agent-Deployment:   Installation auf Linux/Windows, Docker (Sidecar-Container), Kubernetes  (DaemonSet via Helm Chart oder Datadog Operator), AWS ECS/Fargate (Task Definition). Cluster Agent für Kubernetes-Metadaten (Events,  HPA-Metriken).
    • Integrationen aktivieren:   700+ Out-of-the-Box-Integrationen - AWS (CloudWatch, RDS, Lambda, ELB), Azure (VMs, AKS, App Service), GCP, Docker, Kubernetes, NGINX,  PostgreSQL, Redis, Kafka. Auto-Discovery in Containern: Datadog erkennt  Services automatisch.
    • Host Map und Container Map:   Visuelle Infrastruktur-Übersicht - Hosts gruppiert nach  Region/Environment/Service, farbcodiert nach CPU/Memory/Alerts.  Container Map für Kubernetes: Pods gruppiert nach Namespace/Deployment.
    • Live Processes und Network Performance:   Echtzeit-Prozessliste auf jedem Host, Netzwerkflüsse zwischen Services  (wer kommuniziert mit wem, wie viel Traffic, welche Latenz).
    • Praxis-Übung: Datadog Agent per Docker Compose deployen, AWS- oder Cloud-Integration aktivieren, Host Map und Live Processes erkunden.
  • 3. APM: Distributed Tracing und Service-Übersicht
    • Tracing-Bibliotheken:   Auto-Instrumentation für Java (dd-java-agent), Python (ddtrace),  Node.js, .NET, Go, Ruby, PHP. Einbindung: ein Startparameter oder zwei  Zeilen Code - der Agent sammelt Traces automatisch.
    • Service Map:   Automatisch generierte Topologie aller Services - wer ruft wen auf, wie oft, mit welcher Latenz und Error Rate. Engpässe und Abhängigkeiten auf einen Blick.
    • Trace-Analyse:   Einzelne Traces aufschlüsseln: Flame Graph (welcher Span dauert am  längsten), Span-Details (SQL-Queries, HTTP-Calls, Cache-Hits), Error  Spans (Stack Traces direkt im Trace).
    • Service-Level-Metriken:   Request Rate, Error Rate, Latenz (P50/P95/P99) pro Service und Endpoint - automatisch berechnet aus Traces. Dashboards und Monitors darauf aufsetzen.
    • Trace -> Log-Korrelation:   Vom auffälligen Trace direkt zu den zugehörigen Logs springen - Trace  ID als Korrelations-Schlüssel. Einrichtung: Log-Bibliothek konfigurieren (trace_id und span_id in Log-Zeilen).
    • Ingestion Controls und Sampling:   Nicht jeden Trace aufbewahren (teuer!) - Head-based Sampling  (Entscheidung am Anfang), Retention Filters (nur Fehler, nur langsame  Traces aufbewahren). Ingestion vs. Retention trennen.
    • Praxis-Übung:   Eine Beispiel-App instrumentieren (Python oder Java), Service Map  betrachten, einen langsamen Request im Trace analysieren, zum  zugehörigen Log springen.
  • 4. Log Management: Sammeln, Verarbeiten, Analysieren
    • Log-Ingestion:   Agent-basiert (tail files, journald, Docker), Log-Forwarder (Fluentd,  Fluent Bit, Logstash -> Datadog), direkte API-Ingestion,  Cloud-Integrationen (CloudWatch Logs, Azure Diagnostics).
    • Log Pipelines und Processors:   Grok Parser (unstrukturierte Logs in Felder zerlegen), Remapper (Felder umbenennen), Category Processor (Logs nach Regeln klassifizieren), Enrichment (GeoIP, User-Agent-Parsing).
    • Log Explorer:   Volltextsuche, Facetten-Filter (Service, Status, Environment),  Pattern-Erkennung (Datadog gruppiert ähnliche Logs automatisch), Live  Tail (Echtzeit-Log-Stream).
    • Indexes und Exclusion Filters:   Nicht alle Logs indexieren (teuer!) - Exclusion Filter: Debug-Logs  ausschließen, Health-Check-Logs ausschließen. Mehrere Indexes mit  unterschiedlicher Retention (7 Tage für Debug, 30 Tage für Errors, 90  Tage für Audit).
    • Log-to-Metric:   Aus Log-Einträgen Metriken generieren - z.B. „Anzahl Login-Fehler pro  Minute" als Metrik, ohne jeden einzelnen Log-Eintrag zu speichern.  Kostensparend und performant.
    • Praxis-Übung:   Logs der Beispiel-App in Datadog einbinden, eine Pipeline mit Grok  Parser konfigurieren, Exclusion Filter für Health Checks setzen,  Log-to-Metric für Error-Counts erstellen.
Tag 2: Dashboards, Monitors, Synthetics und Security
  • 5. Dashboards: Operational und Executive Visibility
    • Dashboard-Typen:   Screenboards (frei positionierbare Widgets, flexibles Layout) vs.  Timeboards (zeitlich synchronisierte Widgets, besser für  Troubleshooting). Empfehlung: Timeboards für Operations, Screenboards  für Management.
    • Wichtige Widgets:   Timeseries (Trends), Query Value (Einzelwert + Trend-Pfeil), Top List  (Top-N-Services/Hosts/Endpoints), Heatmap (Latenzverteilung), Service  Map (live), SLO Widget, Log Stream (Echtzeit-Logs im Dashboard).
    • Template Variables: Dashboard-weite Filter - $env (prod/staging), $service, $region. Ein Dashboard für alle Environments.
    • Notebook und PowerPacks:   Notebooks für Incident-Postmortems (Grafiken + Markdown + Kommentare in einem Dokument), PowerPacks für wiederverwendbare Widget-Gruppen (z.B. „HTTP-Service-Übersicht" als Template für jeden Service).
    • Praxis-Übung:   Ein Operations-Dashboard für die Beispiel-App bauen - Service-Health  (Query Value), Request Rate (Timeseries), Error Rate (Timeseries),  Top-5-Endpoints nach Latenz (Top List), Live Logs (Log Stream).
  • 6. Monitors und Alerting: Intelligent alarmieren
    • Monitor-Typen:   Metric Monitor (Schwellenwert), Anomaly Monitor (KI-basiert: weicht der Wert vom gelernten Muster ab?), Forecast Monitor (wird der Wert in X Stunden einen Schwellenwert erreichen?), Outlier Monitor (verhält sich ein Host anders als seine Peers?), Log Monitor (bestimmtes Log-Pattern erscheint zu oft), APM Monitor (Error Rate oder Latenz pro Service), Composite Monitor (Alert nur wenn A UND B gleichzeitig).
    • Alerting Best Practices:   Multi-Alert (ein Monitor pro Service statt ein Monitor für alle),  Recovery Thresholds (Alert bei >5% Error Rate, Recovery bei <2% -  Hysterese vermeidet Flapping), Evaluation Window (5 Min statt 1 Min -  weniger False Positives), No Data Handling.
    • Notification Channels:   Slack, PagerDuty, OpsGenie, Microsoft Teams, E-Mail, Webhooks. Message  Templates: Dashboard-Link, Runbook-Link, aktuelle Werte, betroffene  Services.
    • Downtime und Mute:   Geplante Wartungsfenster - Monitors stumm schalten für bestimmte  Services/Hosts/Zeiträume. Recurring Downtimes für regelmäßige  Maintenance.
    • SLOs in Datadog:   SLO-Definition (99.9% Availability), Error Budget Tracking (wie viel  Budget ist verbraucht?), SLO-basierte Alerts (Alert wenn Burn Rate zu  hoch). Brücke zu SRE-Methodik.
    • Praxis-Übung:   Drei Monitors konfigurieren - Metric Monitor (CPU > 80%), Anomaly  Monitor (ungewöhnlich hohe Latenz), APM Monitor (Error Rate > 5%).  Slack-Notification mit Template.
  • 7. Synthetics und RUM: Proaktives Monitoring und User-Perspektive
    • Synthetic Tests:   API-Tests (HTTP-Endpunkte auf Verfügbarkeit und Antwortzeit prüfen, von 60+ Standorten weltweit), Browser-Tests (echte User-Journeys  aufzeichnen und wiederholen: Login -> Suche -> Bestellung -> Logout),  SSL-Zertifikat-Checks, DNS-Checks, TCP/UDP-Checks.
    • Multistep API-Tests:   Verkettete API-Aufrufe - Login -> Token extrahieren -> API mit Token  aufrufen -> Response validieren. Für komplexe Workflows und  Microservices-Health-Checks.
    • Real User Monitoring (RUM):   JavaScript-Snippet im Frontend - reale Nutzer-Performance messen: Page  Load Time, Largest Contentful Paint, First Input Delay, Core Web Vitals. Session Replay: einzelne User-Sessions nachspielen, Klicks und  Scrollverhalten sehen.
    • Synthetic -> APM-Korrelation:   Ein fehlgeschlagener Synthetic Test -> Klick -> zugehöriger APM-Trace ->  Root Cause im Backend. Proaktiv Probleme finden, bevor Kunden sie  melden.
    • Praxis-Übung: Einen API-Test und einen Browser-Test für die Beispiel-App konfigurieren. Alert bei Ausfall.
  • 8. Cloud Security und Compliance (Überblick)
    • Cloud Security Posture Management (CSPM):   Fehlkonfigurationen in AWS/Azure/GCP erkennen - offene S3-Buckets, zu  permissive IAM-Rollen, unverschlüsselte Datenbanken.  Compliance-Frameworks: CIS Benchmarks, PCI DSS, HIPAA, SOC 2.
    • Cloud SIEM:   Log-basierte Threat Detection - vorgefertigte Detection Rules für AWS  CloudTrail, Azure Activity Logs, Kubernetes Audit Logs. Correlation  Rules: mehrere verdächtige Ereignisse zu einem Incident zusammenfassen.
    • Application Security Monitoring (ASM): Runtime-Erkennung von Angriffen (SQL Injection, XSS, SSRF) direkt in der APM-Instrumentierung - kein separater WAF-Agent nötig.
    • Abgrenzung:   Datadog Security ist ein Einstieg - für tiefe Security-Themen bietet  die GFU dedizierte Seminare (Wazuh 3×, SIEM 5×, Vulnerability Management S6781).
  • 9. Praxis-Workshop: „Full-Stack Monitoring in 60 Minuten"
  • Phase 1 - Infrastruktur + APM (20 Min):
    • Agent auf Container-Umgebung deployen, Auto-Discovery prüfen.
    • Beispiel-App mit APM instrumentieren, Service Map verifizieren.
  • Phase 2 - Dashboard + Monitors (20 Min):
    • Operations-Dashboard mit 6 Widgets bauen (Template Variables).
    • 2 Monitors konfigurieren (Anomaly + APM Error Rate), Slack-Alert testen.
  • Phase 3 - Incident-Simulation (20 Min):
    • Fehler in der Beispiel-App auslösen (Latenz-Spike, Error-Burst).
    • Root-Cause-Analyse:  Monitor-Alert -> Dashboard -> APM-Trace -> korrelierte Logs -> Ursache  identifizieren. Ziel: unter 3 Minuten von Alert zu Root Cause.

  • DevOps- und Platform-Engineers: Die Datadog als zentrale Observability-Plattform für Cloud- und Container-Umgebungen einführen oder optimieren.
  • SRE-Teams: Die SLOs, Monitors und Incident Management in Datadog konfigurieren.
  • Cloud-Architekten: Die Datadog für AWS, Azure oder GCP evaluieren und integrieren.
  • Entwickler: Die Application Performance Monitoring (APM) und Log-Korrelation in ihren Services nutzen.
Voraussetzungen:   Grundverständnis von Cloud-Infrastruktur (AWS, Azure oder GCP) und  Containern (Docker/Kubernetes). Grundkenntnisse in Monitoring-Konzepten  (Metriken, Logs, Traces) sind hilfreich


In Präsenz

Online
Lernmethode

Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC.

Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.

Unterlagen

Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Arbeitsmaterialien

Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its

Teilnahmezertifikat

Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.


In Präsenz

Online
Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung *

Ab 1 Teilnehmenden

Schulungszeiten
2 Tage, 09:00 - 16:00 Uhr
Ort der Schulung
GFU Schulungszentrum oder Virtual Classroom
GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

All-Inclusive

Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.
Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

-

In Präsenz

Online
  • Eigener Shuttle-Service
  • Reservierte Parkplätze
  • Hotelreservierung
  • Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Inhouse-/Firmenschulung
  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

So haben GFU-Kunden gestimmt

Zu diesem Seminar wurden noch keine Bewertungen abgegeben.

FAQ für Inhouse Schulungen

Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.

Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.

Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.

Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.

Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.

  • Kompetente Seminarberatung
  • Dozenten aus der Praxis
  • Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
  • Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
  • Unsere Inhouse Schulungen können Europaweit durchgeführt werden
  • Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
  • Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen
aegallianzaxaElement 1deutsche-bankdeutsche-postlufthansamercedessonyzdf