settings
OTEX_BIGISTQB®
Süddeutsche Zeitung Institut Auszeichnung
 Image
Alle KI Schulungen

Schulung Daten für KI: Daten-Vorbereitung für RAG, Fine-Tuning und Embedding

Datenmanagement für KI-Anwendungen Schritt für Schritt

2 Tage / S6998
Neues Seminar
Per E-Mail senden

Schulungsformen

Inhouse-/Firmenschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • In Ihrem Hause oder bei der GFU
  • Preis nach Angebot

  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

Individualschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • In Ihrem Hause oder bei der GFU
  • Preis nach Angebot

  • Lernumgebung in der Cloud
  • 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Präsenz Online Hybrid

Beschreibung

Daten sind der entscheidende Engpass für KI-Anwendungen in DACH-Unternehmen 2026. Während LLMs wie GPT-5, Claude Opus 4.7 und Mistral Large technologisch reif sind, scheitern die meisten KI-Projekte an der Daten-Schicht: fehlende Datenqualität, ungeeignete Chunking-Strategien, falsche Embedding-Modelle.
Wer in 2026 produktive RAG-Anwendungen umsetzen will, braucht ein systematisches Verständnis der Daten-Vorbereitung - von der ersten PDF-Ingestion bis zur produktiven Vektor-Suche. Dieses Zwei-Tage-Seminar vermittelt die Datenmanagement-Disziplin Schritt für Schritt, mit klarem Fokus auf RAG als zentraler Architektur-Pattern und einsteigerfreundlicher Einordnung von Fine-Tuning.

Finden Sie die richtige KI Schulung aus unserem Portfolio.

Schulungsziel

Jede teilnehmende Person verlässt das Seminar mit einem strukturierten Verständnis der Daten-Anforderungen für KI-Anwendungen, der Beherrschung von Document Processing und Chunking, der Routine in der Auswahl von Embedding-Modellen (OpenAI, Mistral, BGE), der Plattform-Auswahl-Matrix für Vektordatenbanken (pgvector, Qdrant, Weaviate, Pinecone), der Praxis in RAG-Architektur, dem fundierten Verständnis von Fine-Tuning und seiner Abgrenzung zu RAG und Prompt Engineering, der Datenqualitäts- und Governance-Disziplin mit DSGVO- und EU-AI-Act-Aspekten und einer 12-Monats-Roadmap für die KI-Daten-Reife - einsetzbar als operative Grundlage für erste RAG-Anwendungen und KI-Datenpipelines.

Details

Inhalt

Tag 1: Datenanforderungen, Document Processing, Embeddings und Vektordatenbanken
1. Datenanforderungen für KI-Anwendungen
  • Ziele und Erwartungen der Teilnehmenden
    • Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
  • Drei Wege zur Wissens-Anreicherung von LLMs: Prompt Engineering, RAG, Fine-Tuning.
  • Entscheidungs-Matrix: wann welcher Ansatz nach Use Case, Daten-Volumen, Aktualität, Kosten.
  • Daten-Typen: strukturierte Daten (Datenbanken), unstrukturierte Daten (PDFs, Word, Webseiten).
  • Datenqualitäts-Dimensionen für KI: Vollständigkeit, Aktualität, Genauigkeit, Relevanz.
  • Sensitivitäts-Klassifizierung: was darf in welches LLM.
  • Praxis-Übung: Eigene KI-Daten-Bestandsaufnahme - fünf Datenquellen identifizieren, nach Typ, Qualität und Sensitivität bewerten, geeignete Anreicherungs-Strategie zuordnen.
2. Document Processing und Chunking
  • Document Ingestion: PDF-Parser, Word-Parser, HTML-Cleaning, OCR für Scans.
  • Chunking-Strategien: 
    • Fixed-Size-Chunking als naivester Ansatz.
    • Recursive Character Chunking als bevorzugte Variante.
    • Document-aware Chunking mit Strukturen-Respekt (Überschriften, Absätze).
  • Chunk-Grösse: 200-500 Tokens als Faustregel, mit Overlap von 10-20 Prozent.
  • Metadaten pro Chunk: Quell-Dokument, Datum, Autor, Zugriffsrechte.
  • Praxis-Übung: Drei reale PDF-Dokumente in zwei Chunking-Varianten verarbeiten - Fixed-Size und Recursive Character; Ergebnisse vergleichen.
3. Embedding-Modelle
  • Embedding-Konzept: Texte als Vektoren in hochdimensionalen Räumen.
  • Embedding-Modelle 2026: 
    • OpenAI text-embedding-3 als Standard-Wahl.
    • Mistral Embed als europäische Alternative mit guter Multilingualität.
    • BGE und E5 als Open-Source-Optionen.
  • Multilingualität: was ein "deutsch-fähiges" Embedding-Modell ausmacht.
  • SaaS vs. Self-hosted: Souveränitäts-Aspekte und Kosten-Vergleich.
  • Praxis-Übung: Gleichen Text-Korpus mit zwei Embedding-Modellen vektorisieren, drei Such-Anfragen testen, Ergebnisse vergleichen.
4. Vektordatenbanken
  • Vektordatenbank-Konzept: Speicherung und Indexierung von Vektoren mit schneller Ähnlichkeits-Suche.
  • Pragmatische Optionen für DACH-Mittelstand: 
    • pgvector als PostgreSQL-Extension - ideal für moderate Datenvolumen mit bestehender PostgreSQL.
    • Qdrant (deutsch) als performante Open-Source-Variante, EU-hostbar.
    • Weaviate (niederländisch) mit integrierten Embedding-Modulen.
    • Pinecone als SaaS-Option mit EU-Region.
  • Hybrid-Search: Kombination von Vektor-Suche und klassischer Keyword-Suche.
  • Metadata-Filtering: Vorfilterung nach Datum, Autor, Zugriffsrechten.
  • Auswahl-Kriterien: Daten-Volumen, EU-Hosting, vorhandene Infrastruktur, Pricing.
  • Praxis-Übung: Vektordatenbank-Auswahl-Matrix für die eigene Organisation - vier Optionen gegen fünf Kriterien bewerten, Empfehlung mit Begründung.
Tag 2: RAG, Fine-Tuning, Datenqualität und Production
5. RAG-Architektur
  • RAG-Konzept: Wissens-Anreicherung von LLMs durch dynamische Datenabfrage.
  • RAG-Komponenten: Document Loader, Chunker, Embedder, Vektor-Speicher, Retriever, LLM für Generation.
  • Quellen-Verweise in Antworten: User-Vertrauen durch Transparenz.
  • Re-Ranking als Optionen für höhere Antwort-Qualität.
  • 1-Million-Token-Kontextfenster-Effekt (DeepSeek V4, Gemini, Claude): wann reduziert sich RAG-Komplexität.
  • Tools und Frameworks: LangChain, LlamaIndex, Haystack (deutsch).
  • Praxis-Übung: RAG-Architektur für einen Beispiel-Use-Case (interner Wissens-Bot) skizzieren - Komponenten-Auswahl, Datenfluss, Compliance-Aspekte.
6. Fine-Tuning Grundlagen und Einordnung
  • Fine-Tuning-Konzept: Anpassung eines Basis-Modells durch zusätzliches Training.
  • Wann Fine-Tuning sinnvoll: Stil-Anpassung, Output-Format-Konsistenz.
  • Wann nicht sinnvoll: neue Faktenwissen einbringen - das macht RAG besser.
  • Daten-Anforderungen: typischerweise einige hundert bis einige tausend hochwertige Beispiele.
  • Plattform-Optionen: OpenAI Fine-Tuning API, Mistral Fine-Tuning, Hugging Face.
  • Fine-Tuning vs. RAG vs. Prompt Engineering: Entscheidungs-Matrix.
  • Praxis-Übung: Drei reale Use Cases gegen Fine-Tuning vs. RAG vs. Prompt Engineering bewerten - Kunden-Support-Bot, Domain-spezifische Code-Generierung, Compliance-Frage-Antwort-System; Empfehlung mit Begründung.
7. Datenqualität und Governance
  • Datenqualitäts-Probleme typisch für KI-Anwendungen: Duplikate, veraltete Versionen, widersprüchliche Aussagen, OCR-Fehler.
  • Data Governance für KI: Verantwortlichkeiten, Daten-Owner, Versionierung.
  • Zugriffskontrolle in RAG-Systemen: Document-Level-Permissions, User-Context im Prompt.
  • DSGVO und KI-Daten: personenbezogene Daten in Embeddings, Recht auf Vergessenwerden.
  • EU-AI-Act seit 2. August 2026: Transparenz-Pflichten.
  • Praxis-Übung: Daten-Governance-Konzept für eine geplante KI-Anwendung skizzieren - Datenquellen, Verantwortliche, Zugriffskontrollen, DSGVO-Disziplin.
8. Production und Roadmap
  • Production-Architektur: Ingestion, Processing, Embedding, Storage, Retrieval, LLM-Call.
  • Inkrementelle Updates: neue, geänderte, gelöschte Dokumente im Vektor-Index pflegen.
  • Monitoring: Retrieval-Qualität, Antwort-Qualität, User-Feedback.
  • KPIs für KI-Datenpipelines: Datenqualitäts-Score, Retrieval-Hit-Rate, Antwort-Akzeptanz-Rate.
  • Lernpfad: Self-hosted Frontier-LLMs, Hands-on RAG, MLOps-Vertiefung.
  • Praxis-Übung: 12-Monats-Roadmap für KI-Daten-Reife skizzieren - Bestandsaufnahme, Pilot-Architektur, drei Quick Wins, KPI-Set, drei Risiken mit Mitigations-Strategien.

  • Daten-Verantwortliche und IT-Architektinnen: Die Datenpipelines für erste KI-Projekte aufbauen.
  • KI-Verantwortliche im Mittelstand: Die RAG-Anwendungen pragmatisch umsetzen wollen.
  • Backend-Entwicklerinnen mit KI-Interesse: Die LLM-Anwendungen mit eigenen Daten anreichern.
  • Quereinsteigerinnen ins KI-Daten-Thema: Die einen strukturierten Einstieg ohne Hands-on-Programmier-Tiefe suchen.
Voraussetzungen: Erfahrung mit Datenbanken und Datenstrukturen. Erste Berührung mit ChatGPT, Claude oder Microsoft Copilot. Programmier-Grundlagen sind hilfreich, aber nicht zwingend. Idealerweise vorheriger Besuch des Seminars Souveräne KI-Strategie als breitere Vorstufe.


In Präsenz

Online
Lernmethode

Ausgewogene Mischung aus Theorie und Praxis

Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.

Unterlagen

Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Arbeitsplatz
  • PC/VMs für alle Teilnehmenden
  • Hochwertige und performante Hardware
  • Große, höhenverstellbare Bildschirme
  • Zugang zu Ihrem Firmennetz erlaubt
  • 86-90 Zoll Bildschirm für perfekte Präsentationen in jedem Schulungsraum
  • Online Meeting + Remote Zugriff auf persönlichen GFU-Schulungs-PC
  • Keine Installation auf dem eigenem PC notwendig
Lernumgebung

Neu aufgesetzte Remote-Systeme für jeden Kurs in Abstimmung mit dem Seminarleiter, sodass Sie über ein perfektes Setup für die Durchführung aller praktischen Übungen verfügen.

Arbeitsmaterialien

Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its

Teilnahmezertifikat

Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.


In Präsenz

Online
Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung *

Ab 1 Teilnehmenden

Schulungszeiten
2 Tage, 09:00 - 16:00 Uhr
Ort der Schulung
GFU Schulungszentrum oder Virtual Classroom
GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

All-Inclusive

Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.
Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

-

In Präsenz

Online
  • Eigener Shuttle-Service
  • Reservierte Parkplätze
  • Hotelreservierung
  • Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Inhouse-/Firmenschulung
  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid
Individualschulung
  • Lernumgebung in der Cloud
  • 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Präsenz Online Hybrid

So haben GFU-Kunden gestimmt

Zu diesem Seminar wurden noch keine Bewertungen abgegeben.

FAQ für Inhouse Schulungen

Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.

Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.

Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.

Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.

Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.

  • Kompetente Seminarberatung
  • Dozenten aus der Praxis
  • Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
  • Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
  • Unsere Inhouse Schulungen können Europaweit durchgeführt werden
  • Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
  • Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen
aegallianzaxaElement 1deutsche-bankdeutsche-postlufthansamercedessonyzdf