settings
OTEX_BIG
Süddeutsche Zeitung Institut Auszeichnung
 Image
Alle KI Schulungen

Schulung OpenSearch mit KI: Neural Search, Vektorindizes und RAG-Integration

Semantische Suche und KI-Pipelines in OpenSearch: Von k-NN bis Conversational Search

2 Tage / S6822
Neues Seminar
Per E-Mail senden

Schulungsformen

Inhouse-/Firmenschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • In Ihrem Hause oder bei der GFU
  • Preis nach Angebot

  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

Beschreibung

OpenSearch ist längst mehr als ein Log-Aggregator oder eine Volltextsuchmaschine. Mit Neural Search , k-NN-Vektorindizes und dem ML Commons Framework hat sich OpenSearch zu einer vollständigen KI-fähigen Suchplattform entwickelt - semantische Suche, Hybrid Search, Embedding-Generierung und RAG-Integration sind nativ eingebaut, ohne externe Vektordatenbank.
Für Unternehmen, die OpenSearch bereits betreiben (für Logs, Application Search oder Analytics), bedeutet das: KI-gestützte Suche ohne neues System. Statt Milvus oder Pinecone parallel aufzubauen, nutzen Sie die Infrastruktur, die bereits läuft - mit denselben Indizes, demselben Cluster, denselben Dashboards.
Dieses Seminar erweitert bestehende OpenSearch-Kenntnisse um KI-Features (Neural Search, k-NN, ML Commons, RAG). Wer OpenSearch von Grund auf lernen möchte, findet „OpenSearch - Einführung" (S2444, 3T). Wer Vektordatenbanken als eigenständige Systeme vergleichen möchte, findet „Vektordatenbanken: Grundlagen" (S6226, 3T), „Milvus" (NEU, 2T) und „PostgreSQL mit pgvector" (NEU, 2T).

Für alle, die tiefer eintauchen möchten: Schauen Sie sich unser gesamtes KI Training Portfolio an.

Schulungsziel

Das Seminar befähigt die Teilnehmenden zum praxisnahen Einsatz der KI-Funktionen von OpenSearch - von der semantischen Suche über hybride Retrieval-Ansätze bis hin zu RAG-Anwendungen. Sie lernen, ML-Modelle über das ML Commons Framework zu deployen, Neural-Search-Pipelines einzurichten und k-NN-Indizes für effiziente Vektorsuche zu optimieren. Ein Schwerpunkt liegt auf der Implementierung hybrider Suchstrategien, die BM25 mit Vektorähnlichkeit kombinieren und über Normalisierungs-Pipelines fein abstimmen: eine funktionierende semantische Suchmaschine mit RAG auf OpenSearch - Neural Search Pipeline, Hybrid Query, LLM-Integration - direkt auf der bestehenden Infrastruktur.

Details

Inhalt

Tag 1: ML Commons, Embeddings und Vektorsuche
  • Ziele und Erwartungen der Teilnehmenden
    • Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
  • 1. OpenSearch als KI-Plattform: Architektur und Positionierung
    • Evolution: Von Elasticsearch-Fork (2021) zur KI-fähigen Suchplattform - welche KI-Features OpenSearch 2.x eingebaut hat: k-NN, ML Commons, Neural Search, Semantic Search, Conversational Search.
    • OpenSearch vs. Vektordatenbanken: OpenSearch (Suche + Vektoren + Logs + Analytics in einem System) vs. Milvus/Qdrant (spezialisiert auf Vektoren, schneller bei Milliarden) vs. pgvector (SQL-Integration). Wann OpenSearch die richtige Wahl ist: bestehende Infrastruktur, hybride Suche (Text + Vektor), Log-Korrelation mit semantischer Suche.
    • Feature-Übersicht: k-NN Plugin (Vektorindizes), ML Commons (Modell-Hosting), Neural Search (Ingest-Pipeline + Query), Semantic Search, Conversational Search, Flow Framework (Workflow-Orchestrierung).
  • 2. ML Commons Framework: Modelle in OpenSearch deployen
    • Lokale Modelle: Open-Source-Embedding-Modelle direkt im OpenSearch-Cluster hosten - sentence-transformers, Hugging Face Cross-Encoder. Upload, Registrierung, Deployment auf ML-Nodes. Vorteil: Daten verlassen den Cluster nicht.
    • Remote-Modelle (Connectors): OpenAI, Amazon Bedrock, Cohere, Azure OpenAI als externe Embedding-Provider anbinden. Connector-Konfiguration: API-Endpoint, Credentials, Modell-ID, Batch-Größe.
    • Model Groups und Versioning: Modelle versionieren, A/B-Testing zwischen Modellversionen, Rollback bei Qualitätsverlust.
    • ML-Node-Konfiguration: Dedizierte ML-Nodes im Cluster für Modell-Inferenz - Trennung von Such- und ML-Workloads. GPU-Support für lokale Modelle.
    • Praxis-Übung: Ein Embedding-Modell über ML Commons deployen (lokal oder Remote-Connector) und erste Embeddings generieren.
  • 3. k-NN-Indizes: Vektorsuche in OpenSearch
    • k-NN Plugin: OpenSearch-natives Plugin für Approximate Nearest Neighbor Search. Drei Engines: Lucene (Standard, in-JVM), NMSLIB (HNSW, performant), Faiss (IVF + HNSW, GPU-fähig).
    • Mapping konfigurieren: "type": "knn_vector", Dimensionen, Space Type (cosinesimil, l2, innerproduct), Engine-Auswahl, HNSW-Parameter (ef_construction, m).
    • Vektorsuche-Query: "knn": {"embedding": {"vector": [...], "k": 10}} - die k nächsten Nachbarn finden. Score-Normalisierung: 1/(1+distance) für Cosine.
    • Lucene vs. NMSLIB vs. Faiss: Lucene (einfachster Einstieg, gut bis ~5 Mio. Vektoren), NMSLIB (bester Recall, mehr Speicher), Faiss (GPU-Beschleunigung, IVF für große Datenmengen, Quantisierung für Speicherreduktion).
    • Disk-based k-NN (Faiss): Vektoren auf Disk statt im RAM - für Datenmengen, die nicht ins Memory passen. Trade-off: 2-5× langsamer, aber 10× günstiger.
    • Praxis-Übung: Einen k-NN-Index anlegen, 10.000 Dokument-Embeddings indexieren, Vektorsuche durchführen, Recall und Latenz messen.
  • 4. Neural Search: Automatische Embedding-Generierung in der Pipeline
    • Das Problem ohne Neural Search: Texte müssen vor der Indexierung extern eingebettet werden (Python-Skript -> OpenAI API -> Embedding -> Bulk-Insert). Bei jeder Änderung: Re-Embedding manuell.
    • Ingest Pipeline mit ML-Processor: text_embedding-Processor in der Ingest Pipeline - OpenSearch generiert Embeddings automatisch beim Indexieren. Klartext rein -> Embedding wird gespeichert -> kein externer Code nötig.
    • Neural Query: "neural": {"embedding": {"query_text": "Was ist Kubernetes?", "model_id": "..."}} - OpenSearch wandelt die Query zur Laufzeit in einen Vektor um und sucht. Keine Client-seitige Embedding-Logik nötig.
    • Sparse Neural Search: BM25-Alternative mit gelernten Sparse Representations (SPLADE, neural_sparse) - besserer Recall als BM25, ohne Vektorspeicher. Ideal als Ergänzung zu Dense Vectors.
    • Praxis-Übung: Eine Neural-Search-Pipeline konfigurieren - Texte indexieren (Embedding wird automatisch generiert), Neural Query absetzen, Ergebnisse vergleichen mit klassischer BM25-Suche.
Tag 2: Hybride Suche, RAG-Integration und Produktion
  • 5. Hybrid Search: BM25 + Vektoren kombinieren
    • Warum Hybrid? BM25 (lexikalisch: „BMW X3" findet exakt „BMW X3") + Vektorsuche (semantisch: „Fahrzeug" findet „Auto") = beste Retrieval-Qualität. Weder BM25 noch Vektor allein ist optimal.
    • Search Pipeline mit Normalization Processor: Scores von BM25 und k-NN sind auf unterschiedlichen Skalen - min_max oder l2-Normalisierung macht sie vergleichbar. Kombination: arithmetic_mean (gewichteter Durchschnitt) oder harmonic_mean.
    • Gewichtung tunen: "weights": [0.3, 0.7] - BM25 30%, Vektor 70%. Je nach Use Case: technische Dokumentation (höherer BM25-Anteil für exakte Begriffe) vs. natürlichsprachige Fragen (höherer Vektor-Anteil).
    • Multi-Field Neural Search: Verschiedene Felder mit verschiedenen Modellen einbetten - Titel (kurz, prägnant) mit einem Modell, Body (lang, detailliert) mit einem anderen. Scores pro Feld gewichten.
    • Praxis-Übung: Hybrid Search Pipeline konfigurieren - BM25 + Neural kombinieren, Gewichtung variieren, Retrieval-Qualität an 10 Testfragen vergleichen (BM25 allein vs. Neural allein vs. Hybrid).
  • 6. OpenSearch als RAG-Backend
    • RAG-Architektur mit OpenSearch: Frage -> Neural Query -> Top-K Chunks -> LLM-Prompt -> Antwort mit Quellenangabe. OpenSearch liefert Kontext, LLM generiert Antwort.
    • Conversational Search (experimentell): OpenSearch kann den LLM-Call selbst durchführen - RAG als eingebautes Feature, ohne externe Orchestrierung. Pipeline: Retrieval -> LLM-Connector -> generierte Antwort direkt in der Search Response.
    • LangChain-Integration: OpenSearchVectorSearch als Retriever - Connection-String, Index-Name, Embedding-Funktion. Hybrid Search als Retrieval-Strategie in der RAG-Chain.
    • Chunking-Strategien: Dokumente vor der Indexierung in Abschnitte teilen. Chunk-Größe (300-500 Tokens optimal für RAG), Überlappung (50-100 Tokens für Kontextkontinuität). Chunks als eigene Dokumente mit Parent-ID.
    • Re-Ranking: Nach der Hybrid Search die Top-50 mit einem Cross-Encoder-Modell (über ML Commons deployed) neu sortieren - signifikante Qualitätsverbesserung.
    • Praxis-Übung: RAG-Pipeline bauen - Dokumente chunken und mit Neural Search indexieren, Hybrid Search als Retrieval, LangChain + OpenAI/Claude als Generator. Fragen an die eigene Dokumentensammlung stellen.
  • 7. Produktion: Performance, Skalierung und Monitoring
    • Cluster-Sizing für KI-Workloads: Dedizierte ML-Nodes (Embedding-Inferenz), dedizierte Data-Nodes (Indexierung/Suche), Koordinator-Nodes (Query-Routing). RAM-Kalkulation: k-NN-Indizes brauchen knn.memory.circuit_breaker.limit (Standard: 50% des Heaps).
    • Performance-Tuning: ef_search-Parameter pro Query anpassen (höher = besserer Recall, langsamer), Segment Merging (weniger Segmente = schnellere Suche), Refresh Interval für Bulk-Indexierung erhöhen.
    • Index Lifecycle Management: Ältere Indizes auf Cold/Frozen Tier verschieben, k-NN-Index warmhalten. ISM-Policies für automatisches Tiering.
    • Monitoring: OpenSearch Dashboards für Cluster-Health, k-NN-Statistiken (_plugins/_knn/stats), ML-Commons-Statistiken (_plugins/_ml/stats), Prometheus-Exporter. Brücke zu Grafana-Seminaren.
    • Security: Fine-grained Access Control auf Index- und Feldebene, Backend Roles, Document-Level Security (Mandant A sieht nur seine Dokumente).
    • Managed Services: Amazon OpenSearch Service (Serverless oder Provisioned), Aiven for OpenSearch - wann managed, wann self-hosted?
  • 8. Praxis-Workshop: „Semantic Search Engine"
  • Phase 1 - Setup und Indexierung (30 Min):
    • ML-Modell deployen (Connector oder lokal), Neural-Search-Pipeline konfigurieren.
    • Dokumentensammlung chunken und indexieren - Embeddings werden automatisch generiert.
  • Phase 2 - Hybrid Search und RAG (30 Min):
    • Hybrid Search Pipeline (BM25 + Neural) konfigurieren und testen.
    • RAG-Anbindung: OpenSearch -> LangChain -> LLM -> Antwort mit Quellenangabe.
  • Phase 3 - Evaluation (20 Min):
    • 5 Testfragen: BM25 vs. Neural vs. Hybrid vergleichen.
    • Gewichtung tunen, Re-Ranking testen, beste Konfiguration dokumentieren.

  • OpenSearch-/Elasticsearch-Entwickler: Die ihre bestehende Suchinfrastruktur um semantische und KI-gestützte Suche erweitern.
  • Data Engineers: Die OpenSearch als Vektor- und Suchbackend für RAG-Pipelines einsetzen.
  • Search Engineers: Die die Suchqualität durch Neural Search und Hybrid Search deutlich verbessern möchten.
  • DevOps-/Platform-Engineers: Die OpenSearch-Cluster mit KI-Workloads betreiben und skalieren.
Voraussetzungen: OpenSearch- oder Elasticsearch-Grundkenntnisse (Indizes, Mappings, Queries). Idealerweise Besuch der GFU-Schulung „OpenSearch - Einführung und Best Practices" (S2444, 3T) oder „Elasticsearch & OpenSearch für Softwareentwickler" (S2096, 3T). Python-Grundkenntnisse für die Praxisübungen.


In Präsenz

Online
Lernmethode

Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC.

Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.

Unterlagen

Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Arbeitsmaterialien

Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its

Teilnahmezertifikat

Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.


In Präsenz

Online
Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung *

Ab 1 Teilnehmenden

Schulungszeiten
2 Tage, 09:00 - 16:00 Uhr
Ort der Schulung
GFU Schulungszentrum oder Virtual Classroom
GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

All-Inclusive

Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.
Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

-

In Präsenz

Online
  • Eigener Shuttle-Service
  • Reservierte Parkplätze
  • Hotelreservierung
  • Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Inhouse-/Firmenschulung
  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

So haben GFU-Kunden gestimmt

Zu diesem Seminar wurden noch keine Bewertungen abgegeben.

FAQ für Inhouse Schulungen

Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.

Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.

Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.

Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.

Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.

  • Kompetente Seminarberatung
  • Dozenten aus der Praxis
  • Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
  • Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
  • Unsere Inhouse Schulungen können Europaweit durchgeführt werden
  • Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
  • Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen
aegallianzaxaElement 1deutsche-bankdeutsche-postlufthansamercedessonyzdf