Süddeutsche Zeitung Institut Auszeichnung

Schulung OpenSearch mit KI: Neural Search, Vektorindizes und RAG-Integration

Semantische Suche und KI-Pipelines in OpenSearch: Von k-NN bis Conversational Search

2 Tage / S6822

Neues Seminar

Per E-Mail senden

Schulungsformen

Inhouse-/Firmenschulung

2 Tage - anpassbar
Termin nach Wunsch
In Ihrem Hause oder bei der GFU
Preis nach Angebot

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

	Offene Schulungen	Inhouse-Schulungen	Firmen-Schulungen	Individual-Schulungen
Seminar-Eigenschaften
Teilnehmerkreis	Teilnehmer:innen aus unterschiedlichen Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	Teilnehmer:innen nur aus Ihrem Unternehmen	1 Teilnehmer:in aus Ihrem Unternehmen
Schulungsort	bei GFU oder online	bei Ihnen	bei GFU, online oder hybrid	bei GFU, online oder hybrid
Empfohlene Teilnehmerzahl	ab 1	ab 4	ab 4	ab 1
Abrechnung	pro Teilnehmer:in	pro Tag	pro Tag	pro Tag
Seminaragenda anpassbar	—
Lernumgebung		bei GFU inklusive, online optional buchbar	bei GFU inklusive, online optional buchbar
Flexible Termine	Terminvorschlag möglich
Seminardauer und Zeiten individuell	—
Halbtagstermine	bei vielen Seminaren verfügbar
Beratung vorab durch Trainer:in (optional)
Networking mit Teilnehmenden aus anderen Unternehmen		—	—	—
Buchung und Zahlung
3=2 Rabatt: 3. Mitarbeitende nimmt kostenfrei teil		—	—	—
Garantierte Durchführung ab 1. Teilnehmenden*
Kostenfreie Stornierung	bis zu einem Werktag vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn	bis 21 Tage vor Seminarbeginn
Rechnungsstellung erst nach dem Seminar
Seminarplatz unverbindlich vormerken		nicht notwendig	nicht notwendig	nicht notwendig
Services
Shuttleservice zum Bahnhof / GFU-Vertragshotel Bei der GFU		—
Buchung Ihrer Übernachtung in GFU-Vertragshotels Bei der GFU		—
Kostenlose Parkplätze am Schulungszentrum Bei der GFU		—
Bewirtung im Schulungszentrum Bei der GFU				optional buchbar
Brainfood-Box mit Snacks Online		—	—	—
Technik-Sofort-Support Bei der GFU Bei Ihnen Online		—
Notebooks mieten Bei Ihnen Online	—	optional buchbar	—	optional buchbar

Beschreibung

OpenSearch ist längst mehr als ein Log-Aggregator oder eine Volltextsuchmaschine. Mit Neural Search , k-NN-Vektorindizes und dem ML Commons Framework hat sich OpenSearch zu einer vollständigen KI-fähigen Suchplattform entwickelt - semantische Suche, Hybrid Search, Embedding-Generierung und RAG-Integration sind nativ eingebaut, ohne externe Vektordatenbank.
Für Unternehmen, die OpenSearch bereits betreiben (für Logs, Application Search oder Analytics), bedeutet das: KI-gestützte Suche ohne neues System. Statt Milvus oder Pinecone parallel aufzubauen, nutzen Sie die Infrastruktur, die bereits läuft - mit denselben Indizes, demselben Cluster, denselben Dashboards.
Dieses Seminar erweitert bestehende OpenSearch-Kenntnisse um KI-Features (Neural Search, k-NN, ML Commons, RAG). Wer OpenSearch von Grund auf lernen möchte, findet „OpenSearch - Einführung" (S2444, 3T). Wer Vektordatenbanken als eigenständige Systeme vergleichen möchte, findet „Vektordatenbanken: Grundlagen" (S6226, 3T), „Milvus" (NEU, 2T) und „PostgreSQL mit pgvector" (NEU, 2T).

Für alle, die tiefer eintauchen möchten: Schauen Sie sich unser gesamtes KI Training Portfolio an.

Schulungsziel

Das Seminar befähigt die Teilnehmenden zum praxisnahen Einsatz der KI-Funktionen von OpenSearch - von der semantischen Suche über hybride Retrieval-Ansätze bis hin zu RAG-Anwendungen. Sie lernen, ML-Modelle über das ML Commons Framework zu deployen, Neural-Search-Pipelines einzurichten und k-NN-Indizes für effiziente Vektorsuche zu optimieren. Ein Schwerpunkt liegt auf der Implementierung hybrider Suchstrategien, die BM25 mit Vektorähnlichkeit kombinieren und über Normalisierungs-Pipelines fein abstimmen: eine funktionierende semantische Suchmaschine mit RAG auf OpenSearch - Neural Search Pipeline, Hybrid Query, LLM-Integration - direkt auf der bestehenden Infrastruktur.

Details

Inhalt

Tag 1: ML Commons, Embeddings und Vektorsuche

Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
1. OpenSearch als KI-Plattform: Architektur und Positionierung
- Evolution: Von Elasticsearch-Fork (2021) zur KI-fähigen Suchplattform - welche KI-Features OpenSearch 2.x eingebaut hat: k-NN, ML Commons, Neural Search, Semantic Search, Conversational Search.
- OpenSearch vs. Vektordatenbanken: OpenSearch (Suche + Vektoren + Logs + Analytics in einem System) vs. Milvus/Qdrant (spezialisiert auf Vektoren, schneller bei Milliarden) vs. pgvector (SQL-Integration). Wann OpenSearch die richtige Wahl ist: bestehende Infrastruktur, hybride Suche (Text + Vektor), Log-Korrelation mit semantischer Suche.
- Feature-Übersicht: k-NN Plugin (Vektorindizes), ML Commons (Modell-Hosting), Neural Search (Ingest-Pipeline + Query), Semantic Search, Conversational Search, Flow Framework (Workflow-Orchestrierung).
2. ML Commons Framework: Modelle in OpenSearch deployen
- Lokale Modelle: Open-Source-Embedding-Modelle direkt im OpenSearch-Cluster hosten - sentence-transformers, Hugging Face Cross-Encoder. Upload, Registrierung, Deployment auf ML-Nodes. Vorteil: Daten verlassen den Cluster nicht.
- Remote-Modelle (Connectors): OpenAI, Amazon Bedrock, Cohere, Azure OpenAI als externe Embedding-Provider anbinden. Connector-Konfiguration: API-Endpoint, Credentials, Modell-ID, Batch-Größe.
- Model Groups und Versioning: Modelle versionieren, A/B-Testing zwischen Modellversionen, Rollback bei Qualitätsverlust.
- ML-Node-Konfiguration: Dedizierte ML-Nodes im Cluster für Modell-Inferenz - Trennung von Such- und ML-Workloads. GPU-Support für lokale Modelle.
- Praxis-Übung: Ein Embedding-Modell über ML Commons deployen (lokal oder Remote-Connector) und erste Embeddings generieren.
3. k-NN-Indizes: Vektorsuche in OpenSearch
- k-NN Plugin: OpenSearch-natives Plugin für Approximate Nearest Neighbor Search. Drei Engines: Lucene (Standard, in-JVM), NMSLIB (HNSW, performant), Faiss (IVF + HNSW, GPU-fähig).
- Mapping konfigurieren: "type": "knn_vector", Dimensionen, Space Type (cosinesimil, l2, innerproduct), Engine-Auswahl, HNSW-Parameter (ef_construction, m).
- Vektorsuche-Query: "knn": {"embedding": {"vector": [...], "k": 10}} - die k nächsten Nachbarn finden. Score-Normalisierung: 1/(1+distance) für Cosine.
- Lucene vs. NMSLIB vs. Faiss: Lucene (einfachster Einstieg, gut bis ~5 Mio. Vektoren), NMSLIB (bester Recall, mehr Speicher), Faiss (GPU-Beschleunigung, IVF für große Datenmengen, Quantisierung für Speicherreduktion).
- Disk-based k-NN (Faiss): Vektoren auf Disk statt im RAM - für Datenmengen, die nicht ins Memory passen. Trade-off: 2-5× langsamer, aber 10× günstiger.
- Praxis-Übung: Einen k-NN-Index anlegen, 10.000 Dokument-Embeddings indexieren, Vektorsuche durchführen, Recall und Latenz messen.
4. Neural Search: Automatische Embedding-Generierung in der Pipeline
- Das Problem ohne Neural Search: Texte müssen vor der Indexierung extern eingebettet werden (Python-Skript -> OpenAI API -> Embedding -> Bulk-Insert). Bei jeder Änderung: Re-Embedding manuell.
- Ingest Pipeline mit ML-Processor: text_embedding-Processor in der Ingest Pipeline - OpenSearch generiert Embeddings automatisch beim Indexieren. Klartext rein -> Embedding wird gespeichert -> kein externer Code nötig.
- Neural Query: "neural": {"embedding": {"query_text": "Was ist Kubernetes?", "model_id": "..."}} - OpenSearch wandelt die Query zur Laufzeit in einen Vektor um und sucht. Keine Client-seitige Embedding-Logik nötig.
- Sparse Neural Search: BM25-Alternative mit gelernten Sparse Representations (SPLADE, neural_sparse) - besserer Recall als BM25, ohne Vektorspeicher. Ideal als Ergänzung zu Dense Vectors.
- Praxis-Übung: Eine Neural-Search-Pipeline konfigurieren - Texte indexieren (Embedding wird automatisch generiert), Neural Query absetzen, Ergebnisse vergleichen mit klassischer BM25-Suche.

Tag 2: Hybride Suche, RAG-Integration und Produktion

5. Hybrid Search: BM25 + Vektoren kombinieren
- Warum Hybrid? BM25 (lexikalisch: „BMW X3" findet exakt „BMW X3") + Vektorsuche (semantisch: „Fahrzeug" findet „Auto") = beste Retrieval-Qualität. Weder BM25 noch Vektor allein ist optimal.
- Search Pipeline mit Normalization Processor: Scores von BM25 und k-NN sind auf unterschiedlichen Skalen - min_max oder l2-Normalisierung macht sie vergleichbar. Kombination: arithmetic_mean (gewichteter Durchschnitt) oder harmonic_mean.
- Gewichtung tunen: "weights": [0.3, 0.7] - BM25 30%, Vektor 70%. Je nach Use Case: technische Dokumentation (höherer BM25-Anteil für exakte Begriffe) vs. natürlichsprachige Fragen (höherer Vektor-Anteil).
- Multi-Field Neural Search: Verschiedene Felder mit verschiedenen Modellen einbetten - Titel (kurz, prägnant) mit einem Modell, Body (lang, detailliert) mit einem anderen. Scores pro Feld gewichten.
- Praxis-Übung: Hybrid Search Pipeline konfigurieren - BM25 + Neural kombinieren, Gewichtung variieren, Retrieval-Qualität an 10 Testfragen vergleichen (BM25 allein vs. Neural allein vs. Hybrid).
6. OpenSearch als RAG-Backend
- RAG-Architektur mit OpenSearch: Frage -> Neural Query -> Top-K Chunks -> LLM-Prompt -> Antwort mit Quellenangabe. OpenSearch liefert Kontext, LLM generiert Antwort.
- Conversational Search (experimentell): OpenSearch kann den LLM-Call selbst durchführen - RAG als eingebautes Feature, ohne externe Orchestrierung. Pipeline: Retrieval -> LLM-Connector -> generierte Antwort direkt in der Search Response.
- LangChain-Integration: OpenSearchVectorSearch als Retriever - Connection-String, Index-Name, Embedding-Funktion. Hybrid Search als Retrieval-Strategie in der RAG-Chain.
- Chunking-Strategien: Dokumente vor der Indexierung in Abschnitte teilen. Chunk-Größe (300-500 Tokens optimal für RAG), Überlappung (50-100 Tokens für Kontextkontinuität). Chunks als eigene Dokumente mit Parent-ID.
- Re-Ranking: Nach der Hybrid Search die Top-50 mit einem Cross-Encoder-Modell (über ML Commons deployed) neu sortieren - signifikante Qualitätsverbesserung.
- Praxis-Übung: RAG-Pipeline bauen - Dokumente chunken und mit Neural Search indexieren, Hybrid Search als Retrieval, LangChain + OpenAI/Claude als Generator. Fragen an die eigene Dokumentensammlung stellen.
7. Produktion: Performance, Skalierung und Monitoring
- Cluster-Sizing für KI-Workloads: Dedizierte ML-Nodes (Embedding-Inferenz), dedizierte Data-Nodes (Indexierung/Suche), Koordinator-Nodes (Query-Routing). RAM-Kalkulation: k-NN-Indizes brauchen knn.memory.circuit_breaker.limit (Standard: 50% des Heaps).
- Performance-Tuning: ef_search-Parameter pro Query anpassen (höher = besserer Recall, langsamer), Segment Merging (weniger Segmente = schnellere Suche), Refresh Interval für Bulk-Indexierung erhöhen.
- Index Lifecycle Management: Ältere Indizes auf Cold/Frozen Tier verschieben, k-NN-Index warmhalten. ISM-Policies für automatisches Tiering.
- Monitoring: OpenSearch Dashboards für Cluster-Health, k-NN-Statistiken (_plugins/_knn/stats), ML-Commons-Statistiken (_plugins/_ml/stats), Prometheus-Exporter. Brücke zu Grafana-Seminaren.
- Security: Fine-grained Access Control auf Index- und Feldebene, Backend Roles, Document-Level Security (Mandant A sieht nur seine Dokumente).
- Managed Services: Amazon OpenSearch Service (Serverless oder Provisioned), Aiven for OpenSearch - wann managed, wann self-hosted?
8. Praxis-Workshop: „Semantic Search Engine"
Phase 1 - Setup und Indexierung (30 Min):
- ML-Modell deployen (Connector oder lokal), Neural-Search-Pipeline konfigurieren.
- Dokumentensammlung chunken und indexieren - Embeddings werden automatisch generiert.
Phase 2 - Hybrid Search und RAG (30 Min):
- Hybrid Search Pipeline (BM25 + Neural) konfigurieren und testen.
- RAG-Anbindung: OpenSearch -> LangChain -> LLM -> Antwort mit Quellenangabe.
Phase 3 - Evaluation (20 Min):
- 5 Testfragen: BM25 vs. Neural vs. Hybrid vergleichen.
- Gewichtung tunen, Re-Ranking testen, beste Konfiguration dokumentieren.

Zielgruppe & Vorkenntnisse

OpenSearch-/Elasticsearch-Entwickler: Die ihre bestehende Suchinfrastruktur um semantische und KI-gestützte Suche erweitern.
Data Engineers: Die OpenSearch als Vektor- und Suchbackend für RAG-Pipelines einsetzen.
Search Engineers: Die die Suchqualität durch Neural Search und Hybrid Search deutlich verbessern möchten.
DevOps-/Platform-Engineers: Die OpenSearch-Cluster mit KI-Workloads betreiben und skalieren.

Voraussetzungen: OpenSearch- oder Elasticsearch-Grundkenntnisse (Indizes, Mappings, Queries). Idealerweise Besuch der GFU-Schulung „OpenSearch - Einführung und Best Practices" (S2444, 3T) oder „Elasticsearch & OpenSearch für Softwareentwickler" (S2096, 3T). Python-Grundkenntnisse für die Praxisübungen.

Ihre Schulung

In Präsenz	Online
Lernmethode
Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC.	Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.
Unterlagen
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.	Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.
Arbeitsmaterialien
Din A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its
Teilnahmezertifikat
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.

Organisation

In Präsenz

Online

Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung *

Ab 1 Teilnehmenden

Schulungszeiten

2 Tage, 09:00 - 16:00 Uhr

Ort der Schulung

GFU Schulungszentrum oder Virtual Classroom

GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

All-Inclusive

Frühstück, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.

Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

Kostenfreie Services

In Präsenz	Online
Eigener Shuttle-Service Reservierte Parkplätze Hotelreservierung	Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Mehr Infos

Inhouse-/Firmenschulung

Lernumgebung in der Cloud
Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.

Präsenz Online Hybrid

Unverbindlich anfragen

FAQ für Inhouse Schulungen

Was bedeutet Offene Schulung und Inhouse Schulung?

Bei einer offenen Schulung stehen Ort und Termin vorab fest. Jeder Interessent kann eine offene Schulung buchen, daher treffen Teilnehmer aus verschiedenen Unternehmen aufeinander.

Inhouse Schulungen können auf Ihren individuellen Schulungsbedarf zugeschnitten werden. Sie bestimmen den Teilnehmerkreis, Termin und Schulungsort.

Ist eine Inhouse Schulung die richtige Wahl?

Bei einer Inhouse Schulung gehen wir auf die individuellen Bedürfnisse Ihres Unternehmens ein und decken den Schulungsbedarf direkt bei Ihnen im Unternehmen ab.

Das spart Zeit und Geld und sorgt für einen schnellen Wissenstransfer Ihrer Mitarbeiter.

Wer kümmert sich um die Technik bei Inhouse Schulungen?

Eine komplette Lernumgebung in der Cloud mit Remote Zugriff ist für uns selbstverständlich. Sie müssen sich um nichts kümmern. Lediglich ein funktionierender PC oder Notebook mit Internetanschluss sollte für jeden Teilnehmer am Schulungstag bereit stehen.

Vorteile einer Inhouse Schulung

Kompetente Seminarberatung
Dozenten aus der Praxis
Auf Ihre Bedürfnisse zugeschnittener individueller Lernstoff
Sie können den Termin flexibel gestalten, so wie es für Sie am besten passt
Unsere Inhouse Schulungen können Europaweit durchgeführt werden
Der Fokus liegt auf Ihrem Schulungsbedarf, somit schonen Sie Ihr Budget
Wissenslücken Ihrer Mitarbeitet werden schnell geschlossen

Schulung OpenSearch mit KI: Neural Search, Vektorindizes und RAG-Integration

Schulungsformen

Inhouse-/Firmenschulung

Beschreibung

Schulungsziel

Details

Inhalt

Zielgruppe & Vorkenntnisse

Ihre Schulung

Organisation

Kostenfreie Services

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

So haben GFU-Kunden gestimmt

Was bedeutet Offene Schulung und Inhouse Schulung?

Ist eine Inhouse Schulung die richtige Wahl?

Wer kümmert sich um die Technik bei Inhouse Schulungen?

Vorteile einer Inhouse Schulung

Verwandte Seminare