
Bitte wählen Sie die Bereiche, die Sie exportieren möchten:

Schulung Vektor-Datenbanken für KI-Anwendungen
pgvector, ChromaDB, Weaviate und Qdrant im Vergleich
Schulungsformen
Offene Schulung
- 2 Tage
- 5 gesicherte Termine
- Köln / Online
- 1.440,00 p. P. zzgl. MwSt.
- Dritter Mitarbeitende kostenfrei
- Learning & Networking in einem. Garantierte Durchführung ab 1 Teilnehmenden.
Inhouse-/Firmenschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Individualschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Beschreibung
Die Toollandschaft ist unübersichtlich: pgvector (PostgreSQL-Extension - kein neues System), ChromaDB (Python-nativ, einfachster Start), Weaviate (Open Source, Hybrid Search, Multi-Tenancy), Qdrant (Rust-basiert, schnellste Filterung), Pinecone (Managed, kein Betrieb), Milvus (CNCF, größte Installationen). Jedes Tool hat eine begeisterte Community und überzeugende Demos. Aber welches passt zum eigenen Use Case, zum eigenen Tech-Stack, zum eigenen Budget?
Dieses Seminar zeigt nicht nur die Tools - es zeigt die Architektur-Prinzipien , die toolübergreifend gelten: Wie funktionieren Embeddings? Welche Index-Typen gibt es (HNSW, IVFFlat)? Was ist Hybrid Search? Wie baut man eine produktionsreife RAG-Pipeline? Und am Ende: ein systematischer Vergleich auf derselben Datenbasis, mit denselben Queries, in allen vier Tools.
Schulungsziel
Jede teilnehmende Person verlässt das Seminar mit dem Verständnis von Embeddings, Similarity Search und RAG-Architektur , praktischer Erfahrung in 4 Vektor-Datenbanken (pgvector, ChromaDB, Weaviate, Qdrant), einer funktionierenden RAG-Pipeline (LangChain + Vektor-DB + LLM), einer dokumentierten Toolentscheidung für den eigenen Use Case und einem Architekturentwurf für die eigene RAG-Applikation.
Details
Inhalt
1. Embeddings und Vektor-Suche: Konzepte und Architektur
- Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
- Was sind Embeddings? Text (oder Bilder, Audio) -> hochdimensionaler Vektor (z.B. 1536 Dimensionen bei OpenAI text-embedding-3-small). Semantisch ähnliche Inhalte haben ähnliche Vektoren. Nicht Keyword-Match, sondern Bedeutungs-Match.
- Embedding-Modelle: OpenAI (text-embedding-3-small/large), Cohere (embed-v3), Open Source (sentence-transformers, E5, BGE, Nomic). Trade-offs: Qualität vs. Kosten vs. Datenschutz (Cloud-API vs. Self-Hosted).
- Similarity Search: Cosine Similarity, L2 (Euclidean Distance), Inner Product. Approximate Nearest Neighbor (ANN) vs. Exact Search. Warum ANN: bei 10 Millionen Vektoren ist exakte Suche zu langsam.
- Index-Typen: HNSW (Hierarchical Navigable Small World - schnellste Queries, höherer RAM), IVFFlat (Inverted File Index - weniger RAM, langsamere Queries), Flat (Brute-Force - exakt, nur für kleine Datasets).
- RAG-Architektur: Dokumente -> Chunking -> Embedding -> Vektor-DB -> User Query -> Query Embedding -> Similarity Search -> Top-K Chunks -> LLM Prompt + Context -> Antwort. Die Standard-Pipeline für Enterprise-KI.
- Hybrid Search: Vektor-Suche (semantisch) + Keyword-Suche (BM25/Full-Text) kombinieren. Für Fälle, in denen exakte Begriffe wichtig sind (Produktnamen, Artikelnummern, juristische Begriffe).
- Praxis-Übung: Demo-Dokumentenkorpus vorbereiten (50 PDF-Seiten Unternehmens-Dokumentation). Embeddings mit OpenAI und einem Open-Source-Modell erzeugen. Cosine Similarity manuell berechnen (2 Vektoren). Unterschied: semantische Suche „Wie kündige ich meinen Vertrag?" findet „Vertragskündigung und Widerruf" - Keyword-Suche findet es nicht.
- Warum pgvector? Kein neues System, kein neuer Betrieb, kein neues Backup, kein neues Monitoring. PostgreSQL-Extension - CREATE EXTENSION vector, fertig. Für Organisationen, die bereits PostgreSQL nutzen: der pragmatischste Einstieg in Vektor-Suche.
- Installation und Konfiguration: Extension aktivieren, Vektor-Spalte erstellen (embedding vector(1536)), Index erstellen (HNSW oder IVFFlat). SQL bleibt SQL: SELECT * FROM docs ORDER BY embedding <=> query_vector LIMIT 5.
- Hybrid Search mit pgvector: Vektor-Suche + PostgreSQL Full-Text Search (tsvector/tsquery) in einer Query kombinieren. Metadaten-Filter: WHERE department = 'HR' ORDER BY embedding <=> query LIMIT 10 - strukturierte Filter + semantische Suche in einem System.
- Performance und Limits: pgvector skaliert gut bis ~5 Millionen Vektoren (mit HNSW-Index). Darüber: Performance sinkt, dedizierte Vektor-DB erwägen. Für 80 % der Enterprise-Use-Cases reicht pgvector.
- Praxis-Übung: pgvector installieren, Demo-Dokumente als Embeddings speichern, 5 Similarity-Search-Queries ausführen. Hybrid Search: Vektor + Full-Text + Metadaten-Filter. Performance messen (Query-Latenz bei 10k/50k/100k Vektoren).
- ChromaDB-Profil: Python-native Vektor-DB, In-Memory oder persistent, Open Source, einfachste API (collection.add(), collection.query()). Ideal für Prototyping, Notebooks, lokale Entwicklung. Nicht für Produktion mit >1M Vektoren oder Multi-User-Zugriff.
- Architektur: Eingebettet (In-Process, wie SQLite) oder Client-Server. Kein separater Service nötig für Prototypen. Collections als Namespace.
- ChromaDB-API: client.create_collection(), collection.add(documents=..., embeddings=..., metadatas=...), collection.query(query_embeddings=..., n_results=5, where={"department": "HR"}). 5 Zeilen Code vom Import bis zum Ergebnis.
- Einschränkungen: Kein Multi-Tenancy, keine eingebaute Replikation/HA, Performance-Limit bei großen Datasets, wenige Index-Optionen. Für Produktion: nach pgvector, Weaviate oder Qdrant migrieren.
- Praxis-Übung: Dieselben Demo-Dokumente in ChromaDB laden (5 Zeilen Python). Dieselben 5 Queries wie bei pgvector ausführen. Ergebnisse vergleichen: gleiche Dokumente gefunden? Gleiche Reihenfolge? Latenz-Unterschied?
4. Weaviate: Open-Source-Produktion mit Hybrid Search
- Weaviate-Profil: Open Source (BSD), Go-basiert, Cloud oder Self-Hosted, eingebaute Vektorisierung (Weaviate ruft Embedding-API selbst auf - kein separater Embedding-Schritt), native Hybrid Search (BM25 + Vektor in einer Query), Multi-Tenancy, Replikation, Sharding. Für Produktion mit >1M Vektoren.
- Schema und Collections: Typisiertes Schema (Classes mit Properties), automatische oder manuelle Vektorisierung. GraphQL- und REST-API.
- Hybrid Search nativ: alpha-Parameter steuert Gewichtung zwischen Keyword (BM25) und Vektor (Cosine). alpha=0 = rein Keyword, alpha=1 = rein Vektor, alpha=0.5 = ausgewogen. Für Enterprise-Suche: Hybrid ist fast immer besser als reiner Vektor.
- Multi-Tenancy: Ein Weaviate-Cluster, viele Mandanten - jeder sieht nur seine Daten. Für SaaS-Applikationen und mandantenfähige RAG-Systeme.
- Praxis-Übung: Weaviate per Docker starten, Schema definieren, Demo-Dokumente laden (mit automatischer Vektorisierung). Dieselben 5 Queries ausführen. Hybrid Search testen: alpha=0.3 vs. alpha=0.7 - wie ändert sich das Ergebnis? Multi-Tenancy: 2 Mandanten anlegen, Isolation prüfen.
- Qdrant-Profil: Rust-basiert (hohe Performance, niedriger RAM), Open Source (Apache 2.0), Cloud oder Self-Hosted, stärkste Filterung aller Vektor-DBs (Filter werden VOR der Vektor-Suche angewendet - kein Post-Filtering, das Ergebnisse verfälscht). Für latenz-sensitive und filter-intensive Use Cases.
- Points, Collections und Payloads: Vektoren + JSON-Payload (Metadaten) in einer Collection. Named Vectors (mehrere Vektoren pro Dokument - z.B. Titel-Embedding + Body-Embedding).
- Fortgeschrittene Filterung: Filter als First-Class-Citizen - must, should, must_not mit verschachtelten Bedingungen. Qdrant sucht nur im gefilterten Subset (effizient), nicht erst alle Vektoren und dann filtern (ineffizient). Für Use Cases: „Finde die 5 ähnlichsten Dokumente, die in den letzten 30 Tagen erstellt wurden und aus der Abteilung HR stammen."
- Sparse Vectors und Hybrid Search: Qdrant unterstützt Sparse Vectors (BM25, SPLADE) neben Dense Vectors -> Hybrid Search ohne separaten Keyword-Index.
- Praxis-Übung: Qdrant per Docker starten, Collection erstellen, Demo-Dokumente laden. Dieselben 5 Queries ausführen. Fortgeschrittene Filterung: kombinierte Vektor-Suche + Datum + Abteilung + Dokumenttyp. Named Vectors: Titel-Embedding und Body-Embedding separat durchsuchen.
- RAG-Pipeline komplett: Document Loading (PDF, Word, HTML -> Text) -> Chunking (Strategien: Fixed Size, Sentence-based, Semantic Chunking, Overlap) -> Embedding (Batch-Verarbeitung, Caching) -> Indexing (Vektor-DB) -> Retrieval (Query Embedding -> Top-K -> Reranking) -> Generation (LLM Prompt mit Context). LangChain / LlamaIndex als Orchestrierungs-Frameworks.
- Chunking-Strategien: Fixed Size (einfach, aber semantische Grenzen ignoriert), Sentence-based (besser, aber variable Länge), Recursive Character Splitting (LangChain-Standard), Semantic Chunking (Embedding-basierte Grenzenerkennung - teuer, aber beste Qualität). Chunk Size und Overlap als wichtigste Hyperparameter.
- Reranking: Top-K aus Vektor-DB -> Cross-Encoder Reranker (Cohere Rerank, BGE-Reranker) -> Top-N an LLM. Verbessert Precision signifikant (typisch: 15-30 % bessere Antwortqualität).
- Evaluation: Wie misst man RAG-Qualität? Retrieval-Metriken (Recall@K, MRR, NDCG), Generation-Metriken (Faithfulness, Relevancy, Answer Correctness). RAGAS-Framework für automatisierte Evaluation.
- Produktions-Patterns: Embedding-Cache (identische Dokumente nicht doppelt embedden), Incremental Indexing (nur neue/geänderte Dokumente), Metadata Enrichment (Dokumentquelle, Erstellungsdatum, Autor als Filter), Access Control (Benutzer sieht nur Dokumente, auf die er Zugriff hat - Integration mit IAM).
- Praxis-Übung: Vollständige RAG-Pipeline implementieren (Python + LangChain): PDF-Dokumente laden -> Chunking (Recursive, 500 Tokens, 50 Overlap) -> Embeddings -> in Weaviate oder pgvector speichern -> Query -> Reranking -> LLM-Antwort generieren. 3 Fragen an die Demo-Dokumentation stellen und Antwortqualität bewerten.
- Eigenen Use Case beschreiben: Dokumenttypen, Volumen, Benutzergruppen, bestehender Tech-Stack, Budget, Datenschutz-Anforderungen (Cloud vs. Self-Hosted).
- Toolentscheidung treffen und dokumentieren: Primäre Vektor-DB + Begründung, Embedding-Modell-Wahl (Cloud vs. Self-Hosted), Chunking-Strategie, Architekturskizze.
- Peer-Review: „Warum nicht pgvector - ihr habt doch PostgreSQL?" „Euer Datenvolumen wächst auf 50M Dokumente - skaliert eure Wahl?" „Eure Kunden sind in der EU - darf der Embedding-Service in den USA laufen?"
Zielgruppe & Vorkenntnisse
- KI-Entwickler und ML-Engineers: Die Retrieval Augmented Generation (RAG), Semantic Search oder Empfehlungssysteme mit Vektor-Datenbanken bauen.
- Backend-Entwickler: Die Vektor-Suche in bestehende Applikationen integrieren - ohne den gesamten Tech-Stack zu ändern.
- Data Engineers und Architekten: Die eine fundierte Toolentscheidung für Vektor-Datenbanken treffen - pgvector vs. dedizierte Vektor-DB vs. Managed Service.
- IT-Entscheider und Tech Leads: Die verstehen wollen, wann eine dedizierte Vektor-Datenbank nötig ist und wann PostgreSQL mit pgvector reicht.
Ihre Schulung
In Präsenz | Online |
|---|---|
| Lernmethode | |
Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC. | Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent. |
| Unterlagen | |
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. | Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. |
| Arbeitsmaterialien | |
DIN A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its | |
| Teilnahmezertifikat | |
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF. | |
Organisation
In Präsenz | Online | |
|---|---|---|
| Teilnehmendenzahl | ||
min. 1, max. 8 Personen | ||
| Garantierte Durchführung | ||
Ab 1 Teilnehmenden* | ||
| Schulungszeiten | ||
| ||
| Ort der Schulung | ||
GFU SchulungszentrumAm Grauen Stein 27 51105 Köln-Deutz oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden. Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen. | ||
| Räumlichkeiten | ||
Helle und modern ausgestattete Räume mit perfekter Infrastruktur | Bequem aus dem Homeoffice von überall | |
| Preisvorteil | ||
Dritter Mitarbeitende nimmt kostenfrei teil. Eventuell anfallende Prüfungskosten für den dritten Teilnehmenden werden zusätzlich berechnet. Hinweis: Um den Erfolg der Schulung zu gewährleisten, sollte auch der dritte Teilnehmende die erwarteten Vorkenntnisse mitbringen. | ||
| All-Inclusive | ||
Gebäck, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch | Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu. | |
| Barrierefreiheit | ||
Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei | - | |
Buchen ohne Risiko
| Rechnungsstellung |
Erst nach dem erfolgreichen Seminar. Keine Vorkasse. |
| Stornierung |
Kostenfrei bis zum Vortag des Seminars |
| Vormerken statt buchen |
Sichern Sie sich unverbindlich Ihren Seminarplatz schon vor der Buchung - auch wenn Sie selbst nicht berechtigt sind zu buchen |
Kostenfreie Services
In Präsenz | Online |
|---|---|
|
|
Buchungsmöglichkeiten
Online oder in Präsenz teilnehmen
Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.
Gesicherte offene Termine
| Termin | Ort | Preis | ||
|---|---|---|---|---|
| 10.08.-11.08.2026 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 12.10.-13.10.2026 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 14.12.-15.12.2026 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 2027 | ||||
| 19.04.-20.04.2027 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 21.06.-22.06.2027 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
- Lernumgebung in der Cloud
- 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Unterstützung nach der Schulung durch
individuelle Nachbetreuung
- Alle folgenden Schulungsformen können auch Online als Virtual Classroom durchgeführt werden.
- Eine Offene Schulung findet zu einem festgelegten Zeitpunkt im voll ausgestatteten Schulungszentrum oder Online/Remote statt. Sie treffen auf Teilnehmende anderer Unternehmen und profitieren vom direkten Wissensaustausch.
- Eine Inhouse-/Firmen-Schulung geht auf die individuellen Bedürfnisse Ihres Unternehmens ein. Sie erhalten eine kostenfreie Beratung von Ihrem Seminarleiter und können Inhalte und Dauer auf Ihren Schulungsbedarf anpassen. Inhouse-Schulungen können Europaweit durchgeführt werden.
- Bei einer Individual-Schulung erhalten Sie eine 1-zu-1 Betreuung und bestimmen Inhalt, Zeit und Lerntempo. Der Dozent passt sich Ihren Wünschen und Bedürfnissen an.
Sie können unsere Schulungen auch als Remote Schulung im Virtual Classroom anfragen.
In drei Schritten zum Online Seminar im Virtual Classroom:
- Seminar auswählen und auf "Buchen" klicken
- Wählen Sie bei "Wie möchten Sie teilnehmen?" einfach "Online" aus.
- Formular ausfüllen und über den Button "Jetzt buchen" absenden.
Unser Kundenservice meldet sich bei Ihnen mit der Buchungsbestätigung.
Unsere Online Schulungen finden im Virtual Classroom statt. Ein Virtual Classroom bündelt mehrere Werkzeuge, wie Audio-Konferenz, Text-Chat, Interaktives Whiteboard, oder Application Sharing.
Vorteile von Virtual Classroom:
- Sie erhalten 1 zu 1 die gleiche Lernumgebung, die Sie auch vor Ort bei uns vorfinden
- Die technische Vorbereitung wird von den GFU-Technikern vorgenommen
- Sie erhalten remote Zugriff auf Ihren persönlichen Schulungs-PC im GFU-Seminarraum
- Die Virtual Classroom Lösung lässt sich auch im Browser betreiben
- Die GFU-Technik leistet wie gewohnt Soforthilfe bei Problemen
- Die Schulungsunterlagen bekommen Sie via DHL zugeschickt
- Sie sparen Reisekosten und Zeit
- 10. Aug. - 11. Aug. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 12. Okt. - 13. Okt. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 14. Dez. - 15. Dez. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 19. Apr. - 20. Apr. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 21. Jun. - 22. Jun. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- Auch als Inhouse-Schulung, bundesweit mit Termin nach Wunsch und individuellen Inhalten
- Buchen ohne Risiko! Kostenfreie Stornierung bis zum Vortag des Seminars
Die Seminare der GFU finden in angenehmer Atmosphäre statt und sind perfekt organisiert. Profitieren Sie von dem Rundum-Service der GFU!
Machen Sie sich keinen Kopf um die Anreise! Unser Shuttle fährt Sie. Oder Sie parken einfach auf einem extra für Sie reservierten Parkplatz.
Hotelzimmer gesucht? Wir organisieren Ihnen eins. Ihr Vorteil: Sie sparen Zeit und Geld!
Stornierung bei offenen Seminaren kostenfrei bis einen Tag vor Schulungsbeginn.
Unsere Techniker sind immer zur Stelle, egal ob online oder vor Ort.
GFU Schulungszentrum