
Bitte wählen Sie die Bereiche, die Sie exportieren möchten:

Schulung PostgreSQL mit pgvector: Vektorsuche und KI-Integration in der bestehenden Datenbank
Embeddings, Similarity Search und RAG - ohne neue Infrastruktur
Schulungsformen
Offene Schulung
- 2 Tage
- 5 gesicherte Termine
- Köln / Online
- 1.440,00 p. P. zzgl. MwSt.
- Dritter Mitarbeitende kostenfrei
- Learning & Networking in einem. Garantierte Durchführung ab 1 Teilnehmenden.
Inhouse-/Firmenschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Individualschulung
- 2 Tage - anpassbar
- Termin nach Wunsch
- In Ihrem Hause oder bei der GFU
- Preis nach Angebot
- Lernumgebung in der Cloud
- 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Beschreibung
pgvector speichert Embeddings als native PostgreSQL-Spalten neben Ihren relationalen Daten. Das bedeutet: ein einziger SQL-Query kann Vektorähnlichkeit, WHERE-Filter, JOINs und ORDER BY kombinieren - etwas, das mit separaten Vektordatenbanken aufwändige Synchronisation erfordert. Für Anwendungen mit bis zu 10-50 Millionen Vektoren ist pgvector oft die pragmatischste Lösung .
Dieses Seminar zeigt, wie man Vektorsuche in eine bestehende PostgreSQL-Datenbank integriert - eine Extension aktivieren, kein neues System betreiben. Wer eine dedizierte Vektordatenbank für Milliarden Vektoren sucht, findet bei der GFU „Milvus: Open-Source-Vektordatenbank" (NEU, 2T). Wer Vektordatenbanken konzeptionell vergleichen möchte, findet „Vektordatenbanken: Grundlagen" (S6226, 3T). Wer RAG-Anwendungen umfassend bauen möchte, findet „RAG-Anwendungen: Einführung in Retrieval Augmented Generation" (S6225, 5T).
Auf der Suche nach einer anderen KI Weiterbildung?
Schulungsziel
Das Seminar befähigt die Teilnehmenden zum produktiven Einsatz von pgvector in PostgreSQL - von der Installation und Konfiguration bis zur Integration in bestehende Datenbankstrukturen. Sie lernen, Embedding-Spalten anzulegen, die richtige Indexstrategie (IVFFlat oder HNSW) für ihre Suchanforderungen zu wählen und effiziente hybride Abfragen zu formulieren, die Vektorsuche mit klassischen SQL-Filtern verbinden. Darüber hinaus setzen sie pgvector als performantes Backend für RAG-Anwendungen ein.
Details
Inhalt
- Ziele und Erwartungen der Teilnehmenden
- Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
- 1. Warum pgvector? Positionierung und Entscheidungskriterien
- Das Pragmatismus-Argument: PostgreSQL läuft bereits - eine Extension aktivieren ist einfacher als ein neues System einführen, betreiben, sichern und synchronisieren.
- pgvector vs. dedizierte Vektordatenbanken: pgvector (bis ~50 Mio. Vektoren, SQL-Integration, keine neue Infrastruktur) vs. Milvus/Qdrant (Milliarden Vektoren, spezialisierte Indizes, GPU-Support) vs. Pinecone (Managed, kein Ops, aber US-Cloud). Entscheidungsmatrix: Datenmenge × SQL-Integration × Ops-Budget × Datenschutz.
- Embeddings kurz erklärt: Texte und Bilder als Vektoren, Distanzmetriken (Cosine, L2, Inner Product), Approximate Nearest Neighbor.
- Use Cases: Semantische Dokumentensuche, RAG-Backend, Produktempfehlungen, Duplikat-Erkennung, Bildähnlichkeitssuche - alles mit SQL.
- 2. Installation und Datenmodellierung
- Extension aktivieren: CREATE EXTENSION vector; - fertig. Verfügbarkeit: PostgreSQL 12+ (empfohlen: 16+), managed Services (AWS RDS, Azure Database, Google Cloud SQL, Supabase, Neon - alle unterstützen pgvector).
- Vektor-Spalten in Tabellen: ALTER TABLE documents ADD COLUMN embedding vector(1536); - Embeddings als Spalte neben Titel, Inhalt, Kategorie, Erstelldatum. Keine separate Collection, keine Synchronisation.
- Datentypen: vector (Dense Floats, Standard), halfvec (16-Bit, halber Speicher, minimaler Qualitätsverlust), sparsevec (Sparse Vectors für BM25/SPLADE).
- Schema-Design-Patterns: Embedding in der Haupttabelle (einfach, gut für 1:1) vs. separate Embedding-Tabelle mit Foreign Key (flexibel: mehrere Embedding-Modelle pro Dokument, Re-Embedding ohne Haupttabelle zu ändern).
- Praxis-Übung: pgvector in einer PostgreSQL-Instanz aktivieren, eine Dokument-Tabelle mit Vektor-Spalte anlegen, 1.000 Beispiel-Embeddings einfügen.
- 3. Vektorsuche mit SQL: Distanzoperatoren und hybride Abfragen
- Distanzoperatoren: <=> (Cosine Distance - Standardwahl für Text), <-> (L2/Euclidean), <#> (Negative Inner Product). Syntax: SELECT * FROM documents ORDER BY embedding <=> $query_vector LIMIT 10;
- Hybride Abfragen - der pgvector-Vorteil: Vektorsuche + SQL-Filter in einem Query: SELECT * FROM documents WHERE category = 'Technik' AND created_at > '2025-01-01' ORDER BY embedding <=> $query LIMIT 10;. Das funktioniert mit JOINs, Subqueries, CTEs, Aggregationen - die volle SQL-Mächtigkeit.
- Distanz als Score: 1 - (embedding <=> $query) AS similarity - Ähnlichkeit als Prozentwert zurückgeben. Schwellenwert setzen: HAVING similarity > 0.7.
- Batch-Abfragen: Mehrere Query-Vektoren gleichzeitig suchen - für Multi-Query-RAG oder Bulk-Ähnlichkeitsanalyse.
- Praxis-Übung: 5 hybride Abfragen formulieren - Vektorsuche mit WHERE, JOIN, GROUP BY, HAVING kombinieren. Ergebnisse vergleichen: reine Vektorsuche vs. gefilterte Suche.
- 4. Indexierung: IVFFlat vs. HNSW
- Ohne Index: Sequentieller Scan - exakt, aber O(n). Bei 100.000 Vektoren akzeptabel, bei 10 Mio. zu langsam.
- IVFFlat: Inverted File Index - Vektoren in Listen (Cluster) aufteilen. CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100); Parameter: lists (Anzahl Cluster), probes (wie viele Cluster bei der Suche, SET ivfflat.probes = 10). Vorteil: weniger Speicher als HNSW. Nachteil: Recall bei wenigen Probes mäßig.
- HNSW: Hierarchical Navigable Small World - Graph-basiert, besserer Recall als IVFFlat, aber mehr Speicher und längerer Index-Build. CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops) WITH (m = 16, ef_construction = 64); Parameter: m (Verbindungen), ef_construction (Bauqualität), hnsw.ef_search (Suchqualität zur Laufzeit). Empfehlung für die meisten Anwendungen.
- Index-Auswahl: <1 Mio. Vektoren -> HNSW (bester Recall). 1-50 Mio. -> HNSW (wenn RAM reicht) oder IVFFlat (wenn RAM knapp). >50 Mio. -> dedizierte Vektordatenbank erwägen.
- Partial Indexes: Index nur auf Teilmenge der Daten: CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops) WHERE status = 'published'; - kleinerer Index, schnellere Suche für den häufigsten Filter.
- Praxis-Übung: IVFFlat und HNSW auf demselben Datensatz vergleichen - EXPLAIN ANALYZE für Latenz, Recall messen (Top-10-Ergebnisse mit und ohne Index vergleichen), Speicherverbrauch prüfen.
- 5. Embedding-Pipelines: Daten einbetten und aktuell halten
- Embedding-Modelle wählen: OpenAI text-embedding-3-small (1536 dim, günstig), text-embedding-3-large (3072 dim, besser), Open-Source: sentence-transformers/all-MiniLM-L6-v2 (384 dim, kostenlos, lokal). Dimensions-Reduktion: OpenAI unterstützt dimensions-Parameter (z.B. 512 statt 1536 - weniger Speicher, minimaler Qualitätsverlust).
- Chunking-Strategien: Dokumente in Abschnitte teilen - Fixed-Size (500 Tokens), Sentence-based, Recursive Splitting. Chunk-Größe beeinflusst Retrieval-Qualität direkt. Chunks als eigene Zeilen mit Foreign Key zum Dokument.
- Batch-Ingestion in Python: psycopg2/psycopg3 oder SQLAlchemy mit pgvector-Integration. Tausende Embeddings effizient einfügen: COPY-Befehl, Batch-Insert, Connection Pooling.
- Aktualisierung: Trigger oder Cronjob - wenn sich ein Dokument ändert, muss das Embedding neu berechnet werden. Pattern: updated_at-Spalte + Batch-Job, der alle geänderten Zeilen re-embedded.
- Praxis-Übung: Eine Ingestion-Pipeline in Python bauen - PDF-Dokumente laden, chunken, mit OpenAI einbetten, in PostgreSQL mit pgvector speichern.
- 6. pgvector als RAG-Backend
- RAG-Architektur mit PostgreSQL: Frage -> Embedding -> SQL-Query mit pgvector -> Top-K Chunks -> LLM-Prompt -> Antwort mit Quellenangabe. Der Vorteil: Metadaten-Filter (Abteilung, Datum, Sprache) und Volltextsuche (tsvector) im selben Query.
- LangChain-Integration: PGVector als VectorStore in LangChain - Setup in 10 Zeilen. Connection-String, Collection-Name, Embedding-Funktion - fertig.
- Hybride Suche: Vektor + Volltext: pgvector (semantisch: „Fahrzeug" findet „Auto") + PostgreSQL tsvector/tsquery (lexikalisch: „BMW X3" findet exakt „BMW X3"). Reciprocal Rank Fusion für Score-Kombination. SELECT * FROM documents, plainto_tsquery('BMW X3') q WHERE tsv @@ q ORDER BY embedding <=> $query_vec LIMIT 10;
- Re-Ranking: Nach der Vektorsuche die Top-50 mit einem Cross-Encoder-Modell (z.B. cross-encoder/ms-marco-MiniLM) neu sortieren - verbessert Recall signifikant.
- Praxis-Übung: RAG-Chatbot mit pgvector bauen - PostgreSQL als einziges Backend, LangChain als Framework, OpenAI/Claude als LLM. Fragen an die eigene Dokumentensammlung stellen.
- 7. Produktion: Performance, Wartung und Skalierung
- Performance-Tuning: shared_buffers, effective_cache_size und work_mem für Vektorsuche anpassen. maintenance_work_mem für Index-Build erhöhen. SET hnsw.ef_search = 100; pro Session oder global.
- Speicherverbrauch kalkulieren: 1 Mio. Vektoren × 1536 Dimensionen × 4 Bytes = ~6 GB für Daten + ~12 GB für HNSW-Index. Bei 10 Mio. Vektoren: ~60 GB Daten + ~120 GB Index - passt das in den RAM?
- Monitoring: pg_stat_user_indexes (Index-Nutzung), EXPLAIN ANALYZE (Query-Plan prüfen: wird der Index genutzt?), Prometheus postgres_exporter (Brücke zu Observability-Seminaren).
- Backup und Recovery: pg_dump/pg_restore funktioniert wie gewohnt - Vektor-Spalten werden normal exportiert/importiert. Logische Replikation für Standby.
- Skalierung: Read Replicas für Suchlasten, Partitionierung nach Mandant oder Zeitraum, Connection Pooling (PgBouncer). Grenzen: bei >50 Mio. Vektoren oder <5ms Latenz-Anforderung -> dedizierte Vektordatenbank evaluieren.
- pgvector-Updates: Extension-Versionen (0.5 -> 0.6 -> 0.7+), neue Features pro Version (halfvec, sparsevec, HNSW-Verbesserungen). ALTER EXTENSION vector UPDATE;
- 8. Praxis-Workshop: „Semantic Search in PostgreSQL"
- Phase 1 - Datenmodell und Ingestion (30 Min):
- Tabelle mit Vektor-Spalte, Metadaten und Volltext-Index anlegen.
- Dokumentensammlung chunken, einbetten, laden. HNSW-Index erstellen.
- Phase 2 - Hybride Suche und RAG (30 Min):
- Hybride Abfragen schreiben (Vektor + SQL-Filter + Volltext).
- RAG-Pipeline anschließen: pgvector -> LangChain -> LLM -> Antwort.
- Phase 3 - Performance und Evaluation (20 Min):
- EXPLAIN ANALYZE auf Vektor-Queries. Index-Parameter tunen.
- 5 Testfragen: Retrieval-Qualität bewerten, Vektor vs. Hybrid vergleichen.
Zielgruppe & Vorkenntnisse
- PostgreSQL-Entwickler und -DBAs: Die Vektorsuche in ihre bestehende Datenbank integrieren möchten, ohne ein separates System einzuführen.
- Backend-Entwickler: Die RAG-Pipelines oder semantische Suche auf PostgreSQL aufbauen.
- Data Engineers: Die Embeddings neben relationalen Daten speichern und abfragen.
- Architekten: Die entscheiden müssen, ob pgvector ausreicht oder eine dedizierte Vektordatenbank (Milvus, Pinecone) nötig ist.
Ihre Schulung
In Präsenz | Online |
|---|---|
| Lernmethode | |
Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC. | Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent. |
| Unterlagen | |
Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. | Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne. |
| Arbeitsmaterialien | |
DIN A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its | |
| Teilnahmezertifikat | |
Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF. | |
Organisation
In Präsenz | Online | |
|---|---|---|
| Teilnehmendenzahl | ||
min. 1, max. 8 Personen | ||
| Garantierte Durchführung | ||
Ab 1 Teilnehmenden* | ||
| Schulungszeiten | ||
| ||
| Ort der Schulung | ||
GFU SchulungszentrumAm Grauen Stein 27 51105 Köln-Deutz oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden. Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen. | ||
| Räumlichkeiten | ||
Helle und modern ausgestattete Räume mit perfekter Infrastruktur | Bequem aus dem Homeoffice von überall | |
| Preisvorteil | ||
Dritter Mitarbeitende nimmt kostenfrei teil. Eventuell anfallende Prüfungskosten für den dritten Teilnehmenden werden zusätzlich berechnet - auch bei Seminaren inkl. Prüfungsgebühr. Hinweis: Um den Erfolg der Schulung zu gewährleisten, sollte auch der dritte Teilnehmende die erwarteten Vorkenntnisse mitbringen. | ||
| All-Inclusive | ||
Gebäck, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch | Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu. | |
| Barrierefreiheit | ||
Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei | - | |
Buchen ohne Risiko
| Rechnungsstellung |
Erst nach dem erfolgreichen Seminar. Keine Vorkasse. |
| Stornierung |
Kostenfrei bis zum Vortag des Seminars |
| Vormerken statt buchen |
Sichern Sie sich unverbindlich Ihren Seminarplatz schon vor der Buchung - auch wenn Sie selbst nicht berechtigt sind zu buchen |
Kostenfreie Services
In Präsenz | Online |
|---|---|
|
|
Buchungsmöglichkeiten
Online oder in Präsenz teilnehmen
Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.
Gesicherte offene Termine
| Termin | Ort | Preis | ||
|---|---|---|---|---|
| 28.09.-29.09.2026 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 30.11.-01.12.2026 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 2027 | ||||
| 15.03.-16.03.2027 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 17.05.-18.05.2027 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
| 19.07.-20.07.2027 Plätze vorhanden Köln / Online 1.440,00 | Köln / Online | 1.440,00 | Buchen Vormerken | |
- Lernumgebung in der Cloud
- Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
- Lernumgebung in der Cloud
- 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
- Alle folgenden Schulungsformen können auch Online als Virtual Classroom durchgeführt werden.
- Eine Offene Schulung findet zu einem festgelegten Zeitpunkt im voll ausgestatteten Schulungszentrum oder Online/Remote statt. Sie treffen auf Teilnehmende anderer Unternehmen und profitieren vom direkten Wissensaustausch.
- Eine Inhouse-/Firmen-Schulung geht auf die individuellen Bedürfnisse Ihres Unternehmens ein. Sie erhalten eine kostenfreie Beratung von Ihrem Seminarleiter und können Inhalte und Dauer auf Ihren Schulungsbedarf anpassen. Inhouse-Schulungen können Europaweit durchgeführt werden.
- Bei einer Individual-Schulung erhalten Sie eine 1-zu-1 Betreuung und bestimmen Inhalt, Zeit und Lerntempo. Der Dozent passt sich Ihren Wünschen und Bedürfnissen an.
Sie können unsere Schulungen auch als Remote Schulung im Virtual Classroom anfragen.
In drei Schritten zum Online Seminar im Virtual Classroom:
- Seminar auswählen und auf "Buchen" klicken
- Wählen Sie bei "Wie möchten Sie teilnehmen?" einfach "Online" aus.
- Formular ausfüllen und über den Button "Jetzt buchen" absenden.
Unser Kundenservice meldet sich bei Ihnen mit der Buchungsbestätigung.
Unsere Online Schulungen finden im Virtual Classroom statt. Ein Virtual Classroom bündelt mehrere Werkzeuge, wie Audio-Konferenz, Text-Chat, Interaktives Whiteboard, oder Application Sharing.
Vorteile von Virtual Classroom:
- Sie erhalten 1 zu 1 die gleiche Lernumgebung, die Sie auch vor Ort bei uns vorfinden
- Die technische Vorbereitung wird von den GFU-Technikern vorgenommen
- Sie erhalten remote Zugriff auf Ihren persönlichen Schulungs-PC im GFU-Seminarraum
- Die Virtual Classroom Lösung lässt sich auch im Browser betreiben
- Die GFU-Technik leistet wie gewohnt Soforthilfe bei Problemen
- Die Schulungsunterlagen bekommen Sie via DHL zugeschickt
- Sie sparen Reisekosten und Zeit
- 28. Sep. - 29. Sep. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 30. Nov. - 01. Dez. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 15. Mär. - 16. Mär. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 17. Mai - 18. Mai ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- 19. Jul. - 20. Jul. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
- Auch als Inhouse-Schulung, bundesweit mit Termin nach Wunsch und individuellen Inhalten
- Buchen ohne Risiko! Kostenfreie Stornierung bis zum Vortag des Seminars
Die Seminare der GFU finden in angenehmer Atmosphäre statt und sind perfekt organisiert. Profitieren Sie von dem Rundum-Service der GFU!
Machen Sie sich keinen Kopf um die Anreise! Unser Shuttle fährt Sie. Oder Sie parken einfach auf einem extra für Sie reservierten Parkplatz.
Hotelzimmer gesucht? Wir organisieren Ihnen eins. Ihr Vorteil: Sie sparen Zeit und Geld!
Stornierung bei offenen Seminaren kostenfrei bis einen Tag vor Schulungsbeginn.
Unsere Techniker sind immer zur Stelle, egal ob online oder vor Ort.
GFU Schulungszentrum