settings
OTEX_BIGISTQB®
Süddeutsche Zeitung Institut Auszeichnung
 Image
Alle KI Schulungen

Schulung PostgreSQL mit pgvector: Vektorsuche und KI-Integration in der bestehenden Datenbank

Embeddings, Similarity Search und RAG - ohne neue Infrastruktur

2 Tage / S6821
Neues Seminar
Per E-Mail senden

Schulungsformen

Offene Schulung


  • Dritter Mitarbeitende kostenfrei
  • Learning & Networking in einem. Garantierte Durchführung ab 1 Teilnehmenden.
Präsenz Online

Inhouse-/Firmenschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • In Ihrem Hause oder bei der GFU
  • Preis nach Angebot

  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid

Individualschulung

  • 2 Tage - anpassbar
  • Termin nach Wunsch
  • In Ihrem Hause oder bei der GFU
  • Preis nach Angebot

  • Lernumgebung in der Cloud
  • 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Präsenz Online Hybrid

Beschreibung

Die meisten Unternehmen, die KI-Features wie semantische Suche oder RAG-Chatbots bauen möchten, stehen vor der Frage: Brauchen wir eine neue Vektordatenbank? Oft lautet die Antwort: Nein. Wer bereits PostgreSQL betreibt, kann mit pgvector - einer einfachen Extension - Vektorsuche direkt in der bestehenden Datenbank nutzen. Keine neue Infrastruktur, kein neuer Ops-Aufwand, keine Datensynchronisation zwischen zwei Systemen.
pgvector speichert Embeddings als native PostgreSQL-Spalten neben Ihren relationalen Daten. Das bedeutet: ein einziger SQL-Query kann Vektorähnlichkeit, WHERE-Filter, JOINs und ORDER BY kombinieren - etwas, das mit separaten Vektordatenbanken aufwändige Synchronisation erfordert. Für Anwendungen mit bis zu 10-50 Millionen Vektoren ist pgvector oft die pragmatischste Lösung .
Dieses Seminar zeigt, wie man Vektorsuche in eine bestehende PostgreSQL-Datenbank integriert - eine Extension aktivieren, kein neues System betreiben. Wer eine dedizierte Vektordatenbank für Milliarden Vektoren sucht, findet bei der GFU „Milvus: Open-Source-Vektordatenbank" (NEU, 2T). Wer Vektordatenbanken konzeptionell vergleichen möchte, findet „Vektordatenbanken: Grundlagen" (S6226, 3T). Wer RAG-Anwendungen umfassend bauen möchte, findet „RAG-Anwendungen: Einführung in Retrieval Augmented Generation" (S6225, 5T).

Auf der Suche nach einer anderen KI Weiterbildung?

Schulungsziel

Das Seminar befähigt die Teilnehmenden zum produktiven Einsatz von pgvector in PostgreSQL - von der Installation und Konfiguration bis zur Integration in bestehende Datenbankstrukturen. Sie lernen, Embedding-Spalten anzulegen, die richtige Indexstrategie (IVFFlat oder HNSW) für ihre Suchanforderungen zu wählen und effiziente hybride Abfragen zu formulieren, die Vektorsuche mit klassischen SQL-Filtern verbinden. Darüber hinaus setzen sie pgvector als performantes Backend für RAG-Anwendungen ein.

Details

Inhalt

Tag 1: pgvector einrichten, Daten modellieren und abfragen
  • Ziele und Erwartungen der Teilnehmenden
    • Klärung individueller Lernziele und Erwartungen für ein praxisnahes und relevantes Seminar
  • 1. Warum pgvector? Positionierung und Entscheidungskriterien
    • Das Pragmatismus-Argument: PostgreSQL läuft bereits - eine Extension aktivieren ist einfacher als ein neues System einführen, betreiben, sichern und synchronisieren.
    • pgvector vs. dedizierte Vektordatenbanken: pgvector (bis ~50 Mio. Vektoren, SQL-Integration, keine neue Infrastruktur) vs. Milvus/Qdrant (Milliarden Vektoren, spezialisierte Indizes, GPU-Support) vs. Pinecone (Managed, kein Ops, aber US-Cloud). Entscheidungsmatrix: Datenmenge × SQL-Integration × Ops-Budget × Datenschutz.
    • Embeddings kurz erklärt: Texte und Bilder als Vektoren, Distanzmetriken (Cosine, L2, Inner Product), Approximate Nearest Neighbor.
    • Use Cases: Semantische Dokumentensuche, RAG-Backend, Produktempfehlungen, Duplikat-Erkennung, Bildähnlichkeitssuche - alles mit SQL.
  • 2. Installation und Datenmodellierung
    • Extension aktivieren: CREATE EXTENSION vector; - fertig. Verfügbarkeit: PostgreSQL 12+ (empfohlen: 16+), managed Services (AWS RDS, Azure Database, Google Cloud SQL, Supabase, Neon - alle unterstützen pgvector).
    • Vektor-Spalten in Tabellen: ALTER TABLE documents ADD COLUMN embedding vector(1536); - Embeddings als Spalte neben Titel, Inhalt, Kategorie, Erstelldatum. Keine separate Collection, keine Synchronisation.
    • Datentypen: vector (Dense Floats, Standard), halfvec (16-Bit, halber Speicher, minimaler Qualitätsverlust), sparsevec (Sparse Vectors für BM25/SPLADE).
    • Schema-Design-Patterns: Embedding in der Haupttabelle (einfach, gut für 1:1) vs. separate Embedding-Tabelle mit Foreign Key (flexibel: mehrere Embedding-Modelle pro Dokument, Re-Embedding ohne Haupttabelle zu ändern).
    • Praxis-Übung: pgvector in einer PostgreSQL-Instanz aktivieren, eine Dokument-Tabelle mit Vektor-Spalte anlegen, 1.000 Beispiel-Embeddings einfügen.
  • 3. Vektorsuche mit SQL: Distanzoperatoren und hybride Abfragen
    • Distanzoperatoren: <=> (Cosine Distance - Standardwahl für Text), <-> (L2/Euclidean), <#> (Negative Inner Product). Syntax: SELECT * FROM documents ORDER BY embedding <=> $query_vector LIMIT 10;
    • Hybride Abfragen - der pgvector-Vorteil: Vektorsuche + SQL-Filter in einem Query: SELECT * FROM documents WHERE category = 'Technik' AND created_at > '2025-01-01' ORDER BY embedding <=> $query LIMIT 10;. Das funktioniert mit JOINs, Subqueries, CTEs, Aggregationen - die volle SQL-Mächtigkeit.
    • Distanz als Score: 1 - (embedding <=> $query) AS similarity - Ähnlichkeit als Prozentwert zurückgeben. Schwellenwert setzen: HAVING similarity > 0.7.
    • Batch-Abfragen: Mehrere Query-Vektoren gleichzeitig suchen - für Multi-Query-RAG oder Bulk-Ähnlichkeitsanalyse.
    • Praxis-Übung: 5 hybride Abfragen formulieren - Vektorsuche mit WHERE, JOIN, GROUP BY, HAVING kombinieren. Ergebnisse vergleichen: reine Vektorsuche vs. gefilterte Suche.
  • 4. Indexierung: IVFFlat vs. HNSW
    • Ohne Index: Sequentieller Scan - exakt, aber O(n). Bei 100.000 Vektoren akzeptabel, bei 10 Mio. zu langsam.
    • IVFFlat: Inverted File Index - Vektoren in Listen (Cluster) aufteilen. CREATE INDEX ON documents USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100); Parameter: lists (Anzahl Cluster), probes (wie viele Cluster bei der Suche, SET ivfflat.probes = 10). Vorteil: weniger Speicher als HNSW. Nachteil: Recall bei wenigen Probes mäßig.
    • HNSW: Hierarchical Navigable Small World - Graph-basiert, besserer Recall als IVFFlat, aber mehr Speicher und längerer Index-Build. CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops) WITH (m = 16, ef_construction = 64); Parameter: m (Verbindungen), ef_construction (Bauqualität), hnsw.ef_search (Suchqualität zur Laufzeit). Empfehlung für die meisten Anwendungen.
    • Index-Auswahl: <1 Mio. Vektoren -> HNSW (bester Recall). 1-50 Mio. -> HNSW (wenn RAM reicht) oder IVFFlat (wenn RAM knapp). >50 Mio. -> dedizierte Vektordatenbank erwägen.
    • Partial Indexes: Index nur auf Teilmenge der Daten: CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops) WHERE status = 'published'; - kleinerer Index, schnellere Suche für den häufigsten Filter.
    • Praxis-Übung: IVFFlat und HNSW auf demselben Datensatz vergleichen - EXPLAIN ANALYZE für Latenz, Recall messen (Top-10-Ergebnisse mit und ohne Index vergleichen), Speicherverbrauch prüfen.
Tag 2: Embedding-Pipelines, RAG-Integration und Produktion
  • 5. Embedding-Pipelines: Daten einbetten und aktuell halten
    • Embedding-Modelle wählen: OpenAI text-embedding-3-small (1536 dim, günstig), text-embedding-3-large (3072 dim, besser), Open-Source: sentence-transformers/all-MiniLM-L6-v2 (384 dim, kostenlos, lokal). Dimensions-Reduktion: OpenAI unterstützt dimensions-Parameter (z.B. 512 statt 1536 - weniger Speicher, minimaler Qualitätsverlust).
    • Chunking-Strategien: Dokumente in Abschnitte teilen - Fixed-Size (500 Tokens), Sentence-based, Recursive Splitting. Chunk-Größe beeinflusst Retrieval-Qualität direkt. Chunks als eigene Zeilen mit Foreign Key zum Dokument.
    • Batch-Ingestion in Python: psycopg2/psycopg3 oder SQLAlchemy mit pgvector-Integration. Tausende Embeddings effizient einfügen: COPY-Befehl, Batch-Insert, Connection Pooling.
    • Aktualisierung: Trigger oder Cronjob - wenn sich ein Dokument ändert, muss das Embedding neu berechnet werden. Pattern: updated_at-Spalte + Batch-Job, der alle geänderten Zeilen re-embedded.
    • Praxis-Übung: Eine Ingestion-Pipeline in Python bauen - PDF-Dokumente laden, chunken, mit OpenAI einbetten, in PostgreSQL mit pgvector speichern.
  • 6. pgvector als RAG-Backend
    • RAG-Architektur mit PostgreSQL: Frage -> Embedding -> SQL-Query mit pgvector -> Top-K Chunks -> LLM-Prompt -> Antwort mit Quellenangabe. Der Vorteil: Metadaten-Filter (Abteilung, Datum, Sprache) und Volltextsuche (tsvector) im selben Query.
    • LangChain-Integration: PGVector als VectorStore in LangChain - Setup in 10 Zeilen. Connection-String, Collection-Name, Embedding-Funktion - fertig.
    • Hybride Suche: Vektor + Volltext: pgvector (semantisch: „Fahrzeug" findet „Auto") + PostgreSQL tsvector/tsquery (lexikalisch: „BMW X3" findet exakt „BMW X3"). Reciprocal Rank Fusion für Score-Kombination. SELECT * FROM documents, plainto_tsquery('BMW X3') q WHERE tsv @@ q ORDER BY embedding <=> $query_vec LIMIT 10;
    • Re-Ranking: Nach der Vektorsuche die Top-50 mit einem Cross-Encoder-Modell (z.B. cross-encoder/ms-marco-MiniLM) neu sortieren - verbessert Recall signifikant.
    • Praxis-Übung: RAG-Chatbot mit pgvector bauen - PostgreSQL als einziges Backend, LangChain als Framework, OpenAI/Claude als LLM. Fragen an die eigene Dokumentensammlung stellen.
  • 7. Produktion: Performance, Wartung und Skalierung
    • Performance-Tuning: shared_buffers, effective_cache_size und work_mem für Vektorsuche anpassen. maintenance_work_mem für Index-Build erhöhen. SET hnsw.ef_search = 100; pro Session oder global.
    • Speicherverbrauch kalkulieren: 1 Mio. Vektoren × 1536 Dimensionen × 4 Bytes = ~6 GB für Daten + ~12 GB für HNSW-Index. Bei 10 Mio. Vektoren: ~60 GB Daten + ~120 GB Index - passt das in den RAM?
    • Monitoring: pg_stat_user_indexes (Index-Nutzung), EXPLAIN ANALYZE (Query-Plan prüfen: wird der Index genutzt?), Prometheus postgres_exporter (Brücke zu Observability-Seminaren).
    • Backup und Recovery: pg_dump/pg_restore funktioniert wie gewohnt - Vektor-Spalten werden normal exportiert/importiert. Logische Replikation für Standby.
    • Skalierung: Read Replicas für Suchlasten, Partitionierung nach Mandant oder Zeitraum, Connection Pooling (PgBouncer). Grenzen: bei >50 Mio. Vektoren oder <5ms Latenz-Anforderung -> dedizierte Vektordatenbank evaluieren.
    • pgvector-Updates: Extension-Versionen (0.5 -> 0.6 -> 0.7+), neue Features pro Version (halfvec, sparsevec, HNSW-Verbesserungen). ALTER EXTENSION vector UPDATE;
  • 8. Praxis-Workshop: „Semantic Search in PostgreSQL"
  • Phase 1 - Datenmodell und Ingestion (30 Min):
    • Tabelle mit Vektor-Spalte, Metadaten und Volltext-Index anlegen.
    • Dokumentensammlung chunken, einbetten, laden. HNSW-Index erstellen.
  • Phase 2 - Hybride Suche und RAG (30 Min):
    • Hybride Abfragen schreiben (Vektor + SQL-Filter + Volltext).
    • RAG-Pipeline anschließen: pgvector -> LangChain -> LLM -> Antwort.
  • Phase 3 - Performance und Evaluation (20 Min):
    • EXPLAIN ANALYZE auf Vektor-Queries. Index-Parameter tunen.
    • 5 Testfragen: Retrieval-Qualität bewerten, Vektor vs. Hybrid vergleichen.

  • PostgreSQL-Entwickler und -DBAs: Die Vektorsuche in ihre bestehende Datenbank integrieren möchten, ohne ein separates System einzuführen.
  • Backend-Entwickler: Die RAG-Pipelines oder semantische Suche auf PostgreSQL aufbauen.
  • Data Engineers: Die Embeddings neben relationalen Daten speichern und abfragen.
  • Architekten: Die entscheiden müssen, ob pgvector ausreicht oder eine dedizierte Vektordatenbank (Milvus, Pinecone) nötig ist.
Voraussetzungen: Solide SQL-Kenntnisse und PostgreSQL-Grundlagen (Tabellen, Indizes, Abfragen). Idealerweise Besuch eines GFU-PostgreSQL-Seminars (S2145 Einstieg, S2147 Entwickler oder S611 Administration). Python-Grundkenntnisse für die Praxis-Übungen.


In Präsenz

Online
Lernmethode

Ausgewogene Mischung aus Theorie und praktischen Übungen auf persönlichem Schulungs-PC.

Wie auch bei unseren Präsenz-Seminaren: Ausgewogene Mischung aus Theorie und praktischen Übungen. Trainer durchgehend präsent.

Unterlagen

Seminarunterlagen oder Fachbuch inklusive. Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Seminarunterlagen oder Fachbuch inklusive (via DHL). Das Fachbuch wählt der Trainer passend zum Seminar aus - Ihren individuellen Buch-Wunsch berücksichtigen wir auf Nachfrage gerne.

Arbeitsmaterialien

DIN A4 Block, Notizblock, Kugelschreiber, USB-Stick, Textmarker, Post-its

Teilnahmezertifikat

Nach Abschluss des Seminars erhalten Sie das Teilnahmezertifikat inkl. Inhaltsverzeichnis per E-Mail als PDF.


In Präsenz

Online
Teilnehmendenzahl

min. 1, max. 8 Personen

Garantierte Durchführung

Ab 1 Teilnehmenden*

Schulungszeiten
2 Tage, 09:00 - 16:00 Uhr
Ort der Schulung
GFU Schulungszentrum oder Virtual Classroom
GFU Schulungszentrum
Am Grauen Stein 27
51105 Köln-Deutz

oder online im Virtual Classroom oder europaweit bei Ihnen als Inhouse-Schulung

Um ein optimales Raumklima zu gewährleisten, haben wir das Schulungszentrum mit 17 hochmodernen Trotec TAC V+ Luftreinigern ausgestattet. Diese innovative Filtertechnologie (H14 zertifiziert nach DIN EN1822) sorgt dafür, dass die Raumluft mehrfach pro Stunde umgewälzt wird und Schadstoffe zu 99.995% im HEPA-Filter abgeschieden und infektiöse Aerosole abgetötet werden.

Zusätzlich sind alle Räume mit CO2-Ampeln ausgestattet, um jederzeit eine hervorragende Luftqualität sicherzustellen.

Räumlichkeiten

Helle und modern ausgestattete Räume mit perfekter Infrastruktur

Bequem aus dem Homeoffice von überall

Preisvorteil

Dritter Mitarbeitende nimmt kostenfrei teil.
(Nicht mit anderen Rabatten kombinierbar.)

Eventuell anfallende Prüfungskosten für den dritten Teilnehmenden werden zusätzlich berechnet - auch bei Seminaren inkl. Prüfungsgebühr.

Hinweis: Um den Erfolg der Schulung zu gewährleisten, sollte auch der dritte Teilnehmende die erwarteten Vorkenntnisse mitbringen.

All-Inclusive

Gebäck, Snacks und Getränke ganztägig, Mittagessen im eigenen Restaurant, täglich 6 Menüs, auch vegetarisch

Eine Auswahl unserer Frühstücks-Snacks und Nervennahrungs-Highlights senden wir Ihnen mit den Seminarunterlagen via DHL zu.

Barrierefreiheit

Das GFU-Schulungszentrum (Am Grauen Stein 27) ist barrierefrei

-
Rechnungsstellung

Erst nach dem erfolgreichen Seminar. Keine Vorkasse.

Stornierung

Kostenfrei bis zum Vortag des Seminars

Vormerken statt buchen

Sichern Sie sich unverbindlich Ihren Seminarplatz schon vor der Buchung - auch wenn Sie selbst nicht berechtigt sind zu buchen


In Präsenz

Online
  • Eigener Shuttle-Service
  • Reservierte Parkplätze
  • Hotelreservierung
  • Technik-Sofort-Support

Buchungsmöglichkeiten

Online oder in Präsenz teilnehmen

Sie können sowohl Online als auch in Präsenz am Seminar teilnehmen. Klicken Sie bei Ihrer Buchung oder Anfrage einfach die entsprechende Option an.

Weiterbildung PostgreSQL mit pgvector: Vektorsuche und KI-Integration in der bestehenden Datenbank

TerminOrtPreis
28.09.-29.09.2026
Plätze vorhanden
Köln / Online 1.440,00
Köln / Online 1.440,00 Buchen Vormerken
30.11.-01.12.2026
Plätze vorhanden
Köln / Online 1.440,00
Köln / Online 1.440,00 Buchen Vormerken
2027
15.03.-16.03.2027
Plätze vorhanden
Köln / Online 1.440,00
Köln / Online 1.440,00 Buchen Vormerken
17.05.-18.05.2027
Plätze vorhanden
Köln / Online 1.440,00
Köln / Online 1.440,00 Buchen Vormerken
19.07.-20.07.2027
Plätze vorhanden
Köln / Online 1.440,00
Köln / Online 1.440,00 Buchen Vormerken
  • Buchen ohne Risiko
  • Keine Vorkasse
  • Kostenfreies Storno bis zum Vortag des Seminars
  • Rechnung nach erfolgreichem Seminar
  • All-Inclusive-Preis
  • Garantierter Termin und Veranstaltungsort
  • Preise pro Person zzgl. Mehrwertsteuer
  • Dritter Mitarbeitende kostenfrei (Nicht mit anderen Rabatten kombinierbar.)
Inhouse-/Firmenschulung
  • Lernumgebung in der Cloud
  • Inhalte werden auf Wunsch an die Anforderungen Ihres Teams angepasst.
Präsenz Online Hybrid
Individualschulung
  • Lernumgebung in der Cloud
  • 1 Teilnehmender = Fokus aufs Fachliche und maximaler Raum für individuelle Fragen.
Präsenz Online Hybrid

So haben GFU-Kunden gestimmt

Zu diesem Seminar wurden noch keine Bewertungen abgegeben.

FAQ für Offene Schulungen
  • Alle folgenden Schulungsformen können auch Online als Virtual Classroom durchgeführt werden.
  • Eine Offene Schulung findet zu einem festgelegten Zeitpunkt im voll ausgestatteten Schulungszentrum oder Online/Remote statt. Sie treffen auf Teilnehmende anderer Unternehmen und profitieren vom direkten Wissensaustausch.
  • Eine Inhouse-/Firmen-Schulung geht auf die individuellen Bedürfnisse Ihres Unternehmens ein. Sie erhalten eine kostenfreie Beratung von Ihrem Seminarleiter und können Inhalte und Dauer auf Ihren Schulungsbedarf anpassen. Inhouse-Schulungen können Europaweit durchgeführt werden.
  • Bei einer Individual-Schulung erhalten Sie eine 1-zu-1 Betreuung und bestimmen Inhalt, Zeit und Lerntempo. Der Dozent passt sich Ihren Wünschen und Bedürfnissen an.

Sie können unsere Schulungen auch als Remote Schulung im Virtual Classroom anfragen.

In drei Schritten zum Online Seminar im Virtual Classroom:

  1. Seminar auswählen und auf "Buchen" klicken
  2. Wählen Sie bei "Wie möchten Sie teilnehmen?" einfach "Online" aus.
  3. Formular ausfüllen und über den Button "Jetzt buchen" absenden.

Unser Kundenservice meldet sich bei Ihnen mit der Buchungsbestätigung.

Unsere Online Schulungen finden im Virtual Classroom statt. Ein Virtual Classroom bündelt mehrere Werkzeuge, wie Audio-Konferenz, Text-Chat, Interaktives Whiteboard, oder Application Sharing.

Vorteile von Virtual Classroom:

  • Sie erhalten 1 zu 1 die gleiche Lernumgebung, die Sie auch vor Ort bei uns vorfinden
  • Die technische Vorbereitung wird von den GFU-Technikern vorgenommen
  • Sie erhalten remote Zugriff auf Ihren persönlichen Schulungs-PC im GFU-Seminarraum
  • Die Virtual Classroom Lösung lässt sich auch im Browser betreiben
  • Die GFU-Technik leistet wie gewohnt Soforthilfe bei Problemen
  • Die Schulungsunterlagen bekommen Sie via DHL zugeschickt
  • Sie sparen Reisekosten und Zeit
  • 28. Sep. - 29. Sep. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 30. Nov. - 01. Dez. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 15. Mär. - 16. Mär. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 17. Mai - 18. Mai ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • 19. Jul. - 20. Jul. ✓ Noch einige Plätze frei ▶ Köln + Online/Remote
  • Auch als Inhouse-Schulung, bundesweit mit Termin nach Wunsch und individuellen Inhalten
  • Buchen ohne Risiko! Kostenfreie Stornierung bis zum Vortag des Seminars
Das GFU-Sorglos-Paket

Die Seminare der GFU finden in angenehmer Atmosphäre statt und sind perfekt organisiert. Profitieren Sie von dem Rundum-Service der GFU!

Shuttle-Service

Machen Sie sich keinen Kopf um die Anreise! Unser Shuttle fährt Sie. Oder Sie parken einfach auf einem extra für Sie reservierten Parkplatz.

Hotelreservierung

Hotelzimmer gesucht? Wir organisieren Ihnen eins. Ihr Vorteil: Sie sparen Zeit und Geld!

Kostenfreies Storno

Stornierung bei offenen Seminaren kostenfrei bis einen Tag vor Schulungsbeginn.

Technik-Support

Unsere Techniker sind immer zur Stelle, egal ob online oder vor Ort.

aegallianzaxaElement 1deutsche-bankdeutsche-postlufthansamercedessonyzdf