Von 30s auf 3s: Aufbau einer halluzinationsfreien Hybrid-RAG-Pipeline

Wie wir die KI-Suche in Routing, Python-Filterung und intelligente Fallbacks entkoppelt haben.

Die KI-Suchleiste Ihrer Community-App sieht wunderschön aus. Ein Nutzer tippt „Nachtapotheke in Torrance", drückt Enter und beobachtet einen Spinner, der sich 30 volle Sekunden dreht. Als die Ergebnisse endlich eintreffen, ist die Top-Empfehlung ein Nachbar-Beitrag über eine gebrauchte Fahrradwerkstatt. Warum? Weil die Wörter „Nacht" und „Reparatur" einen verdächtig nahen Embedding-Vektor mit „Nachtapotheke" teilen.

Das ist das Vektor-Raum-Halluzinationsproblem (Vector Space Hallucination Problem), und es hätte unser Kkaertalk-Projekt fast zerstört.

🌀 Das Dilemma: Ein Modell, um alles zu ruinieren

Unsere V1-Architektur war ein Lehrbuch-Beispiel für naives RAG: Die Benutzeranfrage entgegennehmen, einbetten, die Top-K nächsten Nachbarn per Kosinus-Ähnlichkeit abrufen, alles in einen einzigen massiven gpt-4-Prompt packen und darauf hoffen, dass das Modell das Rauschen ignoriert.

Was tatsächlich passierte:

Metrik	V1 (Naives RAG)	Ziel
End-to-End-Latenz	28–35s	< 3s
Halluzinationsrate	~22 %	0 %
Monatliche API-Kosten	2.400 $	< 250 $
Nutzer-Retention (D7)	12 %	> 40 %

Der 30-Sekunden-Spinner war ein Todesurteil. Doch die Halluzinationen waren schlimmer – die Nutzer verloren dauerhaft das Vertrauen, wenn die KI selbstbewusst irrelevante Ergebnisse empfahl. Kosinus-Ähnlichkeit ist ein stumpfes Instrument: Sie misst geometrische Nähe im Embedding-Raum, aber geometrische Nähe ≠ semantische Relevanz, wenn Ihr Korpus aus unstrukturierten, mehrsprachigen Community-Daten besteht.

🧬 Innovation 1: Hybrid Model Split

Der erste Durchbruch war die Erkenntnis, dass ein einzelnes LLM drei grundlegend verschiedene Aufgaben erledigte – und bei allen gleichzeitig schlecht war.

Wir zerlegten die KI-Pipeline in drei spezialisierte Rollen:

Rolle	Modell	Begründung
Echtzeit-Intent-Extraktion	`gpt-4o-mini`	JSON-erzwungene Ausgabe, ultraschnell (~200ms). Extrahiert strukturierten Intent aus natürlicher Sprache.
Hintergrund-Batch-Verarbeitung	`qwen3.5-flash`	Günstig. Übernachtung: Tagging, Übersetzung und Keyword-Extraktion für den gesamten Korpus.
Vektor-Embedding	`text-embedding-v4`	Konsistenter Koordinatenraum. Alle Dokumente und Abfragen leben im selben geometrischen Universum.

Die entscheidende Erkenntnis: Das Modell, das in Echtzeit mit dem Nutzer spricht, sollte niemals das Modell sein, das schwere Hintergrundarbeit erledigt. Durch die Isolierung von gpt-4o-mini als einziges Runtime-Modell reduzierten wir die Latenz pro Abfrage allein im Extraktionsschritt von 28s auf unter 800ms.

# Echtzeit: Ultraschnelle Intent-Extraktion (gpt-4o-mini)
response = openai.chat.completions.create(
    model="gpt-4o-mini",
    response_format={"type": "json_object"},
    messages=[{
        "role": "system",
        "content": "Extract search intent as JSON: {keywords: string[], location: string | null, time_context: string | null}"
    }, {
        "role": "user",
        "content": user_query
    }]
)
# Rückgabe in ~200ms: {"keywords": ["pharmacy"], "location": "Torrance", "time_context": "late-night"}

🔑 Innovation 2: Kostenfreie Hintergrund-Keyword-Extraktion

Unser nächtlicher Seeding-Bot übersetzte bereits jeden Community-Beitrag von Koreanisch nach Englisch (und umgekehrt) mit qwen3.5-flash. Wir erkannten, dass wir diese bestehende Pipeline kapern konnten, um gleichzeitig strukturierte Keywords zu extrahieren – ohne zusätzliche API-Kosten.

Vorher:

Prompt: „Übersetze diesen Beitrag ins Englische."
→ 1 API-Aufruf pro Beitrag (nur Übersetzung)

Nachher:

Prompt: „Übersetze diesen Beitrag ins Englische UND extrahiere genau 3 repräsentative Keywords."
→ 1 API-Aufruf pro Beitrag (Übersetzung + Keyword-Extraktion)

Das Ergebnis: Jedes Dokument in unserer Supabase-posts-Tabelle trägt jetzt ein extracted_keywords-JSONB-Array – ein Geschenk der Übersetzungspipeline, das uns nichts kostete:

-- Jeder Beitrag hat jetzt kostenlos strukturierte Metadaten
SELECT id, title, extracted_keywords FROM posts WHERE id = 42;
-- → { id: 42, title: "24시 약국 추천 Torrance", extracted_keywords: ["pharmacy", "24-hour", "Torrance"] }

Diese Metadaten werden zur Munition des Gatekeepers.

🛡 Innovation 3: Der Python-Gatekeeper

Hier entwickelt sich Kkaertalks Suche von „ganz ordentlichem RAG" zu null Halluzinationen. Der Python-Gatekeeper ist ein gnadenloser 15-Zeilen-Filterskript, der zwischen dem Vektor-Retrieval-Schritt und dem finalen LLM-Generierungsschritt sitzt. Er wird in 0,01 Sekunden ausgeführt.

Die Pipeline:

gpt-4o-mini extrahiert den Intent des Nutzers → ["pharmacy", "late-night"]
text-embedding-v4 bettet die Abfrage ein und ruft die Top-15-Vektorergebnisse aus Supabase pgvector ab
Der Gatekeeper prüft jeden Kandidaten: Enthält sein extracted_keywords-Array oder title mindestens eines der extrahierten Intent-Keywords?
Jedes Ergebnis, das durchfällt → gnadenlos verworfen
Nur die überlebenden Ergebnisse (typischerweise 3–5) werden dem Haupt-KI zur finalen Antwortgenerierung übergeben

def gatekeeper_filter(candidates: list, intent_keywords: list[str]) -> list:
    """
    Der Python-Gatekeeper: 0,01s Ausführungszeit.
    Verwirft jedes Vektorergebnis, dessen Metadaten kein einziges
    extrahiertes Intent-Keyword enthalten.
    """
    survivors = []
    for doc in candidates:
        doc_keywords = set(k.lower() for k in doc.get("extracted_keywords", []))
        doc_title = doc.get("title", "").lower()
        
        # Harte Übereinstimmung: Mindestens ein Intent-Keyword muss vorkommen
        if any(kw.lower() in doc_keywords or kw.lower() in doc_title 
               for kw in intent_keywords):
            survivors.append(doc)
    
    return survivors[:5]  # Nur die Top 5 garantiert relevanten Chunks erreichen die Haupt-KI

Die Eleganz liegt in der Asymmetrie: Kosinus-Ähnlichkeit ist gut beim Recall (irgendetwas Verwandtes finden), aber schlecht bei der Precision (sicherstellen, dass das Gefundene tatsächlich dem entspricht, was der Nutzer gemeint hat). Der Gatekeeper kehrt dies um – er opfert Recall zugunsten kugelsicherer Precision.

Testen Sie den interaktiven Vergleich unten:

Hybrid RAG Gatekeeper Sim

0.0s

v2.0.0

"Late-night pharmacy in Torrance" pgvector

Raw Vector Results (8 candidates)

24h Pharmacy near Torrance Blvd

Does anyone know a pharmacy open past midnight near Torrance? I need to pick up a prescription urgently.

pharmacy24-hourTorrance

cos: 0.91

Best late-night pharmacy spots in South Bay

Moved to the area recently. Where do you all go for late-night pharmacy runs?

pharmacylate-nightSouth Bay

cos: 0.87

Late-night bicycle repair — anyone open?

My bike chain broke at 11pm. Is there a late-night repair shop still open around here?

bicyclerepairlate-night

cos: 0.84

⚠ Vector Space Hallucination

Pharmacy recommendation for pet meds in Torrance

Need a pharmacy that carries pet medications. Any recommendations in the Torrance area?

pharmacypetTorrance

cos: 0.83

Late-night auto parts store near Del Amo

Anyone know an auto parts place open late? Need brake pads urgently for a morning trip.

auto-partslate-nightDel Amo

cos: 0.82

⚠ Vector Space Hallucination

Online drug deals — WARNING scam alert

PSA: got a sketchy DM about buying cheap drugs online. Reported to admin. Stay safe everyone.

scamonlinewarning

cos: 0.79

⚠ Irrelevant Content

Night shift workers meetup — Torrance

Fellow night owls! Let's organize a weekend brunch meetup for all us late-shift folks.

meetupnight-shiftTorrance

cos: 0.76

⚠ Semantic Drift

Pharmacy school prep study group

Starting a study group for pharmacy school entrance exams. DM if you're interested!

pharmacy-schoolstudyeducation

cos: 0.73

⚠ Semantic Drift

~37%

Hallucination

0.0s

Latency

→ Main AI

💡 TIP Der Gatekeeper läuft in reinem Python ohne ML-Abhängigkeiten. Kein Model-Loading, keine GPU, kein numpy. Es ist eine for-Schleife und eine Mengen-Schnittmenge. Ihr ML-Infrastruktur-Team wird Sie dafür lieben.

🪂 Innovation 4: Intelligenter Fallback (Das Sicherheitsnetz)

Was passiert, wenn der Gatekeeper alle Kandidaten eliminiert? Wenn 0 Ergebnisse den Keyword-Filter überleben, bedeutet das einfach: Die Community hat noch keine relevanten Beiträge. In V1 gab dies einen leeren Bildschirm zurück – verheerend für die UX.

Unsere Lösung: Intelligenter Fallback unter Nutzung des parametrischen Wissens des LLM.

if len(gatekeeper_results) == 0:
    # Keine Community-Daten vorhanden. Fallback auf das Weltwissen des LLM.
    fallback_prompt = f"""
    Der Nutzer suchte nach: "{user_query}"
    Noch keine Nachbar-Beiträge zu dieser Anfrage vorhanden. 
    
    Nutze dein allgemeines Wissen, um eine hilfreiche, prägnante Antwort zu geben.
    Stelle deiner Antwort folgendes voran: "Noch keine Nachbar-Beiträge, aber hier ist, was ich weiß:"
    
    Beispiel: "Noch keine Nachbar-Beiträge, aber die 24h-CVS-Apotheke 
    am Sepulveda Blvd ist die nächstgelegene Nachtapotheke zu Torrance."
    """
    response = generate_with_fallback(fallback_prompt)

Dies ist konzeptionell identisch mit Googles „AI Overview" – wenn keine lokalen Daten existieren, degradiert das System elegant zu einem Allgemeinwissen-Assistenten. Der Nutzer erhält weiterhin Mehrwert, und wir vermeiden den vertrauenszerstörenden leeren Bildschirm.

Szenario	Verhalten	Latenz
≥1 Ergebnis überlebt den Gatekeeper	Geerdete Antwort aus Community-Daten	~2,8s
0 Ergebnisse überleben den Gatekeeper	Parametrischer Fallback (LLM-Weltwissen)	~1,5s
Vektor-DB nicht erreichbar	Direkter parametrischer Fallback	~1,2s

📊 Ergebnisse: Vorher vs. Nachher

Nach dem Deployment der vollständigen Hybrid-RAG-Pipeline mit Python-Gatekeeper:

Metrik	V1 (Naives RAG)	V2 (Hybrid RAG + Gatekeeper)	Δ
End-to-End-Latenz	28–35s	2,5–3,2s	-90 %
Halluzinationsrate	~22 %	0 % (1.200 Abfragen auditiert)	-100 %
Monatliche API-Kosten	2.400 $	230 $	-90 %
Nutzer-Retention (D7)	12 %	38 %	+217 %
Verwendete Vektor-Ergebnisse	15 (alle)	3–5 (gefiltert)	-73 %

Die Behauptung von 0 % Halluzinationsrate ist nicht theoretisch – wir haben 1.200 aufeinanderfolgende Suchanfragen in der Produktion manuell auditiert. Jede geerdete Antwort war faktisch auf ihr Quelldokument rückverfolgbar.

🧠 Fazit: Setzen Sie Ihre Logik auf Diät

Der Branchenreflex ist, schlechten KI-Output mit größeren Modellen, längeren Kontexten und teurerer Feinabstimmung zu bekämpfen. Wir machten das Gegenteil: Wir machten die Pipeline schlanker.

Schwere Berechnungen gehören in den Hintergrund-Batch. Der Runtime-Pfad sollte ein Skalpell sein, kein Vorschlaghammer.

Die gesamte Kkaertalk-Architektur kostet im Betrieb weniger als das monatliche Kaffee-Budget eines Junior-Ingenieurs. Der Python-Gatekeeper – 15 Zeilen Code – eliminierte Halluzinationen vollständig.

Hören Sie auf, Infrastrukturprobleme mit größeren Modellen zu bekämpfen. Setzen Sie Ihre Logik auf Diät. Verstecken Sie schwere Berechnungen im Hintergrund; lassen Sie im Runtime nur ultraschnelle Python-Filter.