Die Illusion der Personalisierung: Lösung der LLM-Kostenexplosion in der Fashion-KI

Wie wir O(N)-API-Aufrufe mit MiroFish V3.2 auf eine O(K) Hybrid-Architektur reduziert haben

Virtual Try-On und KI-Styling stellen eine einzigartige infrastrukturelle Herausforderung dar: Das Hyper-Personalization Trilemma. Wenn Sie täglich 3 "Outfit of the Day" (OOTD) Empfehlungen für 10.000 aktive Nutzer generieren möchten, führt die Weiterleitung von 10.000 individuellen stilistischen Prompts an ein LLM wie Qwen3.5-Flash jeden Tag zum sofortigen API-Bankrott. Die zeitliche Komplexität (Time Complexity) der direkten Generierung dieser Elemente skaliert linear mit $O(N)$ (wobei N Ihre Nutzerbasis ist).

Mit zunehmendem Traffic ist das Verlassen ausschließlich auf rohe LLM-Generierung finanzieller Selbstmord. Bei unserer jüngsten Überarbeitung des MiroFish V3.2 Backends hat das Engineering-Team ein strenges Mandat festgelegt: Aufrechterhaltung der 1:1 maßgeschneiderten Kuration, während die zeitliche Komplexität unserer API-Aufrufe drastisch von $O(N)$ auf $O(K)$ reduziert wird – wobei $K$ eine eng begrenzte, endliche Menge stilistischer Cluster darstellt.

Hier erfahren Sie, wie wir die "Illusion der Personalisierung" architektonisch umgesetzt haben.

🏗 Vollständige architektonische Trennung (Phase A vs. Phase B)

Vor V3.2 haben wir bei jedem App-Start des Nutzers Supabase nach seinen Stilpräferenzen abgefragt, diese in einen LLM-Prompt gepackt und gewartet, bis Qwen ein JSON-Array von Outfits zurückgab. Dies war langsam und kostspielig.

Wir haben dies gelöst, indem wir die Generierungs-Engine physisch vom Serving-Layer getrennt haben.

Die N+1 Query-Verteidigung

Wir beginnen Batch-Operationen, indem wir die Nutzer-Metadaten in einer einzigen Bulk-Query abrufen. Wir extrahieren das Style DNA des Nutzers, seine JSONB Rules (Vorlieben/Abneigungen) und seine Timezone zu Beginn unseres nächtlichen Batch-Jobs. Dies verhindert die klassische N+1-Datenbankfalle, unter der frühe AI-Wrapper leiden.

Phase A: Deterministisches Clustering (O(K))

Anstatt $N$ LLM-Aufrufe zu tätigen, gruppieren wir Nutzer in deterministische visuelle Buckets. Das Profil eines Nutzers wird gehasht und einer Cluster-ID zugeordnet, beispielsweise 20260420_Minimal_Sunny. Für 10.000 Nutzer liefert unser Algorithmus typischerweise exakt 30 Cluster.

Daher wird das LLM exakt 30-mal aufgerufen. Jeder API-Aufruf generiert einen dichten "Cache-Pool" von 20 hochwertigen Outfit-Konfigurationen (10 Daytime, 10 NightOut), die auf dieses Cluster abgebildet werden. Diese werden in einem schnellen In-Memory-Redis-Layer gespeichert.

Phase B: Der Serving-Layer

Innerhalb der eigentlichen Request-Loop des Nutzers – dem Moment, in dem die App geöffnet wird – gibt es NULL LLM-Aufrufe. Alles, was der Nutzer sieht, wird direkt aus dem 20-Elemente-Cache-Pool gezogen. Die Magie beruht vollständig auf dem, was zwischen dem Abrufen des Pools und dem Rendern der UI geschieht.

⚙️ Die Zero-Cost "Last-Mile" Personalisierungs-Pipeline

Wenn 300 Nutzer das identische Minimal_Sunny-Cluster teilen, wie verhindern wir dann, dass sie exakt dieselbe App sehen? Wir erzeugen die "Illusion der 1:1-Personalisierung" unter Verwendung einer blitzschnellen 5-stufigen Python/Node-Pipeline, ohne jemals wieder das LLM anzusprechen.

1. Antizipativer Zeitfilter (Anticipatory Time Filter)

Wir synchronisieren die App mit der gerätespezifischen IANA-Zeitzone des Nutzers. Die Pipeline verschiebt die Priorität für "NightOut"-Artikel automatisch um exakt 15:00 Uhr – dem psychologischen Moment, in dem Büroangestellte beginnen, ihre Abendaktivitäten zu planen und am anfälligsten für Conversions sind.

2. Harter Filter (JSONB Veto)

Wir lehnen Cluster-Elemente sofort basierend auf den expliziten style_rules.disliked_categories des Nutzers ab. Ein Beispiel: Wenn ein Nutzer Röcke ablehnt, werden diese verworfen. Um UI-Abstürze zu verhindern, implementieren wir eine Veto-Kaskade: Wenn ein striktes Veto-Regelwerk den Cache-Pool versehentlich auf 0 Elemente reduziert, setzt die Kaskade die strengsten Filter schrittweise zurück, um sicherzustellen, dass die UI immer gerendert wird.

3. Gewichtetes Scoring & Soft Re-Rank

Die Elemente erhalten deterministische Nudges. Wir wenden einen Multiplikator von $+2.0$ für preferred_colors und $+1.5$ für liked_categories an. Zur Handhabung der stilistischen Kohäsion verwenden wir ein ultraleichtes 32D Cosine Proxy. Anstatt schwere, multi-gigabyte große Modelle oder numpy-Tensoren auf Edge-Nodes zu laden, reduzieren wir Embeddings für ein Re-Ranking im Millisekundenbereich auf nur drei Kerndimensionen (Vibe, Trend, Dare).

4. 1e-9 Jitter (Tie-Breaker)

Beim Anwenden weicher Regeln auf einen eingeschränkten Cache erhalten viele Outfits identische Scores (z.B. exakt 4.5). Datenbank-Sortierungen bei Gleichstand sind nicht-deterministisch und können dazu führen, dass Elemente bei Re-Renders visuell "flimmern" (flicker), was die Illusion bricht. Wir injizieren einen infinitesimalen Jitter, um eine absolute Hierarchie sicherzustellen, ohne die Ranking-Logik zu stören:

import random

def score_outfit(item, user_prefs):
    base_score = apply_soft_rules(item, user_prefs)
    # Der 1e-9 Jitter sorgt für perfekte, stabile Shuffles bei Gleichstand
    jitter = random.random() * 1e-9 
    return base_score + jitter

5. Hyper-Lokale UI-Injektion

Zum Abschluss synthetisieren wir den Standort des Nutzers dynamisch in den UI-Text. Ein generisches "Hier sind deine Outfits" wird zu: "Ein leichter, minimalistischer Look für deinen Nachmittag in Torrance." Wir nennen dies den Glückskeks-Effekt (Fortune-Cookie-Effekt). Er erfordert null KI-Rechenleistung, überbrückt aber die psychologische Distanz und lässt das generische Cluster maßgeschneidert wirken.

Testen Sie den Last-Mile-Pipeline-Simulator unten:

Last-Mile Pipeline Sim

v3.2.0-rc

Time Simulator14:00

0:0015:00 (Flip)24:00

Hyper-Local City

JSONB Veto Filter

Breaks sorting ties cleanly without database roundtrips.

A breezy minimalist look for your Afternoon in Torrance

Live Re-Ranking Pool (0 LLM Calls)

Beige Silk Midi Skirt

Daytimeskirt

Score

7.0

Navy Oversized Blazer

Daytimetop

Score

7.0

White Linen Wide Pants

Daytimepants

Score

7.0

Black Velvet Slip Dress

NightOutdress

Score

2.0

Red Leather Mini Skirt

NightOutskirt

Score

2.0

⚡ Implizites Feedback (Warum DB-Trigger Edge-Funktionen schlagen)

Das System ist nur so gut wie seine implizite Feedback-Loop. Wir brauchten einen reibungslosen Weg, um Präferenzen aus den "Likes" der Nutzer zu extrahieren, um die JSONB Rules kontinuierlich zu verfeinern und das "Cold Start"-Problem zu umgehen.

Trade-off-Analyse: Zunächst leiteten wir Like-Events an Serverless Edge-Funktionen weiter, die die Postgres-Instanz aktualisierten. Dies lehnten wir jedoch schnell ab. Edge-Funktionen leiden unter 50-300ms HTTP-Overhead und Cold Starts. Kritischer war noch, dass die Platzierung der Mutationslogik in Edge-Funktionen bedeutete, komplexe manuelle Retry-Logiken schreiben zu müssen, falls die DB-Transaktion fehlschlug.

Der Gewinner: Wir haben dies mithilfe nativer PostgreSQL-Trigger und PL/pgSQL direkt in die Datenbank-Ebene verschoben. Die Ausführung erfolgt mit absoluter Atomarität innerhalb von ~2ms.

Wenn ein Outfit gelikt wird, berechnet die Datenbank sofort die Kategorie-Affinitäten und aktualisiert die Style DNA JSONB-Spalte nativ (Upsert):

CREATE OR REPLACE FUNCTION update_user_style_dna()
RETURNS TRIGGER AS $$
BEGIN
  -- Partieller Deep-Merge in JSONB unter Verwendung des || Operators
  UPDATE users 
  SET style_dna = COALESCE(style_dna, '{}'::jsonb) || 
                  jsonb_build_object(
                    'preferred_colors', 
                    array_to_json(ARRAY(
                      SELECT DISTINCT elements 
                      FROM (
                        SELECT jsonb_array_elements_text(COALESCE(style_dna->'preferred_colors', '[]'::jsonb)) AS elements
                        UNION 
                        SELECT NEW.item_color AS elements
                      ) AS unique_colors
                    ))
                  )
  WHERE id = NEW.user_id;

  RETURN NEW;
END;
$$ LANGUAGE plpgsql;

🧠 Fazit: Die SmartWorkLab Engineering-Philosophie

Wahre Ingenieurskunst besteht nicht nur darin, ein Problem mit brachialer LLM-Rechenleistung zu bewerfen, bis die AWS-Rechnung in Flammen steht. Es geht um Datenpipelines, strategisches Clustering und die Nutzung psychologischen UX-Timings.

Durch den Wegfall von $O(N)$ -API-Abhängigkeiten und die Beherrschung der Last-Mile-Pipeline haben wir nicht nur das Problem der API-Kostenexplosion gelöst – wir haben eine Rahmenarchitektur (Framework) entworfen, die es uns ermöglicht, Hyper-Personalisierung grenzenlos zu skalieren.