원샷 드레싱 룸: VTON 레이턴시를 70% 단축하는 혁신적 아키텍처
Yunsup Jung2026년 3월 26일 7 min read Code
컴퓨터 비전을 활용한 가상 피팅(VTON, Virtual Try-On) 모델은 운영 비용이 극도로 높고 속도가 느립니다. 수백만 명의 활성 사용자(DAU)를 처리해야 하는 패션 이커머스에서 상의, 하의, 아우터를 순차적 생성 AI 추론을 통해 입히는 기본 방식은 이른바 **"60초 이탈(The 60-Second Bounce)"**이라는 최악의 UX를 야기합니다.
사용자들은 실시간 반응을 기대합니다. 로딩 창이 60초 넘게 맴돌면 장바구니 결제율은 급감합니다. 이번 문서에서는 API 호출 수를 의류 개수 $O(N)$에서 **$O(1)$**로 줄여 GPU 인프라 비용을 절반 이하로 억제한 SmartWorkLab의 파이프라인 개편 과정을 분석합니다.
---
## 🏗 "로봇 종이인형" 멘탈 모델
VTON 아키텍처를 종이인형에 옷을 입히는 과정으로 비유해 보겠습니다. 기존 시스템에서는 셔츠를 가져온 뒤 AI가 사람 위에 그림을 "그리도록" 기다리고, 바지를 가져와 다시 그리는 연산을 반복합니다.
**레거시 파이프라인 ($O(N)$ Inference):**
1. 사용자가 상의 + 하의 + 자켓을 선택합니다.
2. GPU 연산 (상의) $\rightarrow$ 중간 이미지 반환 (20초 소요).
3. GPU 연산 (중간 이미지 위에 하의 생성) $\rightarrow$ 두번째 반환 (20초 소요).
4. GPU 연산 (자켓 생성) $\rightarrow$ 최종 렌더링 (20초 소요).
총 대기 시간: **약 60초.**
총 인프라 비용: **고비용 GPU 추론 API 3회 호출.**
### SmartWorkLab의 해법: "Warp & Pack"
강력한 생성형 AI (Fal.ai 또는 Replicate)가 이 모든 순차 과정을 전담하게 놔두는 대신, 우리는 **Fast CV (고속 컴퓨터 비전)** 작업 부하를 초저가, 초고속 CPU 컨테이너(GCP Cloud Run 및 Supabase Edge Functions)로 이동시켰습니다.
전통적인 Computer Vision 공식을 사용하여 옷의 이미지를 **알파 채널 캔버스(Alpha-Canvas array)** 속으로 "Warping(왜곡 밀집)" 시켰습니다. 상의와 하의를 단일 알파 마스크로 패킹하여 거대한 단일 텐서 구조로 VTON 엔진에 던지는 것입니다.
```mermaid
graph TD
A[Client App] -->|의상 3종 선택| B(Supabase Edge / GCP Cloud Run);
B -->|Fast CV 레이어 기반 알파 마스킹 병합| C[단일 패킹 의류 텐서];
C -->|Single API Call| D[Fal.ai GPU Instance];
D -->|전체 핏 완성본 렌더링| A;
classDef client fill:#0f172a,stroke:#38bdf8,stroke-width:2px,color:#fff;
classDef edge fill:#1e1b4b,stroke:#a855f7,stroke-width:2px,color:#fff;
classDef gpu fill:#14532d,stroke:#4ade80,stroke-width:2px,color:#fff;
class A client;
class B,C edge;
class D gpu;
```
---
## ⚡ 원활한 경험을 위한 Landmark 렌더링 캐싱
재방문 고객의 렌더링 대기 시간을 제로(Zero)에 가깝게 맞추기 위해 **랜드마크 캐싱(Landmark Caching)** 기법을 도입했습니다.
사용자가 기초 프로필 사진을 업로드할 때, 엣지 함수가 어깨, 몸통, 다리 곡선을 분석해 키포인트를 도출합니다. 이러한 관절 좌표를 **Redis** 서버에 저장합니다. 이후 새 컬렉션을 클릭하면, Warp CV 엔진이 앞서 저장된 물리적 뼈대 좌표를 의복 데이터와 실시간으로 오버레이합니다. 이 작업은 불과 `< 50ms` 만에 끝나며, 무거운 OpenPose 탐지 연산을 원천적으로 차단합니다.
> [!TIP]
> **ROI 분석:** Alpha-Warp 전처리를 호출 당 비용이 극도로 싼 $0.0001 GCP 컨테이너 스레드로 옮김으로써 높은 A100 GPU 비용의 66%를 제거할 수 있습니다. 1억 명 수준의 뷰 파이프라인으로 시스템이 스케일링 될 때, 이익률 마진을 지켜내는 핵심입니다.
여러 레이어로 반복되던 비효율을 **단일 묶음 알파 어레이(One-Shot Alpha Array)** 로 치환함으로써, 치명적인 "60초 사용자 이탈"을 막고 자본 출혈 없이 유연하게 확장 가능한 이커머스 경험을 구현해냈습니다.