로봇/멀티모달 AI VLM Backbone

> **VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.**

카테고리: uploads | 읽기시간: 2분 | 원문: 다운로드

로봇/멀티모달 AI VLM Backbone

1) VLM Backbone 정의

✔️ 한 줄 정의

> VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.

✔️ 구성

VLM (Vision-Language Model)은 보통 이렇게 나뉩니다:

[Image Encoder] ─┐
                 ├─→ [Shared Embedding Space] → (Head / Policy / Decoder)
[Text Encoder ] ─┘

여기서:

👉 Backbone = Image Encoder + Text Encoder + (공유 표현 구조)

✔️ 대표 Backbone 구조

Vision:
ViT (Vision Transformer)
ConvNet (ResNet, ConvNeXt)

Language:
Transformer (BERT, GPT-style encoder)

Multimodal alignment:
CLIP-style contrastive learning
Cross-attention (Flamingo, BLIP-2)

✔️ 대표 모델 (Backbone 기준)

CLIP → 가장 전형적인 backbone
OpenCLIP
BLIP / BLIP-2
Flamingo
PaLM-E (확장형)

2) Backbone vs Head (중요 구분)

구성	역할
Backbone	feature extraction (표현 생성)
Head / Policy	실제 task 수행

예:

Backbone: “컵”, “테이블” 인식
Head: “컵 집어라” → action 생성

👉 핵심:

> Backbone은 “이해”, Head는 “행동”

3) 어디서 필요한가 (핵심)

(1) Perception (로봇에서 가장 중요)

카메라 입력 → 객체 인식
scene understanding

예:

“컵 위치 파악”
“문이 열려있는지 판단”

👉 VLA에서도 필수

(2) Language grounding

자연어 → 시각 요소 연결

예:

“빨간 컵” → 실제 이미지에서 특정 객체 매칭

👉 없으면:

언어 명령 → 행동 연결 불가

(3) Task Planning 입력

LLM / planner에 들어가는 world representation 생성

예:

“테이블 위에 컵이 있다” 같은 structured understanding

(4) Policy 입력 (VLA / RL hybrid)

Policy는 raw image 대신:

👉 Backbone이 만든 embedding 사용

Image → VLM Backbone → embedding → Policy → Action

(5) Zero-shot / Generalization

새로운 물체, 새로운 환경 대응

👉 CLIP 계열 backbone이 강한 이유

4) 휴머노이드에서의 위치

Camera Input
      ↓
[VLM Backbone]  ← 핵심
      ↓
[Planner / Policy]
      ↓
[WBC / MPC]

👉 즉:

> 로봇의 “눈 + 언어 이해” 역할

5) 왜 Backbone이 중요한가

이유 1: 데이터 효율

Backbone이 좋으면:
RL 데이터 적게 필요

이유 2: 일반화

unseen object 대응 가능

이유 3: 모듈화

같은 backbone을 여러 task에 재사용

6) 실무 관점 요약

Backbone 없으면:
로봇 = “눈 없는 상태”

Backbone만 있으면:
이해는 하지만 행동 못함

👉 그래서:

> Backbone + Policy + Control 조합이 필수

7) 한 줄 정리

> **VLM Backbone은 로봇이 세상을 “이해”하기 위한 공통 표현 생성 엔진이며,

> Perception, Language grounding, Policy 입력에서 핵심적으로 사용된다.**

CLIP vs BLIP vs Flamingo 구조 차이
VLM backbone을 로봇 policy에 붙이는 실제 방식
“End-to-End vs Backbone+Policy 분리” 아키텍처 논쟁