로봇/멀티모달 AI VLM Backbone

> **VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.**

카테고리: uploads | 읽기시간: 2분 | 원문: 다운로드

로봇/멀티모달 AI VLM Backbone

1) VLM Backbone 정의

✔️ 한 줄 정의

> VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.

✔️ 구성

VLM (Vision-Language Model)은 보통 이렇게 나뉩니다:

[Image Encoder] ─┐
                 ├─→ [Shared Embedding Space] → (Head / Policy / Decoder)
[Text Encoder ] ─┘

여기서:

👉 Backbone = Image Encoder + Text Encoder + (공유 표현 구조)

✔️ 대표 Backbone 구조


✔️ 대표 모델 (Backbone 기준)


2) Backbone vs Head (중요 구분)

구성 역할
Backbone feature extraction (표현 생성)
Head / Policy 실제 task 수행

예:

👉 핵심:

> Backbone은 “이해”, Head는 “행동”


3) 어디서 필요한가 (핵심)

(1) Perception (로봇에서 가장 중요)

예:

👉 VLA에서도 필수


(2) Language grounding

예:

👉 없으면:


(3) Task Planning 입력

예:


(4) Policy 입력 (VLA / RL hybrid)

👉 Backbone이 만든 embedding 사용

Image → VLM Backbone → embedding → Policy → Action

(5) Zero-shot / Generalization

👉 CLIP 계열 backbone이 강한 이유


4) 휴머노이드에서의 위치

Camera Input
      ↓
[VLM Backbone]  ← 핵심
      ↓
[Planner / Policy]
      ↓
[WBC / MPC]

👉 즉:

> 로봇의 “눈 + 언어 이해” 역할


5) 왜 Backbone이 중요한가

이유 1: 데이터 효율

이유 2: 일반화

이유 3: 모듈화


6) 실무 관점 요약

👉 그래서:

> Backbone + Policy + Control 조합이 필수


7) 한 줄 정리

> **VLM Backbone은 로봇이 세상을 “이해”하기 위한 공통 표현 생성 엔진이며,

> Perception, Language grounding, Policy 입력에서 핵심적으로 사용된다.**


×preview