로봇/멀티모달 AI VLM Backbone
> **VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.**
카테고리: uploads | 읽기시간: 2분 | 원문: 다운로드
로봇/멀티모달 AI VLM Backbone
1) VLM Backbone 정의
✔️ 한 줄 정의
> VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.
✔️ 구성
VLM (Vision-Language Model)은 보통 이렇게 나뉩니다:
[Image Encoder] ─┐
├─→ [Shared Embedding Space] → (Head / Policy / Decoder)
[Text Encoder ] ─┘
여기서:
👉 Backbone = Image Encoder + Text Encoder + (공유 표현 구조)
✔️ 대표 Backbone 구조
- Vision:
- ViT (Vision Transformer)
- ConvNet (ResNet, ConvNeXt)
- Language:
- Transformer (BERT, GPT-style encoder)
- Multimodal alignment:
- CLIP-style contrastive learning
- Cross-attention (Flamingo, BLIP-2)
✔️ 대표 모델 (Backbone 기준)
- CLIP → 가장 전형적인 backbone
- OpenCLIP
- BLIP / BLIP-2
- Flamingo
- PaLM-E (확장형)
2) Backbone vs Head (중요 구분)
| 구성 | 역할 |
|---|---|
| Backbone | feature extraction (표현 생성) |
| Head / Policy | 실제 task 수행 |
예:
- Backbone: “컵”, “테이블” 인식
- Head: “컵 집어라” → action 생성
👉 핵심:
> Backbone은 “이해”, Head는 “행동”
3) 어디서 필요한가 (핵심)
(1) Perception (로봇에서 가장 중요)
- 카메라 입력 → 객체 인식
- scene understanding
예:
- “컵 위치 파악”
- “문이 열려있는지 판단”
👉 VLA에서도 필수
(2) Language grounding
- 자연어 → 시각 요소 연결
예:
- “빨간 컵” → 실제 이미지에서 특정 객체 매칭
👉 없으면:
- 언어 명령 → 행동 연결 불가
(3) Task Planning 입력
- LLM / planner에 들어가는 world representation 생성
예:
- “테이블 위에 컵이 있다” 같은 structured understanding
(4) Policy 입력 (VLA / RL hybrid)
- Policy는 raw image 대신:
👉 Backbone이 만든 embedding 사용
Image → VLM Backbone → embedding → Policy → Action
(5) Zero-shot / Generalization
- 새로운 물체, 새로운 환경 대응
👉 CLIP 계열 backbone이 강한 이유
4) 휴머노이드에서의 위치
Camera Input
↓
[VLM Backbone] ← 핵심
↓
[Planner / Policy]
↓
[WBC / MPC]
👉 즉:
> 로봇의 “눈 + 언어 이해” 역할
5) 왜 Backbone이 중요한가
이유 1: 데이터 효율
- Backbone이 좋으면:
- RL 데이터 적게 필요
이유 2: 일반화
- unseen object 대응 가능
이유 3: 모듈화
- 같은 backbone을 여러 task에 재사용
6) 실무 관점 요약
- Backbone 없으면:
- 로봇 = “눈 없는 상태”
- Backbone만 있으면:
- 이해는 하지만 행동 못함
👉 그래서:
> Backbone + Policy + Control 조합이 필수
7) 한 줄 정리
> **VLM Backbone은 로봇이 세상을 “이해”하기 위한 공통 표현 생성 엔진이며,
> Perception, Language grounding, Policy 입력에서 핵심적으로 사용된다.**
- CLIP vs BLIP vs Flamingo 구조 차이
- VLM backbone을 로봇 policy에 붙이는 실제 방식
- “End-to-End vs Backbone+Policy 분리” 아키텍처 논쟁