# 로봇/멀티모달 AI VLM Backbone

# 1) VLM Backbone 정의

## ✔️ 한 줄 정의

> **VLM Backbone은 이미지와 텍스트를 공통 표현 공간으로 인코딩하는 핵심 feature extractor이다.**

## ✔️ 구성

VLM (Vision-Language Model)은 보통 이렇게 나뉩니다:

```id="q8p3jv"
[Image Encoder] ─┐
                 ├─→ [Shared Embedding Space] → (Head / Policy / Decoder)
[Text Encoder ] ─┘
```

여기서:

👉 **Backbone = Image Encoder + Text Encoder + (공유 표현 구조)**

## ✔️ 대표 Backbone 구조

- Vision:
  - ViT (Vision Transformer)
  - ConvNet (ResNet, ConvNeXt)

- Language:
  - Transformer (BERT, GPT-style encoder)

- Multimodal alignment:
  - CLIP-style contrastive learning
  - Cross-attention (Flamingo, BLIP-2)

---

## ✔️ 대표 모델 (Backbone 기준)

- CLIP → 가장 전형적인 backbone
- OpenCLIP
- BLIP / BLIP-2
- Flamingo
- PaLM-E (확장형)

---

# 2) Backbone vs Head (중요 구분)

| 구성          | 역할                           |
| ------------- | ------------------------------ |
| Backbone      | feature extraction (표현 생성) |
| Head / Policy | 실제 task 수행                 |

예:

- Backbone: “컵”, “테이블” 인식
- Head: “컵 집어라” → action 생성

👉 핵심:

> Backbone은 “이해”, Head는 “행동”

---

# 3) 어디서 필요한가 (핵심)

## (1) Perception (로봇에서 가장 중요)

- 카메라 입력 → 객체 인식
- scene understanding

예:

- “컵 위치 파악”
- “문이 열려있는지 판단”

👉 VLA에서도 필수

---

## (2) Language grounding

- 자연어 → 시각 요소 연결

예:

- “빨간 컵” → 실제 이미지에서 특정 객체 매칭

👉 없으면:

- 언어 명령 → 행동 연결 불가

---

## (3) Task Planning 입력

- LLM / planner에 들어가는 world representation 생성

예:

- “테이블 위에 컵이 있다” 같은 structured understanding

---

## (4) Policy 입력 (VLA / RL hybrid)

- Policy는 raw image 대신:
  👉 Backbone이 만든 embedding 사용

```id="27l4l1"
Image → VLM Backbone → embedding → Policy → Action
```

---

## (5) Zero-shot / Generalization

- 새로운 물체, 새로운 환경 대응

👉 CLIP 계열 backbone이 강한 이유

---

# 4) 휴머노이드에서의 위치

```id="1u7l9o"
Camera Input
      ↓
[VLM Backbone]  ← 핵심
      ↓
[Planner / Policy]
      ↓
[WBC / MPC]
```

👉 즉:

> **로봇의 “눈 + 언어 이해” 역할**

---

# 5) 왜 Backbone이 중요한가

## 이유 1: 데이터 효율

- Backbone이 좋으면:
  - RL 데이터 적게 필요

## 이유 2: 일반화

- unseen object 대응 가능

## 이유 3: 모듈화

- 같은 backbone을 여러 task에 재사용

---

# 6) 실무 관점 요약

- Backbone 없으면:
  - 로봇 = “눈 없는 상태”

- Backbone만 있으면:
  - 이해는 하지만 행동 못함

👉 그래서:

> Backbone + Policy + Control 조합이 필수

---

# 7) 한 줄 정리

> **VLM Backbone은 로봇이 세상을 “이해”하기 위한 공통 표현 생성 엔진이며,
> Perception, Language grounding, Policy 입력에서 핵심적으로 사용된다.**

---

- CLIP vs BLIP vs Flamingo 구조 차이
- VLM backbone을 로봇 policy에 붙이는 실제 방식
- “End-to-End vs Backbone+Policy 분리” 아키텍처 논쟁
