# 로봇, 휴머노이드 기업들이 쓰는 현실적인 스택 기준

**휴머노이드 기업들이 쓰는 구조**를 현실적인 스택 기준으로 정리해보겠습니다. 핵심은 “하나의 AI 모델”이 아니라 **계층형 제어 스택**입니다.

---

# 1) 공통 아키텍처 (산업 표준 형태)

대부분 아래 구조를 따릅니다:

```
[Perception / VLM]
        ↓
[Task Planning (LLM or symbolic)]
        ↓
[Policy (RL / BC / VLA)]
        ↓
[Whole-Body Control (WBC) / MPC]
        ↓
[Motor Control]
```

---

# 2) 회사별 접근 방식

## ① Tesla Optimus

### 특징: “자율주행 스택 재활용 + End-to-End 지향”

- **Perception**
  - 카메라 기반 (FSD 스택)
  - Vision Transformer 계열

- **Planning**
  - Neural planner (명시적 LLM은 아직 제한적)

- **Policy**
  - Imitation Learning + RL 혼합
  - End-to-end leaning을 강하게 지향

- **Control**
  - 전통 제어 + learned policy 결합

👉 핵심 전략:

> 자율주행처럼 “vision → action” 통합

---

## ② Figure AI (Figure 01)

### 특징: “LLM + VLA 적극 통합”

- OpenAI와 협력 (GPT 기반 reasoning)

- **Perception**
  - Vision + multimodal model

- **Planning**
  - LLM (고수준 의사결정)

- **Policy**
  - VLA (Vision-Language-Action)

- **Control**
  - WBC + learned controller

👉 핵심:

> “언어 이해 + 물리 행동” 통합

---

## ③ Boston Dynamics (Atlas)

### 특징: “전통 제어 + 일부 학습”

- **Perception**
  - 제한적 (task-specific)

- **Planning**
  - rule-based / trajectory planning

- **Policy**
  - 거의 없음 (RL 일부만 사용)

- **Control**
  - 매우 강력한:
    - MPC
    - Whole-body control

👉 핵심:

> 안정성 중심 (AI보다 control engineering)

---

## ④ Agility Robotics (Digit)

- Boston Dynamics와 Tesla 사이

- **Policy**
  - RL 기반 locomotion

- **Control**
  - WBC + MPC

👉 핵심:

> 산업 적용 (물류 등)에 최적화

---

# 3) 핵심 비교

| 영역     | Tesla      | Figure        | Boston Dynamics   |
| -------- | ---------- | ------------- | ----------------- |
| 철학     | End-to-End | Multimodal AI | Classical Control |
| VLA 사용 | 제한적     | 적극적        | 거의 없음         |
| LLM      | 거의 없음  | 핵심          | 없음              |
| RL       | 있음       | 있음          | 일부              |
| WBC      | 있음       | 있음          | 매우 강함         |
| 안정성   | 중간       | 초기 단계     | 매우 높음         |

---

# 4) 중요한 기술적 구분

## (A) “Brain” vs “Body”

- Brain (AI)
  - VLA
  - RL policy
  - LLM planner

- Body (Control)
  - WBC
  - MPC
  - PID

👉 핵심:

> AI가 아무리 좋아도
> WBC/MPC 없으면 휴머노이드는 못 움직임

---

## (B) 왜 VLA만으로 안 되는가

VLA는:

- 고수준 행동 생성에는 강함

하지만:

- 토크 제어
- 균형 유지
- 접촉 역학

👉 이런 건 못함

그래서:

> 반드시 **low-level controller (WBC/MPC)** 필요

---

# 5) 현재 트렌드 (2025~2026)

### 방향성 1

> **VLA + RL + WBC 하이브리드**

### 방향성 2

> LLM → High-level planner

### 방향성 3

> Simulation → Real transfer (Sim2Real)

---

# 6) 실무적으로 기억할 포인트

휴머노이드 AI에서 중요한 용어는 결국 4개로 정리됨:

- **VLA / Foundation Model** → 이해 & 명령
- **Policy (RL/BC)** → 행동 생성
- **WBC / MPC** → 물리 제어
- **Planner (LLM/TAMP)** → 작업 분해

---

# 7) 한 줄 핵심

> 휴머노이드 제어는
> “VLA 같은 AI 모델 하나”가 아니라
> **AI + Control이 결합된 계층형 시스템**이다.
