온디바이스 VLA 지능 개발 조사자료

- 갱신일: 2026-03-15

카테고리: uploads | 읽기시간: 10분 | 원문: 다운로드

온디바이스 VLA 지능 개발 조사자료

1. 핵심 결론

2. 온디바이스 VLA를 어떻게 정의할 것인가

온디바이스 VLA는 아래 입력을 같은 정책 계열에서 다룬다.

실전 배치에서는 아래 분리가 거의 필수다.

즉, 온디바이스 VLA의 본질은 클라우드 없이 모든 걸 직접 추론하는 것이 아니라 클라우드 없이도 임무가 끊기지 않도록 시스템을 계층화하는 데 있다.

3. 하드웨어 스택별 설계 기준

3.1 분류 기준

하드웨어 스택은 단순 TOPS보다 아래 조합으로 봐야 한다.

3.2 하드웨어 스택별 권장 아키텍처

하드웨어 계층 대표 스택 권장 모델 구조 권장 액션 표현 적합한 임무 주요 제약
고성능 GPU형 NVIDIA Jetson AGX Orin / Orin NX + CUDA + TensorRT + Isaac ROS 소형~중형 VLM/VLA, 비전 인코더 + LLM + action head, 멀티카메라 스킬 토큰, delta pose, base command 혼합 모바일 매니퓰레이터, 다단계 조작, 현장 복구 전력/열, 모델 메모리, 최적화 공수
중간급 CPU/NPU형 Intel Core Ultra + OpenVINO, Apple Silicon + Core ML/MLX 경량 VLM + 분리형 action head, 짧은 컨텍스트 스킬 선택, waypoint, 짧은 horizon delta 데스크탑 로봇, 실내 서비스, 연구용 스테이션 멀티카메라와 긴 컨텍스트 한계
모바일 SoC형 Qualcomm RB5/RB6/QCS 계열 + QNN/SNPE 더 작은 VLM 또는 perception + language planner + skill policy 분리 스킬 토큰, FSM 기반 파라미터 배터리 기반 저전력 로봇, 고정된 과업 모델 크기, 디버깅 도구, 메모리
초저전력 가속기형 Google Coral Edge TPU, Hailo, NXP i.MX 8M Plus NPU perception 전용 + 규칙/소형 정책 스킬 호출, 안전/감지 보조 안전 감시, detector, 추종, 보조 인식 범용 VLA 직접 탑재는 사실상 어려움

4. 스택별 상세 메모

4.1 NVIDIA Jetson 계열

공식 Jetson 문서와 Isaac ROS/TensorRT 계열을 기준으로 보면, 현재 온디바이스 VLA 실험과 제품화 후보 중 가장 현실적인 축은 여전히 NVIDIA다.

4.2 Intel Core Ultra / OpenVINO 계열

Intel OpenVINO 스택은 CPU/GPU/NPU 혼합 배치와 산업용 x86 환경 통합이 장점이다.

4.3 Apple Silicon 계열

Apple은 Core ML과 Apple Silicon의 메모리 구조상 소형 멀티모달 모델 실험에 유리하지만, 로봇 현장 배치용 드라이버/ROS 통합은 NVIDIA나 x86 산업 환경보다 약하다.

4.4 Qualcomm Robotics / 모바일 SoC 계열

Qualcomm 계열은 전력 효율은 좋지만, 범용 VLA를 한 번에 올리기보다 planner + skill policy + detector 분해형이 현실적이다.

4.5 Edge TPU / Hailo / NXP 저전력 계열

이 계열은 엄밀히 말해 온디바이스 VLA 본체보다 온디바이스 인식/안전 보조에 적합하다.

따라서 이 계층은 메인 VLA 연산기가 아니라 safety co-processor 또는 perception offload로 보는 편이 맞다.

5. 하드웨어 계층별 권장 시스템 청사진

5.1 고성능 GPU형 청사진

5.2 중간급 NPU/CPU형 청사진

5.3 초저전력형 청사진

6. 공개 데이터셋과 벤치마크

6.1 데이터셋 선택 원칙

온디바이스 VLA에서는 아래 속성이 중요하다.

6.2 주요 공개 데이터셋 요약

데이터셋/벤치마크 성격 강점 한계 적합한 용도
Open X-Embodiment 다기관 대규모 로봇 데이터 집합 다수 embodiment와 task 다양성 action/센서 스키마 이질성 큼 범용 사전학습, cross-robot 정규화
DROID 대규모 실제 가정/실내 조작 데이터 실제 환경 다양성, 멀티카메라, 풍부한 raw data 정제와 재라벨링 비용 큼 실기 조작 정책, 재현성 높은 fine-tune
BridgeData V2 실내 조작 중심 대규모 시연 조작 과업 표준화, BC/IL 실험에 적합 embodiment 폭은 제한적 manipulation 기본기 학습
CALVIN 장기 horizon language-conditioned benchmark 멀티스텝 평가가 명확 주로 벤치마크 성격 장기 과업 계획/평가
LIBERO lifelong/transfer benchmark 일반화와 지속학습 평가에 적합 실기 배치 직접성과는 거리 있음 continual learning, transfer 평가
LeRobot 생태계 데이터셋 + 정책 + 툴링 형식 통합, 재현성과 실험 속도 최신 대규모 VLA 전체를 대체하진 못함 학습 파이프라인 표준화, 빠른 재현

6.3 데이터셋별 실무 메모

Open X-Embodiment

Google DeepMind의 Open X-Embodiment는 다수 기관 로봇 데이터를 RLDS 형식으로 묶은 대규모 공개 집합이다. 다로봇 사전학습에는 강력하지만, 실제 fine-tuning 전에 아래 정규화가 필요하다.

즉, OXE는 바로 배포할 데이터보다 사전학습 원천 데이터에 가깝다.

DROID

DROID는 실제 환경 수집량과 장면 다양성 측면에서 매우 유용하다. 다만 raw 성격이 강해서 현장 적용 전 다음 단계가 필요하다.

실제로는 DROID를 현장 데이터 부트스트랩 또는 시각-행동 정렬 보강 용도로 쓰는 편이 현실적이다.

BridgeData V2

BridgeData V2는 조작 정책의 초기 수렴성과 재현성 면에서 장점이 있다.

CALVIN / LIBERO

이 둘은 현장 로그 데이터셋보다 평가와 일반화 측정에 가깝다.

실무에서는 학습 데이터평가 벤치마크를 분리하는 편이 좋다.

7. 권장 학습 파이프라인

7.1 전체 흐름

가장 현실적인 파이프라인은 아래 순서다.

  1. 비로봇 비전-언어 또는 소형 VLM 사전학습 모델 확보
  2. OXE, DROID, BridgeData V2 같은 공개 로봇 데이터로 행동 조건부 미세조정
  3. 자사 하드웨어 action space에 맞게 output head 재정의
  4. 현장 수집 데이터로 task-specific SFT/BC
  5. 작은 모델로 distillation 또는 adapter 기반 경량화
  6. INT8/INT4 또는 런타임별 컴파일
  7. 로봇 리플레이/실기 A/B 테스트

7.2 데이터 표준화 단계

학습 전에 반드시 아래 스키마를 강제로 맞춰야 한다.

이 정규화가 없으면 멀티데이터셋 혼합 학습은 성능보다 노이즈를 더 키운다.

7.3 액션 표현 설계

하드웨어 제약을 고려하면 아래 우선순위가 현실적이다.

  1. skill token + skill parameter
  2. end-effector delta pose + gripper
  3. base subgoal + local planner
  4. joint-space direct control은 마지막 선택지

이유는 다음과 같다.

7.4 학습 방식 선택

Behavior Cloning / SFT

Diffusion Policy 계열

Autoregressive VLA

Offline RL / Preference Refinement

7.5 증류와 경량화

온디바이스 목적이라면 학습보다 이 단계가 더 중요하다.

권장 원칙은 기능을 덜 잃는 큰 모델보다 현장 루프를 지키는 작은 모델을 우선하는 것이다.

8. 배포 파이프라인

8.1 오프라인 배포 절차

  1. 학습 산출물을 ONNX 또는 런타임별 포맷으로 내보낸다.
  2. 타깃 장비에서 TensorRT, OpenVINO, Core ML, QNN 등으로 컴파일한다.
  3. 실시간 카메라 입력 포함 벤치마크를 측정한다.
  4. 열 스로틀링 상태에서 다시 측정한다.
  5. safety layer와 watchdog을 붙인 상태로 hardware-in-the-loop 테스트를 한다.
  6. 실패 시 롤백 가능한 패키지 단위로 배포한다.

8.2 런타임별 실무 포인트

9. 데이터 수집과 현장 루프

9.1 공개 데이터만으로는 부족한 이유

실제 로봇 성능을 결정하는 것은 아래 항목이다.

즉, 공개 데이터는 부트스트랩 용도이고, 배치 전에는 반드시 자사 수집 루프가 필요하다.

9.2 권장 수집 루프

  1. teleop 시연 수집
  2. 자동 리플레이 검증
  3. 실패 에피소드 태깅
  4. hard-negative 재학습
  5. 현장 shadow mode
  6. 제한된 실기 실행
  7. 로그 기반 재학습

9.3 꼭 저장해야 할 로그

10. 평가 지표

온디바이스 VLA는 논문 성공률만 보면 충분하지 않다. 최소 아래 지표를 같이 봐야 한다.

11. 실무 권고안

11.1 지금 가장 현실적인 조합

가장 현실적인 첫 버전은 아래다.

11.2 피해야 할 접근

12. 후속 작업 제안

13. 참고 자료

아래는 이번 갱신에 직접 참고한 공개 자료다.

×preview