온디바이스 VLA 지능 개발 조사자료

- 갱신일: 2026-03-15

카테고리: uploads | 읽기시간: 10분 | 원문: 다운로드

온디바이스 VLA 지능 개발 조사자료

갱신일: 2026-03-15
조사 범위: 온디바이스 VLA(Vision-Language-Action)의 하드웨어 스택별 아키텍처, 공개 데이터셋, 학습/증류/배포 파이프라인
조사 기준:
공개 논문, 프로젝트 페이지, 벤더 공식 문서를 우선 참고했다.
빠르게 바뀌는 제품 세대와 소프트웨어 스택은 2026-03-15 확인 기준으로 정리했다.
설계 판단에 바로 쓰이도록 제품 카탈로그보다 실제 배치 가능한 조합 중심으로 요약했다.

1. 핵심 결론

온디바이스 VLA는 거대 단일 모델 1개보다 경량 VLM/VLA + 구조화 상태 + 스킬 실행기 + 안전 계층 + 로컬 메모리 조합이 제품화 확률이 높다.
하드웨어 스택은 크게 고성능 GPU형, 중간급 NPU/CPU형, 초저전력 가속기형으로 나뉘며, 각 스택마다 가능한 액션 표현과 메모리 길이가 다르다.
데이터는 단순 시연 수보다 멀티카메라 동기화, 실패 로그, 행동 표현 일관성, 교차-로봇 정규화가 성능을 더 크게 좌우한다.
학습 파이프라인은 보통 비로봇 VLM 사전학습 -> 로봇 데이터 SFT/BC -> 액션 헤드 적응 -> 소형 모델 증류/양자화 -> 현장 리플레이 검증 순서가 현실적이다.

2. 온디바이스 VLA를 어떻게 정의할 것인가

온디바이스 VLA는 아래 입력을 같은 정책 계열에서 다룬다.

Vision: RGB, depth, wrist cam, stereo, segmentation, object crop
Language: 작업 지시, 제약조건, 단계 힌트, 실패 복구 규칙
Action: 스킬 토큰, end-effector delta pose, base velocity, gripper action

실전 배치에서는 아래 분리가 거의 필수다.

VLA/VLM: 의미 해석, 고수준 행동 선택, 서브골 생성
Skill/Controller: grasp, insert, push, navigate 같은 검증된 저수준 실행
Safety Layer: 충돌, 속도, joint limit, 사람 접근, 금지영역 차단
World State / Memory: 객체 상태, 마지막 성공 위치, 실패 원인, 재시도 횟수

즉, 온디바이스 VLA의 본질은 클라우드 없이 모든 걸 직접 추론하는 것이 아니라 클라우드 없이도 임무가 끊기지 않도록 시스템을 계층화하는 데 있다.

3. 하드웨어 스택별 설계 기준

3.1 분류 기준

하드웨어 스택은 단순 TOPS보다 아래 조합으로 봐야 한다.

지속 가능한 추론 지연
메모리 대역폭과 VRAM/DRAM 용량
열 스로틀링 이후 성능 유지
배포 런타임 성숙도
ROS 2, 카메라, 센서 드라이버와의 통합 난이도
양자화, 비전 인코더, 멀티카메라 파이프라인 지원

3.2 하드웨어 스택별 권장 아키텍처

하드웨어 계층	대표 스택	권장 모델 구조	권장 액션 표현	적합한 임무	주요 제약
고성능 GPU형	NVIDIA Jetson AGX Orin / Orin NX + CUDA + TensorRT + Isaac ROS	소형~중형 VLM/VLA, 비전 인코더 + LLM + action head, 멀티카메라	스킬 토큰, delta pose, base command 혼합	모바일 매니퓰레이터, 다단계 조작, 현장 복구	전력/열, 모델 메모리, 최적화 공수
중간급 CPU/NPU형	Intel Core Ultra + OpenVINO, Apple Silicon + Core ML/MLX	경량 VLM + 분리형 action head, 짧은 컨텍스트	스킬 선택, waypoint, 짧은 horizon delta	데스크탑 로봇, 실내 서비스, 연구용 스테이션	멀티카메라와 긴 컨텍스트 한계
모바일 SoC형	Qualcomm RB5/RB6/QCS 계열 + QNN/SNPE	더 작은 VLM 또는 perception + language planner + skill policy 분리	스킬 토큰, FSM 기반 파라미터	배터리 기반 저전력 로봇, 고정된 과업	모델 크기, 디버깅 도구, 메모리
초저전력 가속기형	Google Coral Edge TPU, Hailo, NXP i.MX 8M Plus NPU	perception 전용 + 규칙/소형 정책	스킬 호출, 안전/감지 보조	안전 감시, detector, 추종, 보조 인식	범용 VLA 직접 탑재는 사실상 어려움

4. 스택별 상세 메모

4.1 NVIDIA Jetson 계열

공식 Jetson 문서와 Isaac ROS/TensorRT 계열을 기준으로 보면, 현재 온디바이스 VLA 실험과 제품화 후보 중 가장 현실적인 축은 여전히 NVIDIA다.

강점
CUDA, TensorRT, Isaac ROS, 멀티카메라 파이프라인이 비교적 성숙했다.
비전 인코더와 action head를 같은 GPU 메모리 위에서 돌리기 쉽다.
로보틱스용 perception, SLAM, compression, transport 계층 연동 사례가 많다.
권장 구조
camera encoder -> compact VLM/VLA -> action decoder
저수준은 별도 ROS 2 node 또는 MCU controller로 분리
긴 언어 컨텍스트 대신 구조화 상태 저장소 + 짧은 프롬프트
적합한 액션 표현
skill token + pose delta + gripper
base가 있는 경우 subgoal pose + local planner
주의점
멀티카메라와 VLM을 동시에 돌리면 열과 메모리 병목이 빨리 온다.
프레임 해상도와 컨텍스트 길이를 먼저 고정하지 않으면 실시간성을 잃기 쉽다.

4.2 Intel Core Ultra / OpenVINO 계열

Intel OpenVINO 스택은 CPU/GPU/NPU 혼합 배치와 산업용 x86 환경 통합이 장점이다.

강점
산업 PC, AMR, x86 기반 제어기와 결합이 쉽다.
OpenVINO로 vision encoder, detector, segmentation 계열 최적화가 비교적 안정적이다.
로컬 서버형 로봇 스테이션에 배치하기 쉽다.
권장 구조
perception과 world-state는 OpenVINO 최적화 모델
언어/의도 해석은 작은 LLM 또는 템플릿 기반 planner
action policy는 짧은 horizon BC head로 별도 분리
적합한 임무
고정 셀 조작, bin-picking 보조, 실내 물류 스테이션
주의점
GPU형 대비 초장기 컨텍스트나 큰 멀티모달 모델 배치는 제한적이다.
모델을 쪼개 배치하지 않으면 지연 분산이 커진다.

4.3 Apple Silicon 계열

Apple은 Core ML과 Apple Silicon의 메모리 구조상 소형 멀티모달 모델 실험에 유리하지만, 로봇 현장 배치용 드라이버/ROS 통합은 NVIDIA나 x86 산업 환경보다 약하다.

강점
unified memory와 on-device inference 효율이 좋아 연구용 프로토타이핑에 유리하다.
Core ML, MLX 기반 소형 모델 압축/실험 사이클이 빠르다.
권장 구조
학습·검증 스테이션 또는 휴대형 데모 장비
실제 로봇은 별도 제어기와 연결하고, Apple 장비는 고수준 추론만 담당
주의점
산업 현장 센서/로봇 드라이버 통합은 별도 공수가 필요하다.
완전 독립형 모바일 로봇 본체 컴퓨팅 스택으로는 제한적이다.

4.4 Qualcomm Robotics / 모바일 SoC 계열

Qualcomm 계열은 전력 효율은 좋지만, 범용 VLA를 한 번에 올리기보다 planner + skill policy + detector 분해형이 현실적이다.

강점
배터리 기반 플랫폼에서 전력 대비 추론 효율이 좋다.
카메라 ISP, 영상 파이프라인, 모바일 통합이 강하다.
권장 구조
언어는 작은 planner
perception은 NPU 최적화 detector/segmenter
실행은 스킬 라이브러리와 FSM
적합한 임무
순찰, 점검, 고정 절차형 업무
주의점
범용 VLA보다는 제약된 과업 전용 에이전트 방향이 적합하다.

4.5 Edge TPU / Hailo / NXP 저전력 계열

이 계열은 엄밀히 말해 온디바이스 VLA 본체보다 온디바이스 인식/안전 보조에 적합하다.

적합한 역할
사람/장애물 감지
특정 물체 검출
자유공간/안전 감시
상태 감지용 서브모듈
비권장 역할
긴 언어 지시를 직접 이해하는 범용 VLA
멀티카메라 기반 장기 조작 정책

따라서 이 계층은 메인 VLA 연산기가 아니라 safety co-processor 또는 perception offload로 보는 편이 맞다.

5. 하드웨어 계층별 권장 시스템 청사진

5.1 고성능 GPU형 청사진

센서: front RGB + wrist RGB + depth + joint + base odom
모델: vision encoder + 3B~7B급 경량 VLM/VLA 또는 더 작은 action model
메모리: 최근 수 초 영상 특징 + 구조화 상태
실행: 고수준 1~5 Hz, 저수준 50~200 Hz
액션: pick/place/open/navigate/retry + pose delta
권장 임무: 다단계 조작, 서랍/문, 간단한 이동 조작 복합 과업

5.2 중간급 NPU/CPU형 청사진

센서: single or dual RGB + optional depth
모델: detector/segmenter + 작은 language planner + action head
메모리: 상태 테이블과 직전 실패 이력만 유지
실행: 고수준 0.5~2 Hz, 저수준 별도 controller
액션: 스킬 선택, waypoint, 짧은 delta
권장 임무: 좁은 조작 셀, 서비스형 정형 과업

5.3 초저전력형 청사진

센서: single RGB + safety sensor
모델: detector/classifier 중심
메모리: 거의 없음 또는 FSM 상태만 유지
실행: 규칙 기반 플로우
액션: 안전 정지, 특정 스킬 호출, 알림
권장 임무: 보조 인식, 감시, 경량 트리거

6. 공개 데이터셋과 벤치마크

6.1 데이터셋 선택 원칙

온디바이스 VLA에서는 아래 속성이 중요하다.

멀티카메라 지원 여부
action 표현 일관성
robot embodiment 수
language annotation 품질
실패 데이터 유무
RLDS / Parquet / HDF5 등 학습 파이프라인 연결성

6.2 주요 공개 데이터셋 요약

데이터셋/벤치마크	성격	강점	한계	적합한 용도
Open X-Embodiment	다기관 대규모 로봇 데이터 집합	다수 embodiment와 task 다양성	action/센서 스키마 이질성 큼	범용 사전학습, cross-robot 정규화
DROID	대규모 실제 가정/실내 조작 데이터	실제 환경 다양성, 멀티카메라, 풍부한 raw data	정제와 재라벨링 비용 큼	실기 조작 정책, 재현성 높은 fine-tune
BridgeData V2	실내 조작 중심 대규모 시연	조작 과업 표준화, BC/IL 실험에 적합	embodiment 폭은 제한적	manipulation 기본기 학습
CALVIN	장기 horizon language-conditioned benchmark	멀티스텝 평가가 명확	주로 벤치마크 성격	장기 과업 계획/평가
LIBERO	lifelong/transfer benchmark	일반화와 지속학습 평가에 적합	실기 배치 직접성과는 거리 있음	continual learning, transfer 평가
LeRobot 생태계	데이터셋 + 정책 + 툴링	형식 통합, 재현성과 실험 속도	최신 대규모 VLA 전체를 대체하진 못함	학습 파이프라인 표준화, 빠른 재현

6.3 데이터셋별 실무 메모

Open X-Embodiment

Google DeepMind의 Open X-Embodiment는 다수 기관 로봇 데이터를 RLDS 형식으로 묶은 대규모 공개 집합이다. 다로봇 사전학습에는 강력하지만, 실제 fine-tuning 전에 아래 정규화가 필요하다.

카메라 뷰 선택 기준 통일
action space를 pose delta 또는 skill token으로 재정의
language 필드 정제
episode 품질 필터링

즉, OXE는 바로 배포할 데이터보다 사전학습 원천 데이터에 가깝다.

DROID

DROID는 실제 환경 수집량과 장면 다양성 측면에서 매우 유용하다. 다만 raw 성격이 강해서 현장 적용 전 다음 단계가 필요하다.

task taxonomy 재정의
멀티뷰 선택 또는 압축
실패/성공 rule 재라벨
wrist/base 사용 여부에 따라 action head 분리

실제로는 DROID를 현장 데이터 부트스트랩 또는 시각-행동 정렬 보강 용도로 쓰는 편이 현실적이다.

BridgeData V2

BridgeData V2는 조작 정책의 초기 수렴성과 재현성 면에서 장점이 있다.

장점
조작 과업이 비교적 정리돼 있다.
diffusion policy, BC, VLA 미세조정 비교 실험에 자주 쓰인다.
한계
실제 제품 수준의 장기 horizon, 복합 embodiment 다양성은 제한적이다.

CALVIN / LIBERO

이 둘은 현장 로그 데이터셋보다 평가와 일반화 측정에 가깝다.

CALVIN: language-conditioned long-horizon 평가에 적합
LIBERO: lifelong, transfer, task-suite 기반 일반화 측정에 적합

실무에서는 학습 데이터와 평가 벤치마크를 분리하는 편이 좋다.

7. 권장 학습 파이프라인

7.1 전체 흐름

가장 현실적인 파이프라인은 아래 순서다.

비로봇 비전-언어 또는 소형 VLM 사전학습 모델 확보
OXE, DROID, BridgeData V2 같은 공개 로봇 데이터로 행동 조건부 미세조정
자사 하드웨어 action space에 맞게 output head 재정의
현장 수집 데이터로 task-specific SFT/BC
작은 모델로 distillation 또는 adapter 기반 경량화
INT8/INT4 또는 런타임별 컴파일
로봇 리플레이/실기 A/B 테스트

7.2 데이터 표준화 단계

학습 전에 반드시 아래 스키마를 강제로 맞춰야 한다.

observation.image.front
observation.image.wrist
observation.state.joint
observation.state.ee_pose
observation.state.base
language.instruction
action.pose_delta
action.gripper
action.skill_id
episode.success
episode.failure_type

이 정규화가 없으면 멀티데이터셋 혼합 학습은 성능보다 노이즈를 더 키운다.

7.3 액션 표현 설계

하드웨어 제약을 고려하면 아래 우선순위가 현실적이다.

skill token + skill parameter
end-effector delta pose + gripper
base subgoal + local planner
joint-space direct control은 마지막 선택지

이유는 다음과 같다.

cross-robot 이식성이 좋다.
데이터 정규화가 쉽다.
안전 계층과 결합하기 쉽다.
작은 모델에서도 예측 안정성이 높다.

7.4 학습 방식 선택

Behavior Cloning / SFT

시작점으로 가장 안정적이다.
데이터 품질이 좋으면 작은 모델도 꽤 강하다.
온디바이스 모델 증류와 궁합이 좋다.

Diffusion Policy 계열

연속 행동의 부드러움과 멀티모달 행동 분포 표현에 강점이 있다.
대신 추론 스텝 수와 런타임 최적화가 문제다.
따라서 온디바이스에선 teacher로 쓰고 student를 증류하는 접근이 더 현실적이다.

Autoregressive VLA

언어와 행동 토큰을 통합하기 쉽다.
긴 horizon reasoning에 유리하다.
하지만 추론 지연과 KV cache 부담이 크다.

Offline RL / Preference Refinement

실패 회피, 보수적 행동, 특정 안전 규칙 반영에 유용하다.
다만 기본 시연 데이터 품질이 낮으면 개선폭이 제한적이다.

7.5 증류와 경량화

온디바이스 목적이라면 학습보다 이 단계가 더 중요하다.

teacher: 큰 VLA/VLM 또는 diffusion policy
student: 작은 VLM + action head 또는 스킬 분류기
기법
logits distillation
action regression distillation
QLoRA/LoRA 후 병합
post-training quantization
layer dropping
vision token pruning

권장 원칙은 기능을 덜 잃는 큰 모델보다 현장 루프를 지키는 작은 모델을 우선하는 것이다.

8. 배포 파이프라인

8.1 오프라인 배포 절차

학습 산출물을 ONNX 또는 런타임별 포맷으로 내보낸다.
타깃 장비에서 TensorRT, OpenVINO, Core ML, QNN 등으로 컴파일한다.
실시간 카메라 입력 포함 벤치마크를 측정한다.
열 스로틀링 상태에서 다시 측정한다.
safety layer와 watchdog을 붙인 상태로 hardware-in-the-loop 테스트를 한다.
실패 시 롤백 가능한 패키지 단위로 배포한다.

8.2 런타임별 실무 포인트

TensorRT
비전 인코더, action head 최적화가 강점
dynamic shape를 남발하면 성능 예측이 불안정해진다
OpenVINO
CPU/NPU 분산 배치에 유리
perception과 planner를 분리하면 운영이 편하다
Core ML
Apple 장비 프로토타이핑과 소형 모델에 적합
로봇 I/O 통합은 별도 브리지 필요
QNN/SNPE
모바일 SoC 최적화에 유리
범용 멀티모달보다는 작은 파이프라인 분해형에 적합

9. 데이터 수집과 현장 루프

9.1 공개 데이터만으로는 부족한 이유

실제 로봇 성능을 결정하는 것은 아래 항목이다.

카메라 설치 위치
그리퍼 형상
제어 지연
마찰과 물체 분포
사용자 작업 문장 습관
안전구역과 작업 셀 구조

즉, 공개 데이터는 부트스트랩 용도이고, 배치 전에는 반드시 자사 수집 루프가 필요하다.

9.2 권장 수집 루프

teleop 시연 수집
자동 리플레이 검증
실패 에피소드 태깅
hard-negative 재학습
현장 shadow mode
제한된 실기 실행
로그 기반 재학습

9.3 꼭 저장해야 할 로그

원본 이미지와 타임스탬프
depth 또는 stereo 정합 정보
joint, ee pose, base odom
action command와 실제 실행 결과
safety override 이벤트
실패 원인 코드
작업 지시 원문과 정규화된 instruction

10. 평가 지표

온디바이스 VLA는 논문 성공률만 보면 충분하지 않다. 최소 아래 지표를 같이 봐야 한다.

task success rate
first-try success rate
intervention rate
recovery success rate
평균 완수 시간
action latency p50/p95
전력 소모와 배터리 영향
열 스로틀링 이후 성능 유지
safety violation count
unseen object / unseen layout generalization

11. 실무 권고안

11.1 지금 가장 현실적인 조합

가장 현실적인 첫 버전은 아래다.

하드웨어: Jetson Orin급 또는 x86 + OpenVINO급
모델: 소형 VLM/VLA 또는 VLM + action head 분리형
액션: skill token + pose delta
데이터: OXE/BridgeData/DROID로 사전학습 후 자사 데이터 미세조정
안전: 별도 ROS 2 safety node + watchdog
메모리: LLM 긴 컨텍스트 대신 구조화 상태 저장소

11.2 피해야 할 접근

범용 거대 멀티모달 모델을 그대로 엣지에 이식하려는 접근
action space 정규화 없이 데이터셋을 섞는 접근
safety 계층 없이 end-to-end 정책만 믿는 접근
성공 데이터만 모으고 실패 로그를 버리는 접근

12. 후속 작업 제안

현재 목표 로봇에 맞춘 action schema를 먼저 고정
목표 하드웨어별 실시간 예산표 작성
공개 데이터셋을 RLDS 또는 공통 parquet 형식으로 정규화
teacher model -> student model 증류 실험 설계
실기 로그 수집용 ROS 2 recorder / replay 도구 정비

13. 참고 자료

아래는 이번 갱신에 직접 참고한 공개 자료다.

NVIDIA Jetson 개발 플랫폼: https://developer.nvidia.com/embedded-computing
NVIDIA TensorRT 문서: https://docs.nvidia.com/deeplearning/tensorrt/latest/
NVIDIA Isaac ROS 문서: https://nvidia-isaac-ros.github.io/
Intel OpenVINO 문서: https://docs.openvino.ai/
Apple Core ML 문서: https://developer.apple.com/documentation/coreml
Apple MLX: https://ml-explore.github.io/mlx/build/html/index.html
Qualcomm AI Hub 문서: https://aihub.qualcomm.com/
Google Coral 문서: https://coral.ai/docs/
Hailo Developer Zone: https://hailo.ai/developer-zone/
NXP eIQ / Edge AI 개요: https://www.nxp.com/design/design-center/software/eiq-ml-software-development-environment
OpenVLA 프로젝트: https://openvla.github.io/
OpenVLA GitHub: https://github.com/openvla/openvla
Open X-Embodiment / RT-X 프로젝트: https://robotics-transformer-x.github.io/
DROID 프로젝트: https://droid-dataset.github.io/
BridgeData V2 프로젝트: https://bridgedata-v2.github.io/
CALVIN 프로젝트: https://www.mees.calvin.cs.uni-freiburg.de/
LIBERO GitHub: https://github.com/Lifelong-Robot-Learning/LIBERO
LeRobot 문서: https://huggingface.co/docs/lerobot