온디바이스 VLA 지능 개발 조사자료
- 갱신일: 2026-03-15
카테고리: uploads | 읽기시간: 10분 | 원문: 다운로드
온디바이스 VLA 지능 개발 조사자료
- 갱신일: 2026-03-15
- 조사 범위:
온디바이스 VLA(Vision-Language-Action)의 하드웨어 스택별 아키텍처, 공개 데이터셋, 학습/증류/배포 파이프라인 - 조사 기준:
- 공개 논문, 프로젝트 페이지, 벤더 공식 문서를 우선 참고했다.
- 빠르게 바뀌는 제품 세대와 소프트웨어 스택은
2026-03-15 확인 기준으로 정리했다. - 설계 판단에 바로 쓰이도록
제품 카탈로그보다실제 배치 가능한 조합중심으로 요약했다.
1. 핵심 결론
- 온디바이스 VLA는
거대 단일 모델 1개보다경량 VLM/VLA + 구조화 상태 + 스킬 실행기 + 안전 계층 + 로컬 메모리조합이 제품화 확률이 높다. - 하드웨어 스택은 크게
고성능 GPU형,중간급 NPU/CPU형,초저전력 가속기형으로 나뉘며, 각 스택마다 가능한 액션 표현과 메모리 길이가 다르다. - 데이터는 단순 시연 수보다
멀티카메라 동기화,실패 로그,행동 표현 일관성,교차-로봇 정규화가 성능을 더 크게 좌우한다. - 학습 파이프라인은 보통
비로봇 VLM 사전학습 -> 로봇 데이터 SFT/BC -> 액션 헤드 적응 -> 소형 모델 증류/양자화 -> 현장 리플레이 검증순서가 현실적이다.
2. 온디바이스 VLA를 어떻게 정의할 것인가
온디바이스 VLA는 아래 입력을 같은 정책 계열에서 다룬다.
Vision: RGB, depth, wrist cam, stereo, segmentation, object cropLanguage: 작업 지시, 제약조건, 단계 힌트, 실패 복구 규칙Action: 스킬 토큰, end-effector delta pose, base velocity, gripper action
실전 배치에서는 아래 분리가 거의 필수다.
VLA/VLM: 의미 해석, 고수준 행동 선택, 서브골 생성Skill/Controller: grasp, insert, push, navigate 같은 검증된 저수준 실행Safety Layer: 충돌, 속도, joint limit, 사람 접근, 금지영역 차단World State / Memory: 객체 상태, 마지막 성공 위치, 실패 원인, 재시도 횟수
즉, 온디바이스 VLA의 본질은 클라우드 없이 모든 걸 직접 추론하는 것이 아니라 클라우드 없이도 임무가 끊기지 않도록 시스템을 계층화하는 데 있다.
3. 하드웨어 스택별 설계 기준
3.1 분류 기준
하드웨어 스택은 단순 TOPS보다 아래 조합으로 봐야 한다.
- 지속 가능한 추론 지연
- 메모리 대역폭과 VRAM/DRAM 용량
- 열 스로틀링 이후 성능 유지
- 배포 런타임 성숙도
- ROS 2, 카메라, 센서 드라이버와의 통합 난이도
- 양자화, 비전 인코더, 멀티카메라 파이프라인 지원
3.2 하드웨어 스택별 권장 아키텍처
| 하드웨어 계층 | 대표 스택 | 권장 모델 구조 | 권장 액션 표현 | 적합한 임무 | 주요 제약 |
|---|---|---|---|---|---|
| 고성능 GPU형 | NVIDIA Jetson AGX Orin / Orin NX + CUDA + TensorRT + Isaac ROS | 소형~중형 VLM/VLA, 비전 인코더 + LLM + action head, 멀티카메라 | 스킬 토큰, delta pose, base command 혼합 | 모바일 매니퓰레이터, 다단계 조작, 현장 복구 | 전력/열, 모델 메모리, 최적화 공수 |
| 중간급 CPU/NPU형 | Intel Core Ultra + OpenVINO, Apple Silicon + Core ML/MLX | 경량 VLM + 분리형 action head, 짧은 컨텍스트 | 스킬 선택, waypoint, 짧은 horizon delta | 데스크탑 로봇, 실내 서비스, 연구용 스테이션 | 멀티카메라와 긴 컨텍스트 한계 |
| 모바일 SoC형 | Qualcomm RB5/RB6/QCS 계열 + QNN/SNPE | 더 작은 VLM 또는 perception + language planner + skill policy 분리 | 스킬 토큰, FSM 기반 파라미터 | 배터리 기반 저전력 로봇, 고정된 과업 | 모델 크기, 디버깅 도구, 메모리 |
| 초저전력 가속기형 | Google Coral Edge TPU, Hailo, NXP i.MX 8M Plus NPU | perception 전용 + 규칙/소형 정책 | 스킬 호출, 안전/감지 보조 | 안전 감시, detector, 추종, 보조 인식 | 범용 VLA 직접 탑재는 사실상 어려움 |
4. 스택별 상세 메모
4.1 NVIDIA Jetson 계열
공식 Jetson 문서와 Isaac ROS/TensorRT 계열을 기준으로 보면, 현재 온디바이스 VLA 실험과 제품화 후보 중 가장 현실적인 축은 여전히 NVIDIA다.
- 강점
- CUDA, TensorRT, Isaac ROS, 멀티카메라 파이프라인이 비교적 성숙했다.
- 비전 인코더와 action head를 같은 GPU 메모리 위에서 돌리기 쉽다.
- 로보틱스용 perception, SLAM, compression, transport 계층 연동 사례가 많다.
- 권장 구조
camera encoder -> compact VLM/VLA -> action decoder- 저수준은 별도 ROS 2 node 또는 MCU controller로 분리
- 긴 언어 컨텍스트 대신
구조화 상태 저장소 + 짧은 프롬프트 - 적합한 액션 표현
skill token + pose delta + gripper- base가 있는 경우
subgoal pose + local planner - 주의점
- 멀티카메라와 VLM을 동시에 돌리면 열과 메모리 병목이 빨리 온다.
- 프레임 해상도와 컨텍스트 길이를 먼저 고정하지 않으면 실시간성을 잃기 쉽다.
4.2 Intel Core Ultra / OpenVINO 계열
Intel OpenVINO 스택은 CPU/GPU/NPU 혼합 배치와 산업용 x86 환경 통합이 장점이다.
- 강점
- 산업 PC, AMR, x86 기반 제어기와 결합이 쉽다.
- OpenVINO로 vision encoder, detector, segmentation 계열 최적화가 비교적 안정적이다.
- 로컬 서버형 로봇 스테이션에 배치하기 쉽다.
- 권장 구조
- perception과 world-state는 OpenVINO 최적화 모델
- 언어/의도 해석은 작은 LLM 또는 템플릿 기반 planner
- action policy는 짧은 horizon BC head로 별도 분리
- 적합한 임무
- 고정 셀 조작, bin-picking 보조, 실내 물류 스테이션
- 주의점
- GPU형 대비 초장기 컨텍스트나 큰 멀티모달 모델 배치는 제한적이다.
- 모델을 쪼개 배치하지 않으면 지연 분산이 커진다.
4.3 Apple Silicon 계열
Apple은 Core ML과 Apple Silicon의 메모리 구조상 소형 멀티모달 모델 실험에 유리하지만, 로봇 현장 배치용 드라이버/ROS 통합은 NVIDIA나 x86 산업 환경보다 약하다.
- 강점
- unified memory와 on-device inference 효율이 좋아 연구용 프로토타이핑에 유리하다.
- Core ML, MLX 기반 소형 모델 압축/실험 사이클이 빠르다.
- 권장 구조
- 학습·검증 스테이션 또는 휴대형 데모 장비
- 실제 로봇은 별도 제어기와 연결하고, Apple 장비는 고수준 추론만 담당
- 주의점
- 산업 현장 센서/로봇 드라이버 통합은 별도 공수가 필요하다.
- 완전 독립형 모바일 로봇 본체 컴퓨팅 스택으로는 제한적이다.
4.4 Qualcomm Robotics / 모바일 SoC 계열
Qualcomm 계열은 전력 효율은 좋지만, 범용 VLA를 한 번에 올리기보다 planner + skill policy + detector 분해형이 현실적이다.
- 강점
- 배터리 기반 플랫폼에서 전력 대비 추론 효율이 좋다.
- 카메라 ISP, 영상 파이프라인, 모바일 통합이 강하다.
- 권장 구조
- 언어는 작은 planner
- perception은 NPU 최적화 detector/segmenter
- 실행은 스킬 라이브러리와 FSM
- 적합한 임무
- 순찰, 점검, 고정 절차형 업무
- 주의점
- 범용 VLA보다는
제약된 과업 전용 에이전트방향이 적합하다.
4.5 Edge TPU / Hailo / NXP 저전력 계열
이 계열은 엄밀히 말해 온디바이스 VLA 본체보다 온디바이스 인식/안전 보조에 적합하다.
- 적합한 역할
- 사람/장애물 감지
- 특정 물체 검출
- 자유공간/안전 감시
- 상태 감지용 서브모듈
- 비권장 역할
- 긴 언어 지시를 직접 이해하는 범용 VLA
- 멀티카메라 기반 장기 조작 정책
따라서 이 계층은 메인 VLA 연산기가 아니라 safety co-processor 또는 perception offload로 보는 편이 맞다.
5. 하드웨어 계층별 권장 시스템 청사진
5.1 고성능 GPU형 청사진
- 센서:
front RGB + wrist RGB + depth + joint + base odom - 모델:
vision encoder + 3B~7B급 경량 VLM/VLA 또는 더 작은 action model - 메모리: 최근 수 초 영상 특징 + 구조화 상태
- 실행: 고수준 1~5 Hz, 저수준 50~200 Hz
- 액션:
pick/place/open/navigate/retry+ pose delta - 권장 임무: 다단계 조작, 서랍/문, 간단한 이동 조작 복합 과업
5.2 중간급 NPU/CPU형 청사진
- 센서:
single or dual RGB + optional depth - 모델:
detector/segmenter + 작은 language planner + action head - 메모리: 상태 테이블과 직전 실패 이력만 유지
- 실행: 고수준 0.5~2 Hz, 저수준 별도 controller
- 액션: 스킬 선택, waypoint, 짧은 delta
- 권장 임무: 좁은 조작 셀, 서비스형 정형 과업
5.3 초저전력형 청사진
- 센서:
single RGB + safety sensor - 모델: detector/classifier 중심
- 메모리: 거의 없음 또는 FSM 상태만 유지
- 실행: 규칙 기반 플로우
- 액션: 안전 정지, 특정 스킬 호출, 알림
- 권장 임무: 보조 인식, 감시, 경량 트리거
6. 공개 데이터셋과 벤치마크
6.1 데이터셋 선택 원칙
온디바이스 VLA에서는 아래 속성이 중요하다.
- 멀티카메라 지원 여부
- action 표현 일관성
- robot embodiment 수
- language annotation 품질
- 실패 데이터 유무
- RLDS / Parquet / HDF5 등 학습 파이프라인 연결성
6.2 주요 공개 데이터셋 요약
| 데이터셋/벤치마크 | 성격 | 강점 | 한계 | 적합한 용도 |
|---|---|---|---|---|
| Open X-Embodiment | 다기관 대규모 로봇 데이터 집합 | 다수 embodiment와 task 다양성 | action/센서 스키마 이질성 큼 | 범용 사전학습, cross-robot 정규화 |
| DROID | 대규모 실제 가정/실내 조작 데이터 | 실제 환경 다양성, 멀티카메라, 풍부한 raw data | 정제와 재라벨링 비용 큼 | 실기 조작 정책, 재현성 높은 fine-tune |
| BridgeData V2 | 실내 조작 중심 대규모 시연 | 조작 과업 표준화, BC/IL 실험에 적합 | embodiment 폭은 제한적 | manipulation 기본기 학습 |
| CALVIN | 장기 horizon language-conditioned benchmark | 멀티스텝 평가가 명확 | 주로 벤치마크 성격 | 장기 과업 계획/평가 |
| LIBERO | lifelong/transfer benchmark | 일반화와 지속학습 평가에 적합 | 실기 배치 직접성과는 거리 있음 | continual learning, transfer 평가 |
| LeRobot 생태계 | 데이터셋 + 정책 + 툴링 | 형식 통합, 재현성과 실험 속도 | 최신 대규모 VLA 전체를 대체하진 못함 | 학습 파이프라인 표준화, 빠른 재현 |
6.3 데이터셋별 실무 메모
Open X-Embodiment
Google DeepMind의 Open X-Embodiment는 다수 기관 로봇 데이터를 RLDS 형식으로 묶은 대규모 공개 집합이다. 다로봇 사전학습에는 강력하지만, 실제 fine-tuning 전에 아래 정규화가 필요하다.
- 카메라 뷰 선택 기준 통일
- action space를
pose delta또는skill token으로 재정의 - language 필드 정제
- episode 품질 필터링
즉, OXE는 바로 배포할 데이터보다 사전학습 원천 데이터에 가깝다.
DROID
DROID는 실제 환경 수집량과 장면 다양성 측면에서 매우 유용하다. 다만 raw 성격이 강해서 현장 적용 전 다음 단계가 필요하다.
- task taxonomy 재정의
- 멀티뷰 선택 또는 압축
- 실패/성공 rule 재라벨
- wrist/base 사용 여부에 따라 action head 분리
실제로는 DROID를 현장 데이터 부트스트랩 또는 시각-행동 정렬 보강 용도로 쓰는 편이 현실적이다.
BridgeData V2
BridgeData V2는 조작 정책의 초기 수렴성과 재현성 면에서 장점이 있다.
- 장점
- 조작 과업이 비교적 정리돼 있다.
- diffusion policy, BC, VLA 미세조정 비교 실험에 자주 쓰인다.
- 한계
- 실제 제품 수준의 장기 horizon, 복합 embodiment 다양성은 제한적이다.
CALVIN / LIBERO
이 둘은 현장 로그 데이터셋보다 평가와 일반화 측정에 가깝다.
- CALVIN: language-conditioned long-horizon 평가에 적합
- LIBERO: lifelong, transfer, task-suite 기반 일반화 측정에 적합
실무에서는 학습 데이터와 평가 벤치마크를 분리하는 편이 좋다.
7. 권장 학습 파이프라인
7.1 전체 흐름
가장 현실적인 파이프라인은 아래 순서다.
- 비로봇 비전-언어 또는 소형 VLM 사전학습 모델 확보
- OXE, DROID, BridgeData V2 같은 공개 로봇 데이터로 행동 조건부 미세조정
- 자사 하드웨어 action space에 맞게 output head 재정의
- 현장 수집 데이터로 task-specific SFT/BC
- 작은 모델로 distillation 또는 adapter 기반 경량화
- INT8/INT4 또는 런타임별 컴파일
- 로봇 리플레이/실기 A/B 테스트
7.2 데이터 표준화 단계
학습 전에 반드시 아래 스키마를 강제로 맞춰야 한다.
observation.image.frontobservation.image.wristobservation.state.jointobservation.state.ee_poseobservation.state.baselanguage.instructionaction.pose_deltaaction.gripperaction.skill_idepisode.successepisode.failure_type
이 정규화가 없으면 멀티데이터셋 혼합 학습은 성능보다 노이즈를 더 키운다.
7.3 액션 표현 설계
하드웨어 제약을 고려하면 아래 우선순위가 현실적이다.
skill token + skill parameterend-effector delta pose + gripperbase subgoal + local plannerjoint-space direct control은 마지막 선택지
이유는 다음과 같다.
- cross-robot 이식성이 좋다.
- 데이터 정규화가 쉽다.
- 안전 계층과 결합하기 쉽다.
- 작은 모델에서도 예측 안정성이 높다.
7.4 학습 방식 선택
Behavior Cloning / SFT
- 시작점으로 가장 안정적이다.
- 데이터 품질이 좋으면 작은 모델도 꽤 강하다.
- 온디바이스 모델 증류와 궁합이 좋다.
Diffusion Policy 계열
- 연속 행동의 부드러움과 멀티모달 행동 분포 표현에 강점이 있다.
- 대신 추론 스텝 수와 런타임 최적화가 문제다.
- 따라서 온디바이스에선 teacher로 쓰고 student를 증류하는 접근이 더 현실적이다.
Autoregressive VLA
- 언어와 행동 토큰을 통합하기 쉽다.
- 긴 horizon reasoning에 유리하다.
- 하지만 추론 지연과 KV cache 부담이 크다.
Offline RL / Preference Refinement
- 실패 회피, 보수적 행동, 특정 안전 규칙 반영에 유용하다.
- 다만 기본 시연 데이터 품질이 낮으면 개선폭이 제한적이다.
7.5 증류와 경량화
온디바이스 목적이라면 학습보다 이 단계가 더 중요하다.
- teacher: 큰 VLA/VLM 또는 diffusion policy
- student: 작은 VLM + action head 또는 스킬 분류기
- 기법
- logits distillation
- action regression distillation
- QLoRA/LoRA 후 병합
- post-training quantization
- layer dropping
- vision token pruning
권장 원칙은 기능을 덜 잃는 큰 모델보다 현장 루프를 지키는 작은 모델을 우선하는 것이다.
8. 배포 파이프라인
8.1 오프라인 배포 절차
- 학습 산출물을 ONNX 또는 런타임별 포맷으로 내보낸다.
- 타깃 장비에서 TensorRT, OpenVINO, Core ML, QNN 등으로 컴파일한다.
- 실시간 카메라 입력 포함 벤치마크를 측정한다.
- 열 스로틀링 상태에서 다시 측정한다.
- safety layer와 watchdog을 붙인 상태로 hardware-in-the-loop 테스트를 한다.
- 실패 시 롤백 가능한 패키지 단위로 배포한다.
8.2 런타임별 실무 포인트
- TensorRT
- 비전 인코더, action head 최적화가 강점
- dynamic shape를 남발하면 성능 예측이 불안정해진다
- OpenVINO
- CPU/NPU 분산 배치에 유리
- perception과 planner를 분리하면 운영이 편하다
- Core ML
- Apple 장비 프로토타이핑과 소형 모델에 적합
- 로봇 I/O 통합은 별도 브리지 필요
- QNN/SNPE
- 모바일 SoC 최적화에 유리
- 범용 멀티모달보다는 작은 파이프라인 분해형에 적합
9. 데이터 수집과 현장 루프
9.1 공개 데이터만으로는 부족한 이유
실제 로봇 성능을 결정하는 것은 아래 항목이다.
- 카메라 설치 위치
- 그리퍼 형상
- 제어 지연
- 마찰과 물체 분포
- 사용자 작업 문장 습관
- 안전구역과 작업 셀 구조
즉, 공개 데이터는 부트스트랩 용도이고, 배치 전에는 반드시 자사 수집 루프가 필요하다.
9.2 권장 수집 루프
- teleop 시연 수집
- 자동 리플레이 검증
- 실패 에피소드 태깅
- hard-negative 재학습
- 현장 shadow mode
- 제한된 실기 실행
- 로그 기반 재학습
9.3 꼭 저장해야 할 로그
- 원본 이미지와 타임스탬프
- depth 또는 stereo 정합 정보
- joint, ee pose, base odom
- action command와 실제 실행 결과
- safety override 이벤트
- 실패 원인 코드
- 작업 지시 원문과 정규화된 instruction
10. 평가 지표
온디바이스 VLA는 논문 성공률만 보면 충분하지 않다. 최소 아래 지표를 같이 봐야 한다.
- task success rate
- first-try success rate
- intervention rate
- recovery success rate
- 평균 완수 시간
- action latency p50/p95
- 전력 소모와 배터리 영향
- 열 스로틀링 이후 성능 유지
- safety violation count
- unseen object / unseen layout generalization
11. 실무 권고안
11.1 지금 가장 현실적인 조합
가장 현실적인 첫 버전은 아래다.
- 하드웨어: Jetson Orin급 또는 x86 + OpenVINO급
- 모델: 소형 VLM/VLA 또는 VLM + action head 분리형
- 액션:
skill token + pose delta - 데이터: OXE/BridgeData/DROID로 사전학습 후 자사 데이터 미세조정
- 안전: 별도 ROS 2 safety node + watchdog
- 메모리: LLM 긴 컨텍스트 대신 구조화 상태 저장소
11.2 피해야 할 접근
- 범용 거대 멀티모달 모델을 그대로 엣지에 이식하려는 접근
- action space 정규화 없이 데이터셋을 섞는 접근
- safety 계층 없이 end-to-end 정책만 믿는 접근
- 성공 데이터만 모으고 실패 로그를 버리는 접근
12. 후속 작업 제안
- 현재 목표 로봇에 맞춘
action schema를 먼저 고정 - 목표 하드웨어별
실시간 예산표작성 - 공개 데이터셋을 RLDS 또는 공통 parquet 형식으로 정규화
teacher model -> student model증류 실험 설계- 실기 로그 수집용 ROS 2 recorder / replay 도구 정비
13. 참고 자료
아래는 이번 갱신에 직접 참고한 공개 자료다.
- NVIDIA Jetson 개발 플랫폼: https://developer.nvidia.com/embedded-computing
- NVIDIA TensorRT 문서: https://docs.nvidia.com/deeplearning/tensorrt/latest/
- NVIDIA Isaac ROS 문서: https://nvidia-isaac-ros.github.io/
- Intel OpenVINO 문서: https://docs.openvino.ai/
- Apple Core ML 문서: https://developer.apple.com/documentation/coreml
- Apple MLX: https://ml-explore.github.io/mlx/build/html/index.html
- Qualcomm AI Hub 문서: https://aihub.qualcomm.com/
- Google Coral 문서: https://coral.ai/docs/
- Hailo Developer Zone: https://hailo.ai/developer-zone/
- NXP eIQ / Edge AI 개요: https://www.nxp.com/design/design-center/software/eiq-ml-software-development-environment
- OpenVLA 프로젝트: https://openvla.github.io/
- OpenVLA GitHub: https://github.com/openvla/openvla
- Open X-Embodiment / RT-X 프로젝트: https://robotics-transformer-x.github.io/
- DROID 프로젝트: https://droid-dataset.github.io/
- BridgeData V2 프로젝트: https://bridgedata-v2.github.io/
- CALVIN 프로젝트: https://www.mees.calvin.cs.uni-freiburg.de/
- LIBERO GitHub: https://github.com/Lifelong-Robot-Learning/LIBERO
- LeRobot 문서: https://huggingface.co/docs/lerobot