온디바이스 VLA 확장자료: 실행 로드맵과 PoC 설계

- 작성일: 2026-03-16

카테고리: uploads | 읽기시간: 5분 | 원문: 다운로드

온디바이스 VLA 확장자료: 실행 로드맵과 PoC 설계

작성일: 2026-03-16
기반 문서:
research/on-device-vla-intelligence.md
research/on-device-vla-project-brief.md
research/on-device-vla-project-brief-analysis.md
문서 목적:
기존 조사자료를 실제 착수 가능한 개발 계획으로 확장
제안서 이후 바로 필요한 PoC 범위, 연차별 개발축, 실증 준비물, 평가 체계를 한 번에 정리

1. 핵심 결론

현재 조사자료를 실무 관점으로 이어 붙이면, 첫 단계는 범용 휴머노이드 지능이 아니라 제약된 제조·물류 복합작업용 온디바이스 VLA를 만드는 것이 맞다.
성공 확률이 가장 높은 초기 형태는 경량 VLM/VLA + 작업 표현기 + 스킬 실행기 + 안전 감독기 + 칩 추상화 계층의 분리형 구조다.
과제의 실질 성패는 모델 정확도보다 아래 세 가지가 좌우한다.
100ms 이내 폐루프 반응
국산 AI 반도체 2종 이식
실패와 안전개입을 포함한 현장 로그 체계

2. 가장 현실적인 1차 PoC 범위

2.1 PoC에서 풀어야 할 문제

PoC는 아래 질문에 답해야 한다.

자연어 작업 지시를 실제 로봇 실행 단계로 안정적으로 바꿀 수 있는가
카메라와 상태 입력만으로 pick -> move -> place 수준의 복합작업을 온디바이스에서 반복 수행할 수 있는가
작업 도중 장애물, 사람 접근, 파지 실패가 생겼을 때 100ms 안팎으로 안전 대응 또는 복구가 가능한가
동일 소프트웨어 구조를 국산 반도체 2종 이상에 무리 없이 포팅할 수 있는가

2.2 권장 PoC 작업 시나리오

초기 PoC는 작업 종류를 좁혀야 한다. 아래 3개 정도가 적당하다.

정형 피킹: 지정 박스를 집어 목표 위치에 적재
혼합 피킹: 여러 물체 중 조건에 맞는 물체를 선택해 이송
예외 대응: 물체 미검출, 파지 실패, 경로 방해 시 재시도 또는 우회

이 범위가 좋은 이유는 아래와 같다.

제조와 물류 양쪽 실증으로 확장하기 쉽다.
복합작업 성공률, 동작 분해 정확도, 반응 지연을 모두 측정할 수 있다.
휴머노이드가 아니어도 모바일 매니퓰레이터 또는 고정형 조작기로 시작할 수 있다.

2.3 PoC 성공 기준

초기 PoC 통과 기준은 아래처럼 보수적으로 잡는 편이 맞다.

항목	1차 PoC 기준	비고
작업 성공률	60% 이상	최종 과제 목표 73% 이전 단계
동작 분해 정확도	75% 이상	작업 표현기 초기 안정화 기준
반응 지연	150ms 이하	최종 목표 100ms 이전 단계
안전 이벤트 감지 후 정지/개입	100ms급	안전계층 성능 확인
연속 반복 수행	2시간 이상	열, 메모리, 센서 안정성 점검

3. 권장 시스템 아키텍처

3.1 전체 구조

권장 구조는 아래와 같다.

Sensor Fusion
State Builder
Task Parser
Action Generator
Skill Executor
Safety Supervisor
Controller Bridge
Logging / Replay

핵심은 언어 이해, 행동 생성, 안전 개입, 저수준 제어를 분리하는 것이다. 이렇게 해야 100ms 목표와 검증 가능성을 동시에 잡을 수 있다.

3.2 모듈별 역할

모듈	역할	실무 포인트
Sensor Fusion	RGB, depth, joint, force, safety sensor 동기화	입력 지연과 timestamp 정합이 핵심
State Builder	객체, 목표, 위험, 마지막 실패 상태를 구조화	LLM 긴 컨텍스트 대신 상태 테이블 사용
Task Parser	자연어를 goal/subtask/skill parameter로 변환	action schema를 먼저 고정해야 함
Action Generator	현재 상태 기준 다음 행동 선택	end-to-end보다 분리형 정책이 현실적
Skill Executor	pick, place, move, retry 같은 검증된 동작 실행	로봇별 재사용 계층
Safety Supervisor	사람 접근, 충돌 위험, 금지영역 감시와 우선 개입	메인 모델과 분리 필수
Controller Bridge	ROS 2 혹은 벤더 제어기로 명령 전달	하드웨어 의존점 분리
Logging / Replay	학습, 디버깅, 현장 재현용 기록	실패 로그를 반드시 남겨야 함

4. 연차별 개발 로드맵

4.1 1차년도

목표:
action schema 고정
기본 데이터 수집 파이프라인 구축
단일 반도체 기준 최소 PoC 완성
산출물:
ROS 2 기반 런타임 골격
정형 피킹용 데이터셋
task parser 초안
안전 이벤트 정의서

4.2 2차년도

목표:
멀티센서 기반 행동 생성 안정화
실패 복구와 재시도 로직 추가
국산 모델 1종 이식
산출물:
분리형 VLM + action head 구조
replay 검증 툴
실패 유형 taxonomy
실험 벤치 리포트

4.3 3차년도

목표:
국산 AI 반도체 2종 이상 포팅
제조·물류 환경 파일럿 실증
장시간 안정성 검증
산출물:
칩 추상화 계층
INT8/INT4 최적화 결과
현장 로그 기반 재학습 루프
실증 리포트

4.4 4차년도 및 사업화 구간

목표:
타 과제 연계 통합 실증
운영 SW 정제
공개 SW 1건 이상 배포
산출물:
재현 가능한 공개 모듈
설치 및 평가 문서
실증 고객사 적용안

5. 데이터 전략

5.1 공개 데이터의 역할

공개 데이터는 아래 용도로 제한하는 편이 맞다.

사전학습 부트스트랩
시각-행동 정렬 초기화
action representation 설계 검증

반면 실제 성능 확보는 결국 자사 데이터가 좌우한다.

5.2 반드시 모아야 할 자사 데이터

성공 에피소드
실패 에피소드
안전 개입 이벤트
재시도 후 성공 사례
사람 협업 중 속도 감속/정지 사례
조명, 배치, 물체 종류가 바뀐 변형 케이스

5.3 최소 로그 규격

아래 항목은 반드시 같은 타임라인으로 저장해야 한다.

원본 이미지와 해상도 정보
depth 또는 거리 센서 정보
joint, gripper, base 상태
action command와 실제 실행 결과
task instruction 원문과 정규화 결과
safety event 코드
episode 성공/실패 및 원인

6. 반도체 이식 전략

6.1 원칙

학습 모델과 배포 모델을 분리한다.
중간 표현은 ONNX 또는 동등한 공통 표현 기준으로 관리한다.
반도체별 backend adapter를 두고 상위 런타임은 공통으로 유지한다.

6.2 피해야 할 구조

특정 벤더 SDK 종속 custom op 남발
반도체별 완전 다른 모델 구조 사용
시연용 데모만 맞추는 하드코딩형 파이프라인

6.3 추천 검증 순서

범용 개발 환경에서 기준 모델 검증
반도체 A 포팅
동일 입력 로그 replay 비교
반도체 B 포팅
동일 과업·동일 지표로 교차 평가

7. 평가 체계

7.1 모델 지표

동작 분해 정확도
서브태스크 선택 정확도
행동 생성 latency p50 / p95
양자화 전후 품질 저하율

7.2 시스템 지표

task success rate
first-try success rate
recovery success rate
intervention rate
safety violation count
thermal throttling 이후 성능 유지율

7.3 실증 지표

시간당 처리량
작업자 개입 빈도
현장 배치 후 평균 복구 시간
칩별 전력 대비 성능

8. 주요 리스크와 대응

리스크	설명	대응 방향
과도한 범용화	초기부터 휴머노이드 전 과업을 노리면 실패 확률이 큼	정형 피킹과 물류 시나리오부터 시작
action schema 불안정	데이터와 제어 명령이 일치하지 않음	1차년도에 schema 고정
안전 계층 미분리	VLA 지연이 곧 안전 리스크로 이어짐	별도 supervisor 강제
칩별 성능 편차	같은 모델이라도 런타임 결과가 달라짐	replay 기반 비교 체계 운영
성공 데이터 편향	실패 복구가 학습되지 않음	실패 로그 수집을 KPI로 포함

9. 바로 실행할 다음 작업

실제 착수 단계에서는 아래 순서가 가장 효율적이다.

목표 로봇과 작업 셀을 먼저 고정
action schema와 로그 스키마를 확정
정형 피킹용 최소 데이터 수집
분리형 런타임 골격을 ROS 2 기준으로 구현
단일 칩 PoC 후 반도체 이식성 검증 시작

10. 한 줄 정리

기존 조사자료를 실무로 옮기면, 이 과제의 첫 승부처는 큰 모델 개발이 아니라 작업 표현, 안전 계층, 칩 이식성을 갖춘 온디바이스 로봇 런타임을 빠르게 PoC로 만드는 데 있다.