# 온디바이스 VLA 확장자료: 실행 로드맵과 PoC 설계

- 작성일: 2026-03-16
- 기반 문서:
  - `research/on-device-vla-intelligence.md`
  - `research/on-device-vla-project-brief.md`
  - `research/on-device-vla-project-brief-analysis.md`
- 문서 목적:
  - 기존 조사자료를 `실제 착수 가능한 개발 계획`으로 확장
  - 제안서 이후 바로 필요한 `PoC 범위`, `연차별 개발축`, `실증 준비물`, `평가 체계`를 한 번에 정리

## 1. 핵심 결론

- 현재 조사자료를 실무 관점으로 이어 붙이면, 첫 단계는 `범용 휴머노이드 지능`이 아니라 `제약된 제조·물류 복합작업용 온디바이스 VLA`를 만드는 것이 맞다.
- 성공 확률이 가장 높은 초기 형태는 `경량 VLM/VLA + 작업 표현기 + 스킬 실행기 + 안전 감독기 + 칩 추상화 계층`의 분리형 구조다.
- 과제의 실질 성패는 모델 정확도보다 아래 세 가지가 좌우한다.
  - `100ms 이내 폐루프 반응`
  - `국산 AI 반도체 2종 이식`
  - `실패와 안전개입을 포함한 현장 로그 체계`

## 2. 가장 현실적인 1차 PoC 범위

### 2.1 PoC에서 풀어야 할 문제

PoC는 아래 질문에 답해야 한다.

- 자연어 작업 지시를 실제 로봇 실행 단계로 안정적으로 바꿀 수 있는가
- 카메라와 상태 입력만으로 `pick -> move -> place` 수준의 복합작업을 온디바이스에서 반복 수행할 수 있는가
- 작업 도중 장애물, 사람 접근, 파지 실패가 생겼을 때 100ms 안팎으로 안전 대응 또는 복구가 가능한가
- 동일 소프트웨어 구조를 국산 반도체 2종 이상에 무리 없이 포팅할 수 있는가

### 2.2 권장 PoC 작업 시나리오

초기 PoC는 작업 종류를 좁혀야 한다. 아래 3개 정도가 적당하다.

- `정형 피킹`: 지정 박스를 집어 목표 위치에 적재
- `혼합 피킹`: 여러 물체 중 조건에 맞는 물체를 선택해 이송
- `예외 대응`: 물체 미검출, 파지 실패, 경로 방해 시 재시도 또는 우회

이 범위가 좋은 이유는 아래와 같다.

- 제조와 물류 양쪽 실증으로 확장하기 쉽다.
- 복합작업 성공률, 동작 분해 정확도, 반응 지연을 모두 측정할 수 있다.
- 휴머노이드가 아니어도 모바일 매니퓰레이터 또는 고정형 조작기로 시작할 수 있다.

### 2.3 PoC 성공 기준

초기 PoC 통과 기준은 아래처럼 보수적으로 잡는 편이 맞다.

| 항목 | 1차 PoC 기준 | 비고 |
| --- | --- | --- |
| 작업 성공률 | 60% 이상 | 최종 과제 목표 73% 이전 단계 |
| 동작 분해 정확도 | 75% 이상 | 작업 표현기 초기 안정화 기준 |
| 반응 지연 | 150ms 이하 | 최종 목표 100ms 이전 단계 |
| 안전 이벤트 감지 후 정지/개입 | 100ms급 | 안전계층 성능 확인 |
| 연속 반복 수행 | 2시간 이상 | 열, 메모리, 센서 안정성 점검 |

## 3. 권장 시스템 아키텍처

### 3.1 전체 구조

권장 구조는 아래와 같다.

1. `Sensor Fusion`
2. `State Builder`
3. `Task Parser`
4. `Action Generator`
5. `Skill Executor`
6. `Safety Supervisor`
7. `Controller Bridge`
8. `Logging / Replay`

핵심은 `언어 이해`, `행동 생성`, `안전 개입`, `저수준 제어`를 분리하는 것이다. 이렇게 해야 100ms 목표와 검증 가능성을 동시에 잡을 수 있다.

### 3.2 모듈별 역할

| 모듈 | 역할 | 실무 포인트 |
| --- | --- | --- |
| Sensor Fusion | RGB, depth, joint, force, safety sensor 동기화 | 입력 지연과 timestamp 정합이 핵심 |
| State Builder | 객체, 목표, 위험, 마지막 실패 상태를 구조화 | LLM 긴 컨텍스트 대신 상태 테이블 사용 |
| Task Parser | 자연어를 goal/subtask/skill parameter로 변환 | action schema를 먼저 고정해야 함 |
| Action Generator | 현재 상태 기준 다음 행동 선택 | end-to-end보다 분리형 정책이 현실적 |
| Skill Executor | pick, place, move, retry 같은 검증된 동작 실행 | 로봇별 재사용 계층 |
| Safety Supervisor | 사람 접근, 충돌 위험, 금지영역 감시와 우선 개입 | 메인 모델과 분리 필수 |
| Controller Bridge | ROS 2 혹은 벤더 제어기로 명령 전달 | 하드웨어 의존점 분리 |
| Logging / Replay | 학습, 디버깅, 현장 재현용 기록 | 실패 로그를 반드시 남겨야 함 |

## 4. 연차별 개발 로드맵

### 4.1 1차년도

- 목표:
  - action schema 고정
  - 기본 데이터 수집 파이프라인 구축
  - 단일 반도체 기준 최소 PoC 완성
- 산출물:
  - ROS 2 기반 런타임 골격
  - 정형 피킹용 데이터셋
  - task parser 초안
  - 안전 이벤트 정의서

### 4.2 2차년도

- 목표:
  - 멀티센서 기반 행동 생성 안정화
  - 실패 복구와 재시도 로직 추가
  - 국산 모델 1종 이식
- 산출물:
  - 분리형 VLM + action head 구조
  - replay 검증 툴
  - 실패 유형 taxonomy
  - 실험 벤치 리포트

### 4.3 3차년도

- 목표:
  - 국산 AI 반도체 2종 이상 포팅
  - 제조·물류 환경 파일럿 실증
  - 장시간 안정성 검증
- 산출물:
  - 칩 추상화 계층
  - INT8/INT4 최적화 결과
  - 현장 로그 기반 재학습 루프
  - 실증 리포트

### 4.4 4차년도 및 사업화 구간

- 목표:
  - 타 과제 연계 통합 실증
  - 운영 SW 정제
  - 공개 SW 1건 이상 배포
- 산출물:
  - 재현 가능한 공개 모듈
  - 설치 및 평가 문서
  - 실증 고객사 적용안

## 5. 데이터 전략

### 5.1 공개 데이터의 역할

공개 데이터는 아래 용도로 제한하는 편이 맞다.

- 사전학습 부트스트랩
- 시각-행동 정렬 초기화
- action representation 설계 검증

반면 실제 성능 확보는 결국 자사 데이터가 좌우한다.

### 5.2 반드시 모아야 할 자사 데이터

- 성공 에피소드
- 실패 에피소드
- 안전 개입 이벤트
- 재시도 후 성공 사례
- 사람 협업 중 속도 감속/정지 사례
- 조명, 배치, 물체 종류가 바뀐 변형 케이스

### 5.3 최소 로그 규격

아래 항목은 반드시 같은 타임라인으로 저장해야 한다.

- 원본 이미지와 해상도 정보
- depth 또는 거리 센서 정보
- joint, gripper, base 상태
- action command와 실제 실행 결과
- task instruction 원문과 정규화 결과
- safety event 코드
- episode 성공/실패 및 원인

## 6. 반도체 이식 전략

### 6.1 원칙

- 학습 모델과 배포 모델을 분리한다.
- 중간 표현은 `ONNX 또는 동등한 공통 표현` 기준으로 관리한다.
- 반도체별 backend adapter를 두고 상위 런타임은 공통으로 유지한다.

### 6.2 피해야 할 구조

- 특정 벤더 SDK 종속 custom op 남발
- 반도체별 완전 다른 모델 구조 사용
- 시연용 데모만 맞추는 하드코딩형 파이프라인

### 6.3 추천 검증 순서

1. 범용 개발 환경에서 기준 모델 검증
2. 반도체 A 포팅
3. 동일 입력 로그 replay 비교
4. 반도체 B 포팅
5. 동일 과업·동일 지표로 교차 평가

## 7. 평가 체계

### 7.1 모델 지표

- 동작 분해 정확도
- 서브태스크 선택 정확도
- 행동 생성 latency p50 / p95
- 양자화 전후 품질 저하율

### 7.2 시스템 지표

- task success rate
- first-try success rate
- recovery success rate
- intervention rate
- safety violation count
- thermal throttling 이후 성능 유지율

### 7.3 실증 지표

- 시간당 처리량
- 작업자 개입 빈도
- 현장 배치 후 평균 복구 시간
- 칩별 전력 대비 성능

## 8. 주요 리스크와 대응

| 리스크 | 설명 | 대응 방향 |
| --- | --- | --- |
| 과도한 범용화 | 초기부터 휴머노이드 전 과업을 노리면 실패 확률이 큼 | 정형 피킹과 물류 시나리오부터 시작 |
| action schema 불안정 | 데이터와 제어 명령이 일치하지 않음 | 1차년도에 schema 고정 |
| 안전 계층 미분리 | VLA 지연이 곧 안전 리스크로 이어짐 | 별도 supervisor 강제 |
| 칩별 성능 편차 | 같은 모델이라도 런타임 결과가 달라짐 | replay 기반 비교 체계 운영 |
| 성공 데이터 편향 | 실패 복구가 학습되지 않음 | 실패 로그 수집을 KPI로 포함 |

## 9. 바로 실행할 다음 작업

실제 착수 단계에서는 아래 순서가 가장 효율적이다.

1. 목표 로봇과 작업 셀을 먼저 고정
2. action schema와 로그 스키마를 확정
3. 정형 피킹용 최소 데이터 수집
4. 분리형 런타임 골격을 ROS 2 기준으로 구현
5. 단일 칩 PoC 후 반도체 이식성 검증 시작

## 10. 한 줄 정리

기존 조사자료를 실무로 옮기면, 이 과제의 첫 승부처는 `큰 모델 개발`이 아니라 `작업 표현, 안전 계층, 칩 이식성을 갖춘 온디바이스 로봇 런타임`을 빠르게 PoC로 만드는 데 있다.