온디바이스 VLA 확장자료: 실행 로드맵과 PoC 설계
- 작성일: 2026-03-16
카테고리: uploads | 읽기시간: 5분 | 원문: 다운로드
온디바이스 VLA 확장자료: 실행 로드맵과 PoC 설계
- 작성일: 2026-03-16
- 기반 문서:
research/on-device-vla-intelligence.mdresearch/on-device-vla-project-brief.mdresearch/on-device-vla-project-brief-analysis.md- 문서 목적:
- 기존 조사자료를
실제 착수 가능한 개발 계획으로 확장 - 제안서 이후 바로 필요한
PoC 범위,연차별 개발축,실증 준비물,평가 체계를 한 번에 정리
1. 핵심 결론
- 현재 조사자료를 실무 관점으로 이어 붙이면, 첫 단계는
범용 휴머노이드 지능이 아니라제약된 제조·물류 복합작업용 온디바이스 VLA를 만드는 것이 맞다. - 성공 확률이 가장 높은 초기 형태는
경량 VLM/VLA + 작업 표현기 + 스킬 실행기 + 안전 감독기 + 칩 추상화 계층의 분리형 구조다. - 과제의 실질 성패는 모델 정확도보다 아래 세 가지가 좌우한다.
100ms 이내 폐루프 반응국산 AI 반도체 2종 이식실패와 안전개입을 포함한 현장 로그 체계
2. 가장 현실적인 1차 PoC 범위
2.1 PoC에서 풀어야 할 문제
PoC는 아래 질문에 답해야 한다.
- 자연어 작업 지시를 실제 로봇 실행 단계로 안정적으로 바꿀 수 있는가
- 카메라와 상태 입력만으로
pick -> move -> place수준의 복합작업을 온디바이스에서 반복 수행할 수 있는가 - 작업 도중 장애물, 사람 접근, 파지 실패가 생겼을 때 100ms 안팎으로 안전 대응 또는 복구가 가능한가
- 동일 소프트웨어 구조를 국산 반도체 2종 이상에 무리 없이 포팅할 수 있는가
2.2 권장 PoC 작업 시나리오
초기 PoC는 작업 종류를 좁혀야 한다. 아래 3개 정도가 적당하다.
정형 피킹: 지정 박스를 집어 목표 위치에 적재혼합 피킹: 여러 물체 중 조건에 맞는 물체를 선택해 이송예외 대응: 물체 미검출, 파지 실패, 경로 방해 시 재시도 또는 우회
이 범위가 좋은 이유는 아래와 같다.
- 제조와 물류 양쪽 실증으로 확장하기 쉽다.
- 복합작업 성공률, 동작 분해 정확도, 반응 지연을 모두 측정할 수 있다.
- 휴머노이드가 아니어도 모바일 매니퓰레이터 또는 고정형 조작기로 시작할 수 있다.
2.3 PoC 성공 기준
초기 PoC 통과 기준은 아래처럼 보수적으로 잡는 편이 맞다.
| 항목 | 1차 PoC 기준 | 비고 |
|---|---|---|
| 작업 성공률 | 60% 이상 | 최종 과제 목표 73% 이전 단계 |
| 동작 분해 정확도 | 75% 이상 | 작업 표현기 초기 안정화 기준 |
| 반응 지연 | 150ms 이하 | 최종 목표 100ms 이전 단계 |
| 안전 이벤트 감지 후 정지/개입 | 100ms급 | 안전계층 성능 확인 |
| 연속 반복 수행 | 2시간 이상 | 열, 메모리, 센서 안정성 점검 |
3. 권장 시스템 아키텍처
3.1 전체 구조
권장 구조는 아래와 같다.
Sensor FusionState BuilderTask ParserAction GeneratorSkill ExecutorSafety SupervisorController BridgeLogging / Replay
핵심은 언어 이해, 행동 생성, 안전 개입, 저수준 제어를 분리하는 것이다. 이렇게 해야 100ms 목표와 검증 가능성을 동시에 잡을 수 있다.
3.2 모듈별 역할
| 모듈 | 역할 | 실무 포인트 |
|---|---|---|
| Sensor Fusion | RGB, depth, joint, force, safety sensor 동기화 | 입력 지연과 timestamp 정합이 핵심 |
| State Builder | 객체, 목표, 위험, 마지막 실패 상태를 구조화 | LLM 긴 컨텍스트 대신 상태 테이블 사용 |
| Task Parser | 자연어를 goal/subtask/skill parameter로 변환 | action schema를 먼저 고정해야 함 |
| Action Generator | 현재 상태 기준 다음 행동 선택 | end-to-end보다 분리형 정책이 현실적 |
| Skill Executor | pick, place, move, retry 같은 검증된 동작 실행 | 로봇별 재사용 계층 |
| Safety Supervisor | 사람 접근, 충돌 위험, 금지영역 감시와 우선 개입 | 메인 모델과 분리 필수 |
| Controller Bridge | ROS 2 혹은 벤더 제어기로 명령 전달 | 하드웨어 의존점 분리 |
| Logging / Replay | 학습, 디버깅, 현장 재현용 기록 | 실패 로그를 반드시 남겨야 함 |
4. 연차별 개발 로드맵
4.1 1차년도
- 목표:
- action schema 고정
- 기본 데이터 수집 파이프라인 구축
- 단일 반도체 기준 최소 PoC 완성
- 산출물:
- ROS 2 기반 런타임 골격
- 정형 피킹용 데이터셋
- task parser 초안
- 안전 이벤트 정의서
4.2 2차년도
- 목표:
- 멀티센서 기반 행동 생성 안정화
- 실패 복구와 재시도 로직 추가
- 국산 모델 1종 이식
- 산출물:
- 분리형 VLM + action head 구조
- replay 검증 툴
- 실패 유형 taxonomy
- 실험 벤치 리포트
4.3 3차년도
- 목표:
- 국산 AI 반도체 2종 이상 포팅
- 제조·물류 환경 파일럿 실증
- 장시간 안정성 검증
- 산출물:
- 칩 추상화 계층
- INT8/INT4 최적화 결과
- 현장 로그 기반 재학습 루프
- 실증 리포트
4.4 4차년도 및 사업화 구간
- 목표:
- 타 과제 연계 통합 실증
- 운영 SW 정제
- 공개 SW 1건 이상 배포
- 산출물:
- 재현 가능한 공개 모듈
- 설치 및 평가 문서
- 실증 고객사 적용안
5. 데이터 전략
5.1 공개 데이터의 역할
공개 데이터는 아래 용도로 제한하는 편이 맞다.
- 사전학습 부트스트랩
- 시각-행동 정렬 초기화
- action representation 설계 검증
반면 실제 성능 확보는 결국 자사 데이터가 좌우한다.
5.2 반드시 모아야 할 자사 데이터
- 성공 에피소드
- 실패 에피소드
- 안전 개입 이벤트
- 재시도 후 성공 사례
- 사람 협업 중 속도 감속/정지 사례
- 조명, 배치, 물체 종류가 바뀐 변형 케이스
5.3 최소 로그 규격
아래 항목은 반드시 같은 타임라인으로 저장해야 한다.
- 원본 이미지와 해상도 정보
- depth 또는 거리 센서 정보
- joint, gripper, base 상태
- action command와 실제 실행 결과
- task instruction 원문과 정규화 결과
- safety event 코드
- episode 성공/실패 및 원인
6. 반도체 이식 전략
6.1 원칙
- 학습 모델과 배포 모델을 분리한다.
- 중간 표현은
ONNX 또는 동등한 공통 표현기준으로 관리한다. - 반도체별 backend adapter를 두고 상위 런타임은 공통으로 유지한다.
6.2 피해야 할 구조
- 특정 벤더 SDK 종속 custom op 남발
- 반도체별 완전 다른 모델 구조 사용
- 시연용 데모만 맞추는 하드코딩형 파이프라인
6.3 추천 검증 순서
- 범용 개발 환경에서 기준 모델 검증
- 반도체 A 포팅
- 동일 입력 로그 replay 비교
- 반도체 B 포팅
- 동일 과업·동일 지표로 교차 평가
7. 평가 체계
7.1 모델 지표
- 동작 분해 정확도
- 서브태스크 선택 정확도
- 행동 생성 latency p50 / p95
- 양자화 전후 품질 저하율
7.2 시스템 지표
- task success rate
- first-try success rate
- recovery success rate
- intervention rate
- safety violation count
- thermal throttling 이후 성능 유지율
7.3 실증 지표
- 시간당 처리량
- 작업자 개입 빈도
- 현장 배치 후 평균 복구 시간
- 칩별 전력 대비 성능
8. 주요 리스크와 대응
| 리스크 | 설명 | 대응 방향 |
|---|---|---|
| 과도한 범용화 | 초기부터 휴머노이드 전 과업을 노리면 실패 확률이 큼 | 정형 피킹과 물류 시나리오부터 시작 |
| action schema 불안정 | 데이터와 제어 명령이 일치하지 않음 | 1차년도에 schema 고정 |
| 안전 계층 미분리 | VLA 지연이 곧 안전 리스크로 이어짐 | 별도 supervisor 강제 |
| 칩별 성능 편차 | 같은 모델이라도 런타임 결과가 달라짐 | replay 기반 비교 체계 운영 |
| 성공 데이터 편향 | 실패 복구가 학습되지 않음 | 실패 로그 수집을 KPI로 포함 |
9. 바로 실행할 다음 작업
실제 착수 단계에서는 아래 순서가 가장 효율적이다.
- 목표 로봇과 작업 셀을 먼저 고정
- action schema와 로그 스키마를 확정
- 정형 피킹용 최소 데이터 수집
- 분리형 런타임 골격을 ROS 2 기준으로 구현
- 단일 칩 PoC 후 반도체 이식성 검증 시작
10. 한 줄 정리
기존 조사자료를 실무로 옮기면, 이 과제의 첫 승부처는 큰 모델 개발이 아니라 작업 표현, 안전 계층, 칩 이식성을 갖춘 온디바이스 로봇 런타임을 빠르게 PoC로 만드는 데 있다.