온디바이스 VLA 과제 브리프 기술 핵심요소 조사자료

- 작성일: 2026-03-16

카테고리: uploads | 읽기시간: 6분 | 원문: 다운로드

온디바이스 VLA 과제 브리프 기술 핵심요소 조사자료

작성일: 2026-03-16
기준 문서: research/on-device-vla-project-brief.md
목적: 과제 브리프를 제안서와 기술기획 관점에서 다시 해석해, 실제로 중요한 기술 요소와 설계 쟁점을 빠르게 파악할 수 있게 정리
해석 원칙:
브리프에 직접 적힌 목표와 정량지표를 우선 기준으로 삼았다.
단순 요약이 아니라 무엇을 만들어야 목표 달성이 가능한지 관점으로 재구성했다.
사업 문구보다 시스템 아키텍처, 성능 병목, 실증 조건, 기술 리스크를 중심으로 정리했다.

1. 핵심 결론

이 과제의 본질은 클라우드 없는 로봇 지능이 아니라 100ms 이내 반응 가능한 계층형 온디바이스 VLA 시스템을 만드는 것이다.
기술적으로 가장 중요한 축은 작업 지시 해석, 멀티센서 기반 상황 이해, 행동 생성, 실시간 안전 제어, 국산 반도체 이식성의 5개다.
단일 초거대 모델 1개로 해결하는 구조보다 경량 VLM/VLA + 작업 표현기 + 스킬 실행기 + 실시간 안전 계층 분리 구조가 브리프 요구조건에 더 맞다.
정량 목표 중 가장 까다로운 항목은 정확도보다 행동 생성 속도 100ms 이하다. 이 수치는 모델 성능보다 시스템 분할, 런타임 최적화, 센서 파이프라인 설계가 좌우한다.
국산 모델 1종 이상, 국산 AI 반도체 2종 이상 조건 때문에 연구의 핵심 성공 기준은 알고리즘 성능만이 아니라 이식성 있는 소프트웨어 스택 확보에 있다.

2. 브리프에서 읽히는 기술 문제 정의

브리프가 정의하는 문제는 아래와 같다.

입력:
사람의 자연어 작업 지시
카메라, 거리 센서, 로봇 상태 정보
현장 돌발 상황과 안전 이벤트
출력:
로봇 제어기가 바로 실행 가능한 명령
상황 변화에 따라 수정되는 적응형 제어 시퀀스
제약:
외부 네트워크 없이 로컬에서 동작
고성능 GPU 의존 최소화
제조·물류 현장 수준의 실시간성 확보
국산 모델과 국산 AI 반도체 적용

즉 이 과제는 멀티모달 이해 모델 개발 과제가 아니라 현장형 로봇 지능 시스템 통합 과제에 가깝다.

3. 기술적으로 중요한 핵심요소

3.1 온디바이스 실행 아키텍처

브리프의 최우선 요건은 외부 클라우드 없이 로봇 본체에서 추론과 행동을 끝내는 것이다. 이를 만족하려면 아래 구조가 사실상 필요하다.

Perception Layer
RGB, depth, 거리 센서, proprioception을 동기화
이벤트 감지와 상태 요약을 구조화된 표현으로 정리
Task Understanding Layer
자연어 지시를 작업 목표, 제약조건, 단계 단위로 변환
Action Generation Layer
현재 상태와 작업 목표를 결합해 다음 행동 또는 스킬 호출 생성
Real-time Control Layer
저수준 제어기와 연결
100ms 이내 재계획 또는 안전 반응 수행
Safety Layer
사람 접근, 장애물, 금지영역, 충돌 위험 감시
정지뿐 아니라 회피, 감속, 우회, 복구 동작 지원

중요한 점은 VLA가 모든 것을 직접 제어하기보다 고수준 정책, 로컬 스킬, 안전 제어를 분리해야 실시간성과 검증 가능성을 같이 만족할 수 있다는 점이다.

3.2 작업 표현과 실행 인터페이스 변환

브리프에서 가장 과소평가되기 쉬우나 실제 난도가 높은 항목이다.

사람의 지시를 그대로 행동으로 내보내면 제어기와 연결되지 않는다.
따라서 임무 -> 서브태스크 -> 행동 단위 -> 제어 명령으로 변환하는 중간 표현이 필요하다.
이 중간 표현은 아래 성질을 가져야 한다.
로봇 종류가 바뀌어도 재사용 가능해야 한다.
실패 시 어느 단계에서 무너졌는지 추적 가능해야 한다.
실시간 재계획 시 부분 수정이 가능해야 한다.

권장되는 표현 계층은 아래와 같다.

Goal: 예: 박스를 집어 컨베이어 우측 트레이에 적재
Subtask: 접근, 파지, 이동, 배치
Skill Token / Parameter: grasp(handle=x), move(pose=y), place(zone=z)
Controller Command: 관절값, 속도, end-effector delta pose, base trajectory

즉, 브리프의 작업 표현-실행 연계 기술은 사실상 로봇용 action interface compiler를 만들라는 요구에 가깝다.

3.3 멀티센서 기반 경량 VLM/VLA

브리프는 카메라, 거리 센서, 상태 정보를 통합 처리한다고 명시한다. 이는 단일 RGB 입력 기반 VLM으로는 부족하다는 뜻이다.

핵심 설계 포인트는 아래와 같다.

영상 특징과 로봇 상태를 같은 시간축으로 정렬해야 한다.
거리 센서와 안전 센서는 인지 보조가 아니라 즉시 제어 개입용으로 따로 다뤄야 한다.
전체 입력을 LLM 토큰으로 모두 넣기보다 구조화 상태 + 압축 시각 특징 방식이 실시간성에 유리하다.
고수준 언어 이해와 저수준 행동 출력을 한 모델에 모두 넣을지, VLM + action head로 분리할지 결정해야 한다.

브리프 조건상 현실적인 방향은 아래에 가깝다.

언어/시각 이해:
소형 또는 중형 VLM
행동 생성:
action head 또는 diffusion/BC 기반 경량 정책
저수준 제어:
별도 제어기 또는 검증된 skill executor

이유는 국산 AI 반도체와 100ms 이내를 동시에 맞추려면 대형 end-to-end VLA보다 분리형 구조가 훨씬 이식성이 높기 때문이다.

3.4 실시간 반응 제어와 안전성

브리프의 차별점은 정확도보다 실시간 위험 감지와 즉시 대응에 있다. 이 항목은 일반 VLM 성능으로 해결되지 않는다.

필수 요소는 아래와 같다.

비동기 이벤트 감지
사람 접근
장애물 출현
작업물 미끄러짐
충돌 위험
제어 우선순위 체계
정상 작업 명령보다 안전 이벤트가 항상 우선
즉시 대응 정책
정지
속도 저감
우회
재파지
복구 시나리오 실행
상태 복귀 로직
안전 이벤트 종료 후 어디서 다시 시작할지 결정

결론적으로 실시간 제어 명령 변환 및 적응 기술은 LLM 추론이 아니라 로봇 런타임 운영체계에 더 가깝다. 제안서에서는 모델 성능보다 이벤트 루프, fallback policy, safety supervisor를 독립 연구항목으로 잡는 편이 맞다.

3.5 국산 모델과 국산 AI 반도체 적용

브리프는 단순 성능 과제가 아니라 기술 자립형 사업 구조를 전제로 한다. 따라서 아래 두 조건이 기술적으로 매우 무겁다.

국산 모델 1종 이상
국산 AI 반도체 2종 이상

이 요구는 다음을 의미한다.

모델은 특정 벤더 런타임 종속성이 낮아야 한다.
학습 모델과 배포 모델이 분리될 가능성이 높다.
양자화, 컴파일, 연산자 호환성, 메모리 제약을 고려한 설계가 초기부터 들어가야 한다.
동일 모델을 여러 칩에 포팅할 수 있는 공통 IR 또는 변환 파이프라인이 필요하다.

실제로 중요한 것은 모델 하나를 잘 학습시키는 것보다 아래다.

반도체별 지원 연산자 차이 관리
입력 해상도와 컨텍스트 길이 축소 전략
INT8/INT4 양자화 후 성능 보전
칩별 런타임에서 동일 행동 품질 유지

즉, 브리프의 국산화 요구는 연구개발 난도를 알고리즘에서 배포 엔지니어링으로 크게 끌어올린다.

4. 정량 목표를 기술 요구사항으로 번역하면

브리프 목표	기술적 의미	실제 핵심 병목
복합작업 성공률 73% 이상	멀티스텝 과업 전체의 누적 성공 확률 확보	perception 오류 누적, grasp 실패, state tracking 붕괴
동작 분해 정확도 80% 이상	작업 지시를 올바른 단계 구조로 바꾸는 능력	task representation 품질, planner 오류, 데이터 라벨 일관성
행동 생성 속도 100ms 이하	현장 대응 가능한 추론 및 제어 loop 확보	모델 크기, 센서 전처리, 런타임 최적화, 칩 메모리 병목
공개 SW 1건 이상	생태계 확산 가능한 재사용 자산 필요	재현성 있는 데이터/런타임/SDK 정리

여기서 가장 중요한 해석은 아래다.

73% 성공률은 모델 1회 추론 정확도가 아니라 전체 파이프라인 완성도를 요구한다.
80% 동작 분해 정확도는 로봇 action grammar 설계 품질과 직결된다.
100ms 이하는 VLA 모델 alone 기준이 아니라 sensor ingest -> inference -> action translation -> control handoff 전체 체인 기준으로 봐야 의미가 있다.

5. 권장 기술 스택 방향

브리프 요구에 가장 잘 맞는 시스템 방향은 아래와 같다.

5.1 모델 구조

경량 VLM 또는 국산 멀티모달 모델
작업 지시 해석
장면 의미 이해
서브태스크 결정
경량 action policy
pose delta
skill token
gripper/base action 출력
rule-based or learned safety supervisor
속도 제한
충돌 회피
재시도/복구

5.2 소프트웨어 구조

ROS 2 기반 노드 분리
sensor fusion
task planner
action generator
safety monitor
controller bridge
반도체 이식성을 위한 추론 추상화 계층
ONNX 또는 공통 중간 표현
칩별 backend adapter
현장 검증을 위한 로그 체계
입력 센서
내부 상태
행동 결정
안전 개입 이력

5.3 성능 최적화 우선순위

100ms 목표를 맞추려면 아래 순서로 최적화하는 편이 타당하다.

입력 센서 수와 해상도 축소
작업 표현을 구조화해 모델 입력 토큰 감소
모델 분리로 추론 경로 단축
양자화와 컴파일 최적화
안전 이벤트 루프를 메인 VLA와 분리

6. 실증 관점에서 반드시 들어가야 할 요소

브리프는 제조·물류 현장 실증을 요구하므로 연구실 데모 수준으로는 부족하다. 실제 실증을 위해 필요한 요소는 아래다.

현장 과업 정의
피킹
적재
이송
장애물 회피
인간 협업 상황
실패 정의와 로그 수집
작업 실패
안전 개입
시간 초과
오인식
반도체별 동일 과업 비교
같은 입력 조건
같은 action schema
같은 평가 지표
장시간 안정성 시험
열 스로틀링
메모리 누수
센서 드롭
반복 작업 피로

즉, 이 과제는 정확도 벤치마크보다 운영 안정성 검증을 더 많이 준비해야 한다.

7. 예상 기술 리스크

7.1 단일 모델 과대설계 리스크

모든 기능을 하나의 대형 VLA에 넣으면 100ms 목표 달성이 어렵다.
반도체 2종 이식 시 런타임 호환성 문제가 커진다.

7.2 데이터 표현 불일치 리스크

자연어 지시, 작업 단계, 제어 명령 사이 스키마가 정리되지 않으면 동작 분해 정확도 확보가 어렵다.
현장 로그가 쌓여도 재학습 가능한 형태로 남지 않을 수 있다.

7.3 안전 계층 미분리 리스크

안전 대응을 메인 VLA에만 맡기면 지연과 예측 불가능성이 커진다.
인증 또는 현장 신뢰성 확보가 어려워진다.

7.4 칩 종속 최적화 리스크

특정 AI 반도체에서만 잘 도는 구조를 택하면 국산 AI 반도체 2종 이상 조건을 충족하기 어렵다.
초기부터 공통 모델 규격과 backend abstraction이 필요하다.

8. 제안서에 바로 쓸 수 있는 기술 메시지

본 과제의 핵심 기술은 대형 모델 개발이 아니라 경량 VLA와 실시간 제어를 결합한 현장형 로봇 지능 스택 확보에 있다.
성능 목표 달성의 핵심 병목은 정확도보다 100ms 이하 폐루프 추론·제어이며, 이를 위해 계층형 소프트웨어 구조가 필수다.
작업 지시를 제어 명령으로 연결하는 작업 표현-실행 인터페이스가 과제 성패를 좌우하는 중심 기술이다.
국산 모델과 국산 AI 반도체 적용은 선택 사항이 아니라 아키텍처 전반을 규정하는 제약조건이므로 초기 설계부터 반영돼야 한다.
제조·물류 실증 성공을 위해서는 모델 정확도 외에도 안전 개입, 복구, 장시간 안정성, 칩 간 이식성을 함께 평가해야 한다.

9. 한 줄 요약

이 브리프의 기술 핵심은 경량 멀티모달 이해, 작업 표현-실행 변환, 100ms 실시간 안전 제어, 국산 반도체 이식성을 하나의 로봇 런타임으로 통합하는 데 있다.