온디바이스 경량 VLA 사업 권장 아키텍처 조사자료

- 작성일: 2026-03-16

카테고리: uploads | 읽기시간: 8분 | 원문: 다운로드

온디바이스 경량 VLA 사업 권장 아키텍처 조사자료

1. 핵심 결론

2. 외부 자료에서 읽히는 설계 시사점

2.1 VLA 자체는 유효하지만, 그대로 사업 아키텍처가 되지는 않는다

즉, 본 사업은 VLA 모델을 중심에 두되, 실제 제품 아키텍처는 모델-제어-안전-배포를 분리한 구조로 가져가는 편이 현실적이다.

2.2 로봇 런타임은 ROS 2 기반 분리형 구성이 정석에 가깝다

따라서 고수준 VLA 추론과 저수준 안전 제어를 같은 프로세스/같은 칩/같은 스케줄러에 넣는 것은 피하는 편이 맞다.

2.3 복구와 재계획은 모델 내부가 아니라 실행 계층에서 다루는 편이 검증 가능하다

즉, 현장 대응은 VLA가 모든 상황을 직접 해결하는 방식보다 VLA가 상위 의도와 스킬을 만들고, 실행 계층이 재계획/복구/충돌 회피를 담당하는 구조가 맞다.

2.4 국산 반도체 2종 이상 요구는 모델보다 런타임 추상화가 더 중요하다는 뜻이다

따라서 배포 전략은 모델 하나를 한 칩에 맞추는 방식이 아니라 공통 IR/공통 인터페이스 위에서 칩별 최적화를 하는 방식이 되어야 한다.

3. 권장 아키텍처

3.1 권장 원칙

3.2 권장 논리 구조

[Operator / MES / WMS / Natural Language Mission]
                    |
                    v
        [Task Interpreter / Mission Compiler]
        - 자연어 지시 해석
        - 목표/제약/우선순위 추출
        - Goal -> Subtask -> Skill Graph 변환
                    |
                    v
        [World Model / State Estimator]
        - RGB / Depth / LiDAR / Robot State 동기화
        - 객체/장애물/사람/작업물 상태 구조화
        - MoveIt Planning Scene 갱신
                    |
          +---------+---------+
          |                   |
          v                   v
 [VLA / VLM Planner]    [Safety Supervisor]
 - 현재 상태 이해        - 사람 접근 감지
 - 다음 서브태스크 결정   - 충돌/금지영역 감시
 - skill token 생성      - 속도 제한/정지/회피 우선권
          |                   |
          +---------+---------+
                    v
         [Skill Executor / Behavior Tree]
         - grasp / place / move / inspect
         - retry / fallback / recovery
         - Nav2 / MoveIt 연동
                    |
                    v
         [Real-time Control Bridge]
         - trajectory / twist / gripper command
         - micro-ROS / MCU / PLC / servo interface
                    |
                    v
                [Robot HW]

4. 계층별 권장 구현

4.1 Mission Compiler 계층

역할:

권장 이유:

권장 구현:

4.2 World Model / Perception 계층

역할:

권장 이유:

권장 구현:

4.3 VLA / VLM Planner 계층

역할:

권장 이유:

권장 구현:

실무 권장:

4.4 Safety Supervisor 계층

역할:

권장 이유:

권장 구현:

4.5 Skill Executor / Recovery 계층

역할:

권장 이유:

권장 구현:

4.6 Real-time Control Bridge 계층

역할:

권장 이유:

권장 구현:

5. 권장 배포 아키텍처

5.1 소프트웨어 배포 구조

Application Layer
- task interpreter
- planner service
- skill executor
- safety monitor

Middleware Layer
- ROS 2 Jazzy
- Nav2
- MoveIt 2
- BehaviorTree.CPP
- logging / telemetry

Inference Abstraction Layer
- ONNX Runtime
- provider selector
- model registry
- quantized model package

Chip Adapter Layer
- DEEPX compiler/runtime
- Rebellions SDK/runtime
- Furiosa compiler/runtime (optional server/gateway)

Hardware Layer
- edge NPU / CPU / MCU / sensors / robot controller

5.2 반도체 적용 권장안

안 A. 로봇 본체 완전 온디바이스형

적합성:

안 B. 로봇 본체 + 현장 게이트웨이 혼합형

적합성:

6. 본 사업 기준 최종 권장안

가장 현실적인 추천은 아래 조합이다.

7. 왜 이 구조가 본 사업에 맞는가

7.1 100ms 목표 대응

7.2 국산 반도체 2종 이식 대응

7.3 실증 대응

7.4 사업화 대응

8. 제안서용 문장 초안

본 과제는 자연어 지시를 작업 목표와 스킬 그래프로 변환하는 Task Interpreter, 멀티센서 기반 World Model, 경량 VLA Planner, 독립형 Safety Supervisor, Nav2/MoveIt 기반 Skill Executor, micro-ROS 연계 Real-time Control Bridge로 구성된 계층형 온디바이스 VLA 아키텍처를 채택한다. 이를 통해 100ms 이하 현장 반응, 국산 AI 반도체 2종 이상 이식성, 제조·물류 환경 실시간 안전 대응을 동시에 확보한다.

9. 참고자료

  1. RT-2: Vision-Language-Action Models
  1. OpenVLA: An Open-Source Vision-Language-Action Model
  1. ROS Developer Documentation
  1. ROS 2 Understanding real-time programming
  1. micro-ROS
  1. Nav2 Detailed Behavior Tree Walkthrough
  1. MoveIt Planning Scene
  1. ONNX Runtime Execution Providers
  1. DEEPX DX-M1
  1. Rebellions ATOM-Lite / ATOM SoC
  1. FuriosaAI RNGD

10. 외부 자료 핵심 근거 메모

×preview