# 온디바이스 VLA 과제 제안 요약

- 작성일: 2026-03-16
- 문서 목적: 사용자가 제공한 과제 개요를 제안서 초안에 바로 붙일 수 있는 형태로 정리
- 범위: 과제 목표, 주요 연구 내용, 정량 목표, 추진 체계, 기대 효과

## 1. 과제 개요

본 과제의 핵심은 외부 클라우드 의존 없이 로봇 자체에서 시각(Vision), 언어(Language), 행동(Action)을 통합 처리하는 `온디바이스 경량 VLA`를 개발하는 것이다. 기존 대형 VLA는 통신 지연, 현장 데이터 부족, 고성능 GPU 중심의 하드웨어 의존성 때문에 제조·물류·서비스 현장의 실시간 대응과 안전 확보에 한계가 있다.

따라서 본 과제는 `로봇 본체에서 즉시 추론하고 즉시 행동할 수 있는 경량화된 VLA 체계`를 확보하는 데 초점을 둔다. 최종적으로는 인간과 공존하는 환경에서 휴머노이드 등 자율행동체가 실시간 위험을 감지하고 복합 작업을 안정적으로 수행할 수 있는 기반 기술을 확보하는 것이 목표다.

## 2. 연구 목표

- 외부 네트워크 연결 없이 동작 가능한 `온디바이스 VLA 실행 구조` 확보
- 임무 목표를 로봇 실행 인터페이스로 자동 변환하는 `작업 표현-실행 연계 기술` 개발
- 센서 융합과 `국산 모델 1종 이상`을 활용한 경량 행동 생성 기술 개발
- 돌발 상황에 즉시 반응하는 `실시간 제어 명령 변환 및 적응 기술` 확보
- `국산 AI 반도체 2종 이상` 기반 제조·물류 현장 실증 완료

## 3. 주요 연구 내용

### 3.1 작업 표현 및 실행 연계

- 사람의 임무 목표나 작업 지시를 온디바이스에서 해석한다.
- 이를 로봇 제어기가 바로 사용할 수 있는 실행 인터페이스로 자동 변환한다.
- 복합 작업을 단계별 행동 단위로 분해하고, 실제 수행 가능한 순서로 재구성한다.

### 3.2 VLM 기반 행동 생성

- 카메라, 거리 센서, 상태 정보 등 멀티센서 입력을 통합 처리한다.
- 시각언어모델(VLM) 기반으로 상황 이해와 행동 생성을 연결한다.
- `국산 모델 1종 이상`을 적용해 모델 경량화와 국내 기술 자립성을 동시에 확보한다.

### 3.3 실시간 반응 제어

- 작업 중 발생하는 장애물, 사람 접근, 예외 이벤트를 즉시 감지한다.
- 상황 변화에 따라 제어 명령을 실시간으로 변환한다.
- 단순 정지 수준을 넘어서 회피, 재계획, 복구를 포함한 적응형 대응 기술을 개발한다.

### 3.4 플랫폼 실증

- `국산 AI 반도체 2종 이상`을 실제 로봇 플랫폼에 탑재한다.
- 제조 및 물류 환경에서 복합 작업 수행 성능과 실시간성을 검증한다.
- 4차년도에는 타 과제와 연계한 통합 실증에 반드시 협력한다.

## 4. 정량 목표

| 지표 | 목표치 | 비교 기준 |
| --- | --- | --- |
| 복합작업 성공률 | 73% 이상 | NVIDIA 76.8% 대비 95% 수준 |
| 동작 분해 정확도 | 80% 이상 | Google 84% 대비 95% 수준 |
| 행동 생성 속도 | 100ms 이하 | NVIDIA 220ms 대비 2배 이상 빠름 |
| 공개 SW | 1건 이상 | 기술 생태계 확산 목적 |

본 과제의 정량 목표는 단순 정확도 경쟁보다 `고성능 GPU 없이도 세계 최고 수준에 근접한 성능을 실시간으로 달성하는 것`에 의미가 있다. 특히 행동 생성 속도를 `100ms 이하`로 설정한 것은 현장 반응성과 안전성 확보 측면에서 핵심 차별점이다.

## 5. 추진 체계 및 조건

- 총 기간: `45개월 이내`
- 구성: `R&D 36개월 + 사업화 9개월`
- 총 예산: `75억 원 이내`
- 1차년도 예산: `15억 원`

수행 체계 조건은 아래와 같다.

- 기업 참여는 필수다.
- 학계가 주관하는 경우, 기업이 반드시 참여해야 하며 후반부에 `40% 이상 기술 승계(Take-over)`가 필요하다.
- 산업계가 주관하는 경우, `2개 이상의 대학`과 공동 연구가 필수다.
- 4차년도에는 타 과제와 연계한 `통합 실증` 협력이 필수다.

즉, 본 과제는 단독 연구보다 `산학 협력형 실증 과제` 성격이 강하며, 후반 사업화와 기술 이전까지 포함한 구조로 기획해야 한다.

## 6. 기대 효과

### 6.1 산업적 효과

- 제조·물류 로봇의 현장 대응 속도와 작업 연속성을 높일 수 있다.
- 실버케어, 교육 서비스, 공공안전 분야로 확장 가능한 공통 기반기술을 확보할 수 있다.
- 클라우드 연결이 어려운 환경에서도 자율행동 성능을 유지할 수 있다.

### 6.2 기술적 효과

- 미국·중국 중심 외산 기술 의존도를 낮출 수 있다.
- 국산 VLM 및 온디바이스 AI 반도체 생태계 활성화에 기여할 수 있다.
- 경량 VLA, 실시간 제어, 안전 대응을 결합한 국내 원천기술 기반을 확보할 수 있다.

### 6.3 수요처

- 제조·물류 로봇 기업
- 실버케어·교육 서비스 기업
- 소방·국방 등 공공 분야

## 7. 제안서용 핵심 메시지

- 본 과제는 `대형 클라우드 의존형 VLA`를 대체하는 `실시간 온디바이스 VLA` 확보를 목표로 한다.
- 성능 목표는 세계 최고 수준의 `95%`에 도달하면서도, 반응 속도는 오히려 더 빠른 `100ms 이하`를 지향한다.
- `국산 모델`과 `국산 AI 반도체`를 명시적으로 포함해 기술 자립성과 산업 생태계 확산 효과를 동시에 노린다.
- 연구 종료 시점에는 알고리즘 개발에 그치지 않고 제조·물류 현장에서의 플랫폼 실증까지 완료해야 한다.

## 8. 한 줄 정리

이 과제는 `국산 모델 + 국산 AI 반도체 + 실시간 제어`를 결합해, 사람과 공존하는 환경에서 작동 가능한 `온디바이스 경량 VLA 로봇 지능`을 확보하려는 산학 실증형 사업이다.