GPS가 차단된 환경을 자율적으로 항법하는 드론, 위성 의존이 아닌 온보드 인식을 강조한 모습.
Artificial IntelligenceDronesRobotics

당신의 드론은 자율이 아니다 — 아직 그것을 죽이려 들지 않은 세계에서 자동화되어 있을 뿐이다

Ashutosh SinghalAshutosh Singhal2026년 2월 10일15 min

계속 떠오르는 순간이 하나 있다. 우리는 GPS가 차단된 모의 통로에서 시험 비행을 하고 있었다 — 대단할 것 없이, 우리 항법 스택을 얹은 표준 쿼드콥터였다. GPS 모듈은 물리적으로 분리되어 있었다. 3주 동안 Visual Inertial Odometry 파이프라인을 튜닝한 우리 엔지니어는 내 옆에서 팔짱을 낀 채 펜 뚜껑을 씹고 있었다. 드론은 이륙해 정지 비행을 하더니, 스테레오 카메라와 IMU만으로 시험 환경 사이를 헤쳐 나가기 시작했다.

그다음 나는 걸어가서 우리가 시험용으로 구매한 소비자용 GPS 재머를 켰다. 아무것도 달라지지 않았다. 드론은 움찔하지 않았다. 움찔할 것이 있다는 사실조차 몰랐다 — 애초에 하늘의 신호에 귀 기울인 적이 없었기 때문이다.

그 순간 나는, 몇 달 동안 화이트보드와 Slack 스레드에서 논쟁해 온 것이 무엇인지 본능적으로 이해했다. 그 드론은 재밍에 강인한 것이 아니었다. 재밍에 무관심했다. 그리고 그 무관심 — 50달러짜리 장치로 지워버릴 수 있는 신호로부터의 완전한 독립 — 이야말로 핵심 전부다.

저는 Veriprajna의 창업자 Ashutosh입니다. 우리는 GPS가 존재하지 않고, 클라우드 연결은 환상이며, 자신이 어디 있는지 모른다면 "귀환"이 아무 의미도 없는 환경에서 작동하는 드론용 항법 및 인식 시스템을 만듭니다. 드론 업계가 사용하는 "자율"이라는 단어가 왜 거짓말인지, 그리고 스스로 사고할 수 있는 기계를 만드는 데 실제로 무엇이 필요한지 말씀드리고자 합니다.

아무도 의문을 제기하지 않는 하루 10억 달러짜리 가정

당신을 불안하게 만들 숫자가 하나 있다: GPS는 대략 미국 민간 부문에 1조 4천억 달러의 경제적 편익을 창출한다. GPS 서비스가 중단되면 미국 경제에 대략 하루 10억 달러의 비용이 든다. 우리는 한 문명 전체의 물류, 농업, 금융, 국방 인프라를 지상 20,200킬로미터 상공에서 송신되는 신호 위에 구축했다 — 1만 마일 떨어진 곳에서 본 25와트 전구의 세기로 수신기에 도달하는 신호 말이다.

그것은 비유가 아니다. 실제 신호 세기다. 그리고 세계의 모든 드론 제조사가 그 위에 자신들의 "자율" 시스템을 구축했다.

저는 Veriprajna를 창업하기 전 수년간 AI 분야에 있었고, 드론 항법에 대해 저를 급진적으로 만든 것은 우크라이나에서 온 영상을 보는 일이었습니다. FPV 드론 — 값싸고 효과적이며, 병력 사상자의 약 70%에 책임이 있는 것으로 추정되는 — 은 최전선 전자전 배치 지점 5~10킬로미터 이내에서 일상적으로 GPS를 잃습니다. R-330Zh Zhitel 같은 러시아 시스템은 거의 상시적인 지역 거부를 만들어냅니다. GPS가 꺼지면 이 드론들은 우아하게 성능이 저하되지 않습니다. 제가 부르기 시작한 표현대로, 값비싼 문진(paperweight)이 됩니다.

안정성을 위해 GPS에 의존하는 드론은 자율적이지 않다. 허용적 환경 안에서 자동화된 것이다. 허용을 제거하면, 자율성도 제거된다.

이것은 군사적 문제만이 아니다. GPS 신호가 닿지 못하는 모든 곳에서 나타나는 물리학의 문제다: 지하 광산, 도심 협곡, 교량 하부, 석유 저장 탱크 사이의 좁은 틈. 신호가 반사되거나, 저하되거나, 아예 뚫고 들어가지 못하는 모든 곳.

우리는 왜 하늘이 항상 거기 있으리라 가정했는가?

솔직한 답은 편의성이라고 생각한다. GPS는 마법이다 — 무료이고, 전 지구적이며, 대부분의 일에 충분히 정확하다. 드론 회사를 세울 때, 항법 문제는 첫날부터 해결된 것처럼 느껴진다. GPS 모듈을 꽂고, 웨이포인트 로직을 작성한 뒤, 자율이라고 부른다. 출시한다.

우리 접근법 — 온보드 비전과 관성 감지를 사용해 항법을 밑바닥부터 구축하는 것 — 을 처음 피칭했을 때, 한 투자자가 저를 보며 말했습니다. "그냥 더 나은 GPS를 쓰면 되지 않나요?" 누군가가 적극적으로 당신의 GPS를 거부하려 할 때 "더 나은 GPS"는 형용모순이라고 설명하려 했습니다. 그는 설득되지 않았습니다. 인프라가 무너지는 세계를 생각해 볼 필요가 한 번도 없었던 겁니다.

하지만 인프라는 실제로 무너진다. 광업에서는 애초부터 존재한 적이 없었다. 발파 후 채굴장을 점검하는 드론 — 완전한 어둠 속에서 먼지와 잠재적 유독 가스를 뚫고 비행하는 — 에는 위성 신호가 전혀 없다. 조기에 잡은 수리 비용 75,000달러 대비 단 한 번의 실패가 850만 달러의 비용을 초래할 수 있는 석유·가스 파이프라인 점검에서, 드론은 거대한 금속 구조물이 만들어내는 GPS 음영 지대에서 비행해야 한다. 다중 경로 효과는 타이밍 계산을 손상시키고 수 미터의 위치 오차를 유발한다. 가압된 파이프라인 옆을 비행할 때의 수 미터 말이다.

업계의 답은 광류(optical flow)였다 — 지면 질감을 추적하는 하방 카메라. 없는 것보다는 낫다. 하지만 좋은 조명이 필요하고, 보이는 질감이 필요하며, 여전히 요(yaw)와 고도 기준을 위해 GPS에 의존한다. 그것은 해결책이 아니라 반창고다.

GPS 없이 항법한다는 것은 실제로 무엇을 의미하는가?

Visual Inertial Odometry(VIO)가 카메라와 IMU 데이터를 어떻게 융합하는지를 보여주는 라벨이 달린 도해로, 각 센서의 약점과 융합이 그것들을 어떻게 상쇄하는지 보여준다.

이제 여러분을 엔지니어링 내부로 데려가야 합니다. 이 해결책은 생물학이 아름다운 방식으로 아름답기 때문입니다. 어두운 방을 어떻게 헤쳐 나가는지 생각해 보세요. GPS를 쓰지 않습니다. 눈과 속귀 — 시각과 전정 기관 — 을 씁니다. 지형지물을 보고, 가속과 회전을 느끼며, 뇌가 그 두 흐름을 융합해 자신이 어디 있는지에 대한 연속적인 감각을 만들어냅니다.

Visual Inertial Odometry — VIO — 는 드론을 위해 바로 이 일을 한다. 카메라는 연속된 프레임에 걸쳐 뚜렷한 특징(모서리, 가장자리, 질감)을 추적한다. Inertial Measurement Unit, 즉 IMU는 극도로 높은 빈도로, 흔히 초당 200~1000회 가속과 회전을 측정한다. 어느 센서도 홀로 작동하지 않는다. 카메라는 너무 느리고 절대 스케일을 판단할 수 없다. IMU는 파국적으로 드리프트한다 — 위치를 얻기 위해 가속을 이중 적분하면 오차가 시간에 따라 제곱으로 증가한다. 소비자용 IMU는 몇 초 안에 수 미터 드리프트할 수 있다.

하지만 함께 융합되면, 서로의 약점을 상쇄한다. IMU는 고속의 상태 예측을 제공하고 이미지가 흐려지는 급기동을 처리한다. 카메라는 드리프트하는 IMU 추정치를 세계의 고정된 지형지물에 고정시킨다. 그 결과: 이동 거리의 1~2%에 불과한 낮은 드리프트율이며, 이는 GPS가 차단된 환경에서도 그러하다. 위성도 없다. 외부 신호도 없다. 재밍할 것도 없다.

저는 이 융합 아키텍처에 대해 우리 연구의 인터랙티브 버전에서 심층적으로 썼습니다만, 핵심 통찰은 수학보다 더 단순합니다: VIO는 수동적(passive)이기 때문에 재밍이 불가능하다. 그것은 빛을 받고 관성을 느낍니다. 가로챌 신호도, 압도할 주파수도, 끊을 링크도 없습니다.

우리가 우리 자신의 시스템을 무너뜨린 밤

솔직히 말하고 싶은 것이 있다. VIO는 마법이 아니다. 우리는 이것을 어렵게 배웠다.

개발 4개월쯤 되었을 때, 우리는 창고에서 시험하고 있었다 — 콘크리트 바닥, 흰 벽, 형광등. 드론은 이륙해 약 30초간 아름답게 비행하더니, 술 취한 듯 옆으로 드리프트하기 시작했다. 우리 수석 엔지니어는 로그를 꺼내 보고는 한참 동안 말이 없었다. 그러다 고개를 들며 말했다. "아무것도 못 봐요."

흰 벽. 균일한 콘크리트. 질감도, 모서리도, 추적할 특징도 없었다. 카메라는 텅 빈 캔버스를 응시하고 있었고, VIO 파이프라인은 순전한 IMU 적분만으로 돌아가고 있었다 — 즉 무서운 속도로 드리프트를 누적하고 있었다는 뜻이다.

그 실패는 어떤 성공보다 많은 것을 우리에게 가르쳐 주었다. 우리는 그 뒤 몇 주 동안 두 가지 결정적 완화책을 통합하는 데 썼다. 첫째, LiDAR-VIO 융합 — 완전한 어둠이나 특징 없는 환경에서도 조밀한 기하 데이터를 제공하는 경량 솔리드 스테이트 LiDAR를 추가하는 것. LiDAR 포인트 클라우드는 카메라가 실패할 때 시스템에 기하학적 제약을 제공한다. 둘째, 여기서부터 흥미로워지는데, 의미론적 마스킹(semantic masking)이다.

항법 시스템은 왜 자신이 보는 것을 이해해야 하는가?

표준 VIO가 원시 기하 점을 어떻게 보는지와, 의미론적 SLAM이 동적 객체를 어떻게 분류·마스킹하여 항법 오류를 방지하는지를 나란히 비교하여 보여준다.

표준 VIO는 세계를 무의미한 점들의 구름으로 취급한다. 모서리는 그것이 건물에 있든 움직이는 트럭에 있든 모서리일 뿐이다. 이는 파괴적인 실패 모드를 만든다: 드론이 움직이는 객체의 특징을 추적하면서 그것들이 정지해 있다고 가정하면, 이를 보상하려고 자신의 운동을 잘못 계산한다. 드론은 움직이지 않는데 움직인다고 생각하거나, 그 반대로 생각한다.

야외 시험 중에 이 일이 일어났다. 배달 트럭 한 대가 화면을 가로질러 지나갔고, 드론은 자신의 것이 아닌 운동을 "보정"하려다 옆으로 휘청였다. 내 가슴이 철렁 내려앉았다. 광산 수직갱이나 파이프라인 근처였다면, 그 휘청임은 추락이다.

그 해결책은 내가 항법에서 이해로의 도약이라 여기는 것을 요구했다. 우리는 딥러닝 모델 — 의미론적 분할 네트워크 — 을 돌려 프레임의 모든 픽셀을 분류한다. 자동차. 사람. 바람에 흔들리는 나무. 이 동적 영역들은 VIO 파이프라인에서 완전히 마스킹되어 제외된다. 드론은 오직 정적인 배경 특징만 추적한다.

기하학적 SLAM은 점, 선, 평면을 본다. 의미론적 SLAM은 "문", "벽", "트럭"을 본다. 그 차이가 곧 항법하는 시스템과 자신이 어디 있는지 이해하는 시스템의 차이다.

이 의미론적 계층은 또 다른 놀라운 일을 한다: 장기 항법(long-term navigation)을 가능하게 한다. 기하학적 특징 — 모서리의 픽셀 강도 — 은 조명에 따라 변한다. 같은 건물이 정오와 자정에 완전히 다르게 보인다. 하지만 "창문"이나 "문"이라는 개념은 조명에 불변이다. 의미론적 SLAM을 갖춘 드론은, 의미론적 구조가 보이는 한, 낮에 방문한 위치를 밤에 돌아와서도 인식할 수 있다.

이것은 또한 인간 중심 명령을 가능하게 한다. "문을 통과해 비행하라." "붉은 탱크를 점검하라." "좌표 47.3821, -122.3456으로 비행하라"가 아니다. 고압적 환경의 운영자 — 발파 후의 광산 관리자, 포화 속의 병사 — 에게 그 인지 부하의 차이는 엄청나다.

우리를 거의 삼킬 뻔한 클라우드 AI의 함정

클라우드 의존 아키텍처와 완전 엣지 처리 아키텍처를 대비하며, 클라우드 의존의 지연 및 취약성 문제를 보여주는 도해.

초기, 우리가 엣지 처리에 완전히 전념하기 전에, 우리 팀의 누군가가 하이브리드 아키텍처를 제안했다: VIO는 로컬에서 돌리되 의미론적 처리를 위해 영상을 클라우드로 스트리밍하는 것. 종이 위에서는 말이 됐다. 클라우드 GPU는 강력하다. 왜 모든 것을 작은 임베디드 보드에 욱여넣겠는가?

우리는 프로토타입을 만들었다. 완벽한 Wi-Fi가 있는 실험실에서는 작동했다. 그다음 현실적인 네트워크 조건 — 간헐적 끊김이 있는 모의 4G — 으로 시험했고, 의미론적 마스크가 드론이 필요로 한 시점보다 300밀리초 늦게 도착하는 것을 지켜봤다. 초속 20미터에서, 그것은 6미터의 눈먼 비행이다. 드론은 동적 객체가 있었던 곳에 근거해 항법 결정을 내리고 있었지, 그것들이 있는 곳에 근거한 것이 아니었다.

그것은 격해진 팀 논쟁이었다. 한 진영은 네트워크 경로를 최적화하고 싶어 했다. 나는 직위를 앞세웠다 — 기술적 결정에서 그렇게 한 유일한 때였다 — 그리고 우리는 완전 엣지로 간다고 말했다. 클라우드 의존 없음. 끝.

내가 왜 그토록 완고했는지 여기 이유가 있다. 국방 응용에서, 영상을 클라우드로 스트리밍하는 드론은 무선 표지등이다. 적의 방향 탐지 자산이 그것을 삼각측량할 수 있다. 당신은 RF 스캐너를 가진 모두에게 자신의 위치를 알리는 "스마트" 드론을 만든 것이다. 산업 환경에서는 광산 내부나 저장 탱크 사이의 네트워크 커버리지가 잘해야 불안정하다. 그리고 두 경우 모두, 지연은 단지 평균 지연이 아니다 — 꼬리 지연(tail latency)이며, 당신을 죽이는 것은 99번째 백분위수의 최악의 경우다. 혼잡이나 셀 타워 핸드오버로 인한 순간적 스파이크만 있어도, 당신의 제어 루프는 불안정해진다.

당신 드론의 지능이 클라우드에 산다면, 네트워크 링크를 끊는 것은 시스템을 저하시키는 게 아니다 — 로보토미를 하는 것이다. 드론은 느려지지 않는다. 멍청해진다.

연구에 따르면 원격 조작은 지연이 700밀리초를 넘어가면 사실상 제어 불가능해진다. 그리고 지터(jitter) — 지연의 분산 — 는 일정한 지연보다 나쁜데, 제어 알고리즘은 알려진 지연은 보상할 수 있지만 지연이 계속 변하면 격렬하게 진동하기 때문이다.

우리는 모든 것을 온보드로 옮겼다. 모든 신경망, 모든 최적화 루프, 모든 결정을. 특정 센서 융합 접근법과 알고리즘 비교를 포함한 우리 아키텍처의 완전한 기술적 해부를 위해, 나는 우리의 상세 연구를 발표했다.

이 모든 것을 하늘을 나는 기기 위에서 어떻게 돌리는가?

솔직히 이것이 나를 밤에 잠 못 이루게 하는 부분이다. VIO를 위한 비선형 최적화를, 의미론적 분할을 위한 합성곱 신경망과 동시에, 그것도 모두 초당 30프레임 이상으로, 그램 단위 무게에 킬로와트가 아니라 와트 단위 전력을 끌어당기는 보드 위에서 돌리는 것은 어떠한 허술함도 용납하지 않는 엔지니어링 문제다.

우리는 NVIDIA Jetson Orin NX 위에 구축하는데, 이것은 10~25와트를 끌어당기는 임베디드 폼팩터로 100 TOPS (초당 1조 회 연산)를 제공한다. 손안에 쥘 수 있는 무언가에게는 어마어마한 양의 연산이다. 하지만 원시 실리콘만으로는 충분하지 않다.

우리는 NVIDIA의 TensorRT를 사용해 신경망을 Int8 양자화로 컴파일한다 — 32비트 부동소수점 가중치를 8비트 정수로 변환하는 것이다. 이것은 잔혹한 근사처럼 들리고, 실제로 그렇지만, 신중하게 하면 최소한의 정확도 손실로 추론 처리량을 두세 배로 늘린다. 우리는 특징 추적을 전용 비전 가속기 코어로 오프로드하여, 딥러닝을 위해 GPU를 자유롭게 한다. 비선형 최적화 백엔드 — 번들 조정, SLAM의 수학적 심장 — 는 병렬화된 CUDA 커널로 실행된다.

그 결과는 이기종 컴퓨팅 파이프라인이며, 여기서 비행 컨트롤러는 장면 복잡도에 관계없이 50Hz 이상으로 오도메트리 업데이트를 받는다. 드론은 시각적으로 복잡한 환경에 진입할 때 버벅거리지 않는다. 더 열심히 사고해야 할 때 느려지지 않는다.

드론이 길을 잃으면 어떻게 되는가?

이것은 나를 깨어 있게 한 또 다른 두려움이었다. VIO는 국소적(local) 일관성을 제공한다 — "나는 앞으로 5미터 이동했다" — 하지만 시간이 지나며 드리프트를 누적한다. 절대 위치 보정을 제공하는 GPS 없이, 어떻게 긴 임무에 걸쳐 오차가 복리로 쌓이는 것을 막는가?

그 답은 루프 폐쇄(loop closure)이며, 이는 로보틱스에서 가장 우아한 아이디어 중 하나다. 드론이 이전에 방문한 지역으로 돌아오면, 시스템은 현재의 시각적 지문을 저장된 지도와 대조한다. 자신이 어디 있는지 인식하면, 지난번 방문 이후 누적된 총 드리프트를 계산하고 전체 궤적을 정렬 상태로 되돌려 붙인다. 마치 드론 자신의 내부 GPS 보정과 같지만, 위성이 아니라 인식에서 나온다는 점이 다르다.

우리는 ORB-SLAM3의 수정 버전을 사용하는데 — 다중 지도 병합이 가능한 최초의 시스템이다. 드론이 격한 기동 중 추적을 잃거나 (로보틱스 연구자들이 재치 있게 부르듯 "납치"당하면), 새 지도를 만들기 시작한다. 나중에 이전에 지도화된 위치를 인식하면, 지도들을 병합한다. 이는 시스템을 실제 운용에서 예상되는 바로 그런 종류의 교란에 놀라울 만큼 강인하게 만든다.

우리는 표준 ORB 특징 추출을 딥러닝으로 강화했다 — 전통적 컴퓨터 비전이 실패하는 까다로운 조명에서도 특징을 찾고 매칭하는 SuperPoint와 SuperGlue 네트워크다. 이 하이브리드 접근법은 ORB-SLAM3의 견고한 수학적 백엔드에 현대 신경망의 지각 능력을 더해 준다.

실제로 이것이 누구에게 필요한가?

사람들은 항상 이것이 문제를 찾아 헤매는 해결책이 아니냐고 내게 묻는다. 아니다. 문제는 세 방향에서 동시에 우리를 향해 비명을 지르고 있다.

국방에서, GNSS 거부는 현대 전쟁의 첫 수(手)다. 그것은 비대칭적이다 — 값싼 지상 기반 재머가 광대한 지역에 걸쳐 값비싼 공중 자산을 무력화한다. VIO를 장착한 드론은 표적을 시각적으로 포착하고, 지휘통제 링크가 끊긴 뒤에도 자율적으로 임무를 수행할 수 있다. 그것들은 완전한 무선 침묵 속에서 작동하며, RF 스캐너에 보이지 않는다. 단일 운영자가 온보드 인식만으로 GPS가 차단된 통로를 항법하는 군집을 배치할 수 있다.

광업에서, 환경은 본질적으로 GPS가 차단되어 있다. 발파 후, 채굴장은 먼지와 유독 가스로 가득 찬다. 인간의 안전 확인을 기다리는 것은 돈이 들고 생명을 위험에 빠뜨린다. VIO 지원 드론은 즉시 날아 들어가, 암반 파쇄와 구조 안정성을 점검하고, 수작업 조사가 요구하는 며칠 대신 몇 분 안에 데이터를 반환한다. 드론 운용은 전통적 방법 대비 점검 비용을 최대 70%까지 줄일 수 있다 — 하지만 오직 드론이 실제로 가야 할 곳을 비행할 수 있을 때만 그렇다.

인프라 점검에서, 경제성은 잔혹하다. 파이프라인 고장은 수백만 달러의 비용이 든다. 드론이 답이다 — 하지만 교량 하부나 탱크 저장 시설의 바닥을 점검하는 것은, 고해상도 촬영에 요구되는 정밀한 위치 유지를 유지할 수 없는 GPS 음영 지대에 드론을 놓는다. VIO가 이것을 해결한다. 드론은 위성 가시성에 관계없이 센티미터 수준의 정밀도로 위치를 유지하여, 사후 대응적 유지보수를 예측적 유지보수로 바꾼다.

바뀌어야 하는 단어

나는 "자동화된(automated)"과 "자율적인(autonomous)"의 구별에 다소 집착하게 되었다. 자동화된 시스템은 외부 입력 — GPS 좌표, 조종사 명령 — 에 기반해 미리 정의된 스크립트를 실행한다. 입력을 제거하면, 스크립트는 무너진다. 자율 시스템은 자신의 환경을 인식하고, 자신의 상태를 판단하며, 외부 의존 없이 결정을 내린다.

오늘날 시장에 나온 거의 모든 상업용 드론은 자동화된 것이다. 업계는 그것들을 자율이라 부르는데, 그 단어가 더 잘 팔리기 때문이다. 하지만 그 구별은 의미론적인 것이 아니다 — 모든 것이 잘 풀릴 때 작동하는 시스템과, 모든 것이 잘못될 때 작동하는 시스템의 차이다.

자동화된 드론의 시대 — 취약한 위성 연결선과 클라우드 연결에 의존하는 — 는 끝나가고 있다. 미래는 지능을 스스로 지니고 다니는 시스템의 것이다.

우리는 Veriprajna에서 API를 감싸지 않는다. 우리는 언어 모델을 미세 조정하고 그것을 로보틱스라 부르지 않는다. 우리는 기계가 물리 세계에 존재하고 행동할 수 있게 하는 — 누구의 허락도 구하지 않고 인식하고, 이해하고, 항법할 수 있게 하는 — 근본적인 항법 및 인식 스택을 엔지니어링한다.

국방 지휘관, 광산 운영자, 인프라 관리자에게 이 구별은 학문적인 것이 아니다. 성공하는 임무와 하늘에서 떨어지는 기계 사이의 차이다.

하늘이 영원히 거기 있을 리는 결코 없었다. 우리는 다만 그럴 것처럼 만들어 왔을 뿐이다.

Related Research

Also Published On