
あなたのドローンは自律していない——まだ誰も殺そうとしていない世界で、自動化されているだけだ
ずっと頭から離れない瞬間がある。私たちはGPSが使えないことを模擬した回廊でテスト飛行を行っていた——大がかりなものではなく、私たちのナビゲーションスタックを取り付けただけの標準的なクアッドコプターだ。GPSモジュールは物理的に切り離してあった。3週間かけてVisual Inertial Odometry(視覚慣性オドメトリ)のパイプラインを調整してきた私のエンジニアは、腕を組んでペンのキャップを噛みながら私の隣に立っていた。ドローンは離陸してホバリングし、ステレオカメラとIMUだけを頼りにテスト環境の中を縫うように進み始めた。
それから私は歩み寄り、テスト用に購入していた民生用のGPSジャマーのスイッチを入れた。何も変わらなかった。ドローンはたじろがなかった。たじろぐべき何かがあることすら知らなかったのだ——そもそも空に耳を傾けたことなど一度もなかったのだから。
その瞬間、私は何ヶ月もホワイトボードやSlackのスレッドで議論してきたことを、肌感覚で理解した。 そのドローンはジャミングに耐性があったのではない。ジャミングに無関心だったのだ。 そしてその無関心——50ドルの機器で消し去れる信号からの完全な独立——こそが、まさに核心なのだ。
私はAshutosh、Veriprajnaの創業者だ。私たちは、GPSが存在せず、クラウド接続など幻想で、自分がどこにいるか分からなければ「帰還」など何の意味も持たない環境で運用するドローンのための、ナビゲーションおよび知覚システムを構築している。ドローン業界が使う「自律」という言葉がなぜ嘘なのか、そして自ら考えられる機械を作るには実際に何が必要なのかを、あなたに伝えたい。
誰も疑問を呈さない、1日あたり10億ドルの前提
あなたを不安にさせるはずの数字がある。GPSは約 1.4兆ドルの経済的便益 を米国民間部門にもたらしている。GPSサービスが失われれば、米国経済にはおおよそ 1日あたり10億ドル のコストがかかる。私たちは物流、農業、金融、防衛のインフラという文明全体を、地球の上空20,200キロメートルから送信される信号の上に築いてきた——1万マイル離れたところから見た25ワットの電球ほどの電力で受信機に届く信号だ。
これは比喩ではない。これが実際の信号強度なのだ。そして世界中のあらゆるドローンメーカーが、その上に「自律」システムを構築してきた。
Veriprajnaを創業する前、私はAIの分野で何年も過ごしたが、ドローンのナビゲーションについて私を過激にさせたのは、ウクライナからの映像を見たことだった。FPVドローン——安価で効果的、推定で兵員の死傷者の70%に関与している——は、前線の電子戦部隊から5〜10キロメートル以内で日常的にGPSを失う。R-330Zh Zhitelのようなロシアのシステムは、ほぼ絶え間ないエリア拒否を生み出す。GPSが途絶えると、これらのドローンは緩やかに劣化していくのではない。私が呼ぶようになったところの 高価な文鎮 と化すのだ。
GPSに安定性を依存するドローンは、自律的ではない。それは許容された環境の中で自動化されているにすぎない。その許容を取り除けば、自律性も取り除かれる。
これは軍事だけの問題ではない。GPS信号が届かないあらゆる場所で現れる物理の問題だ。地下鉱山、都市の谷間、橋の裏側、石油貯蔵タンク間の狭い隙間。信号が反射し、劣化し、あるいは単純に届かないあらゆる場所で。
なぜ私たちは空が常にそこにあると思い込んだのか?
正直な答えは、利便性だと思う。GPSは魔法だ——無料で、グローバルで、たいていのことには十分な精度がある。ドローン企業を立ち上げるとき、ナビゲーションの問題は初日から解決済みに感じられる。GPSモジュールを差し込み、ウェイポイントのロジックを書いて、それを自律と呼ぶ。出荷する。
私たちのアプローチ——機体搭載の視覚と慣性センシングを用いてナビゲーションをゼロから構築する——を初めて売り込んだとき、ある投資家は私を見てこう言った。「なぜもっと良いGPSを使わないのか?」私は、誰かが積極的にあなたのGPSを妨害しようとしているときに「もっと良いGPS」など矛盾語だと説明しようとした。彼は納得しなかった。彼はインフラが故障する世界について考える必要に迫られたことが一度もなかったのだ。
しかしインフラは実際に故障する。鉱業では、そもそも最初から存在しなかった。発破後の採掘場を点検するドローン——粉塵と、場合によっては有毒ガスの中を、完全な暗闇で飛行する——には衛星信号がゼロだ。石油・ガスのパイプライン点検では、たった一度の故障が 850万ドル ものコストになりうる一方、早期に発見された修理なら7万5千ドルで済むが、ドローンは巨大な金属構造物が作り出すGPSの影の中を飛ばなければならない。マルチパス効果はタイミング計算を狂わせ、数メートルの位置誤差を生む。加圧されたパイプラインのすぐ隣を飛んでいるときの、数メートルだ。
業界の答えはオプティカルフローだった——地面のテクスチャを追跡する下向きのカメラだ。何もないよりはましだ。しかしそれには良好な照明が必要で、視認できるテクスチャが必要で、それでもヨーと高度の基準にはGPSに頼っている。それは絆創膏であって、解決策ではない。
GPSなしでナビゲートするとは、実際に何を意味するのか?

ここで私はあなたをエンジニアリングの内側へ連れて行く必要がある。なぜなら、その解決策は生物学が美しいのと同じ意味で美しいからだ。あなたが暗い部屋をどう進むか考えてみてほしい。あなたはGPSを使わない。目と内耳——視覚と前庭系——を使う。目印を見て、加速と回転を感じ、脳はその二つの流れを融合させて、自分がどこにいるかという連続した感覚を作り出す。
Visual Inertial Odometry——VIO——は、ドローンのためにまさにこれを行う。カメラは連続するフレームにわたって特徴的な点(角、縁、テクスチャ)を追跡する。慣性計測ユニット、すなわちIMUは、極めて高い頻度で——しばしば毎秒200〜1000回——加速と回転を計測する。どちらのセンサーも単独では機能しない。カメラは遅すぎて絶対スケールを判断できない。IMUは壊滅的にドリフトする——加速度を二重積分して位置を得るということは、誤差が時間とともに二次関数的に増大することを意味する。民生用のIMUは数秒のうちに数メートルもドリフトしうる。
しかし融合されると、両者は互いの弱点を打ち消し合う。IMUは高レートの状態予測を提供し、画像がぶれる急激な機動を処理する。カメラは、ドリフトするIMUの推定値を、世界の中の固定された目印に固定する。その結果が 移動距離のわずか1〜2%という低いドリフト率 であり、GPSが使えない環境でもそれが実現する。衛星なし。外部信号なし。妨害するものは何もない。
私はこの融合アーキテクチャについて、私たちの研究のインタラクティブ版 で詳しく書いたが、核心的な洞察は数学よりもシンプルだ。VIOはパッシブだからこそ妨害不能なのだ。 それは光を受け取り、慣性を感じる。傍受すべき信号もなく、圧倒すべき周波数もなく、切断すべきリンクもない。
私たちが自分たちのシステムを壊した夜
あることについて正直でありたい。VIOは魔法ではない。私たちはそれを苦い経験から学んだ。
開発を始めて4ヶ月ほど経った頃、私たちは倉庫でテストしていた——コンクリートの床、白い壁、蛍光灯の照明だ。ドローンは離陸し、30秒ほど見事に飛んだが、それから酔っ払ったように横へドリフトし始めた。私の主任エンジニアはログを引き出し、長い間黙り込んだ。それから顔を上げてこう言った。「これは何も見えていない」
白い壁。均一なコンクリート。テクスチャも、角も、追跡すべき特徴もない。カメラは真っ白なキャンバスを見つめていて、VIOパイプラインは純粋なIMU積分だけで動いていた——つまり、恐ろしい速度でドリフトを蓄積していたのだ。
その失敗は、どんな成功よりも多くを私たちに教えた。私たちはその後の数週間を、二つの重要な緩和策の統合に費やした。一つ目は LiDAR-VIO融合 ——完全な暗闇や特徴のない環境でも密な幾何学データを提供する、軽量なソリッドステートLiDARを追加すること。LiDARの点群は、カメラが失敗したときにシステムに幾何学的な制約を与える。二つ目は、ここが面白いところなのだが、セマンティックマスキング だ。
なぜナビゲーションシステムは、自分が見ているものを理解する必要があるのか?

標準的なVIOは、世界を無意味な点の集まりとして扱う。角は角であり、それが建物の上にあろうと動くトラックの上にあろうと関係ない。これは壊滅的な故障モードを生み出す。もしドローンが動くオブジェクト上の特徴を追跡し、それらを静止していると仮定すると、それを補償しようとして自分自身の運動を誤って計算する。ドローンは動いていないのに動いていると思い込み、あるいはその逆になる。
屋外テスト中にこれが起きた。配達トラックがフレームを横切り、ドローンは自分のものではない運動を「補正」しようとして横に揺れた。私は胃が縮む思いだった。鉱山の縦坑やパイプラインの近くでは、その揺れは墜落を意味する。
その修正には、私がナビゲーションから理解への飛躍だと考えるものが必要だった。私たちはディープラーニングモデル——セマンティックセグメンテーションネットワーク——を実行し、フレーム内のすべてのピクセルを分類する。車。人。風に揺れる木。これらの動的な領域は、VIOパイプラインから完全にマスクアウトされる。ドローンは静止した背景の特徴だけを追跡する。
幾何学的SLAMは点、線、面を見る。セマンティックSLAMは「ドア」「壁」「トラック」を見る。その違いこそが、ナビゲートするだけのシステムと、自分がどこにいるかを理解するシステムとの違いなのだ。
このセマンティックの層は、もう一つ注目すべきことを可能にする。それは 長期ナビゲーション だ。幾何学的な特徴——角のピクセル強度——は照明とともに変化する。同じ建物でも正午と真夜中では全く違って見える。しかし「窓」や「ドア」という概念は照明に対して不変だ。セマンティックSLAMを備えたドローンは、セマンティックな構造が見える限り、昼間に訪れた場所を夜に戻ってきても認識できる。
それはまた、人間中心のコマンドを可能にする。「ドアを通り抜けて」。「赤いタンクを点検して」。「座標47.3821, -122.3456へ飛べ」ではなく。高ストレス環境の作業者——発破後の鉱山管理者、砲火の下の兵士——にとって、その認知負荷の違いは計り知れない。
私たちをあやうく捕らえかけたクラウドAIの罠

初期の頃、エッジ処理に完全にコミットする前、私のチームの誰かがハイブリッドアーキテクチャを提案した。VIOはローカルで実行し、セマンティック処理のために映像をクラウドへストリーミングするというものだ。紙の上では理にかなっていた。クラウドのGPUは強力だ。なぜすべてを小さな組み込みボードに詰め込むのか?
私たちはプロトタイプを作った。完璧なWi-Fiがあるラボでは機能した。それから現実的なネットワーク条件——時折の切断を伴う模擬4G——でテストし、ドローンがそれを必要とした300ミリ秒後にセマンティックマスクが届くのを見た。秒速20メートルでは、それは6メートルの盲目飛行だ。ドローンは、動的なオブジェクトが今 どこにあったか に基づいてナビゲーションの判断をしていた——今 どこにあるか ではなく。
それは激しくなったチームの議論だった。一つの陣営はネットワーク経路を最適化したがった。私は権限を行使した——技術的な決定でそれをしたのは唯一この時だけだ——そして、完全にエッジにすると言った。クラウド依存なし。以上。
なぜ私がそこまで頑固だったのか、その理由がある。防衛用途では、映像をクラウドへストリーミングするドローンは電波ビーコンだ。敵の方向探知資産はそれを三角測量できる。あなたはRFスキャナーを持つ誰にでも自分の位置を告げる「スマート」なドローンを作ってしまったのだ。産業環境では、鉱山内部や貯蔵タンク間のネットワークカバレッジはよくても信頼できない。そしてどちらの場合も、問題になるのは平均レイテンシではない——それは テールレイテンシ、すなわち99パーセンタイルの最悪ケースであり、それがあなたを殺す。輻輳や基地局のハンドオーバーによる一瞬のスパイクで、あなたの制御ループは不安定になる。
もしドローンの知能がクラウドに存在するなら、ネットワークリンクを切断してもシステムは劣化するのではない——それはロボトミー手術を受けたように機能を失う。ドローンは遅くなるのではない。愚かになるのだ。
研究によれば、遠隔操作はレイテンシが700ミリ秒を超えると実質的に制御不能になる。そしてジッター——レイテンシの 分散 ——は一定の遅延よりも悪い。なぜなら制御アルゴリズムは既知の遅延なら補償できるが、遅延が変わり続けると激しく振動するからだ。
私たちはすべてを機体搭載にした。あらゆるニューラルネットワーク、あらゆる最適化ループ、あらゆる判断を。私たちのアーキテクチャの完全な技術的分解、具体的なセンサー融合のアプローチやアルゴリズムの比較を含むものについては、詳細な研究を公開している。
飛行する装置の上で、このすべてをどう実行するのか?
正直なところ、これが私を夜眠らせない部分だ。VIOのための非線形最適化を、セマンティックセグメンテーションのための畳み込みニューラルネットワークと同時に、しかもすべて毎秒30フレーム以上で、グラム単位の重さでキロワットではなくワット単位の電力しか引かないボードの上で実行する——これは杜撰さの余地が一切ないエンジニアリングの問題だ。
私たちはNVIDIA Jetson Orin NXの上に構築している。これは 100 TOPS(毎秒1兆回の演算)を、10〜25ワットしか引かない組み込みフォームファクターで提供する。手のひらに収まるものとしては驚異的な計算量だ。しかし生のシリコンだけでは十分ではない。
私たちはNVIDIAのTensorRTを使い、Int8量子化でニューラルネットワークをコンパイルする——32ビット浮動小数点の重みを8ビット整数に変換するのだ。これは乱暴な近似のように聞こえるし、実際そうなのだが、慎重に行えば推論スループットを2〜3倍にし、精度の損失は最小限で済む。私たちは特徴追跡を専用のビジョンアクセラレータコアにオフロードし、ディープラーニングのためにGPUを解放する。非線形最適化のバックエンド——バンドル調整、SLAMの数学的な心臓部——は、並列化されたCUDAカーネルとして動作する。
その結果が、シーンの複雑さに関わらずフライトコントローラーが50Hz以上でオドメトリ更新を受け取る、ヘテロジニアスな計算パイプラインだ。ドローンは視覚的に複雑な環境に入ってもつまずかない。より深く考える必要があるときも減速しない。
ドローンが道に迷ったら何が起こるのか?
これも私を眠らせなかったもう一つの恐怖だった。VIOはあなたに 局所的な 一貫性を与える——「私は5メートル前進した」——が、それは時間とともにドリフトを蓄積する。絶対位置を与えるGPSがないのに、どうやって長いミッションにわたって誤差が複合していくのを防ぐのか?
その答えが ループ閉じ込み であり、それはロボティクスにおける最もエレガントなアイデアの一つだ。ドローンが以前に訪れた領域に戻ると、システムは現在の視覚的な指紋を保存された地図と照合する。もし自分がどこにいるかを認識すれば、前回の訪問以降に蓄積された総ドリフトを計算し、軌道全体を正しい位置へと引き戻す。それはドローン自身の内部GPS補正のようなものだが、衛星ではなく認識から生じる点が違う。
私たちはORB-SLAM3の改造版を使っている——マルチマップの統合が可能な初のシステムだ。もしドローンが激しい機動中に追跡を失っても(あるいはロボット研究者が愛嬌たっぷりに呼ぶところの「誘拐」をされても)、それは新しい地図を作り始める。後で以前に地図化した場所を認識すると、それらの地図を統合する。これにより、システムは実運用で予想されるまさにその種の混乱に対して驚くほど頑健になる。
私たちは標準的なORB特徴抽出をディープラーニングで強化した——従来のコンピュータビジョンが失敗する困難な照明下でも特徴を見つけて照合するSuperPointおよびSuperGlueネットワークだ。このハイブリッドなアプローチは、ORB-SLAM3の頑健な数学的バックエンドと、現代のニューラルネットワークの知覚能力の両方を私たちに与える。
これを実際に必要とするのは誰なのか?
これは問題を探している解決策ではないかと、人々はいつも私に尋ねる。そうではない。問題は三つの方向から同時に私たちに向かって叫んでいる。
防衛では、GNSSの拒否は現代戦の最初の一手だ。それは非対称だ——安価な地上ベースのジャマーが、広大な領域にわたって高価な航空資産を無力化する。VIOを搭載したドローンは目標を視覚的にロックオンし、指揮統制リンクが切断された後でも自律的に実行できる。それらは完全な無線沈黙の中で運用され、RFスキャナーには見えない。単一の作業者が、機体搭載の知覚だけを頼りにGPSの使えない回廊をナビゲートする群れを展開できる。
鉱業では、環境が 本質的に GPSの使えない状態だ。発破の後、採掘場は粉塵と有毒ガスで満たされる。人間による安全確認を待つことは費用がかかり、命を危険にさらす。VIO対応のドローンは即座に飛び込み、岩石の破砕状況と構造的な安定性を点検し、手動調査が要する何日もの代わりに数分でデータを返す。ドローンによる運用は、従来の手法と比較して点検コストを最大 70% 削減できる——ただし、ドローンが実際に必要な場所を飛べればの話だが。
インフラ点検では、経済性は残酷だ。パイプラインの故障は数百万ドルのコストになる。ドローンが答えだ——しかし橋の裏側やタンク群の基部を点検することは、高解像度撮影に必要な精密な定点保持を維持できないGPSの影の中にドローンを置くことになる。VIOはこれを解決する。ドローンは衛星の可視性に関わらずセンチメートル単位の精度で位置を保持し、事後保全を予知保全へと変える。
変わる必要がある言葉
私は「自動化」と「自律」の区別にいくぶん取り憑かれるようになった。自動化されたシステムは、外部入力——GPS座標、パイロットの指令——に基づいて事前定義されたスクリプトを実行する。入力を取り除けば、スクリプトはクラッシュする。自律的なシステムは環境を知覚し、自らの状態を判断し、外部への依存なしに意思決定を行う。
今日市場に出ているほとんどすべての商用ドローンは自動化されている。業界はそれらを自律と呼ぶが、その言葉のほうが売れるからだ。しかしその区別は意味論的なものではない——すべてがうまくいくときに機能するシステムと、すべてが狂ったときに機能するシステムとの違いなのだ。
自動化されたドローンの時代——脆弱な衛星の綱とクラウド接続に依存する——は終わりつつある。未来は、自らの知能を携えて運ぶシステムのものだ。
私たちVeriprajnaはAPIをラップしない。言語モデルをファインチューニングしてそれをロボティクスと呼ぶこともしない。私たちは、機械が物理世界に存在し行動することを——誰の許可も求めずに知覚し、理解し、ナビゲートすることを——可能にする、根幹的なナビゲーションおよび知覚スタックを設計する。
防衛の指揮官にとって、鉱山の運用者にとって、そしてインフラの管理者にとって、この区別は学術的なものではない。それは成功するミッションと、空から落ちてくる機械との違いなのだ。
空は永遠にそこにあり続けるはずなどなかった。私たちはただ、そうであるかのように築いてきただけなのだ。