
Ihre Drohne ist nicht autonom — sie ist nur automatisiert in einer Welt, die noch nicht versucht hat, sie vom Himmel zu holen
Es gibt einen Moment, zu dem ich immer wieder zurückkehre. Wir führten einen Testflug in einem simulierten GPS-freien Korridor durch — nichts Ausgefallenes, nur ein Standard-Quadrocopter mit unserem angeschraubten Navigationssystem. Das GPS-Modul war physisch getrennt. Mein Ingenieur, der drei Wochen damit verbracht hatte, die Visual-Inertial-Odometry-Pipeline abzustimmen, stand mit verschränkten Armen neben mir und kaute auf einer Stiftkappe herum. Die Drohne hob ab, schwebte und begann, sich durch die Testumgebung zu fädeln — allein mit einer Stereokamera und einer IMU.
Dann ging ich hinüber und schaltete einen GPS-Störsender in Verbrauchsqualität ein, den wir zum Testen gekauft hatten. Nichts änderte sich. Die Drohne zuckte nicht zusammen. Sie wusste nicht, dass es überhaupt etwas gab, wovor man zusammenzucken könnte — sie hatte von Anfang an nie auf den Himmel gehört.
Das war der Moment, in dem ich zutiefst verstand, worüber wir monatelang an Whiteboards und in Slack-Threads gestritten hatten. Die Drohne war nicht widerstandsfähig gegen Störsender. Sie war ihnen gegenüber gleichgültig. Und diese Gleichgültigkeit — diese vollständige Unabhängigkeit von einem Signal, das durch ein Gerät für 50 $ ausgelöscht werden kann — ist der ganze Sinn.
Ich bin Ashutosh, Gründer von Veriprajna. Wir bauen Navigations- und Wahrnehmungssysteme für Drohnen, die in Umgebungen operieren, in denen GPS nicht existiert, in denen Cloud-Konnektivität eine Fantasie ist und in denen „Rückkehr zum Ausgangspunkt“ nichts bedeutet, wenn man nicht weiß, wo man ist. Ich möchte Ihnen erklären, warum das Wort „autonom“, so wie die Drohnenindustrie es verwendet, eine Lüge ist und was es tatsächlich braucht, um eine Maschine zu bauen, die selbst denken kann.
Die Annahme von 1 Milliarde Dollar pro Tag, die niemand hinterfragt
Hier ist eine Zahl, die Sie beunruhigen sollte: GPS erzeugt ungefähr 1,4 Billionen Dollar an wirtschaftlichem Nutzen für den US-Privatsektor. Ein Ausfall des GPS-Dienstes würde die US-Wirtschaft rund 1 Milliarde Dollar pro Tag kosten. Wir haben die Logistik, Landwirtschaft, Finanzen und Verteidigungsinfrastruktur einer ganzen Zivilisation auf Signalen aufgebaut, die aus 20.200 Kilometern Höhe über der Erde gesendet werden — Signale, die mit der Leistung einer 25-Watt-Glühbirne, aus 10.000 Meilen Entfernung betrachtet, bei Ihrem Empfänger ankommen.
Das ist keine Metapher. Das ist die tatsächliche Signalstärke. Und jeder Drohnenhersteller der Welt hat seine „autonomen“ Systeme darauf aufgebaut.
Ich habe vor der Gründung von Veriprajna jahrelang im KI-Bereich gearbeitet, und was mich bei der Drohnennavigation radikalisiert hat, war das Betrachten von Aufnahmen aus der Ukraine. FPV-Drohnen — billig, effektiv, verantwortlich für schätzungsweise 70 % der Truppenverluste — verlieren routinemäßig GPS innerhalb von 5 bis 10 Kilometern von elektronischen Kriegsführungseinsätzen an der Frontlinie. Russische Systeme wie das R-330Zh Zhitel schaffen nahezu ständige Flächensperren. Wenn GPS ausfällt, bauen diese Drohnen nicht anmutig ab. Sie werden, wie ich sie zu nennen begonnen habe, zu teuren Briefbeschwerern.
Eine Drohne, die für ihre Stabilität von GPS abhängt, ist nicht autonom. Sie ist innerhalb einer erlaubenden Umgebung automatisiert. Entziehen Sie die Erlaubnis, und Sie entziehen die Autonomie.
Das ist nicht nur ein militärisches Problem. Es ist ein physikalisches Problem, das überall dort auftaucht, wo GPS-Signale nicht hinreichen: unterirdische Bergwerke, städtische Häuserschluchten, die Unterseite von Brücken, die schmalen Zwischenräume zwischen Öltanks. Überall dort, wo das Signal abprallt, sich verschlechtert oder einfach nicht durchdringt.
Warum sind wir davon ausgegangen, dass der Himmel immer da sein würde?
Ich denke, die ehrliche Antwort ist Bequemlichkeit. GPS ist magisch — kostenlos, global, für die meisten Dinge genau genug. Wenn man ein Drohnenunternehmen aufbaut, fühlt sich das Navigationsproblem am ersten Tag gelöst an. Stecken Sie ein GPS-Modul ein, schreiben Sie etwas Wegpunkt-Logik und nennen Sie es autonom. Ausliefern.
Das erste Mal, als ich unseren Ansatz vorstellte — Navigation von Grund auf mit bordeigener Sicht und Trägheitssensorik aufzubauen —, sah mich ein Investor an und sagte: „Warum würden Sie nicht einfach besseres GPS verwenden?“ Ich versuchte zu erklären, dass „besseres GPS“ ein Widerspruch in sich ist, wenn jemand aktiv versucht, Ihnen GPS zu verweigern. Er war nicht überzeugt. Er hatte nie über eine Welt nachdenken müssen, in der die Infrastruktur versagt.
Aber die Infrastruktur versagt tatsächlich. Im Bergbau war sie von Anfang an nie vorhanden. Eine Drohne, die nach einer Sprengung einen Abbauraum inspiziert — durch Staub und potenziell giftige Gase in völliger Dunkelheit fliegend —, hat null Satellitensignal. Bei der Inspektion von Öl- und Gaspipelines, wo ein einzelner Ausfall 8,5 Millionen Dollar kosten kann gegenüber 75.000 Dollar für eine früh erkannte Reparatur, müssen Drohnen in GPS-Schatten fliegen, die von massiven Metallstrukturen erzeugt werden. Der Mehrwegeeffekt verfälscht Zeitberechnungen und führt zu Positionsfehlern von mehreren Metern. Mehrere Meter, wenn man neben einer unter Druck stehenden Pipeline fliegt.
Die Antwort der Industrie war der optische Fluss — eine nach unten gerichtete Kamera, die die Bodentextur verfolgt. Das ist besser als nichts. Aber sie braucht gute Beleuchtung, sie braucht sichtbare Textur, und sie ist für die Gier- und Höhenreferenz weiterhin auf GPS angewiesen. Es ist ein Pflaster, keine Lösung.
Was bedeutet es tatsächlich, ohne GPS zu navigieren?

Hier muss ich Sie mit hinein in die Technik nehmen, denn die Lösung ist schön auf die Weise, wie Biologie schön ist. Denken Sie darüber nach, wie Sie sich in einem dunklen Raum orientieren. Sie verwenden kein GPS. Sie verwenden Ihre Augen und Ihr Innenohr — das Sehen und Ihr Gleichgewichtssystem. Sie sehen Orientierungspunkte, Sie fühlen Beschleunigung und Rotation, und Ihr Gehirn fusioniert diese beiden Ströme zu einem kontinuierlichen Gefühl dafür, wo Sie sind.
Visual Inertial Odometry — VIO — tut genau dies für eine Drohne. Eine Kamera verfolgt markante Merkmale (Ecken, Kanten, Textur) über aufeinanderfolgende Bilder hinweg. Eine Inertial Measurement Unit, kurz IMU, misst Beschleunigung und Rotation mit extrem hoher Frequenz, oft 200- bis 1000-mal pro Sekunde. Kein Sensor funktioniert allein. Die Kamera ist zu langsam und kann den absoluten Maßstab nicht beurteilen. Die IMU driftet katastrophal — die doppelte Integration der Beschleunigung, um die Position zu erhalten, bedeutet, dass die Fehler quadratisch mit der Zeit wachsen. Eine IMU in Verbrauchsqualität kann innerhalb von Sekunden um Meter driften.
Aber miteinander fusioniert heben sie die Schwächen des jeweils anderen auf. Die IMU liefert eine hochfrequente Zustandsvorhersage und bewältigt schnelle Manöver, bei denen Bilder verschwimmen. Die Kamera verankert die driftende IMU-Schätzung an festen Orientierungspunkten in der Welt. Das Ergebnis: Driftraten von nur 1–2 % der zurückgelegten Strecke, selbst in GPS-freien Umgebungen. Keine Satelliten. Keine externen Signale. Nichts zu stören.
Ich habe über diese Fusionsarchitektur ausführlich geschrieben, in der interaktiven Version unserer Forschung, aber die zentrale Erkenntnis ist einfacher als die Mathematik: VIO ist nicht störbar, weil es passiv ist. Es empfängt Licht und fühlt Trägheit. Es gibt kein Signal abzufangen, keine Frequenz zu überlasten, keine Verbindung zu kappen.
Die Nacht, in der wir unser eigenes System zerlegten
Ich möchte über etwas ehrlich sein. VIO ist keine Magie. Wir haben das auf die harte Tour gelernt.
Etwa vier Monate nach Entwicklungsbeginn testeten wir in einer Lagerhalle — Betonböden, weiße Wände, Leuchtstoffbeleuchtung. Die Drohne hob ab, flog etwa dreißig Sekunden lang wunderbar und begann dann, seitlich abzudriften, als wäre sie betrunken. Mein leitender Ingenieur zog die Protokolle heran und schwieg lange. Dann sah er auf und sagte: „Sie kann nichts sehen.“
Weiße Wände. Gleichmäßiger Beton. Keine Textur, keine Ecken, keine Merkmale zum Verfolgen. Die Kamera starrte auf eine leere Leinwand, und die VIO-Pipeline lief auf reiner IMU-Integration — was bedeutete, dass sie in erschreckendem Tempo Drift ansammelte.
Dieser Fehlschlag lehrte uns mehr als jeder Erfolg. Wir verbrachten die nächsten Wochen damit, zwei entscheidende Gegenmaßnahmen zu integrieren. Erstens, LiDAR-VIO-Fusion — das Hinzufügen eines leichten Solid-State-LiDAR, das selbst in völliger Dunkelheit oder merkmalslosen Umgebungen dichte geometrische Daten liefert. Die LiDAR-Punktwolke gibt dem System geometrische Randbedingungen, wenn die Kameras versagen. Zweitens, und hier wird es interessant, semantisches Maskieren.
Warum muss ein Navigationssystem verstehen, was es sieht?

Standard-VIO behandelt die Welt als eine Wolke bedeutungsloser Punkte. Eine Ecke ist eine Ecke, ob sie sich an einem Gebäude oder an einem fahrenden Lastwagen befindet. Das erzeugt einen verheerenden Fehlermodus: Wenn die Drohne Merkmale an einem sich bewegenden Objekt verfolgt und annimmt, dass sie stationär sind, verrechnet sie ihre eigene Bewegung, um dies auszugleichen. Die Drohne glaubt, sie bewege sich, obwohl das nicht der Fall ist, oder umgekehrt.
Uns ist das während eines Freilufttests passiert. Ein Lieferwagen fuhr durch das Bild, und die Drohne ruckte seitlich, um eine Bewegung zu „korrigieren“, die nicht ihre eigene war. Mir stockte der Magen. In einem Bergwerksschacht oder in der Nähe einer Pipeline ist dieses Rucken ein Absturz.
Die Behebung erforderte, was ich als den Sprung von der Navigation zum Verstehen betrachte. Wir betreiben Deep-Learning-Modelle — semantische Segmentierungsnetze —, die jedes Pixel im Bild klassifizieren. Auto. Person. Im Wind wehender Baum. Diese dynamischen Bereiche werden vollständig aus der VIO-Pipeline ausmaskiert. Die Drohne verfolgt nur statische Hintergrundmerkmale.
Geometrisches SLAM sieht Punkte, Linien und Ebenen. Semantisches SLAM sieht „Tür“, „Wand“, „Lastwagen“. Dieser Unterschied ist der Unterschied zwischen einem System, das navigiert, und einem System, das versteht, wo es ist.
Diese semantische Schicht bewirkt noch etwas Bemerkenswertes: Sie ermöglicht langfristige Navigation. Geometrische Merkmale — die Pixelintensität einer Ecke — ändern sich mit der Beleuchtung. Dasselbe Gebäude sieht mittags völlig anders aus als um Mitternacht. Aber das Konzept eines „Fensters“ oder einer „Tür“ ist gegenüber der Beleuchtung unveränderlich. Eine Drohne mit semantischem SLAM kann einen tagsüber besuchten Ort wiedererkennen, selbst wenn sie nachts zurückkehrt, solange die semantische Struktur sichtbar ist.
Es ermöglicht außerdem menschzentrierte Befehle. „Flieg durch die Tür.“ „Inspiziere den roten Tank.“ Nicht „flieg zu Koordinate 47.3821, -122.3456“. Für Bediener in stressreichen Umgebungen — einen Bergwerksleiter nach einer Sprengung, einen Soldaten unter Beschuss — ist dieser Unterschied in der kognitiven Belastung enorm.
Die Cloud-KI-Falle, die uns beinahe erwischt hätte

Früh, bevor wir uns voll auf die Edge-Verarbeitung festgelegt hatten, schlug jemand in meinem Team eine Hybridarchitektur vor: VIO lokal ausführen, aber Video für die semantische Verarbeitung in die Cloud streamen. Auf dem Papier ergab das Sinn. Cloud-GPUs sind leistungsstark. Warum alles auf ein winziges eingebettetes Board pferchen?
Wir bauten einen Prototyp. Er funktionierte im Labor, wo wir perfektes WLAN hatten. Dann testeten wir ihn unter realistischen Netzwerkbedingungen — simuliertes 4G mit gelegentlichen Aussetzern — und sahen zu, wie die semantische Maske 300 Millisekunden nach dem Moment eintraf, in dem die Drohne sie brauchte. Bei 20 Metern pro Sekunde sind das sechs Meter Blindflug. Die Drohne traf Navigationsentscheidungen darauf basierend, wo dynamische Objekte waren, nicht wo sie sind.
Das war ein Teamstreit, der laut wurde. Ein Lager wollte den Netzwerkpfad optimieren. Ich zog meinen Rang — das einzige Mal, dass ich es bei einer technischen Entscheidung getan habe — und sagte, wir gehen voll auf Edge. Keine Cloud-Abhängigkeit. Punkt.
Hier ist, warum ich so stur darin war. In Verteidigungsanwendungen ist eine Drohne, die Video in die Cloud streamt, ein Funkfeuer. Feindliche Peilmittel können sie triangulieren. Man hat eine „intelligente“ Drohne gebaut, die jedem mit einem HF-Scanner ihre Position verkündet. In industriellen Umgebungen ist die Netzabdeckung innerhalb eines Bergwerks oder zwischen Lagertanks bestenfalls unzuverlässig. Und in beiden Fällen ist die Latenz nicht nur die durchschnittliche Latenz — es ist die Tail-Latenz, der schlimmste Fall im 99. Perzentil, der Sie umbringt. Ein kurzzeitiger Ausschlag durch Überlastung oder Zellturm-Übergabe, und Ihre Regelschleife wird instabil.
Wenn die Intelligenz Ihrer Drohne in der Cloud lebt, verschlechtert das Kappen der Netzwerkverbindung das System nicht — es lobotomiert es. Die Drohne wird nicht langsamer. Sie wird dumm.
Forschung zeigt, dass Teleoperation oberhalb von 700 Millisekunden Latenz praktisch unkontrollierbar wird. Und Jitter — die Varianz in der Latenz — ist schlimmer als konstante Verzögerung, weil Regelalgorithmen eine bekannte Verzögerung kompensieren können, aber wild oszillieren, wenn sich die Verzögerung ständig ändert.
Wir haben alles an Bord verlagert. Jedes neuronale Netz, jede Optimierungsschleife, jede Entscheidung. Für die vollständige technische Aufschlüsselung unserer Architektur, einschließlich der spezifischen Sensorfusionsansätze und Algorithmusvergleiche, habe ich unsere detaillierte Forschung veröffentlicht.
Wie führt man all dies auf einem Gerät aus, das fliegt?
Das ist der Teil, der mich ehrlich gesagt nachts wachhält. Nichtlineare Optimierung für VIO gleichzeitig mit faltenden neuronalen Netzen für die semantische Segmentierung auszuführen, alles bei 30+ Bildern pro Sekunde, auf einem Board, das Gramm wiegt und Watt — nicht Kilowatt — zieht, ist ein technisches Problem, das keinen Raum für Nachlässigkeit lässt.
Wir bauen auf dem NVIDIA Jetson Orin NX auf, der 100 TOPS (Billionen Operationen pro Sekunde) in einem eingebetteten Formfaktor liefert, der 10 bis 25 Watt zieht. Das ist eine erstaunliche Menge an Rechenleistung für etwas, das man in der Hand halten kann. Aber rohes Silizium allein reicht nicht.
Wir verwenden NVIDIAs TensorRT, um unsere neuronalen Netze mit Int8-Quantisierung zu kompilieren — wobei 32-Bit-Gleitkomma-Gewichte in 8-Bit-Ganzzahlen umgewandelt werden. Das klingt nach einer brutalen Näherung, und das ist es auch, aber sorgfältig ausgeführt verdoppelt oder verdreifacht es den Inferenzdurchsatz bei minimalem Genauigkeitsverlust. Wir lagern die Merkmalsverfolgung auf dedizierte Vision-Accelerator-Kerne aus und geben so die GPU für Deep Learning frei. Das nichtlineare Optimierungs-Backend — Bündelausgleich, das mathematische Herz von SLAM — läuft als parallelisierte CUDA-Kernel.
Das Ergebnis ist eine heterogene Rechenpipeline, in der der Flugcontroller unabhängig von der Szenenkomplexität Odometrie-Aktualisierungen mit über 50 Hz erhält. Die Drohne stottert nicht, wenn sie in eine visuell komplexe Umgebung eintritt. Sie wird nicht langsamer, wenn sie angestrengter nachdenken muss.
Was passiert, wenn die Drohne sich verirrt?
Das war eine weitere Angst, die mich wach hielt. VIO gibt Ihnen lokale Konsistenz — „Ich habe mich 5 Meter vorwärts bewegt“ —, aber es sammelt mit der Zeit Drift an. Wie verhindert man ohne GPS, das eine absolute Positionsbestimmung liefert, dass sich Fehler über eine lange Mission hinweg aufsummieren?
Die Antwort ist der Schleifenschluss (Loop Closure), und es ist eine der elegantesten Ideen in der Robotik. Wenn die Drohne in ein zuvor besuchtes Gebiet zurückkehrt, gleicht das System den aktuellen visuellen Fingerabdruck mit seiner gespeicherten Karte ab. Wenn es erkennt, wo es ist, berechnet es die seit dem letzten Besuch angesammelte Gesamtdrift und schnappt die gesamte Trajektorie wieder in die korrekte Ausrichtung. Es ist wie die eigene interne GPS-Korrektur der Drohne, nur dass sie aus Wiedererkennung statt aus Satelliten kommt.
Wir verwenden eine modifizierte Version von ORB-SLAM3 — dem ersten System, das zum Zusammenführen mehrerer Karten fähig ist. Wenn die Drohne während eines aggressiven Manövers die Verfolgung verliert (oder „entführt“ wird, wie Robotiker es charmant nennen), beginnt sie, eine neue Karte aufzubauen. Wenn sie später einen zuvor kartierten Ort erkennt, führt sie die Karten zusammen. Das macht das System bemerkenswert widerstandsfähig gegen genau die Art von Störungen, die man im realen Betrieb erwarten würde.
Wir haben die Standard-ORB-Merkmalsextraktion mit Deep Learning erweitert — SuperPoint- und SuperGlue-Netze, die Merkmale selbst bei schwieriger Beleuchtung finden und abgleichen, wo herkömmliche Computer Vision versagt. Dieser Hybridansatz gibt uns das robuste mathematische Backend von ORB-SLAM3 mit der Wahrnehmungsfähigkeit moderner neuronaler Netze.
Wer braucht das eigentlich?
Die Leute fragen mich immer, ob dies eine Lösung ist, die ein Problem sucht. Ist es nicht. Das Problem schreit uns gleichzeitig aus drei Richtungen an.
In der Verteidigung ist die GNSS-Verweigerung der erste Schritt in der modernen Kriegsführung. Sie ist asymmetrisch — ein billiger bodengestützter Störsender neutralisiert teure Luftmittel über weite Gebiete. VIO-ausgestattete Drohnen können ein Ziel visuell erfassen und selbst dann autonom ausführen, wenn die Führungs- und Leitverbindung gekappt wurde. Sie operieren in völliger Funkstille, unsichtbar für HF-Scanner. Ein einzelner Bediener kann einen Schwarm einsetzen, der einen GPS-freien Korridor allein mit bordeigener Wahrnehmung navigiert.
Im Bergbau ist die Umgebung von Natur aus GPS-frei. Nach dem Sprengen füllen sich Abbauräume mit Staub und giftigen Gasen. Auf die menschliche Freigabe zu warten, kostet Geld und gefährdet Leben. Eine VIO-fähige Drohne fliegt sofort hinein, inspiziert die Gesteinsfragmentierung und die strukturelle Stabilität und liefert Daten in Minuten statt der Tage, die eine manuelle Vermessung erfordert. Drohneneinsätze können die Inspektionskosten um bis zu 70 % gegenüber herkömmlichen Methoden senken — aber nur, wenn die Drohne tatsächlich dorthin fliegen kann, wo sie muss.
Bei der Infrastrukturinspektion ist die Wirtschaftlichkeit brutal. Pipeline-Ausfälle kosten Millionen. Drohnen sind die Antwort — aber das Inspizieren der Unterseite einer Brücke oder der Basis eines Tanklagers bringt sie in GPS-Schatten, wo sie die für hochauflösende Bildgebung erforderliche präzise Positionshaltung nicht aufrechterhalten können. VIO löst dies. Die Drohne hält ihre Position mit zentimetergenauer Präzision, unabhängig von der Satellitensichtbarkeit, und verwandelt reaktive Wartung in vorausschauende Wartung.
Das Wort, das sich ändern muss
Ich bin einigermaßen besessen von der Unterscheidung zwischen „automatisiert“ und „autonom“ geworden. Ein automatisiertes System führt ein vordefiniertes Skript auf Grundlage externer Eingaben aus — GPS-Koordinaten, Pilotenbefehle. Entfernen Sie die Eingaben, und das Skript stürzt ab. Ein autonomes System nimmt seine Umgebung wahr, bestimmt seinen Zustand und trifft Entscheidungen ohne externe Abhängigkeit.
Fast jede kommerzielle Drohne auf dem Markt ist heute automatisiert. Die Industrie nennt sie autonom, weil das Wort sich besser verkauft. Aber die Unterscheidung ist nicht semantisch — sie ist der Unterschied zwischen einem System, das funktioniert, wenn alles gut geht, und einem System, das funktioniert, wenn alles schiefgeht.
Die Ära der automatisierten Drohnen — abhängig von zerbrechlichen Satellitenleinen und Cloud-Konnektivität — geht zu Ende. Die Zukunft gehört Systemen, die ihre Intelligenz mit sich tragen.
Bei Veriprajna umhüllen wir keine APIs. Wir feintunen keine Sprachmodelle und nennen es Robotik. Wir entwickeln die grundlegenden Navigations- und Wahrnehmungssysteme, die es Maschinen ermöglichen, in der physischen Welt zu existieren und zu handeln — wahrzunehmen, zu verstehen und zu navigieren, ohne um irgendjemandes Erlaubnis zu bitten.
Für den Verteidigungskommandeur, den Bergbaubetreiber und den Infrastrukturmanager ist diese Unterscheidung nicht akademisch. Sie ist der Unterschied zwischen einer Mission, die gelingt, und einer Maschine, die vom Himmel fällt.
Der Himmel würde niemals für immer da sein. Wir haben nur so gebaut, als ob er es wäre.