Een drone die autonoom navigeert door een GPS-loze omgeving, met de nadruk op waarneming aan boord in plaats van afhankelijkheid van satellieten.
Artificial IntelligenceDronesRobotics

Jouw drone is niet autonoom — hij is alleen geautomatiseerd in een wereld die nog niet heeft geprobeerd hem neer te halen

Ashutosh SinghalAshutosh Singhal10 februari 202615 min

Er is een moment waar ik steeds op terugkom. We voerden een testvlucht uit in een gesimuleerde GPS-loze corridor — niets bijzonders, gewoon een standaard quadcopter met onze navigatiestack eraan gekoppeld. De GPS-module was fysiek losgekoppeld. Mijn ingenieur, die drie weken had besteed aan het afstellen van de Visual Inertial Odometry-pipeline, stond naast me met zijn armen over elkaar op een pendop te kauwen. De drone steeg op, hing stil en begon zich een weg door de testomgeving te banen met niets meer dan een stereocamera en een IMU.

Toen liep ik erheen en zette een GPS-stoorzender van consumentenkwaliteit aan die we voor tests hadden gekocht. Er veranderde niets. De drone kromp niet ineen. Hij wist niet dat er iets was om van ineen te krimpen — hij had überhaupt nooit naar de hemel geluisterd.

Dat was het moment waarop ik, op een diep gevoelde manier, begreep waar we het al maandenlang op whiteboards en in Slack-threads over hadden. De drone was niet bestand tegen storing. Hij was er onverschillig voor. En die onverschilligheid — die totale onafhankelijkheid van een signaal dat door een apparaat van $50 kan worden weggevaagd — is het hele punt.

Ik ben Ashutosh, oprichter van Veriprajna. Wij bouwen navigatie- en waarnemingssystemen voor drones die opereren in omgevingen waar GPS niet bestaat, waar cloudconnectiviteit een fantasie is, en waar "terugkeren naar huis" niets betekent als je niet weet waar je bent. Ik wil je vertellen waarom het woord "autonoom", zoals de drone-industrie het gebruikt, een leugen is, en wat er werkelijk voor nodig is om een machine te bouwen die voor zichzelf kan denken.

De aanname van $1 miljard per dag die niemand in twijfel trekt

Hier is een getal dat je zou moeten verontrusten: GPS genereert ongeveer $1,4 biljoen aan economische voordelen voor de Amerikaanse private sector. Een verlies van GPS-dienstverlening zou de Amerikaanse economie ruwweg $1 miljard per dag kosten. We hebben de logistiek, landbouw, financiën en defensie-infrastructuur van een hele beschaving gebouwd op signalen die worden uitgezonden vanaf 20.200 kilometer boven de aarde — signalen die bij je ontvanger aankomen met de kracht van een gloeilamp van 25 watt, gezien vanaf 10.000 mijl afstand.

Dat is geen metafoor. Dat is de werkelijke signaalsterkte. En elke dronefabrikant ter wereld heeft zijn "autonome" systemen daarbovenop gebouwd.

Ik heb jaren in de AI-wereld doorgebracht voordat ik Veriprajna oprichtte, en wat mij radicaliseerde over dronenavigatie was het bekijken van beelden uit Oekraïne. FPV-drones — goedkoop, effectief, verantwoordelijk voor naar schatting 70% van de troepenslachtoffers — verliezen routinematig GPS binnen 5 tot 10 kilometer van elektronische-oorlogsvoeringsopstellingen aan het front. Russische systemen zoals de R-330Zh Zhitel creëren bijna constante gebiedsontzegging. Wanneer GPS uitvalt, gaan deze drones niet gracieus achteruit. Ze worden, zoals ik ze ben gaan noemen, dure presse-papiers.

Een drone die voor stabiliteit afhankelijk is van GPS is niet autonoom. Hij is geautomatiseerd binnen een toegeeflijke omgeving. Verwijder de toestemming, en je verwijdert de autonomie.

Dit is niet alleen een militair probleem. Het is een natuurkundig probleem dat overal opduikt waar GPS-signalen niet kunnen komen: ondergrondse mijnen, stedelijke kloven, de onderkant van bruggen, de smalle openingen tussen olieopslagtanks. Overal waar het signaal weerkaatst, verzwakt of gewoon niet doordringt.

Waarom namen we aan dat de hemel er altijd zou zijn?

Ik denk dat het eerlijke antwoord gemak is. GPS is magie — gratis, wereldwijd, nauwkeurig genoeg voor de meeste dingen. Wanneer je een dronebedrijf opbouwt, voelt het navigatieprobleem op dag één opgelost. Sluit een GPS-module aan, schrijf wat waypoint-logica, en noem het autonoom. Verscheep het.

De eerste keer dat ik onze aanpak presenteerde — navigatie vanaf de grond opbouwen met behulp van vision aan boord en inertiële detectie — keek een investeerder me aan en zei: "Waarom zou je niet gewoon betere GPS gebruiken?" Ik probeerde uit te leggen dat "betere GPS" een contradictio in terminis is wanneer iemand actief probeert je GPS te ontzeggen. Hij was niet overtuigd. Hij had nooit hoeven nadenken over een wereld waarin de infrastructuur faalt.

Maar de infrastructuur faalt wel degelijk. In de mijnbouw was hij er om te beginnen nooit. Een drone die na het opblazen een stope inspecteert — die in totale duisternis door stof en mogelijk giftige gassen vliegt — heeft nul satellietsignaal. Bij inspectie van olie- en gaspijpleidingen, waar één enkele storing $8,5 miljoen kan kosten tegenover $75.000 voor een tijdig ontdekte reparatie, moeten drones vliegen in GPS-schaduwen die door enorme metalen constructies worden gecreëerd. Het multipath-effect corrumpeert timingberekeningen en introduceert positiefouten van meerdere meters. Meerdere meters, wanneer je naast een onder druk staande pijpleiding vliegt.

Het antwoord van de industrie is optical flow geweest — een naar beneden gerichte camera die grondtextuur volgt. Het is beter dan niets. Maar het heeft goede belichting nodig, het heeft zichtbare textuur nodig, en het is nog steeds afhankelijk van GPS voor gier- en hoogtereferentie. Het is een pleister, geen oplossing.

Wat betekent het eigenlijk om zonder GPS te navigeren?

Een gelabeld diagram dat laat zien hoe Visual Inertial Odometry (VIO) camera- en IMU-gegevens combineert, waarbij de zwakte van elke sensor wordt geïllustreerd en hoe fusie ze opheft.

Hier moet ik je meenemen in de techniek, want de oplossing is mooi op de manier waarop biologie mooi is. Denk eens na over hoe je door een donkere kamer navigeert. Je gebruikt geen GPS. Je gebruikt je ogen en je binnenoor — vision en je evenwichtsorgaan. Je ziet oriëntatiepunten, je voelt versnelling en rotatie, en je brein versmelt die twee stromen tot een continu gevoel van waar je bent.

Visual Inertial Odometry — VIO — doet precies dit voor een drone. Een camera volgt onderscheidende kenmerken (hoeken, randen, textuur) over opeenvolgende frames. Een Inertial Measurement Unit, oftewel IMU, meet versnelling en rotatie met een extreem hoge frequentie, vaak 200 tot 1000 keer per seconde. Geen van beide sensoren werkt alleen. De camera is te traag en kan de absolute schaal niet beoordelen. De IMU drift catastrofaal — het dubbel-integreren van versnelling om positie te verkrijgen betekent dat fouten kwadratisch toenemen met de tijd. Een IMU van consumentenkwaliteit kan binnen seconden meters afwijken.

Maar samengevoegd heffen ze elkaars zwakheden op. De IMU zorgt voor toestandsvoorspelling met hoge snelheid en handelt snelle manoeuvres af waarbij beelden vervagen. De camera verankert de driftende IMU-schatting aan vaste oriëntatiepunten in de wereld. Het resultaat: driftpercentages zo laag als 1–2% van de afgelegde afstand, zelfs in GPS-loze omgevingen. Geen satellieten. Geen externe signalen. Niets om te storen.

Ik schreef diepgaand over deze fusie-architectuur in de interactieve versie van ons onderzoek, maar het kerninzicht is eenvoudiger dan de wiskunde: VIO is niet te storen omdat het passief is. Het ontvangt licht en voelt inertie. Er is geen signaal om te onderscheppen, geen frequentie om te overweldigen, geen verbinding om te verbreken.

De nacht waarin we ons eigen systeem braken

Ik wil eerlijk zijn over iets. VIO is geen magie. We leerden dit op de harde manier.

Ongeveer vier maanden na aanvang van de ontwikkeling waren we aan het testen in een magazijn — betonnen vloeren, witte muren, tl-verlichting. De drone steeg op, vloog ongeveer dertig seconden prachtig, en begon toen zijwaarts te driften alsof hij dronken was. Mijn hoofdingenieur haalde de logs op en werd een lange tijd stil. Toen keek hij op en zei: "Hij kan niets zien."

Witte muren. Uniform beton. Geen textuur, geen hoeken, geen kenmerken om te volgen. De camera staarde naar een leeg canvas, en de VIO-pipeline draaide op pure IMU-integratie — wat betekende dat hij drift accumuleerde met een angstaanjagende snelheid.

Die mislukking leerde ons meer dan welk succes dan ook. We besteedden de volgende weken aan het integreren van twee cruciale mitigaties. Ten eerste, LiDAR-VIO-fusie — het toevoegen van een lichtgewicht solid-state LiDAR die dichte geometrische gegevens levert, zelfs in totale duisternis of textuurloze omgevingen. De LiDAR-puntenwolk geeft het systeem geometrische beperkingen wanneer camera's falen. Ten tweede, en hier wordt het interessant, semantische maskering.

Waarom moet een navigatiesysteem begrijpen wat het ziet?

Een vergelijking naast elkaar die laat zien hoe standaard VIO ruwe geometrische punten ziet versus hoe semantische SLAM dynamische objecten classificeert en maskeert, waardoor navigatiefouten worden voorkomen.

Standaard VIO behandelt de wereld als een wolk van betekenisloze punten. Een hoek is een hoek, of hij zich nu op een gebouw of op een rijdende vrachtwagen bevindt. Dit creëert een verwoestende faalmodus: als de drone kenmerken op een bewegend object volgt en aanneemt dat ze stilstaan, berekent hij zijn eigen beweging verkeerd om te compenseren. De drone denkt dat hij beweegt terwijl dat niet zo is, of andersom.

We hadden dit gebeuren tijdens een buitentest. Een bestelwagen reed door het beeld, en de drone schokte zijwaarts in een poging te "corrigeren" voor beweging die niet van hemzelf was. Mijn maag draaide om. In een mijnschacht of naast een pijpleiding is die schok een crash.

De oplossing vereiste wat ik zie als de sprong van navigatie naar begrip. We draaien deep-learningmodellen — semantische segmentatienetwerken — die elke pixel in het beeld classificeren. Auto. Persoon. Boom die in de wind waait. Deze dynamische regio's worden volledig uit de VIO-pipeline gemaskeerd. De drone volgt alleen statische achtergrondkenmerken.

Geometrische SLAM ziet punten, lijnen en vlakken. Semantische SLAM ziet "deur," "muur," "vrachtwagen." Dat verschil is het verschil tussen een systeem dat navigeert en een systeem dat begrijpt waar het zich bevindt.

Deze semantische laag doet nog iets opmerkelijks: het maakt langetermijnnavigatie mogelijk. Geometrische kenmerken — de pixelintensiteit van een hoek — veranderen met de belichting. Hetzelfde gebouw ziet er volledig anders uit om twaalf uur 's middags dan om middernacht. Maar het concept van een "raam" of "deur" is invariant voor belichting. Een drone met semantische SLAM kan een locatie herkennen die overdag is bezocht, zelfs bij terugkeer 's nachts, zolang de semantische structuur zichtbaar is.

Het maakt ook menscentrische commando's mogelijk. "Vlieg door de deur." "Inspecteer de rode tank." Niet "vlieg naar coördinaat 47.3821, -122.3456." Voor operators in omgevingen met hoge stress — een mijnmanager na een explosie, een soldaat onder vuur — is dat verschil in cognitieve belasting enorm.

De cloud-AI-val die ons bijna te pakken kreeg

Een diagram dat cloud-afhankelijke versus volledige edge-verwerkingsarchitecturen tegenover elkaar zet en de latentie- en kwetsbaarheidsproblemen van cloud-afhankelijkheid laat zien.

In een vroeg stadium, voordat we ons volledig hadden gecommitteerd aan edge-verwerking, stelde iemand in mijn team een hybride architectuur voor: draai de VIO lokaal maar stream video naar de cloud voor semantische verwerking. Op papier klonk het logisch. Cloud-GPU's zijn krachtig. Waarom alles proppen op een klein embedded board?

We bouwden een prototype. Het werkte in het lab, waar we perfecte wifi hadden. Toen testten we het met realistische netwerkomstandigheden — gesimuleerd 4G met incidentele uitval — en zagen we het semantische masker 300 milliseconden aankomen nadat de drone het nodig had. Bij 20 meter per seconde is dat zes meter blinde vlucht. De drone nam navigatiebeslissingen op basis van waar dynamische objecten waren, niet waar ze zijn.

Dat was een teamdiscussie die luid werd. Eén kamp wilde het netwerkpad optimaliseren. Ik trok mijn rang open — de enige keer dat ik dat bij een technische beslissing heb gedaan — en zei dat we volledig edge gaan. Geen cloud-afhankelijkheid. Punt uit.

Dit is waarom ik er zo koppig over was. In defensietoepassingen is een drone die video naar de cloud streamt een radiobaken. Vijandelijke richtingzoekende middelen kunnen hem trianguleren. Je hebt een "slimme" drone gebouwd die zijn positie kenbaar maakt aan iedereen met een RF-scanner. In industriële omgevingen is netwerkdekking binnen een mijn of tussen opslagtanks op zijn best onbetrouwbaar. En in beide gevallen is de latentie niet alleen de gemiddelde latentie — het is de staartlatentie, het 99e-percentiel slechtst denkbare geval, dat je fataal wordt. Een kortstondige piek door congestie of overdracht tussen zendmasten, en je regellus wordt instabiel.

Als de intelligentie van je drone in de cloud leeft, degradeert het verbreken van de netwerkverbinding het systeem niet — het lobotomiseert het. De drone wordt niet trager. Hij wordt dom.

Onderzoek toont aan dat teleoperatie praktisch onbestuurbaar wordt boven 700 milliseconden latentie. En jitter — de variantie in latentie — is erger dan constante vertraging, omdat regelalgoritmen kunnen compenseren voor een bekende vertraging maar wild oscilleren wanneer de vertraging blijft veranderen.

We verplaatsten alles aan boord. Elk neuraal netwerk, elke optimalisatielus, elke beslissing. Voor de volledige technische uiteenzetting van onze architectuur, inclusief de specifieke sensorfusiebenaderingen en algoritmevergelijkingen, heb ik ons gedetailleerde onderzoek gepubliceerd.

Hoe draai je dit allemaal op een apparaat dat vliegt?

Dit is het deel dat me eerlijk gezegd 's nachts wakker houdt. Het gelijktijdig draaien van niet-lineaire optimalisatie voor VIO met convolutionele neurale netwerken voor semantische segmentatie, allemaal op 30+ frames per seconde, op een board dat grammen weegt en watts trekt — geen kilowatts — is een engineeringprobleem dat geen ruimte laat voor slordigheid.

We bouwen op de NVIDIA Jetson Orin NX, die 100 TOPS (biljoen operaties per seconde) levert in een embedded vormfactor die 10 tot 25 watt trekt. Dat is een verbluffende hoeveelheid rekenkracht voor iets dat je in je hand kunt houden. Maar ruw silicium is niet genoeg.

We gebruiken NVIDIA's TensorRT om onze neurale netwerken te compileren met Int8-kwantisatie — het converteren van 32-bits floating-pointgewichten naar 8-bits gehele getallen. Dit klinkt als een brute benadering, en dat is het ook, maar zorgvuldig uitgevoerd verdubbelt of verdrievoudigt het de inferentiedoorvoer met minimaal nauwkeurigheidsverlies. We ontlasten feature tracking naar toegewijde vision-acceleratorcores, waardoor de GPU vrijkomt voor deep learning. De niet-lineaire optimalisatie-backend — bundle adjustment, het wiskundige hart van SLAM — draait als geparallelliseerde CUDA-kernels.

Het resultaat is een heterogene rekenpijplijn waarbij de vluchtcontroller odometrie-updates ontvangt met meer dan 50 Hz, ongeacht de complexiteit van de scène. De drone hapert niet wanneer hij een visueel complexe omgeving binnengaat. Hij vertraagt niet wanneer hij harder moet nadenken.

Wat gebeurt er wanneer de drone verdwaalt?

Dit was nog een angst die me wakker hield. VIO geeft je lokale consistentie — "Ik ben 5 meter vooruit bewogen" — maar het accumuleert drift na verloop van tijd. Zonder GPS die een absolute positiebepaling levert, hoe voorkom je dat fouten zich opstapelen over een lange missie?

Het antwoord is loop closure, en het is een van de meest elegante ideeën in de robotica. Wanneer de drone terugkeert naar een eerder bezocht gebied, matcht het systeem de huidige visuele vingerafdruk met zijn opgeslagen kaart. Als het herkent waar het is, berekent het de totale drift die sinds het laatste bezoek is geaccumuleerd en trekt het het volledige traject terug in lijn. Het is als de drone's eigen interne GPS-correctie, behalve dat het uit herkenning komt in plaats van uit satellieten.

We gebruiken een aangepaste versie van ORB-SLAM3 — het eerste systeem dat in staat is tot multi-map merging. Als de drone het spoor bijster raakt tijdens een agressieve manoeuvre (of wordt "gekidnapt," zoals robotici het charmant noemen), begint hij een nieuwe kaart te bouwen. Wanneer het later een eerder in kaart gebrachte locatie herkent, voegt het de kaarten samen. Dit maakt het systeem opmerkelijk bestand tegen precies het soort verstoringen dat je bij echte operaties zou verwachten.

We verbeterden de standaard ORB-feature-extractie met deep learning — SuperPoint- en SuperGlue-netwerken die kenmerken vinden en matchen, zelfs bij uitdagende belichting waar traditionele computer vision faalt. Deze hybride aanpak geeft ons de robuuste wiskundige backend van ORB-SLAM3 met het perceptuele vermogen van moderne neurale netwerken.

Wie heeft dit eigenlijk nodig?

Mensen vragen me altijd of dit een oplossing is die op zoek is naar een probleem. Dat is het niet. Het probleem schreeuwt vanuit drie richtingen tegelijk naar ons.

In defensie is GNSS-ontzegging de eerste zet in moderne oorlogsvoering. Het is asymmetrisch — een goedkope grondgebonden stoorzender neutraliseert dure luchtmiddelen over uitgestrekte gebieden. Met VIO uitgeruste drones kunnen visueel op een doelwit vergrendelen en autonoom uitvoeren, zelfs nadat de commando-en-controleverbinding is verbroken. Ze opereren in totale radiostilte, onzichtbaar voor RF-scanners. Eén enkele operator kan een zwerm inzetten die door een GPS-loze corridor navigeert met niets meer dan waarneming aan boord.

In de mijnbouw is de omgeving van nature GPS-loos. Na het opblazen vullen stopes zich met stof en giftige gassen. Wachten op menselijke vrijgave kost geld en brengt levens in gevaar. Een drone met VIO vliegt onmiddellijk naar binnen, inspecteert gesteentefragmentatie en structurele stabiliteit, en levert gegevens in minuten in plaats van de dagen die een handmatige survey vereist. Droneoperaties kunnen de inspectiekosten met wel 70% verlagen ten opzichte van traditionele methoden — maar alleen als de drone daadwerkelijk kan vliegen waar hij moet zijn.

Bij infrastructuurinspectie is de economie meedogenloos. Pijpleidingstoringen kosten miljoenen. Drones zijn het antwoord — maar het inspecteren van de onderkant van een brug of de basis van een tankpark plaatst ze in GPS-schaduwen waar ze niet de precieze positiehandhaving kunnen behouden die vereist is voor beeldvorming met hoge resolutie. VIO lost dit op. De drone houdt positie vast met centimeternauwkeurigheid, ongeacht de satellietzichtbaarheid, waardoor reactief onderhoud verandert in voorspellend onderhoud.

Het woord dat moet veranderen

Ik ben enigszins geobsedeerd geraakt door het onderscheid tussen "geautomatiseerd" en "autonoom." Een geautomatiseerd systeem voert een vooraf gedefinieerd script uit op basis van externe input — GPS-coördinaten, pilootcommando's. Verwijder de input, en het script stort in. Een autonoom systeem neemt zijn omgeving waar, bepaalt zijn toestand en neemt beslissingen zonder externe afhankelijkheid.

Bijna elke commerciële drone op de markt vandaag de dag is geautomatiseerd. De industrie noemt ze autonoom omdat het woord beter verkoopt. Maar het onderscheid is niet semantisch — het is het verschil tussen een systeem dat werkt wanneer alles goed gaat en een systeem dat werkt wanneer alles fout gaat.

Het tijdperk van geautomatiseerde drones — afhankelijk van kwetsbare satelliet-navelstrengen en cloudconnectiviteit — loopt ten einde. De toekomst behoort toe aan systemen die hun intelligentie met zich meedragen.

Wij verpakken geen API's bij Veriprajna. We finetunen geen taalmodellen en noemen het robotica. Wij ontwerpen de fundamentele navigatie- en waarnemingsstacks die machines in staat stellen te bestaan en te handelen in de fysieke wereld — om waar te nemen, te begrijpen en te navigeren zonder iemand om toestemming te vragen.

Voor de defensiecommandant, de mijnbeheerder en de infrastructuurmanager is dit onderscheid niet academisch. Het is het verschil tussen een missie die slaagt en een machine die uit de lucht valt.

De hemel zou er nooit voor altijd zijn. We bouwden alsof dat wel zo zou zijn.

Related Research

Also Published On