Un drone che naviga in modo autonomo in un ambiente senza copertura GPS, basandosi sulla percezione a bordo invece che sui satelliti.
Artificial IntelligenceDronesRobotics

Il tuo drone non è autonomo: è solo automatizzato in un mondo che non ha ancora provato a distruggerlo

Ashutosh SinghalAshutosh Singhal10 febbraio 202615 min

C'è un momento a cui continuo a tornare. Stavamo effettuando un volo di prova in un corridoio simulato senza copertura GPS — niente di particolare, solo un normale quadricottero con il nostro stack di navigazione montato sopra. Il modulo GPS era fisicamente scollegato. Il mio ingegnere, che aveva passato tre settimane a mettere a punto la pipeline di Visual Inertial Odometry, era in piedi accanto a me con le braccia incrociate, masticando il cappuccio di una penna. Il drone si è sollevato, ha fatto hovering e ha iniziato a farsi strada attraverso l'ambiente di test usando nient'altro che una telecamera stereo e una IMU.

Poi mi sono avvicinato e ho acceso un disturbatore GPS di livello consumer che avevamo comprato per i test. Non è cambiato nulla. Il drone non ha avuto alcuno scatto. Non sapeva che ci fosse qualcosa per cui reagire — non era mai stato in ascolto del cielo, prima di tutto.

Quello è stato il momento in cui ho capito, in modo viscerale, ciò su cui avevamo discusso alle lavagne e nei thread di Slack per mesi. Il drone non era resiliente al disturbo. Ne era indifferente. E quell'indifferenza — quella totale indipendenza da un segnale che può essere annientato da un dispositivo da 50 dollari — è tutto il punto della questione.

Sono Ashutosh, fondatore di Veriprajna. Costruiamo sistemi di navigazione e percezione per droni che operano in ambienti dove il GPS non esiste, dove la connettività cloud è una fantasia e dove "return to home" non significa nulla se non sai dove ti trovi. Voglio spiegarti perché la parola "autonomo", nel modo in cui la usa l'industria dei droni, è una menzogna, e cosa serve davvero per costruire una macchina in grado di pensare con la propria testa.

L'assunzione da 1 miliardo di dollari al giorno che nessuno mette in discussione

Ecco un numero che dovrebbe turbarti: il GPS genera circa 1.400 miliardi di dollari di benefici economici per il settore privato statunitense. Una perdita del servizio GPS costerebbe all'economia statunitense all'incirca 1 miliardo di dollari al giorno. Abbiamo costruito la logistica, l'agricoltura, la finanza e l'infrastruttura di difesa di un'intera civiltà su segnali trasmessi da 20.200 chilometri sopra la Terra — segnali che arrivano al tuo ricevitore con la potenza di una lampadina da 25 watt vista da 16.000 chilometri di distanza.

Non è una metafora. È la reale intensità del segnale. E ogni produttore di droni al mondo ha costruito i propri sistemi "autonomi" al di sopra di esso.

Ho passato anni nel campo dell'IA prima di fondare Veriprajna, e la cosa che mi ha radicalizzato riguardo alla navigazione dei droni è stata guardare i filmati provenienti dall'Ucraina. I droni FPV — economici, efficaci, responsabili di una stima del 70% delle perdite tra le truppe — perdono regolarmente il GPS entro 5-10 chilometri dai dispiegamenti di guerra elettronica in prima linea. Sistemi russi come l'R-330Zh Zhitel creano una negazione d'area quasi costante. Quando il GPS si spegne, questi droni non degradano in modo graduale. Diventano, come ho iniziato a chiamarli, costosi fermacarte.

Un drone che dipende dal GPS per la stabilità non è autonomo. È automatizzato all'interno di un ambiente permissivo. Rimuovi il permesso, e rimuovi l'autonomia.

Questo non è solo un problema militare. È un problema di fisica che si presenta ovunque i segnali GPS non riescano ad arrivare: miniere sotterranee, canyon urbani, la parte inferiore dei ponti, gli stretti spazi tra i serbatoi di stoccaggio del petrolio. Ovunque il segnale rimbalzi, degradi o semplicemente non penetri.

Perché abbiamo dato per scontato che il cielo sarebbe sempre stato lì?

Penso che la risposta onesta sia la comodità. Il GPS è magico — gratuito, globale, sufficientemente accurato per la maggior parte delle cose. Quando stai costruendo un'azienda di droni, il problema della navigazione sembra risolto fin dal primo giorno. Colleghi un modulo GPS, scrivi un po' di logica di waypoint, e lo chiami autonomo. Lo spedisci.

La prima volta che ho presentato il nostro approccio — costruire la navigazione da zero usando visione a bordo e rilevamento inerziale — un investitore mi ha guardato e ha detto: "Perché non usi semplicemente un GPS migliore?". Ho cercato di spiegargli che "GPS migliore" è un ossimoro quando qualcuno sta attivamente cercando di negarti il GPS. Non è rimasto convinto. Non aveva mai dovuto pensare a un mondo in cui l'infrastruttura viene meno.

Ma l'infrastruttura viene meno. Nell'attività mineraria, non c'è mai stata fin dall'inizio. Un drone che ispeziona una camera di coltivazione dopo un'esplosione — volando tra polvere e gas potenzialmente tossici nell'oscurità totale — ha zero segnale satellitare. Nell'ispezione di oleodotti e gasdotti, dove un singolo guasto può costare 8,5 milioni di dollari contro i 75.000 dollari di una riparazione individuata per tempo, i droni devono volare nelle zone d'ombra del GPS create da enormi strutture metalliche. L'effetto multipath corrompe i calcoli di temporizzazione e introduce errori di posizione di diversi metri. Diversi metri, quando stai volando accanto a una tubazione in pressione.

La risposta dell'industria è stato l'optical flow — una telecamera rivolta verso il basso che traccia la texture del terreno. È meglio di niente. Ma ha bisogno di una buona illuminazione, ha bisogno di texture visibile, e si affida comunque al GPS come riferimento per l'imbardata e l'altitudine. È un cerotto, non una soluzione.

Cosa significa davvero navigare senza GPS?

Un diagramma etichettato che mostra come la Visual Inertial Odometry (VIO) fonde i dati della telecamera e dell'IMU, illustrando la debolezza di ciascun sensore e come la fusione le annulla.

È qui che ho bisogno di portarti dentro l'ingegneria, perché la soluzione è bella nel modo in cui la biologia è bella. Pensa a come ti orienti in una stanza buia. Non usi il GPS. Usi gli occhi e l'orecchio interno — la vista e il tuo sistema vestibolare. Vedi punti di riferimento, senti l'accelerazione e la rotazione, e il tuo cervello fonde questi due flussi in un senso continuo di dove ti trovi.

La Visual Inertial Odometry — VIO — fa esattamente questo per un drone. Una telecamera traccia caratteristiche distintive (angoli, bordi, texture) attraverso fotogrammi successivi. Un'Inertial Measurement Unit, o IMU, misura l'accelerazione e la rotazione a frequenza estremamente elevata, spesso da 200 a 1000 volte al secondo. Nessuno dei due sensori funziona da solo. La telecamera è troppo lenta e non può stimare la scala assoluta. L'IMU deriva in modo catastrofico — la doppia integrazione dell'accelerazione per ottenere la posizione fa sì che gli errori crescano in modo quadratico nel tempo. Una IMU di livello consumer può derivare di metri nel giro di secondi.

Ma fusi insieme, si annullano a vicenda le rispettive debolezze. L'IMU fornisce una predizione dello stato ad alta frequenza e gestisce le manovre rapide in cui le immagini si sfocano. La telecamera ancora la stima derivante dell'IMU a punti di riferimento fissi nel mondo. Il risultato: tassi di deriva bassi fino all'1-2% della distanza percorsa, anche in ambienti senza copertura GPS. Nessun satellite. Nessun segnale esterno. Niente da disturbare.

Ho scritto in modo approfondito su questa architettura di fusione nella versione interattiva della nostra ricerca, ma l'intuizione chiave è più semplice della matematica: la VIO è indisturbabile perché è passiva. Riceve luce e percepisce l'inerzia. Non c'è alcun segnale da intercettare, nessuna frequenza da saturare, nessun collegamento da recidere.

La notte in cui abbiamo rotto il nostro stesso sistema

Voglio essere onesto su una cosa. La VIO non è magia. L'abbiamo imparato nel modo più duro.

Circa quattro mesi dopo l'inizio dello sviluppo, stavamo facendo dei test in un magazzino — pavimenti in cemento, pareti bianche, illuminazione a fluorescenza. Il drone è decollato, ha volato magnificamente per circa trenta secondi, e poi ha iniziato a derivare di lato come se fosse ubriaco. Il mio ingegnere capo ha estratto i log ed è rimasto in silenzio per molto tempo. Poi ha alzato lo sguardo e ha detto: "Non riesce a vedere nulla".

Pareti bianche. Cemento uniforme. Nessuna texture, nessun angolo, nessuna caratteristica da tracciare. La telecamera stava fissando una tela bianca, e la pipeline VIO stava funzionando sulla pura integrazione dell'IMU — il che significava che stava accumulando deriva a un ritmo terrificante.

Quel fallimento ci ha insegnato più di qualsiasi successo. Abbiamo passato le settimane successive a integrare due mitigazioni critiche. Primo, la fusione LiDAR-VIO — aggiungendo un LiDAR a stato solido leggero che fornisce dati geometrici densi anche nell'oscurità totale o in ambienti privi di caratteristiche. La nuvola di punti del LiDAR dà al sistema vincoli geometrici quando le telecamere falliscono. Secondo, ed è qui che diventa interessante, il mascheramento semantico.

Perché un sistema di navigazione deve capire ciò che vede?

Un confronto affiancato che mostra come la VIO standard vede punti geometrici grezzi rispetto a come il SLAM semantico classifica e maschera gli oggetti dinamici, prevenendo errori di navigazione.

La VIO standard tratta il mondo come una nuvola di punti privi di significato. Un angolo è un angolo, sia che si trovi su un edificio sia che si trovi su un camion in movimento. Questo crea una modalità di guasto devastante: se il drone traccia caratteristiche su un oggetto in movimento e presume che siano stazionarie, calcola erroneamente il proprio movimento per compensare. Il drone crede di muoversi quando non lo sta facendo, o viceversa.

Ci è successo durante un test all'aperto. Un camion delle consegne è passato attraverso il fotogramma, e il drone ha sobbalzato di lato cercando di "correggere" un movimento che non era il suo. Mi si è stretto lo stomaco. In un pozzo minerario o vicino a una tubazione, quel sobbalzo è uno schianto.

La soluzione ha richiesto quello che io considero il salto dalla navigazione alla comprensione. Eseguiamo modelli di deep learning — reti di segmentazione semantica — che classificano ogni pixel del fotogramma. Auto. Persona. Albero che ondeggia al vento. Queste regioni dinamiche vengono mascherate ed escluse interamente dalla pipeline VIO. Il drone traccia solo caratteristiche statiche dello sfondo.

Lo SLAM geometrico vede punti, linee e piani. Lo SLAM semantico vede "porta", "parete", "camion". Quella differenza è la differenza tra un sistema che naviga e un sistema che capisce dove si trova.

Questo livello semantico fa qualcos'altro di notevole: abilita la navigazione a lungo termine. Le caratteristiche geometriche — l'intensità dei pixel di un angolo — cambiano con l'illuminazione. Lo stesso edificio appare completamente diverso a mezzogiorno rispetto a mezzanotte. Ma il concetto di "finestra" o "porta" è invariante rispetto all'illuminazione. Un drone con SLAM semantico può riconoscere un luogo visitato durante il giorno anche quando vi ritorna di notte, purché la struttura semantica sia visibile.

Abilita inoltre comandi centrati sull'uomo. "Vola attraverso la porta". "Ispeziona il serbatoio rosso". Non "vola alle coordinate 47.3821, -122.3456". Per gli operatori in ambienti ad alto stress — un responsabile di miniera dopo un'esplosione, un soldato sotto il fuoco — quella differenza nel carico cognitivo è enorme.

La trappola dell'IA cloud che per poco non ci frega

Un diagramma che mette a confronto le architetture dipendenti dal cloud rispetto all'elaborazione interamente edge, mostrando i problemi di latenza e vulnerabilità della dipendenza dal cloud.

All'inizio, prima che ci fossimo impegnati completamente sull'elaborazione edge, qualcuno nel mio team ha proposto un'architettura ibrida: eseguire la VIO localmente ma trasmettere il video al cloud per l'elaborazione semantica. Sulla carta, aveva senso. Le GPU cloud sono potenti. Perché stipare tutto su una minuscola scheda embedded?

Abbiamo costruito un prototipo. Funzionava in laboratorio, dove avevamo un Wi-Fi perfetto. Poi lo abbiamo testato con condizioni di rete realistiche — 4G simulato con cadute occasionali di connessione — e abbiamo visto la maschera semantica arrivare 300 millisecondi dopo il momento in cui il drone ne aveva bisogno. A 20 metri al secondo, sono sei metri di volo cieco. Il drone stava prendendo decisioni di navigazione in base a dove gli oggetti dinamici erano, non a dove sono.

Fu una discussione di squadra che si fece accesa. Una fazione voleva ottimizzare il percorso di rete. Ho fatto valere la mia autorità — l'unica volta che l'ho fatto su una decisione tecnica — e ho detto che andiamo interamente edge. Nessuna dipendenza dal cloud. Punto.

Ecco perché sono stato così ostinato al riguardo. Nelle applicazioni di difesa, un drone che trasmette video al cloud è un radiofaro. Le risorse nemiche di radiogoniometria possono triangolarlo. Hai costruito un drone "intelligente" che annuncia la propria posizione a chiunque abbia uno scanner RF. In ambito industriale, la copertura di rete all'interno di una miniera o tra i serbatoi di stoccaggio è nel migliore dei casi inaffidabile. E in entrambi i casi, la latenza non è solo la latenza media — è la tail latency, il caso peggiore del 99° percentile, che ti uccide. Un picco momentaneo dovuto a congestione o handover della cella telefonica, e il tuo anello di controllo diventa instabile.

Se l'intelligenza del tuo drone risiede nel cloud, recidere il collegamento di rete non degrada il sistema — lo lobotomizza. Il drone non diventa più lento. Diventa stupido.

La ricerca dimostra che il telecomando diventa praticamente incontrollabile oltre i 700 millisecondi di latenza. E il jitter — la varianza nella latenza — è peggiore di un ritardo costante, perché gli algoritmi di controllo possono compensare un ritardo noto ma oscillano in modo selvaggio quando il ritardo continua a cambiare.

Abbiamo spostato tutto a bordo. Ogni rete neurale, ogni ciclo di ottimizzazione, ogni decisione. Per la scomposizione tecnica completa della nostra architettura, inclusi gli specifici approcci di fusione dei sensori e i confronti tra algoritmi, ho pubblicato la nostra ricerca dettagliata.

Come si fa a eseguire tutto questo su un dispositivo che vola?

Questa è la parte che, onestamente, mi tiene sveglio la notte. Eseguire un'ottimizzazione non lineare per la VIO contemporaneamente a reti neurali convoluzionali per la segmentazione semantica, il tutto a oltre 30 fotogrammi al secondo, su una scheda che pesa grammi e assorbe watt — non kilowatt — è un problema ingegneristico che non lascia spazio a trascuratezze.

Costruiamo sulla NVIDIA Jetson Orin NX, che eroga 100 TOPS (mille miliardi di operazioni al secondo) in un fattore di forma embedded assorbendo dai 10 ai 25 watt. È una quantità sbalorditiva di potenza di calcolo per qualcosa che puoi tenere in mano. Ma il silicio grezzo non basta.

Usiamo TensorRT di NVIDIA per compilare le nostre reti neurali con quantizzazione Int8 — convertendo i pesi in virgola mobile a 32 bit in interi a 8 bit. Sembra un'approssimazione brutale, e lo è, ma se fatta con cura raddoppia o triplica il throughput di inferenza con una perdita di accuratezza minima. Scarichiamo il tracciamento delle caratteristiche su core acceleratori di visione dedicati, liberando la GPU per il deep learning. Il backend di ottimizzazione non lineare — il bundle adjustment, il cuore matematico dello SLAM — viene eseguito come kernel CUDA parallelizzati.

Il risultato è una pipeline di calcolo eterogenea in cui il controllore di volo riceve aggiornamenti di odometria a oltre 50 Hz indipendentemente dalla complessità della scena. Il drone non balbetta quando entra in un ambiente visivamente complesso. Non rallenta quando ha bisogno di pensare più intensamente.

Cosa succede quando il drone si perde?

Questa era un'altra paura che mi teneva sveglio. La VIO ti dà una coerenza locale — "mi sono spostato 5 metri in avanti" — ma accumula deriva nel tempo. Senza il GPS a fornire un riferimento di posizione assoluta, come si evita che gli errori si accumulino durante una missione lunga?

La risposta è la chiusura del ciclo (loop closure), ed è una delle idee più eleganti della robotica. Quando il drone ritorna in un'area visitata in precedenza, il sistema confronta l'impronta visiva attuale con la mappa memorizzata. Se riconosce dove si trova, calcola la deriva totale accumulata dall'ultima visita e riporta l'intera traiettoria all'allineamento. È come una correzione GPS interna del drone stesso, tranne che deriva dal riconoscimento piuttosto che dai satelliti.

Usiamo una versione modificata di ORB-SLAM3 — il primo sistema in grado di fondere più mappe. Se il drone perde il tracciamento durante una manovra aggressiva (o viene "rapito", come lo chiamano affettuosamente i robotici), inizia a costruire una nuova mappa. Quando in seguito riconosce un luogo mappato in precedenza, fonde le mappe. Questo rende il sistema notevolmente resiliente esattamente al tipo di disturbi che ci si aspetterebbe nelle operazioni reali.

Abbiamo potenziato l'estrazione standard di caratteristiche ORB con il deep learning — le reti SuperPoint e SuperGlue che trovano e associano caratteristiche anche in condizioni di illuminazione difficili, dove la visione artificiale tradizionale fallisce. Questo approccio ibrido ci offre il robusto backend matematico di ORB-SLAM3 con la capacità percettiva delle moderne reti neurali.

Chi ha realmente bisogno di questo?

Le persone mi chiedono sempre se questa sia una soluzione in cerca di un problema. Non lo è. Il problema ci grida contro da tre direzioni simultaneamente.

Nella difesa, la negazione del GNSS è la prima mossa nella guerra moderna. È asimmetrica — un economico disturbatore da terra neutralizza costose risorse aeree su vaste aree. I droni dotati di VIO possono agganciare un bersaglio visivamente ed eseguire in modo autonomo anche dopo che il collegamento di comando e controllo è stato reciso. Operano in totale silenzio radio, invisibili agli scanner RF. Un singolo operatore può schierare uno sciame che naviga un corridoio senza copertura GPS usando nient'altro che la percezione a bordo.

Nell'attività mineraria, l'ambiente è naturalmente privo di copertura GPS. Dopo un'esplosione, le camere di coltivazione si riempiono di polvere e gas tossici. Attendere il via libera umano costa denaro e mette a rischio vite. Un drone abilitato alla VIO vola in immediatamente, ispeziona la frammentazione della roccia e la stabilità strutturale, e restituisce i dati in minuti invece dei giorni che richiede un rilievo manuale. Le operazioni con droni possono ridurre i costi di ispezione fino al 70% rispetto ai metodi tradizionali — ma solo se il drone può effettivamente volare dove serve.

Nell'ispezione delle infrastrutture, l'economia è spietata. I guasti alle tubazioni costano milioni. I droni sono la risposta — ma ispezionare la parte inferiore di un ponte o la base di un parco serbatoi li mette in zone d'ombra del GPS dove non riescono a mantenere il preciso mantenimento di posizione richiesto per l'imaging ad alta risoluzione. La VIO risolve questo. Il drone mantiene la posizione con precisione a livello di centimetri indipendentemente dalla visibilità satellitare, trasformando la manutenzione reattiva in manutenzione predittiva.

La parola che deve cambiare

Sono diventato in qualche modo ossessionato dalla distinzione tra "automatizzato" e "autonomo". Un sistema automatizzato esegue uno script predefinito basato su input esterni — coordinate GPS, comandi del pilota. Rimuovi gli input, e lo script si blocca. Un sistema autonomo percepisce il proprio ambiente, determina il proprio stato e prende decisioni senza affidamento esterno.

Quasi ogni drone commerciale sul mercato oggi è automatizzato. L'industria li chiama autonomi perché la parola vende meglio. Ma la distinzione non è semantica — è la differenza tra un sistema che funziona quando tutto va bene e un sistema che funziona quando tutto va male.

L'era dei droni automatizzati — dipendenti da fragili cordoni satellitari e connettività cloud — sta finendo. Il futuro appartiene ai sistemi che portano la propria intelligenza con sé.

Noi in Veriprajna non incapsuliamo API. Non facciamo fine-tuning di modelli linguistici chiamandolo robotica. Progettiamo gli stack fondamentali di navigazione e percezione che permettono alle macchine di esistere e agire nel mondo fisico — di percepire, comprendere e navigare senza chiedere il permesso a nessuno.

Per il comandante militare, l'operatore minerario e il responsabile delle infrastrutture, questa distinzione non è accademica. È la differenza tra una missione che riesce e una macchina che cade dal cielo.

Il cielo non sarebbe mai stato lì per sempre. Abbiamo semplicemente costruito come se lo sarebbe stato.

Related Research

Also Published On