
Tu dron no es autónomo: solo está automatizado en un mundo que aún no ha intentado matarlo
Hay un momento al que sigo volviendo. Estábamos realizando un vuelo de prueba en un corredor simulado sin GPS: nada sofisticado, solo un cuadricóptero estándar con nuestra pila de navegación acoplada. El módulo GPS estaba físicamente desconectado. Mi ingeniero, que había pasado tres semanas ajustando la tubería de Odometría Visual-Inercial, estaba de pie a mi lado con los brazos cruzados, mordisqueando el capuchón de un bolígrafo. El dron despegó, se quedó suspendido y comenzó a abrirse camino a través del entorno de prueba usando únicamente una cámara estéreo y una IMU.
Entonces me acerqué y encendí un inhibidor de GPS de nivel de consumo que habíamos comprado para las pruebas. Nada cambió. El dron ni se inmutó. No sabía que hubiera nada por lo que inmutarse: nunca había estado escuchando al cielo, para empezar.
Ese fue el momento en que comprendí, de forma visceral, lo que habíamos estado discutiendo en pizarras y en hilos de Slack durante meses. El dron no era resistente a la interferencia. Era indiferente a ella. Y esa indiferencia —esa total independencia de una señal que puede ser borrada por un dispositivo de 50 dólares— es el objetivo de todo.
Soy Ashutosh, fundador de Veriprajna. Construimos sistemas de navegación y percepción para drones que operan en entornos donde el GPS no existe, donde la conectividad en la nube es una fantasía, y donde "regresar a casa" no significa nada si no sabes dónde estás. Quiero contarte por qué la palabra "autónomo", tal como la usa la industria de los drones, es una mentira, y qué se necesita realmente para construir una máquina que pueda pensar por sí misma.
La suposición de mil millones de dólares al día que nadie cuestiona
Aquí tienes un número que debería inquietarte: el GPS genera aproximadamente 1,4 billones de dólares en beneficios económicos para el sector privado de EE. UU. Una pérdida del servicio de GPS le costaría a la economía estadounidense alrededor de 1000 millones de dólares al día. Hemos construido la logística, la agricultura, las finanzas y la infraestructura de defensa de toda una civilización sobre señales transmitidas desde 20 200 kilómetros por encima de la Tierra: señales que llegan a tu receptor con la potencia de una bombilla de 25 vatios vista desde 16 000 kilómetros de distancia.
Eso no es una metáfora. Esa es la intensidad real de la señal. Y todos los fabricantes de drones del mundo han construido sus sistemas "autónomos" sobre ella.
Pasé años en el campo de la IA antes de fundar Veriprajna, y lo que me radicalizó respecto a la navegación de drones fue ver imágenes de Ucrania. Los drones FPV —baratos, eficaces, responsables de un estimado 70 % de las bajas de tropas— pierden rutinariamente el GPS entre 5 y 10 kilómetros de los despliegues de guerra electrónica de primera línea. Sistemas rusos como el R-330Zh Zhitel crean una denegación de área casi constante. Cuando el GPS se apaga, estos drones no se degradan con elegancia. Se convierten, como he empezado a llamarlos, en pisapapeles caros.
Un dron que depende del GPS para su estabilidad no es autónomo. Está automatizado dentro de un entorno permisivo. Elimina el permiso y eliminas la autonomía.
Este no es solo un problema militar. Es un problema de física que aparece en todas partes donde las señales de GPS no pueden llegar: minas subterráneas, cañones urbanos, la parte inferior de los puentes, los estrechos huecos entre tanques de almacenamiento de petróleo. En cualquier lugar donde la señal rebote, se degrade o simplemente no penetre.
¿Por qué asumimos que el cielo siempre estaría ahí?
Creo que la respuesta honesta es la comodidad. El GPS es mágico: gratuito, global, lo bastante preciso para la mayoría de las cosas. Cuando estás construyendo una empresa de drones, el problema de la navegación parece resuelto desde el primer día. Conectas un módulo GPS, escribes algo de lógica de puntos de ruta y lo llamas autónomo. Lo lanzas al mercado.
La primera vez que presenté nuestro enfoque —construir la navegación desde cero usando visión a bordo y detección inercial— un inversor me miró y dijo: "¿Por qué no usarías simplemente un GPS mejor?". Traté de explicarle que "un GPS mejor" es un oxímoron cuando alguien está tratando activamente de negarte el GPS. No quedó convencido. Nunca había tenido que pensar en un mundo donde la infraestructura falla.
Pero la infraestructura sí falla. En la minería, nunca estuvo ahí para empezar. Un dron que inspecciona una cámara de explotación después de una voladura —volando a través de polvo y gases potencialmente tóxicos en total oscuridad— tiene cero señal de satélite. En la inspección de tuberías de petróleo y gas, donde un solo fallo puede costar 8,5 millones de dólares frente a los 75 000 dólares de una reparación detectada a tiempo, los drones necesitan volar en las sombras de GPS creadas por estructuras metálicas enormes. El efecto multitrayecto corrompe los cálculos de temporización e introduce errores de posición de varios metros. Varios metros, cuando vuelas junto a una tubería presurizada.
La respuesta de la industria ha sido el flujo óptico: una cámara orientada hacia abajo que rastrea la textura del suelo. Es mejor que nada. Pero necesita buena iluminación, necesita textura visible, y aun así depende del GPS como referencia de guiñada y altitud. Es un parche, no una solución.
¿Qué significa realmente navegar sin GPS?

Aquí es donde necesito llevarte al interior de la ingeniería, porque la solución es hermosa de la misma forma en que la biología es hermosa. Piensa en cómo te orientas en una habitación oscura. No usas GPS. Usas los ojos y el oído interno: la visión y tu sistema vestibular. Ves puntos de referencia, sientes la aceleración y la rotación, y tu cerebro fusiona esas dos corrientes en una sensación continua de dónde estás.
La Odometría Visual-Inercial —VIO— hace exactamente esto para un dron. Una cámara rastrea rasgos distintivos (esquinas, bordes, textura) a lo largo de fotogramas sucesivos. Una Unidad de Medición Inercial, o IMU, mide la aceleración y la rotación a una frecuencia extremadamente alta, a menudo de 200 a 1000 veces por segundo. Ninguno de los sensores funciona por sí solo. La cámara es demasiado lenta y no puede juzgar la escala absoluta. La IMU deriva catastróficamente: integrar dos veces la aceleración para obtener la posición significa que los errores crecen cuadráticamente con el tiempo. Una IMU de nivel de consumo puede derivar metros en segundos.
Pero fusionados, anulan las debilidades del otro. La IMU proporciona una predicción de estado de alta frecuencia y maneja las maniobras rápidas donde las imágenes se difuminan. La cámara ancla la estimación derivante de la IMU a puntos de referencia fijos en el mundo. El resultado: tasas de deriva tan bajas como el 1–2 % de la distancia recorrida, incluso en entornos sin GPS. Sin satélites. Sin señales externas. Nada que interferir.
Escribí sobre esta arquitectura de fusión en profundidad en la versión interactiva de nuestra investigación, pero la idea clave es más simple que las matemáticas: La VIO es imposible de interferir porque es pasiva. Recibe luz y siente inercia. No hay señal que interceptar, ni frecuencia que saturar, ni enlace que cortar.
La noche en que rompimos nuestro propio sistema
Quiero ser honesto sobre algo. La VIO no es magia. Lo aprendimos por las malas.
Unos cuatro meses después de iniciar el desarrollo, estábamos probando en un almacén: suelos de hormigón, paredes blancas, iluminación fluorescente. El dron despegó, voló de maravilla durante unos treinta segundos, y luego empezó a derivar de lado como si estuviera borracho. Mi ingeniero principal sacó los registros y se quedó callado un largo rato. Luego levantó la vista y dijo: "No puede ver nada".
Paredes blancas. Hormigón uniforme. Sin textura, sin esquinas, sin rasgos que rastrear. La cámara estaba mirando un lienzo en blanco, y la tubería de VIO funcionaba con pura integración de la IMU, lo que significaba que estaba acumulando deriva a un ritmo aterrador.
Ese fallo nos enseñó más que cualquier éxito. Pasamos las siguientes semanas integrando dos mitigaciones críticas. Primero, la fusión LiDAR-VIO: añadir un LiDAR de estado sólido ligero que proporciona datos geométricos densos incluso en la oscuridad total o en entornos sin rasgos. La nube de puntos del LiDAR le da al sistema restricciones geométricas cuando las cámaras fallan. Segundo, y aquí es donde se pone interesante, el enmascaramiento semántico.
¿Por qué un sistema de navegación necesita entender lo que ve?

La VIO estándar trata el mundo como una nube de puntos sin significado. Una esquina es una esquina tanto si está en un edificio como en un camión en movimiento. Esto crea un modo de fallo devastador: si el dron rastrea rasgos en un objeto en movimiento y asume que están inmóviles, calcula mal su propio movimiento para compensar. El dron cree que se está moviendo cuando no lo hace, o viceversa.
Esto nos pasó durante una prueba al aire libre. Un camión de reparto atravesó el encuadre, y el dron dio un tirón lateral tratando de "corregir" un movimiento que no era el suyo. Se me hizo un nudo en el estómago. En el pozo de una mina o cerca de una tubería, ese tirón es un choque.
La solución requería lo que considero el salto de la navegación a la comprensión. Ejecutamos modelos de aprendizaje profundo —redes de segmentación semántica— que clasifican cada píxel del encuadre. Coche. Persona. Árbol movido por el viento. Estas regiones dinámicas se enmascaran por completo fuera de la tubería de VIO. El dron solo rastrea rasgos estáticos del fondo.
El SLAM geométrico ve puntos, líneas y planos. El SLAM semántico ve "puerta", "pared", "camión". Esa diferencia es la diferencia entre un sistema que navega y un sistema que entiende dónde está.
Esta capa semántica hace otra cosa notable: permite la navegación a largo plazo. Los rasgos geométricos —la intensidad de los píxeles de una esquina— cambian con la iluminación. El mismo edificio se ve completamente diferente al mediodía que a medianoche. Pero el concepto de una "ventana" o una "puerta" es invariante a la iluminación. Un dron con SLAM semántico puede reconocer un lugar visitado durante el día incluso cuando regresa de noche, siempre que la estructura semántica sea visible.
También permite comandos centrados en el ser humano. "Vuela a través de la puerta". "Inspecciona el tanque rojo". No "vuela a la coordenada 47.3821, -122.3456". Para operadores en entornos de alto estrés —un gerente de mina después de una voladura, un soldado bajo fuego— esa diferencia en la carga cognitiva es enorme.
La trampa de la IA en la nube que casi nos atrapa

Al principio, antes de comprometernos por completo con el procesamiento en el borde, alguien de mi equipo propuso una arquitectura híbrida: ejecutar la VIO localmente pero transmitir el vídeo a la nube para el procesamiento semántico. Sobre el papel, tenía sentido. Las GPU en la nube son potentes. ¿Por qué embutir todo en una diminuta placa embebida?
Construimos un prototipo. Funcionó en el laboratorio, donde teníamos wifi perfecto. Luego lo probamos con condiciones de red realistas —4G simulado con cortes ocasionales— y vimos llegar la máscara semántica 300 milisegundos después de que el dron la necesitara. A 20 metros por segundo, eso son seis metros de vuelo a ciegas. El dron estaba tomando decisiones de navegación basándose en dónde estaban los objetos dinámicos, no en dónde están.
Esa fue una discusión de equipo que subió de tono. Un bando quería optimizar la ruta de la red. Hice valer mi rango —la única vez que lo he hecho en una decisión técnica— y dije que íbamos totalmente al borde. Sin dependencia de la nube. Punto.
Aquí está el porqué de mi terquedad. En aplicaciones de defensa, un dron que transmite vídeo a la nube es una baliza de radio. Los medios enemigos de localización de dirección pueden triangularlo. Has construido un dron "inteligente" que anuncia su posición a todo el que tenga un escáner de RF. En entornos industriales, la cobertura de red dentro de una mina o entre tanques de almacenamiento es poco fiable en el mejor de los casos. Y en ambos casos, la latencia no es solo la latencia media: es la latencia de cola, el peor caso del percentil 99, lo que te mata. Un pico momentáneo por congestión o por el traspaso entre torres de telefonía, y tu bucle de control se vuelve inestable.
Si la inteligencia de tu dron vive en la nube, cortar el enlace de red no degrada el sistema: lo lobotomiza. El dron no se vuelve más lento. Se vuelve estúpido.
La investigación muestra que la teleoperación se vuelve prácticamente incontrolable por encima de los 700 milisegundos de latencia. Y la fluctuación —la varianza en la latencia— es peor que un retardo constante, porque los algoritmos de control pueden compensar un retraso conocido pero oscilan de forma descontrolada cuando el retraso no deja de cambiar.
Lo trasladamos todo a bordo. Cada red neuronal, cada bucle de optimización, cada decisión. Para conocer el desglose técnico completo de nuestra arquitectura, incluidos los enfoques específicos de fusión de sensores y las comparaciones de algoritmos, he publicado nuestra investigación detallada.
¿Cómo se ejecuta todo esto en un dispositivo que vuela?
Esta es la parte que, honestamente, me quita el sueño. Ejecutar una optimización no lineal para la VIO simultáneamente con redes neuronales convolucionales para la segmentación semántica, todo a más de 30 fotogramas por segundo, en una placa que pesa gramos y consume vatios —no kilovatios— es un problema de ingeniería que no tiene margen para la negligencia.
Construimos sobre la NVIDIA Jetson Orin NX, que ofrece 100 TOPS (billones de operaciones por segundo) en un factor de forma embebido que consume de 10 a 25 vatios. Es una cantidad asombrosa de cómputo para algo que puedes sostener en la mano. Pero el silicio en bruto no basta.
Usamos TensorRT de NVIDIA para compilar nuestras redes neuronales con cuantización Int8, convirtiendo los pesos de punto flotante de 32 bits en enteros de 8 bits. Esto suena como una aproximación brutal, y lo es, pero hecho con cuidado duplica o triplica el rendimiento de inferencia con una pérdida de precisión mínima. Descargamos el rastreo de rasgos a núcleos aceleradores de visión dedicados, liberando la GPU para el aprendizaje profundo. El backend de optimización no lineal —el ajuste de haces, el corazón matemático del SLAM— se ejecuta como núcleos CUDA paralelizados.
El resultado es una tubería de computación heterogénea donde el controlador de vuelo recibe actualizaciones de odometría a más de 50 Hz independientemente de la complejidad de la escena. El dron no se entrecorta cuando entra en un entorno visualmente complejo. No se ralentiza cuando necesita pensar más.
¿Qué pasa cuando el dron se pierde?
Este fue otro miedo que me mantenía despierto. La VIO te da consistencia local —"me moví 5 metros hacia adelante"— pero acumula deriva con el tiempo. Sin un GPS que proporcione una fijación de posición absoluta, ¿cómo se evita que los errores se acumulen a lo largo de una misión larga?
La respuesta es el cierre de bucle, y es una de las ideas más elegantes de la robótica. Cuando el dron regresa a un área visitada previamente, el sistema compara la huella visual actual con su mapa almacenado. Si reconoce dónde está, calcula la deriva total acumulada desde la última visita y encaja de golpe toda la trayectoria de nuevo en su alineación. Es como la propia corrección de GPS interna del dron, salvo que proviene del reconocimiento en lugar de los satélites.
Usamos una versión modificada de ORB-SLAM3, el primer sistema capaz de fusionar múltiples mapas. Si el dron pierde el rastreo durante una maniobra agresiva (o es "secuestrado", como lo llaman con gracia los roboticistas), empieza a construir un mapa nuevo. Cuando más tarde reconoce un lugar previamente cartografiado, fusiona los mapas. Esto hace que el sistema sea notablemente resistente exactamente al tipo de perturbaciones que cabría esperar en operaciones reales.
Mejoramos la extracción de rasgos ORB estándar con aprendizaje profundo: las redes SuperPoint y SuperGlue que encuentran y emparejan rasgos incluso en iluminación desafiante donde la visión por computador tradicional falla. Este enfoque híbrido nos da el robusto backend matemático de ORB-SLAM3 con la capacidad perceptiva de las redes neuronales modernas.
¿Quién necesita realmente esto?
La gente siempre me pregunta si esto es una solución en busca de un problema. No lo es. El problema nos está gritando desde tres direcciones simultáneamente.
En defensa, la denegación de GNSS es el primer movimiento de la guerra moderna. Es asimétrica: un inhibidor barato con base en tierra neutraliza costosos activos aéreos sobre vastas áreas. Los drones equipados con VIO pueden fijar un objetivo visualmente y ejecutar de forma autónoma incluso después de que el enlace de mando y control haya sido cortado. Operan en total silencio de radio, invisibles para los escáneres de RF. Un solo operador puede desplegar un enjambre que navega un corredor sin GPS usando únicamente la percepción a bordo.
En la minería, el entorno está naturalmente privado de GPS. Después de una voladura, las cámaras de explotación se llenan de polvo y gases tóxicos. Esperar la autorización humana cuesta dinero y arriesga vidas. Un dron habilitado con VIO entra volando de inmediato, inspecciona la fragmentación de la roca y la estabilidad estructural, y devuelve los datos en minutos en lugar de los días que requiere un reconocimiento manual. Las operaciones con drones pueden reducir los costes de inspección hasta en un 70 % en comparación con los métodos tradicionales, pero solo si el dron puede realmente volar a donde necesita.
En la inspección de infraestructuras, la economía es brutal. Los fallos de tuberías cuestan millones. Los drones son la respuesta, pero inspeccionar la parte inferior de un puente o la base de un parque de tanques los pone en sombras de GPS donde no pueden mantener el preciso mantenimiento de posición que requieren las imágenes de alta resolución. La VIO resuelve esto. El dron mantiene la posición con precisión de nivel centimétrico independientemente de la visibilidad satelital, convirtiendo el mantenimiento reactivo en mantenimiento predictivo.
La palabra que necesita cambiar
Me he vuelto algo obsesionado con la distinción entre "automatizado" y "autónomo". Un sistema automatizado ejecuta un guion predefinido basado en entradas externas: coordenadas GPS, comandos del piloto. Elimina las entradas, y el guion se colapsa. Un sistema autónomo percibe su entorno, determina su estado y toma decisiones sin dependencia externa.
Casi todos los drones comerciales del mercado hoy en día están automatizados. La industria los llama autónomos porque la palabra vende mejor. Pero la distinción no es semántica: es la diferencia entre un sistema que funciona cuando todo va bien y un sistema que funciona cuando todo va mal.
La era de los drones automatizados —dependientes de frágiles ataduras satelitales y de la conectividad en la nube— está terminando. El futuro pertenece a los sistemas que llevan su inteligencia consigo.
En Veriprajna no envolvemos API. No afinamos modelos de lenguaje y lo llamamos robótica. Diseñamos las pilas fundamentales de navegación y percepción que permiten a las máquinas existir y actuar en el mundo físico: percibir, entender y navegar sin pedirle permiso a nadie.
Para el comandante de defensa, el operador de la mina y el gerente de infraestructuras, esta distinción no es académica. Es la diferencia entre una misión que tiene éxito y una máquina que se cae del cielo.
El cielo nunca iba a estar ahí para siempre. Simplemente construimos como si fuera a estarlo.