
Votre drone n'est pas autonome — il est seulement automatisé dans un monde qui n'a pas encore essayé de le tuer
Il y a un moment auquel je reviens sans cesse. Nous effectuions un vol d'essai dans un corridor simulé privé de GPS — rien d'extraordinaire, juste un quadricoptère standard sur lequel nous avions boulonné notre pile de navigation. Le module GPS était physiquement débranché. Mon ingénieur, qui avait passé trois semaines à peaufiner le pipeline d'odométrie visuelle-inertielle, se tenait à côté de moi, les bras croisés, mâchouillant un capuchon de stylo. Le drone a décollé, s'est stabilisé en vol stationnaire, puis a commencé à se faufiler à travers l'environnement d'essai en n'utilisant rien d'autre qu'une caméra stéréo et une centrale inertielle.
Puis je me suis approché et j'ai allumé un brouilleur GPS grand public que nous avions acheté pour les tests. Rien n'a changé. Le drone n'a pas bronché. Il ne savait même pas qu'il y avait de quoi broncher — il n'avait jamais écouté le ciel de toute façon.
C'est à ce moment-là que j'ai compris, viscéralement, ce sur quoi nous débattions sur des tableaux blancs et dans des fils Slack depuis des mois. Le drone n'était pas résistant au brouillage. Il y était indifférent. Et cette indifférence — cette indépendance totale vis-à-vis d'un signal qui peut être effacé par un appareil à 50 $ — voilà tout l'enjeu.
Je suis Ashutosh, fondateur de Veriprajna. Nous construisons des systèmes de navigation et de perception pour drones qui opèrent dans des environnements où le GPS n'existe pas, où la connectivité au cloud relève du fantasme, et où « retour au point de départ » ne signifie rien si l'on ignore où l'on se trouve. Je veux vous expliquer pourquoi le mot « autonome », tel que l'emploie l'industrie du drone, est un mensonge, et ce qu'il faut réellement pour construire une machine capable de penser par elle-même.
L'hypothèse à 1 milliard de dollars par jour que personne ne remet en question
Voici un chiffre qui devrait vous troubler : le GPS génère environ 1 400 milliards de dollars de bénéfices économiques pour le secteur privé américain. Une perte du service GPS coûterait à l'économie américaine environ 1 milliard de dollars par jour. Nous avons bâti toute la logistique, l'agriculture, la finance et l'infrastructure de défense d'une civilisation entière sur des signaux transmis depuis 20 200 kilomètres au-dessus de la Terre — des signaux qui parviennent à votre récepteur avec la puissance d'une ampoule de 25 watts observée à 16 000 kilomètres de distance.
Ce n'est pas une métaphore. C'est la puissance réelle du signal. Et chaque fabricant de drones au monde a bâti ses systèmes « autonomes » par-dessus.
J'ai passé des années dans le domaine de l'IA avant de fonder Veriprajna, et ce qui m'a radicalisé au sujet de la navigation des drones, c'est de regarder les images venues d'Ukraine. Les drones FPV — bon marché, efficaces, responsables d'environ 70 % des pertes humaines parmi les troupes — perdent régulièrement le GPS dans un rayon de 5 à 10 kilomètres des déploiements de guerre électronique en première ligne. Les systèmes russes comme le R-330Zh Jitel créent un déni de zone quasi permanent. Quand le GPS s'éteint, ces drones ne se dégradent pas en douceur. Ils deviennent, comme j'ai commencé à les appeler, des presse-papiers hors de prix.
Un drone qui dépend du GPS pour sa stabilité n'est pas autonome. Il est automatisé au sein d'un environnement permissif. Retirez la permission, et vous retirez l'autonomie.
Ce n'est pas seulement un problème militaire. C'est un problème de physique qui surgit partout où les signaux GPS ne peuvent parvenir : les mines souterraines, les canyons urbains, le dessous des ponts, les interstices étroits entre les réservoirs de stockage de pétrole. Partout où le signal ricoche, se dégrade ou tout simplement ne pénètre pas.
Pourquoi avons-nous supposé que le ciel serait toujours là ?
Je pense que la réponse honnête est : la commodité. Le GPS est magique — gratuit, mondial, suffisamment précis pour la plupart des usages. Quand on monte une entreprise de drones, le problème de la navigation semble résolu dès le premier jour. On branche un module GPS, on écrit un peu de logique de points de passage, et on appelle ça autonome. On expédie.
La première fois que j'ai présenté notre approche — construire la navigation de A à Z à partir de la vision embarquée et de la détection inertielle — un investisseur m'a regardé et a dit : « Pourquoi ne pas simplement utiliser un meilleur GPS ? » J'ai essayé de lui expliquer qu'« un meilleur GPS » est un oxymore quand quelqu'un tente activement de vous priver de GPS. Il n'était pas convaincu. Il n'avait jamais eu à imaginer un monde où l'infrastructure défaille.
Mais l'infrastructure défaille bel et bien. Dans les mines, elle n'a jamais été là au départ. Un drone inspectant un chantier d'abattage après un tir de mine — volant à travers la poussière et des gaz potentiellement toxiques dans l'obscurité totale — n'a aucun signal satellite. Dans l'inspection des pipelines pétroliers et gaziers, où une seule défaillance peut coûter 8,5 millions de dollars contre 75 000 dollars pour une réparation détectée à temps, les drones doivent voler dans les ombres GPS créées par d'énormes structures métalliques. L'effet de trajets multiples corrompt les calculs de synchronisation et introduit des erreurs de position de plusieurs mètres. Plusieurs mètres, quand on vole à côté d'un pipeline sous pression.
La réponse de l'industrie a été le flux optique — une caméra orientée vers le bas qui suit la texture du sol. C'est mieux que rien. Mais cela nécessite un bon éclairage, cela nécessite une texture visible, et cela repose toujours sur le GPS comme référence de lacet et d'altitude. C'est un pansement, pas une solution.
Que signifie réellement naviguer sans GPS ?

C'est ici que je dois vous emmener au cœur de l'ingénierie, car la solution est belle de la même façon que la biologie est belle. Pensez à la façon dont vous vous orientez dans une pièce sombre. Vous n'utilisez pas de GPS. Vous utilisez vos yeux et votre oreille interne — la vision et votre système vestibulaire. Vous voyez des repères, vous ressentez l'accélération et la rotation, et votre cerveau fusionne ces deux flux en un sens continu de l'endroit où vous êtes.
L'odométrie visuelle-inertielle — VIO — fait exactement cela pour un drone. Une caméra suit des caractéristiques distinctives (coins, arêtes, texture) au fil des images successives. Une centrale inertielle, ou IMU, mesure l'accélération et la rotation à une fréquence extrêmement élevée, souvent de 200 à 1000 fois par seconde. Aucun des deux capteurs ne fonctionne seul. La caméra est trop lente et ne peut juger de l'échelle absolue. L'IMU dérive de façon catastrophique — la double intégration de l'accélération pour obtenir la position signifie que les erreurs croissent de manière quadratique avec le temps. Une IMU grand public peut dériver de plusieurs mètres en quelques secondes.
Mais fusionnés, ils annulent leurs faiblesses respectives. L'IMU fournit une prédiction d'état à haute cadence et gère les manœuvres rapides où les images se brouillent. La caméra ancre l'estimation dérivante de l'IMU à des repères fixes dans le monde. Le résultat : des taux de dérive aussi faibles que 1 à 2 % de la distance parcourue, même dans des environnements privés de GPS. Pas de satellites. Aucun signal externe. Rien à brouiller.
J'ai écrit en profondeur sur cette architecture de fusion dans la version interactive de notre recherche, mais l'idée clé est plus simple que les mathématiques : la VIO est impossible à brouiller parce qu'elle est passive. Elle reçoit la lumière et ressent l'inertie. Il n'y a aucun signal à intercepter, aucune fréquence à saturer, aucune liaison à couper.
La nuit où nous avons cassé notre propre système
Je veux être honnête sur un point. La VIO n'est pas magique. Nous l'avons appris à nos dépens.
Environ quatre mois après le début du développement, nous effectuions des tests dans un entrepôt — sols en béton, murs blancs, éclairage fluorescent. Le drone a décollé, a volé magnifiquement pendant une trentaine de secondes, puis s'est mis à dériver latéralement comme s'il était ivre. Mon ingénieur principal a sorti les journaux et est resté silencieux pendant un long moment. Puis il a levé les yeux et a dit : « Il ne voit rien. »
Murs blancs. Béton uniforme. Pas de texture, pas de coins, pas de caractéristiques à suivre. La caméra fixait une toile vierge, et le pipeline VIO tournait sur une pure intégration IMU — ce qui signifiait qu'il accumulait de la dérive à un rythme terrifiant.
Cet échec nous a appris plus que n'importe quel succès. Nous avons passé les semaines suivantes à intégrer deux mesures d'atténuation cruciales. Premièrement, la fusion LiDAR-VIO — l'ajout d'un LiDAR à semi-conducteurs léger qui fournit des données géométriques denses même dans l'obscurité totale ou les environnements sans caractéristiques. Le nuage de points du LiDAR donne au système des contraintes géométriques lorsque les caméras échouent. Deuxièmement, et c'est là que ça devient intéressant, le masquage sémantique.
Pourquoi un système de navigation doit-il comprendre ce qu'il voit ?

La VIO standard traite le monde comme un nuage de points dénués de sens. Un coin est un coin, qu'il soit sur un bâtiment ou sur un camion en mouvement. Cela crée un mode de défaillance dévastateur : si le drone suit des caractéristiques sur un objet en mouvement et les suppose immobiles, il calcule mal son propre mouvement pour compenser. Le drone croit qu'il bouge alors qu'il ne bouge pas, ou inversement.
Cela nous est arrivé lors d'un test en extérieur. Un camion de livraison a traversé le cadre, et le drone a fait une embardée latérale en tentant de « corriger » un mouvement qui n'était pas le sien. J'ai eu l'estomac noué. Dans un puits de mine ou près d'un pipeline, cette embardée, c'est un crash.
Le correctif a exigé ce que je considère comme le saut de la navigation vers la compréhension. Nous exécutons des modèles d'apprentissage profond — des réseaux de segmentation sémantique — qui classent chaque pixel du cadre. Voiture. Personne. Arbre agité par le vent. Ces régions dynamiques sont entièrement masquées du pipeline VIO. Le drone ne suit que les caractéristiques statiques de l'arrière-plan.
Le SLAM géométrique voit des points, des lignes et des plans. Le SLAM sémantique voit « porte », « mur », « camion ». Cette différence, c'est la différence entre un système qui navigue et un système qui comprend où il se trouve.
Cette couche sémantique fait autre chose de remarquable : elle permet la navigation à long terme. Les caractéristiques géométriques — l'intensité en pixels d'un coin — changent avec l'éclairage. Le même bâtiment a une apparence complètement différente à midi et à minuit. Mais le concept de « fenêtre » ou de « porte » est invariant à l'éclairage. Un drone doté d'un SLAM sémantique peut reconnaître un lieu visité de jour même en y revenant de nuit, tant que la structure sémantique est visible.
Elle permet aussi des commandes centrées sur l'humain. « Passe par la porte. » « Inspecte le réservoir rouge. » Et non « vole vers les coordonnées 47.3821, -122.3456 ». Pour les opérateurs en environnement à fort stress — un chef de mine après un tir de mine, un soldat sous le feu — cette différence de charge cognitive est énorme.
Le piège de l'IA dans le cloud qui a failli nous avoir

Au début, avant que nous nous soyons pleinement engagés dans le traitement à la périphérie, quelqu'un de mon équipe a proposé une architecture hybride : exécuter la VIO localement mais diffuser la vidéo vers le cloud pour le traitement sémantique. Sur le papier, cela avait du sens. Les GPU du cloud sont puissants. Pourquoi tout entasser sur une minuscule carte embarquée ?
Nous avons construit un prototype. Il fonctionnait en laboratoire, où nous avions un Wi-Fi parfait. Puis nous l'avons testé dans des conditions réseau réalistes — une 4G simulée avec des coupures occasionnelles — et nous avons vu le masque sémantique arriver 300 millisecondes après que le drone en avait besoin. À 20 mètres par seconde, cela représente six mètres de vol à l'aveugle. Le drone prenait des décisions de navigation en fonction de l'endroit où les objets dynamiques se trouvaient, et non de l'endroit où ils se trouvent.
Ce fut une dispute d'équipe qui est montée en volume. Un camp voulait optimiser le chemin réseau. J'ai imposé mon autorité — la seule fois où je l'ai fait sur une décision technique — et j'ai dit : on passe entièrement à la périphérie. Aucune dépendance au cloud. Point final.
Voici pourquoi j'ai été si têtu à ce sujet. Dans les applications de défense, un drone qui diffuse de la vidéo vers le cloud est une balise radio. Les moyens de radiogoniométrie ennemis peuvent le trianguler. Vous avez construit un drone « intelligent » qui annonce sa position à quiconque possède un scanner RF. En milieu industriel, la couverture réseau à l'intérieur d'une mine ou entre des réservoirs de stockage est au mieux peu fiable. Et dans les deux cas, la latence n'est pas seulement la latence moyenne — c'est la latence de queue, le pire cas du 99e centile, qui vous tue. Un pic momentané dû à la congestion ou au transfert entre antennes cellulaires, et votre boucle de contrôle devient instable.
Si l'intelligence de votre drone réside dans le cloud, couper la liaison réseau ne dégrade pas le système — cela le lobotomise. Le drone ne devient pas plus lent. Il devient stupide.
Les recherches montrent que la téléopération devient pratiquement incontrôlable au-delà de 700 millisecondes de latence. Et la gigue — la variance de la latence — est pire qu'un délai constant, car les algorithmes de contrôle peuvent compenser un décalage connu mais oscillent violemment lorsque le décalage change sans cesse.
Nous avons tout déplacé à bord. Chaque réseau de neurones, chaque boucle d'optimisation, chaque décision. Pour le détail technique complet de notre architecture, y compris les approches spécifiques de fusion de capteurs et les comparaisons d'algorithmes, j'ai publié notre recherche détaillée.
Comment faire tourner tout cela sur un appareil qui vole ?
C'est la partie qui m'empêche de dormir, honnêtement. Exécuter une optimisation non linéaire pour la VIO simultanément avec des réseaux de neurones convolutifs pour la segmentation sémantique, le tout à plus de 30 images par seconde, sur une carte qui pèse quelques grammes et consomme des watts — pas des kilowatts — est un problème d'ingénierie qui ne laisse aucune place à la négligence.
Nous nous appuyons sur le NVIDIA Jetson Orin NX, qui délivre 100 TOPS (mille milliards d'opérations par seconde) dans un format embarqué consommant de 10 à 25 watts. C'est une quantité stupéfiante de puissance de calcul pour quelque chose que l'on peut tenir dans la main. Mais le silicium brut ne suffit pas.
Nous utilisons TensorRT de NVIDIA pour compiler nos réseaux de neurones avec une quantification Int8 — convertissant les poids en virgule flottante 32 bits en entiers 8 bits. Cela ressemble à une approximation brutale, et ça l'est, mais bien réalisée, elle double ou triple le débit d'inférence avec une perte de précision minimale. Nous déchargeons le suivi des caractéristiques vers des cœurs accélérateurs de vision dédiés, libérant le GPU pour l'apprentissage profond. Le moteur d'optimisation non linéaire — l'ajustement de faisceaux, le cœur mathématique du SLAM — s'exécute sous forme de noyaux CUDA parallélisés.
Le résultat est un pipeline de calcul hétérogène où le contrôleur de vol reçoit des mises à jour d'odométrie à plus de 50 Hz, quelle que soit la complexité de la scène. Le drone ne bafouille pas lorsqu'il entre dans un environnement visuellement complexe. Il ne ralentit pas lorsqu'il doit réfléchir davantage.
Que se passe-t-il quand le drone se perd ?
Ce fut une autre peur qui me tenait éveillé. La VIO vous donne une cohérence locale — « je me suis déplacé de 5 mètres vers l'avant » — mais elle accumule de la dérive au fil du temps. Sans GPS fournissant un point de position absolu, comment empêcher les erreurs de se cumuler au cours d'une longue mission ?
La réponse est la fermeture de boucle, et c'est l'une des idées les plus élégantes de la robotique. Lorsque le drone revient dans une zone déjà visitée, le système compare l'empreinte visuelle actuelle à sa carte enregistrée. S'il reconnaît où il se trouve, il calcule la dérive totale accumulée depuis la dernière visite et réaligne d'un coup l'ensemble de la trajectoire. C'est comme la propre correction GPS interne du drone, sauf qu'elle provient de la reconnaissance plutôt que des satellites.
Nous utilisons une version modifiée d'ORB-SLAM3 — le premier système capable de fusionner plusieurs cartes. Si le drone perd le suivi lors d'une manœuvre agressive (ou se fait « kidnapper », comme les roboticiens l'appellent joliment), il commence à construire une nouvelle carte. Lorsqu'il reconnaît ensuite un lieu précédemment cartographié, il fusionne les cartes. Cela rend le système remarquablement résistant précisément au genre de perturbations auxquelles on s'attend en opérations réelles.
Nous avons enrichi l'extraction de caractéristiques ORB standard avec de l'apprentissage profond — les réseaux SuperPoint et SuperGlue qui trouvent et apparient des caractéristiques même dans des conditions d'éclairage difficiles où la vision par ordinateur traditionnelle échoue. Cette approche hybride nous donne le robuste moteur mathématique d'ORB-SLAM3 avec la capacité perceptuelle des réseaux de neurones modernes.
Qui a réellement besoin de cela ?
On me demande toujours s'il s'agit d'une solution en quête d'un problème. Ce n'est pas le cas. Le problème nous crie dessus depuis trois directions simultanément.
Dans la défense, le déni de GNSS est le premier coup de la guerre moderne. Il est asymétrique — un brouilleur au sol bon marché neutralise des moyens aériens coûteux sur de vastes zones. Les drones équipés de VIO peuvent verrouiller visuellement une cible et opérer de façon autonome même après que la liaison de commandement et de contrôle a été coupée. Ils opèrent dans un silence radio total, invisibles aux scanners RF. Un seul opérateur peut déployer un essaim qui navigue dans un corridor privé de GPS en n'utilisant rien d'autre que la perception embarquée.
Dans les mines, l'environnement est naturellement privé de GPS. Après un tir de mine, les chantiers d'abattage se remplissent de poussière et de gaz toxiques. Attendre l'autorisation humaine coûte de l'argent et met des vies en danger. Un drone doté de VIO y vole immédiatement, inspecte la fragmentation de la roche et la stabilité structurelle, et renvoie des données en quelques minutes au lieu des jours qu'exige un relevé manuel. Les opérations par drone peuvent réduire les coûts d'inspection jusqu'à 70 % par rapport aux méthodes traditionnelles — mais seulement si le drone peut réellement voler là où il en a besoin.
Dans l'inspection d'infrastructures, l'économie est impitoyable. Les défaillances de pipelines coûtent des millions. Les drones sont la réponse — mais inspecter le dessous d'un pont ou la base d'un parc de réservoirs les place dans des ombres GPS où ils ne peuvent maintenir le maintien de position précis requis pour une imagerie haute résolution. La VIO résout ce problème. Le drone tient sa position avec une précision centimétrique quelle que soit la visibilité des satellites, transformant la maintenance réactive en maintenance prédictive.
Le mot qui doit changer
Je suis devenu quelque peu obsédé par la distinction entre « automatisé » et « autonome ». Un système automatisé exécute un script prédéfini fondé sur des entrées externes — coordonnées GPS, commandes du pilote. Retirez les entrées, et le script s'effondre. Un système autonome perçoit son environnement, détermine son état et prend des décisions sans dépendance externe.
Presque tous les drones commerciaux sur le marché aujourd'hui sont automatisés. L'industrie les qualifie d'autonomes parce que le mot se vend mieux. Mais la distinction n'est pas sémantique — c'est la différence entre un système qui fonctionne quand tout se passe bien et un système qui fonctionne quand tout se passe mal.
L'ère des drones automatisés — dépendant de fragiles cordons satellites et de la connectivité au cloud — touche à sa fin. L'avenir appartient aux systèmes qui emportent leur intelligence avec eux.
Chez Veriprajna, nous n'emballons pas des API. Nous ne réglons pas finement des modèles de langage pour appeler cela de la robotique. Nous concevons les piles fondamentales de navigation et de perception qui permettent aux machines d'exister et d'agir dans le monde physique — de percevoir, de comprendre et de naviguer sans demander la permission à quiconque.
Pour le commandant de la défense, l'exploitant minier et le gestionnaire d'infrastructures, cette distinction n'est pas académique. C'est la différence entre une mission qui réussit et une machine qui tombe du ciel.
Le ciel n'allait jamais rester là éternellement. Nous avons simplement construit comme s'il allait le rester.