Défense d'entreprise contre les deepfakes
En février 2024, des attaquants ont utilisé des deepfakes générés par IA de toute une équipe dirigeante pour dérober 25,6 millions de dollars à Arup lors d'un seul appel vidéo. Depuis janvier 2026, les polices d'assurance cyber standard excluent explicitement la fraude par deepfake. Si cela vous arrive, la perte n'est pas couverte. Nous construisons la défense en couches qui l'arrête.
680 000 $
Perte moyenne par incident deepfake en entreprise
Données entreprises 2024
1 300 %
Flambée de la fraude par deepfake, 2025 en glissement annuel
Rapport Pindrop Voice Intelligence
50-65 %
Précision réelle des outils de détection
Référentiel de l'Université Purdue, 2025
Comprendre les mécanismes importe, car cela révèle quels contrôles échouent et lesquels résistent. La compromission d'Arup n'était pas une défaillance technologique. C'était une défaillance de processus exploitée par une technologie convaincante.
Les attaquants ont collecté des vidéos et des enregistrements audio publiquement disponibles des dirigeants d'Arup sur YouTube, dans des présentations de conférences et sur LinkedIn. Ce matériel a entraîné des réseaux antagonistes génératifs (GAN) et des modèles de synthèse vocale neuronale pour reproduire non seulement l'apparence du directeur financier, mais aussi ses schémas d'élocution, son intonation et ses micro-expressions. Coût total de la collecte des données d'entraînement : zéro. Coût total de l'entraînement du modèle sur des GPU grand public : moins de 50 $.
Un e-mail de spear-phishing provenant du « directeur financier » sollicitait de l'aide pour une transaction confidentielle. Lorsque l'employé des finances à Hong Kong a exprimé sa méfiance, les attaquants ont monté d'un cran vers un appel vidéo. L'employé a rejoint une conférence avec des visages familiers, des voix familières et un format de discussion familier. Toutes les personnes présentes lors de cet appel, sauf la victime, étaient synthétiques.
Les attaquants ont utilisé un logiciel de caméra virtuelle (des outils comme OBS VirtualCam ou le Deepfake Offensive Toolkit open source) pour injecter des images vidéo synthétiques directement dans le flux de données Zoom. Il s'agit d'une attaque par injection vidéo, et non d'une attaque par présentation. La distinction importe : une attaque par présentation maintient un écran devant une caméra et peut être détectée par des contrôles de vivacité. Une attaque par injection contourne entièrement la caméra. L'application de conférence traite le flux synthétique comme une entrée matérielle légitime. La plupart des outils de « détection de deepfakes » sont conçus pour les attaques par présentation. Les attaques par injection les contournent.
Le directeur financier deepfaké a ordonné 15 virements totalisant 25,6 millions de dollars vers cinq comptes bancaires à Hong Kong. L'employé s'est exécuté. La fraude n'a été découverte que lorsque l'employé a ultérieurement contacté le bureau du véritable directeur financier au Royaume-Uni. Aucun logiciel malveillant n'a été déployé. Aucun identifiant n'a été volé. Aucun réseau n'a été pénétré. La seule chose qui a été compromise, c'est la confiance dans ce que l'employé a vu et entendu.
Pas la technologie de détection à elle seule. Les outils de détection auraient pu signaler des anomalies, mais avec une précision réelle de 50 à 65 %, vous ne pouvez pas miser 25,6 millions de dollars sur une alerte probabiliste. Ce qui l'aurait arrêté : une politique obligatoire de vérification hors bande exigeant que toute instruction financière dépassant un seuil défini soit confirmée via un numéro de rappel préenregistré ou un canal chiffré avant exécution. Ce contrôle de processus ne coûte rien à mettre en œuvre et est efficace contre toutes les variantes de fraude aux médias synthétiques. Les couches de détection apportent de la confiance. Les contrôles de processus apportent de la certitude.
Ce tableau est une référence pour les RSSI évaluant leurs options. Aucun fournisseur unique ne couvre tous les vecteurs d'attaque. La bonne réponse est presque toujours une combinaison, et la couche processus importe plus que n'importe quel outil individuel.
| Fournisseur | Modalité principale | Intégration de plateforme | Idéal pour | Lacune |
|---|---|---|---|---|
| Reality Defender | Vidéo + audio + image | Zoom Marketplace, API | Surveillance de réunions en temps réel, vérification de contenu | L'analyse côté serveur ajoute de la latence ; couverture limitée des attaques par injection |
| Pindrop | Voix / audio | Zoom Contact Center (mars 2026) | Centres d'appels, environnements à forte composante téléphonique | Audio uniquement ; n'analyse pas le flux vidéo |
| iProov | Vivacité biométrique (Flashmark) | SDK, API | Intégration d'identité, vérification de connexion | Conçu pour l'intégration, pas pour l'authentification continue en réunion |
| GetReal Security | Biométrique + comportemental + contextuel | API, intégration en entreprise | Authentification d'identité continue pendant les appels | Entrant plus récent (série A de 17,5 M$) ; antécédents limités à grande échelle |
| Beyond Identity (RealityCheck) | Attestation d'appareil | Plug-in Zoom | Vérifier que le flux de la webcam provient d'un matériel physique | Au niveau de l'appareil uniquement ; n'analyse pas le contenu du flux vidéo |
| Adaptive Security | Formation par simulation de deepfakes | Plateforme autonome | Sensibilisation des employés, exercices d'attaque simulés | Plateforme de formation, pas un outil de détection ; ne bloque pas les attaques |
| Resemble AI (Detect 2B) | Audio + vidéo | Zoom, Teams, Meet, Webex | Détection en réunion multiplateforme | Données de précision limitées ; produit émergent |
| Big 4 / grands intégrateurs | Conseil / politique | S.O. | Cadres de gouvernance, reporting au niveau du conseil d'administration | Aucun outillage de détection. Les missions coûtent de 500 K$ à plus de 5 M$ pour des documents de politique. Recommandent des fournisseurs, construisent ou intègrent rarement. |
| DIY / interne | Sur mesure | Ce que vous construisez | Organisations dotées de grandes équipes ML et d'exigences de précision spécifiques | Nécessite un réentraînement antagoniste continu. Les modèles de détection se dégradent en quelques semaines à mesure que les techniques de génération évoluent. |
Données fournisseurs à jour au mois d'avril 2026. Veriprajna est neutre vis-à-vis des fournisseurs et ne revend aucun de ces produits. Nous évaluons, intégrons et construisons ce dont votre environnement a besoin.
Cinq capacités, chacune comblant une lacune spécifique qu'aucun fournisseur unique ne comble. Chaque mission est dimensionnée selon votre environnement, votre pile de conférence et vos obligations réglementaires.
Nous concevons et intégrons une pile de détection multifournisseur adaptée à votre environnement de conférence. Pour une organisation à forte composante Zoom, cela pourrait signifier Reality Defender pour l'analyse vidéo, Pindrop pour l'authentification vocale côté téléphonie, et RealityCheck de Beyond Identity pour l'attestation d'appareil afin de détecter les attaques par injection. Pour les environnements axés sur Teams, nous nous tournons vers Detect 2B de Resemble ou Truly, qui prennent directement en charge le SDK Teams.
La couche d'intégration est la partie qu'aucun fournisseur ne fournit : une logique de corrélation qui relie les signaux faibles entre les modalités. Un spectrogramme audio légèrement anormal à lui seul pourrait ne pas déclencher d'alerte. Combiné à un appareil non attesté et à une demande de transaction dépassant votre seuil, il remonte au SOC avant que l'instruction de virement n'atteigne la trésorerie.
L'intervention au meilleur ROI en matière de défense contre les deepfakes ne coûte rien en licences logicielles. Nous concevons des canaux de vérification secondaire obligatoires pour les transactions à forte valeur : rappel vers un numéro de mobile préenregistré via un canal chiffré (Signal, pas SMS), confirmation par jeton matériel pour les virements dépassant votre seuil défini, et double autorisation par un second approbateur qui n'était pas présent lors de l'appel vidéo initial.
Nous intégrons ces flux à vos systèmes de gestion de trésorerie et ERP existants afin qu'ils soient appliqués automatiquement, sans dépendre du fait qu'un employé se souvienne de suivre la procédure sous pression. Le Customer Security Programme de SWIFT impose déjà une vérification hors bande pour les virements interbancaires. Nous apportons la même discipline à l'autorisation intra-entreprise.
Nous simulons les attaques qui comptent contre vos contrôles avant que les criminels ne le fassent. Cela signifie générer des vidéos deepfake de dirigeants consentants en utilisant les mêmes données d'entraînement publiquement disponibles qu'un attaquant collecterait, les injecter dans votre environnement Zoom/Teams via un logiciel de caméra virtuelle, et tester si votre pile de détection, vos contrôles de processus et vos employés les détectent.
Le résultat n'est pas un rapport de 200 pages. C'est une cartographie des lacunes : quels vecteurs d'attaque vos contrôles arrêtent, lesquels ils manquent, et les changements de configuration ou ajouts de processus spécifiques qui comblent chaque lacune. Nous testons également la réponse aux incidents de votre SOC. Lorsqu'une alerte de deepfake se déclenche, l'analyste sait-il quoi faire ? Si le manuel d'exploitation n'existe pas, nous le rédigeons.
L'article 50 de la loi européenne sur l'IA entre en vigueur le 2 août 2026. La divulgation de cybersécurité via le formulaire SEC 8-K s'applique à tout incident significatif. La loi BIPA de l'Illinois crée une exposition aux recours collectifs si vous déployez de la biométrie comportementale sans consentement approprié. La norme ISO/IEC 30107-3 est le référentiel pour la détection des attaques par présentation. La norme CEN/TS 18099 couvre les attaques par injection.
Nous associons chaque réglementation à des contrôles techniques spécifiques de votre architecture de défense et identifions les endroits où les exigences entrent en conflit. La biométrie comportementale (dynamique de frappe, suivi de la souris) est efficace pour l'authentification continue, mais crée une exposition au titre de BIPA et de l'article 9 du RGPD. Nous concevons le cadre de consentement et l'architecture de minimisation des données qui rendent le déploiement défendable, et pas seulement fonctionnel.
Pour les organisations où la précision de détection prête à l'emploi n'est pas acceptable, en particulier les institutions financières traitant des virements de grande valeur ou les sous-traitants de la défense lors d'appels classifiés, nous construisons des pipelines de détection sur mesure. Cela implique des modèles d'ensemble combinant plusieurs approches de détection (analyse visuelle au niveau de l'image, comparaison de spectrogrammes audio, vérifications de cohérence temporelle, vérification de signaux physiologiques), un ajustement fin spécifique au domaine sur les schémas de communication réels de votre organisation, et un durcissement antagoniste contre les dernières techniques de génération.
Nous construisons également l'infrastructure de réentraînement. Les modèles de détection se dégradent en quelques semaines à mesure que les techniques de génération évoluent. Un pipeline sur mesure sans réentraînement antagoniste automatisé est un actif qui se déprécie. Nous concevons la boucle de rétroaction qui maintient la détection à jour : de nouveaux échantillons d'attaque issus des exercices de red-team et des flux de renseignement sur les menaces sont continuellement intégrés au pipeline d'entraînement.
Chaque mission commence par la compréhension de votre profil de risque spécifique. Une société de capital-investissement réalisant 500 M$ de virements mensuels a des besoins différents de ceux d'une entreprise technologique préoccupée par l'usurpation d'identité de dirigeants lors d'appels avec des investisseurs.
Cartographier vos flux de communication, vos chemins d'autorisation de virement et votre pile de conférence. Identifier quels dirigeants sont les plus ciblables sur la base des données d'entraînement publiquement disponibles. Noter les contrôles actuels face aux vecteurs d'attaque par injection, par présentation et d'ingénierie sociale. Semaines 1-3
Sélectionner et intégrer les outils de détection en fonction de votre plateforme, de vos exigences de précision et de vos contraintes réglementaires. Intégrer les flux de vérification hors bande aux systèmes de trésorerie et ERP. Concevoir la logique de corrélation entre les couches de détection. Semaines 4-8
Lancer des attaques deepfake simulées contre vos contrôles déployés. Tester les procédures de réponse du SOC. Ajuster les seuils de détection selon votre tolérance aux faux positifs. Combler les lacunes identifiées par des changements de configuration ou des contrôles supplémentaires. Semaines 9-12
Formation des employés basée sur la simulation, utilisant des répliques deepfake de vos propres dirigeants (avec leur consentement). Création du manuel d'exploitation du SOC. Playbook de réponse aux incidents. Calendrier de red-team trimestriel pour maintenir la préparation à mesure que les techniques d'attaque évoluent. Semaines 12-14
Une mission menée par Deloitte ou EY dans ce domaine produit un cadre de gouvernance et une présélection de fournisseurs. Coût typique : 500 K$ à plus de 2 M$. Délai : 4 à 6 mois. Livrable : un PDF. Ils ne construisent pas la couche d'intégration, n'écrivent pas la logique de corrélation, ne mènent pas les exercices de red-team et n'ajustent pas les seuils de détection. Ils recommandent des fournisseurs, puis une autre équipe (souvent un autre cabinet) réalise la mise en œuvre. Nous réalisons l'évaluation, l'intégration, le red-teaming et la formation au sein d'une seule mission, car l'équipe qui comprend votre modèle de menace devrait être l'équipe qui construit et teste les défenses.
Évaluez votre organisation sur les cinq couches de contrôle qui comptent. Ce n'est pas un entonnoir de vente. Les scores faibles pointent vers des contrôles spécifiques que vous pouvez mettre en œuvre de manière autonome.
Lorsqu'une personne demande un virement ou une action sensible pendant un appel vidéo, que se passe-t-il ?
Avez-vous déployé des outils de détection de deepfakes sur vos plateformes de conférence ?
Vos employés ont-ils vécu des attaques deepfake simulées ?
Votre plan de réponse aux incidents traite-t-il spécifiquement les attaques par médias synthétiques ?
Avez-vous examiné votre police d'assurance cyber pour les exclusions IA/deepfake et cartographié vos obligations de conformité ?
Aucun outil unique ne couvre tous les vecteurs d'attaque. La détection au niveau de la vidéo (Reality Defender, GetReal Security) détecte les artefacts d'échange de visage et l'absence de signaux physiologiques. La détection au niveau de l'audio (Pindrop, OmniSpeech) détecte le clonage vocal par analyse de spectrogramme. Mais les attaques les plus dangereuses utilisent l'injection vidéo, où des images synthétiques sont injectées directement dans le flux de données de conférence via un logiciel de caméra virtuelle comme OBS, contournant entièrement les contrôles de vivacité côté client.
Une défense efficace nécessite une mise en couches : un plug-in de détection pour la plateforme de conférence, une attestation d'appareil pour vérifier que le flux de la webcam provient d'un matériel physique (RealityCheck de Beyond Identity le fait pour Zoom), et une vérification hors bande obligatoire pour toute instruction financière reçue pendant un appel. Nous concevons l'architecture d'intégration qui relie ces couches et construisons la logique de corrélation, de sorte qu'un signal faible d'une couche (audio légèrement anormal) combiné à un autre (appareil non vérifié) déclenche une escalade avant qu'un virement ne soit autorisé.
Les solutions de détection en entreprise vont de 10 000 $ à plus de 250 000 $ par an selon le volume et la profondeur d'intégration. Mais présenter la défense contre les deepfakes comme un simple poste de dépense passe à côté de l'essentiel. Depuis janvier 2026, les polices d'assurance cyber standard excluent explicitement les intermédiaires générés par IA de la couverture contre l'ingénierie sociale. Cela signifie qu'une perte par virement déclenchée par deepfake est directement imputée à votre bilan, sans aucun filet de sécurité de la police.
Pour situer le contexte, l'incident deepfake moyen en entreprise coûte de 500 000 $ à 680 000 $ (données 2024), et la compromission d'Arup a atteint 25,6 millions de dollars. L'argumentaire est simple : comparer le coût annuel d'un déploiement de détection par phases (50 K$ à 150 K$ pour la plupart des entreprises de taille moyenne à grande) à l'exposition à une perte non assurée. Nous aidons les RSSI à bâtir cet argumentaire avec des éléments concrets : cartographier votre volume de virements, identifier les flux d'autorisation à haut risque et calculer l'exposition à partir de votre profil de transactions.
Soyez sceptique. Les référentiels de laboratoire et les performances réelles divergent radicalement. Le référentiel 2025 de l'Université Purdue a constaté que des outils de détection commerciaux revendiquant une précision supérieure à 96 % en conditions contrôlées chutaient à 50-65 % face aux deepfakes circulant dans la nature. L'écart existe parce que les jeux de données de laboratoire utilisent des méthodes de génération connues, tandis que les attaques réelles utilisent les modèles les plus récents, les artefacts de compression des codecs de conférence et des techniques antagonistes spécialement conçues pour échapper à la détection.
Lors de l'évaluation des fournisseurs, posez trois questions : contre quel jeu de données le référentiel a-t-il été exécuté, et quand a-t-il été mis à jour pour la dernière fois ? Quel est le taux de fausse acceptation (FAR), c'est-à-dire à quelle fréquence un deepfake passe-t-il pour réel ? Et le système détecte-t-il les attaques par injection (flux de caméra virtuelle), ou seulement les attaques par présentation (quelqu'un tenant un écran devant une webcam) ? La norme CEN/TS 18099 est la norme émergente pour les tests de détection des attaques par injection. Si un fournisseur ne peut pas citer ses performances par rapport à cette norme, sa couverture présente un angle mort critique.
Trois forces réglementaires convergent. Premièrement, les obligations de transparence de l'article 50 de la loi européenne sur l'IA entrent en vigueur le 2 août 2026, exigeant des déployeurs de systèmes d'IA générant des deepfakes qu'ils divulguent que le contenu est généré artificiellement. Les sanctions atteignent 35 millions d'euros ou 7 % du chiffre d'affaires mondial. Le code de bonnes pratiques devrait être finalisé d'ici mai-juin 2026.
Deuxièmement, la règle de divulgation des incidents de cybersécurité de la SEC (en vigueur depuis décembre 2023) exige des entreprises cotées qu'elles signalent les incidents de cybersécurité significatifs via le formulaire 8-K dans un délai de quatre jours ouvrables. Une fraude par deepfake de plus de 500 K$ est probablement qualifiée de significative pour la plupart des entreprises de capitalisation moyenne.
Troisièmement, si vous déployez de la biométrie comportementale (dynamique de frappe, suivi de la souris) pour l'authentification continue, la loi BIPA de l'Illinois et l'article 9 du RGPD créent une exposition au contentieux. Les règlements à l'amiable au titre de BIPA en 2025 ont inclus Clearview AI à hauteur de 51,75 millions de dollars et Speedway à hauteur de 12,1 millions de dollars pour la collecte de données biométriques d'employés sans consentement. Nous associons chacune de ces exigences à des contrôles techniques spécifiques afin que votre architecture de défense soit conforme dès le premier jour, et non adaptée après coup à la suite d'un examen juridique.
La formation seule ne suffit pas, mais elle reste nécessaire. Une méta-analyse de 56 études sur la détection humaine de deepfakes montre une précision moyenne d'environ 50 %, ce qui équivaut statistiquement à du hasard. Les deepfakes de génération actuelle, en particulier avec la cohérence temporelle des modèles de diffusion, produisent des vidéos que des professionnels de la sécurité formés ne peuvent pas distinguer de manière fiable de la réalité.
Cela dit, la formation modifie les comportements d'une manière que la technologie ne peut pas. Un employé ayant vécu une attaque deepfake simulée (Adaptive Security, qui a levé 146,5 millions de dollars et sert plus de 500 entreprises, propose exactement cela) est bien plus susceptible de suivre les procédures de vérification hors bande plutôt que de faire confiance à l'appel vidéo au premier regard. La bonne approche associe une formation basée sur la simulation à des contrôles de processus obligatoires. Plus précisément : toute instruction financière dépassant votre seuil reçue pendant un appel vidéo doit être confirmée via un numéro de rappel préenregistré ou un canal chiffré avant exécution. C'est cette couche de processus, et non la technologie de détection, qui aurait arrêté la compromission d'Arup.
Un déploiement par phases dure généralement de 8 à 14 semaines pour une entreprise de taille moyenne à grande. La phase 1 (semaines 1-3) couvre l'évaluation des menaces et la conception de l'architecture : nous cartographions vos flux de communication, identifions les chemins d'autorisation à haut risque, évaluons vos contrôles actuels et concevons la défense en couches. La phase 2 (semaines 4-8) gère la sélection et l'intégration des outils : évaluation des fournisseurs en fonction de votre environnement spécifique (Zoom contre Teams contre les deux, exigences cloud contre sur site, contraintes BIPA/RGPD sur la biométrie), déploiement des plug-ins de détection et mise en place de flux de vérification hors bande dans vos opérations de trésorerie et de finance.
La phase 3 (semaines 9-12) est le red-teaming et le durcissement : nous lançons des attaques deepfake simulées contre les contrôles déployés, identifions les lacunes et ajustons les seuils de détection. La phase 4 (semaines 12-14) couvre la formation et la mise en service : formation des employés basée sur la simulation, création du manuel d'exploitation pour le SOC, et développement du playbook de réponse aux incidents. Le délai se comprime si vous disposez d'une seule plateforme de conférence et d'un flux d'autorisation bien défini. Il s'allonge si vous opérez sur plusieurs plateformes, dans des juridictions aux lois différentes en matière de confidentialité biométrique, ou si vous avez des chaînes d'autorisation multipartites complexes.
Notre analyse approfondie à l'origine de cette page de solution :
Analyse forensique de la compromission deepfake d'Arup à 25,6 M$, techniques de fraude générative en temps réel, et argumentaire architectural en faveur d'une défense d'entreprise multicouche.
Deloitte prévoit que les pertes liées à la fraude facilitée par l'IA atteindront 40 milliards de dollars d'ici 2027. Depuis janvier 2026, les polices cyber standard excluent la fraude par deepfake de la couverture contre l'ingénierie sociale.
Nous commençons par une évaluation des menaces qui cartographie votre exposition spécifique : quels dirigeants sont les plus ciblables, quels flux d'autorisation sont vulnérables, et quels contrôles comblent les lacunes le plus rapidement.