Defensa empresarial contra deepfakes
En febrero de 2024, los atacantes utilizaron deepfakes generados por IA de todo un equipo directivo para robar 25,6 millones de dólares a Arup en una sola videollamada. Desde enero de 2026, las pólizas estándar de ciberseguro excluyen explícitamente el fraude con deepfakes. Si le ocurre a usted, la pérdida no está asegurada. Nosotros construimos la defensa por capas que lo detiene.
$680K
Pérdida media por incidente de deepfake empresarial
Datos empresariales de 2024
1.300%
Aumento del fraude con deepfakes, interanual 2025
Informe Pindrop Voice Intelligence
50-65%
Precisión real de las herramientas de detección
Benchmark de la Universidad de Purdue, 2025
Comprender la mecánica es importante porque revela qué controles fallan y cuáles sobreviven. La brecha de Arup no fue un fallo tecnológico. Fue un fallo de proceso explotado por una tecnología convincente.
Los atacantes recopilaron vídeo y audio disponibles públicamente de los directivos de Arup en YouTube, presentaciones de conferencias y LinkedIn. Este material entrenó redes generativas adversarias (GAN) y modelos de síntesis de voz neuronal para replicar no solo la apariencia del director financiero, sino también los patrones de habla, la entonación y las microexpresiones. Coste total de la recopilación de datos de entrenamiento: cero. Coste total del entrenamiento del modelo en GPU de consumo: menos de 50 dólares.
Un correo de spear-phishing del «director financiero» solicitaba ayuda con una transacción confidencial. Cuando el empleado de finanzas en Hong Kong expresó escepticismo, los atacantes escalaron a una videollamada. El empleado se unió a una reunión con rostros familiares, voces familiares y un formato de discusión familiar. Todas las personas de esa llamada, salvo la víctima, eran sintéticas.
Los atacantes utilizaron software de cámara virtual (herramientas como OBS VirtualCam o el Deepfake Offensive Toolkit de código abierto) para inyectar fotogramas de vídeo sintético directamente en el flujo de datos de Zoom. Esto es un ataque de inyección de vídeo, no un ataque de presentación. La distinción importa: un ataque de presentación coloca una pantalla frente a una cámara y puede ser detectado por las comprobaciones de vivacidad. Un ataque de inyección elude la cámara por completo. La aplicación de videoconferencia trata el flujo sintético como una entrada de hardware legítima. La mayoría de las herramientas de «detección de deepfakes» están diseñadas para ataques de presentación. Los ataques de inyección las eluden.
El director financiero falsificado ordenó 15 transferencias bancarias por un total de 25,6 millones de dólares a cinco cuentas bancarias de Hong Kong. El empleado obedeció. El fraude se descubrió solo cuando el empleado contactó posteriormente con la oficina del verdadero director financiero en el Reino Unido. No se desplegó malware. No se robaron credenciales. No se vulneró ninguna red. Lo único que se vio comprometido fue la confianza en lo que el empleado vio y oyó.
No la tecnología de detección por sí sola. Las herramientas de detección podrían haber señalado anomalías, pero con una precisión real del 50-65%, no se pueden arriesgar 25,6 millones de dólares en una alerta probabilística. Lo que lo habría detenido: una política obligatoria de verificación fuera de banda que exija que cualquier instrucción financiera por encima de un umbral definido se confirme a través de un número de devolución de llamada preregistrado o un canal cifrado antes de ejecutarse. Este control de proceso no cuesta nada implementarlo y es eficaz contra todas las variantes de fraude con medios sintéticos. Las capas de detección añaden confianza. Los controles de proceso añaden certeza.
Esta tabla es una referencia para los CISO que evalúan opciones. Ningún proveedor por sí solo cubre todos los vectores de ataque. La respuesta correcta es casi siempre una combinación, y la capa de proceso importa más que cualquier herramienta individual.
| Proveedor | Modalidad principal | Integración de plataforma | Ideal para | Carencia |
|---|---|---|---|---|
| Reality Defender | Vídeo + audio + imagen | Zoom Marketplace, API | Supervisión de reuniones en tiempo real, verificación de contenido | El análisis del lado del servidor añade latencia; cobertura limitada de ataques de inyección |
| Pindrop | Voz / audio | Zoom Contact Center (marzo de 2026) | Centros de llamadas, entornos con gran volumen de telefonía | Solo audio; no analiza el flujo de vídeo |
| iProov | Vivacidad biométrica (Flashmark) | SDK, API | Incorporación de identidad, verificación de inicio de sesión | Diseñado para incorporación, no para autenticación continua de reuniones |
| GetReal Security | Biométrico + conductual + contextual | API, integración empresarial | Autenticación continua de identidad durante las llamadas | Participante más reciente (Serie A de 17,5 millones de dólares); historial limitado a escala |
| Beyond Identity (RealityCheck) | Atestación de dispositivo | Complemento de Zoom | Verificar que el flujo de la cámara web proviene de hardware físico | Solo a nivel de dispositivo; no analiza el contenido del flujo de vídeo |
| Adaptive Security | Formación con simulación de deepfakes | Plataforma independiente | Concienciación de empleados, ejercicios de ataque simulado | Plataforma de formación, no una herramienta de detección; no bloquea ataques |
| Resemble AI (Detect 2B) | Audio + vídeo | Zoom, Teams, Meet, Webex | Detección de reuniones multiplataforma | Datos de precisión limitados; producto emergente |
| Big 4 / Grandes integradores de sistemas | Asesoría / política | N/D | Marcos de gobernanza, informes a nivel de junta directiva | Sin herramientas de detección. Los compromisos cuestan entre 500.000 y más de 5 millones de dólares por documentos de política. Recomiendan proveedores, rara vez construyen o integran. |
| DIY / Interno | Personalizado | Lo que usted construya | Organizaciones con grandes equipos de ML y requisitos específicos de precisión | Requiere reentrenamiento adversario continuo. Los modelos de detección se degradan en semanas a medida que evolucionan las técnicas de generación. |
Datos de proveedores actualizados a abril de 2026. Veriprajna es neutral respecto a proveedores y no revende ninguno de estos productos. Evaluamos, integramos y construimos lo que su entorno necesita.
Cinco capacidades, cada una de las cuales aborda una carencia específica que ningún proveedor por sí solo cubre. Cada compromiso se ajusta a su entorno, su stack de videoconferencia y sus obligaciones regulatorias.
Diseñamos e integramos un stack de detección multiproveedor adaptado a su entorno de videoconferencia. Para una organización con gran uso de Zoom, eso podría significar Reality Defender para el análisis de vídeo, Pindrop para la autenticación de voz en el lado de la telefonía y RealityCheck de Beyond Identity para la atestación de dispositivos a fin de detectar ataques de inyección. Para entornos centrados en Teams, recurrimos a Detect 2B de Resemble o Truly, que admiten directamente el SDK de Teams.
La capa de integración es la parte que ningún proveedor ofrece: lógica de correlación que conecta señales débiles entre modalidades. Un espectrograma de audio ligeramente anómalo por sí solo podría no activar una alerta. Combinado con un dispositivo no atestado y una solicitud de transacción por encima de su umbral, escala al SOC antes de que la instrucción de transferencia llegue a tesorería.
La intervención con mayor ROI en la defensa contra deepfakes no cuesta nada en licencias de software. Diseñamos canales de verificación secundaria obligatorios para transacciones de alto valor: devolución de llamada a un número de móvil preregistrado a través de un canal cifrado (Signal, no SMS), confirmación con token de hardware para transferencias por encima de su umbral definido y doble autorización de un segundo aprobador que no estuviera en la videollamada original.
Integramos estos flujos de trabajo en sus sistemas existentes de gestión de tesorería y ERP para que se apliquen automáticamente, sin depender de que un empleado recuerde seguir el procedimiento bajo presión. El Programa de Seguridad del Cliente de SWIFT ya exige la verificación fuera de banda para las transferencias interbancarias. Nosotros aportamos la misma disciplina a la autorización intracorporativa.
Simulamos los ataques que importan contra sus controles antes de que lo hagan los delincuentes. Eso significa generar vídeo deepfake de directivos que dan su consentimiento utilizando los mismos datos de entrenamiento disponibles públicamente que recopilaría un atacante, inyectarlo en su entorno de Zoom/Teams mediante software de cámara virtual y probar si su stack de detección, sus controles de proceso y sus empleados lo detectan.
El resultado no es un informe de 200 páginas. Es un mapa de carencias: qué vectores de ataque detienen sus controles, cuáles se les escapan y los cambios específicos de configuración o las adiciones de proceso que cierran cada carencia. También probamos la respuesta a incidentes de su SOC. Cuando se activa una alerta de deepfake, ¿sabe el analista qué hacer? Si el manual de procedimientos no existe, lo redactamos.
El Artículo 50 de la Ley de IA de la UE entra en vigor el 2 de agosto de 2026. La divulgación de ciberseguridad del Formulario 8-K de la SEC se aplica a cualquier incidente material. La BIPA de Illinois genera exposición a demandas colectivas si despliega biometría conductual sin el consentimiento adecuado. ISO/IEC 30107-3 es el referente para la detección de ataques de presentación. CEN/TS 18099 cubre los ataques de inyección.
Mapeamos cada regulación a controles técnicos específicos en su arquitectura de defensa e identificamos dónde los requisitos entran en conflicto. La biometría conductual (dinámica de pulsaciones de teclas, seguimiento del ratón) es eficaz para la autenticación continua, pero crea exposición a la BIPA y al Artículo 9 del RGPD. Diseñamos el marco de consentimiento y la arquitectura de minimización de datos que hace que el despliegue sea defendible, no solo funcional.
Para organizaciones donde la precisión de detección estándar no es aceptable, especialmente instituciones financieras que procesan transferencias bancarias de alto valor o contratistas de defensa en llamadas clasificadas, construimos canalizaciones de detección personalizadas. Esto implica modelos de conjunto que combinan múltiples enfoques de detección (análisis visual a nivel de fotograma, comparación de espectrogramas de audio, comprobaciones de coherencia temporal, verificación de señales fisiológicas), ajuste específico de dominio sobre los patrones de comunicación reales de su organización y endurecimiento adversario frente a las técnicas de generación más recientes.
También construimos la infraestructura de reentrenamiento. Los modelos de detección se degradan en semanas a medida que evolucionan las técnicas de generación. Una canalización personalizada sin reentrenamiento adversario automatizado es un activo que se deprecia. Diseñamos el bucle de retroalimentación que mantiene la detección actualizada: nuevas muestras de ataque procedentes de ejercicios de red-team y fuentes de inteligencia sobre amenazas se incorporan continuamente a la canalización de entrenamiento.
Cada compromiso comienza por comprender su perfil de riesgo específico. Una firma de capital privado con 500 millones de dólares en transferencias bancarias mensuales tiene necesidades distintas a las de una empresa tecnológica preocupada por la suplantación de directivos en llamadas con inversores.
Mapear sus flujos de trabajo de comunicación, las rutas de autorización de transferencias bancarias y su stack de videoconferencia. Identificar qué directivos son más susceptibles de ser atacados según los datos de entrenamiento disponibles públicamente. Puntuar los controles actuales frente a los vectores de ataque de inyección, de presentación y de ingeniería social. Semanas 1-3
Seleccionar e integrar herramientas de detección según su plataforma, requisitos de precisión y restricciones regulatorias. Construir flujos de trabajo de verificación OOB en los sistemas de tesorería y ERP. Diseñar la lógica de correlación entre las capas de detección. Semanas 4-8
Ejecutar ataques de deepfake simulados contra sus controles desplegados. Probar los procedimientos de respuesta del SOC. Ajustar los umbrales de detección según su tolerancia a falsos positivos. Cerrar las carencias identificadas con cambios de configuración o controles adicionales. Semanas 9-12
Formación de empleados basada en simulación utilizando réplicas deepfake de sus propios directivos (con consentimiento). Creación del manual de procedimientos del SOC. Manual de respuesta a incidentes. Calendario trimestral de red-team para mantener la preparación a medida que evolucionan las técnicas de ataque. Semanas 12-14
Un compromiso con Deloitte o EY en este ámbito produce un marco de gobernanza y una lista corta de proveedores. Coste típico: más de 500.000-2 millones de dólares. Plazo: 4-6 meses. Entregable: un PDF. No construyen la capa de integración, no escriben la lógica de correlación, no ejecutan los ejercicios de red-team ni ajustan los umbrales de detección. Recomiendan proveedores y luego un equipo diferente (a menudo una firma diferente) realiza la implementación. Nosotros hacemos la evaluación, la integración, el red-teaming y la formación como un único compromiso, porque el equipo que comprende su modelo de amenazas debería ser el equipo que construye y prueba las defensas.
Puntúe su organización en las cinco capas de control que importan. Esto no es un embudo de ventas. Las puntuaciones bajas señalan controles específicos que puede implementar de forma independiente.
Cuando alguien solicita una transferencia bancaria o una acción sensible durante una videollamada, ¿qué ocurre?
¿Tiene alguna herramienta de detección de deepfakes desplegada en sus plataformas de videoconferencia?
¿Han experimentado sus empleados ataques de deepfake simulados?
¿Aborda su plan de respuesta a incidentes específicamente los ataques con medios sintéticos?
¿Ha revisado su póliza de ciberseguro en busca de exclusiones de IA/deepfakes y mapeado las obligaciones de cumplimiento?
Ninguna herramienta por sí sola cubre todos los vectores de ataque. La detección a nivel de vídeo (Reality Defender, GetReal Security) detecta artefactos de intercambio de rostros y la ausencia de señales fisiológicas. La detección a nivel de audio (Pindrop, OmniSpeech) detecta la clonación de voz mediante el análisis de espectrogramas. Pero los ataques más peligrosos utilizan la inyección de vídeo, en la que se inyectan fotogramas sintéticos directamente en el flujo de datos de la videoconferencia a través de software de cámara virtual como OBS, eludiendo por completo las comprobaciones de vivacidad del lado del cliente.
Una defensa eficaz requiere capas: un complemento de detección para la plataforma de videoconferencia, atestación de dispositivo para verificar que el flujo de la cámara web proviene de hardware físico (RealityCheck de Beyond Identity hace esto para Zoom) y verificación fuera de banda obligatoria para cualquier instrucción financiera recibida durante una llamada. Diseñamos la arquitectura de integración que conecta estas capas y construimos la lógica de correlación de modo que una señal débil de una capa (audio ligeramente anómalo) combinada con otra (dispositivo no verificado) active una escalada antes de que se autorice una transferencia.
Las soluciones de detección empresarial van desde 10.000 hasta más de 250.000 dólares al año, según el volumen y la profundidad de la integración. Pero plantear la defensa contra deepfakes como un coste de partida pierde de vista el panorama. Desde enero de 2026, las pólizas estándar de ciberseguro excluyen explícitamente a los intermediarios generados por IA de la cobertura de ingeniería social. Eso significa que una pérdida por transferencia bancaria impulsada por deepfakes sale directamente de su balance, sin respaldo de la póliza.
Como contexto, el incidente medio de deepfake empresarial cuesta entre 500.000 y 680.000 dólares (datos de 2024), y la brecha de Arup alcanzó los 25,6 millones de dólares. El argumento de negocio es sencillo: comparar el coste anual de un despliegue de detección por fases (entre 50.000 y 150.000 dólares para la mayoría de las medianas y grandes empresas) frente a la exposición a pérdidas no aseguradas. Ayudamos a los CISO a construir este argumento con detalles concretos: mapeando su volumen de transferencias bancarias, identificando los flujos de trabajo de autorización de alto riesgo y calculando la exposición según su perfil de transacciones.
Sea escéptico. Los benchmarks de laboratorio y el rendimiento en el mundo real divergen drásticamente. El benchmark de 2025 de la Universidad de Purdue descubrió que las herramientas de detección comerciales que afirmaban una precisión superior al 96% en entornos controlados caían al 50-65% frente a deepfakes que circulan en la práctica. La brecha existe porque los conjuntos de datos de laboratorio utilizan métodos de generación conocidos, mientras que los ataques reales utilizan los modelos más recientes, artefactos de compresión de los códecs de videoconferencia y técnicas adversarias diseñadas específicamente para evadir la detección.
Al evaluar proveedores, haga tres preguntas: ¿Con qué conjunto de datos se ejecutó el benchmark y cuándo se actualizó por última vez? ¿Cuál es la tasa de falsa aceptación (FAR), es decir, con qué frecuencia un deepfake pasa como real? ¿Y detecta el sistema ataques de inyección (flujos de cámara virtual) o solo ataques de presentación (alguien sosteniendo una pantalla frente a una cámara web)? CEN/TS 18099 es el estándar emergente para las pruebas de detección de ataques de inyección. Si un proveedor no puede citar su rendimiento frente a este estándar, su cobertura tiene un punto ciego crítico.
Tres fuerzas regulatorias están convergiendo. Primero, las obligaciones de transparencia del Artículo 50 de la Ley de IA de la UE entran en vigor el 2 de agosto de 2026, exigiendo a los implementadores de sistemas de IA que generan deepfakes que revelen que el contenido se genera artificialmente. Las sanciones alcanzan los 35 millones de euros o el 7% de la facturación global. Se espera que el Código de Buenas Prácticas se finalice entre mayo y junio de 2026.
Segundo, la norma de divulgación de incidentes de ciberseguridad de la SEC (vigente desde diciembre de 2023) exige a las empresas cotizadas informar de los incidentes materiales de ciberseguridad en el Formulario 8-K en un plazo de cuatro días hábiles. Es probable que un fraude con deepfakes de más de 500.000 dólares se considere material para la mayoría de las empresas de mediana capitalización.
Tercero, si despliega biometría conductual (dinámica de pulsaciones de teclas, seguimiento del ratón) para la autenticación continua, la BIPA de Illinois y el Artículo 9 del RGPD generan exposición a litigios. Los acuerdos por la BIPA en 2025 incluyeron a Clearview AI por 51,75 millones de dólares y a Speedway por 12,1 millones de dólares por la recopilación de datos biométricos de empleados sin consentimiento. Mapeamos cada uno de estos requisitos a controles técnicos específicos para que su arquitectura de defensa cumpla desde el primer día, no readaptada tras una revisión legal.
La formación por sí sola no es suficiente, pero sigue siendo necesaria. Un metaanálisis de 56 estudios sobre la detección humana de deepfakes muestra una precisión media en torno al 50%, lo que estadísticamente equivale a adivinar. Los deepfakes de la generación actual, especialmente con la coherencia temporal de los modelos de difusión, producen vídeo que los profesionales de seguridad capacitados no pueden distinguir de forma fiable de la realidad.
Dicho esto, la formación cambia el comportamiento de maneras que la tecnología no puede. Un empleado que ha experimentado un ataque de deepfake simulado (Adaptive Security, que recaudó 146,5 millones de dólares y da servicio a más de 500 empresas, ofrece exactamente esto) es mucho más propenso a seguir los procedimientos de verificación fuera de banda en lugar de confiar en la videollamada al pie de la letra. El enfoque correcto combina la formación basada en simulación con controles de proceso obligatorios. En concreto: cualquier instrucción financiera por encima de su umbral recibida durante una videollamada debe confirmarse a través de un número de devolución de llamada preregistrado o un canal cifrado antes de ejecutarse. Esta capa de proceso, no la tecnología de detección, es lo que habría detenido la brecha de Arup.
Un despliegue por fases suele durar entre 8 y 14 semanas para una mediana o gran empresa. La Fase 1 (semanas 1-3) cubre la evaluación de amenazas y el diseño de la arquitectura: mapeamos sus flujos de trabajo de comunicación, identificamos las rutas de autorización de alto riesgo, evaluamos sus controles actuales y diseñamos la defensa por capas. La Fase 2 (semanas 4-8) gestiona la selección e integración de herramientas: evaluación de proveedores según su entorno específico (Zoom frente a Teams frente a ambos, requisitos de nube frente a local, restricciones de la BIPA/RGPD sobre biometría), despliegue de complementos de detección e implementación de flujos de trabajo de verificación fuera de banda en sus operaciones de tesorería y finanzas.
La Fase 3 (semanas 9-12) es el red-teaming y el endurecimiento: ejecutamos ataques de deepfake simulados contra los controles desplegados, identificamos carencias y ajustamos los umbrales de detección. La Fase 4 (semanas 12-14) cubre la formación y la puesta en marcha: formación de empleados basada en simulación, creación del manual de procedimientos para el SOC y desarrollo del manual de respuesta a incidentes. El plazo se acorta si tiene una sola plataforma de videoconferencia y un flujo de trabajo de autorización bien definido. Se amplía si opera en múltiples plataformas, jurisdicciones con diferentes leyes de privacidad biométrica o tiene cadenas de autorización multiparte complejas.
Nuestro análisis en profundidad detrás de esta página de solución:
Análisis forense de la brecha de deepfake de 25,6 millones de dólares de Arup, técnicas de fraude generativo en tiempo real y el argumento arquitectónico a favor de una defensa empresarial multicapa.
Deloitte prevé que las pérdidas por fraude facilitado por IA alcanzarán los 40.000 millones de dólares para 2027. Desde enero de 2026, las pólizas cibernéticas estándar excluyen el fraude con deepfakes de la cobertura de ingeniería social.
Comenzamos con una evaluación de amenazas que mapea su exposición específica: qué directivos son más susceptibles de ser atacados, qué flujos de trabajo de autorización son vulnerables y qué controles cierran las carencias más rápidamente.