Seguridad de IA para Bioseguridad
En 2022, Collaborations Pharmaceuticals invirtió un único signo de recompensa en MegaSyn y generó 40.000 moléculas tóxicas, incluidos análogos del VX, en menos de 6 horas. En 2025, GeneBreaker logró una tasa de éxito de ataque del 60% al hacer jailbreak a Evo 2-40B mediante búsqueda en haz guiada por homología. Las defensas en las que confían hoy la mayoría de los equipos farmacéuticos se construyeron para un panorama de amenazas que ya no existe.
40.000
moléculas tóxicas generadas en 6 horas mediante inversión de recompensa (MegaSyn, 2022)
60% de ASR
tasa de éxito de ataque sobre Evo 2-40B mediante ataques de homología de GeneBreaker (NeurIPS 2025)
35 M€
sanción máxima de la Ley de IA de la UE por prácticas de IA prohibidas (7% de la facturación global)
El entrenamiento de rechazo, la alineación por RLHF y los filtros de alertas estructurales se diseñaron para un mundo donde los ataques tenían el aspecto de "diséñame un agente nervioso". La superficie de ataque de 2025 es más sutil, más automatizada y opera por debajo del nivel que estas defensas vigilan.
Un modelo generativo de química optimiza una función de recompensa. En el descubrimiento de fármacos, esa función puntúa propiedades terapéuticas. Invierta el signo y el mismo modelo optimiza la letalidad. El experimento de MegaSyn solo requirió cambiar un único valor de configuración de Python. La mayoría de las canalizaciones generativas farmacéuticas construidas sobre REINVENT 4, AutoDesigner o modelos personalizados con recompensa moldeada tienen la misma vulnerabilidad arquitectónica: la función de recompensa es un parámetro de configuración, no una restricción codificada de forma fija.
Por qué las defensas actuales no lo detectan: Los filtros de toxicóforos (más de 460 MCF de Chemistry42, las alertas estructurales de Chemaxon) detectan subestructuras tóxicas conocidas en la salida. No restringen el objetivo de optimización. Un modelo que optimiza hacia la variedad de los CWA puede generar estructuras novedosas que superan todas las comprobaciones de toxicóforos conocidos porque son estructuralmente novedosas.
GeneBreaker no le pide a un modelo de biología "un patógeno". Pide una proteína homóloga a una referencia benigna que resulta ser estructuralmente similar a una proteína de un Agente Selecto. Un agente LLM orquesta herramientas bioinformáticas, utiliza PathoLM y heurísticas de probabilidad logarítmica para guiar la búsqueda en haz, y evalúa los candidatos frente a BLAST. El ataque logró hasta un 60% de tasa de éxito sobre Evo 2-40B en 6 categorías virales, con fidelidad estructural y de secuencia demostrada en la proteína espícula del SARS-CoV-2 y la proteína de la envoltura del VIH-1.
Por qué las defensas actuales no lo detectan: Los filtros de seguridad basados en palabras clave y el entrenamiento de rechazo buscan solicitudes explícitas. Los ataques de homología nunca mencionan el patógeno objetivo. La solicitud parece una investigación legítima de genómica comparada hasta que se analizan las propiedades funcionales de la secuencia generada.
Para cualquier modelo de pesos abiertos que se ejecute en las propias instalaciones: de 10 a 50 ejemplos de ajuste fino y unos pocos cientos de dólares de tiempo de GPU eliminan la alineación de seguridad y restauran la capacidad biológica previa al entrenamiento a niveles cercanos a los de frontera (arXiv 2508.03153). Para modelos que han pasado por desaprendizaje automático (RMU): el reaprendizaje benigno sobre datos públicos vagamente relacionados (artículos médicos, libros de texto de biología) puede hacer que el modelo regrese hacia su rendimiento previo al desaprendizaje (CMU/ICLR 2025). La afirmación contundente de que "el conocimiento ha desaparecido" se acerca más a "el conocimiento está profundamente ofuscado" a fecha de 2025.
Por qué las defensas actuales no lo detectan: El rechazo por RLHF es una restricción de comportamiento, no una restricción de capacidad. Enseña al modelo a rechazar, no a olvidar. El MFT elimina el rechazo a la vez que preserva la capacidad. Incluso el desaprendizaje (una restricción de capacidad) es parcialmente reversible. La defensa requiere múltiples capas independientes, no una única técnica.
El marco ejecutivo estadounidense con el que los equipos de cumplimiento farmacéutico planificaron hasta 2024 ha sido derogado. El marco de la UE sigue endureciéndose. Una farmacéutica con operaciones en la UE debe cumplir el estándar de la UE con independencia de la postura de EE. UU. La certificación ISO 42001 sirve cada vez más como base que esperan las aseguradoras y los socios.
| Marco | Estado (abril de 2026) | Qué exige |
|---|---|---|
| Ley de IA de la UE (GPAI) | En vigor en agosto de 2026 | Evaluación de riesgo sistémico, pruebas adversariales, notificación de incidentes para modelos GPAI usados en biología. Sanciones: 15 M€ / 3% de la facturación. |
| Ley de IA de la UE (alto riesgo) | En vigor en agosto de 2026 | Sistema de gestión de riesgos, gobernanza de datos, supervisión humana, exactitud/robustez. Sanciones: 35 M€ / 7% de la facturación por prácticas prohibidas. |
| ISO/IEC 42001:2023 | Activa, voluntaria | Sistema de gestión de IA con controles proporcionados al riesgo. Para IA adyacente a CBRN: se exigen controles de eliminación, no solo administrativos. Cada vez más esperada por las aseguradoras. |
| NIST AI 600-1 | Publicada en julio de 2024 | El perfil de riesgo de IA generativa nombra explícitamente a los CBRN como 1 de 12 riesgos únicos. Se asigna a las funciones del AI RMF (Gobernar, Mapear, Medir, Gestionar). |
| Borrador de guía de la FDA | Borrador, enero de 2025 | Evaluación de credibilidad específica del contexto para la IA en el desarrollo de productos farmacéuticos/biológicos. Guía final prevista para 2026. |
| Marco de OE de EE. UU. | Derogado | La OE 14110 (seguridad de la IA) fue derogada en enero de 2025. La OE 14081 (Bioeconomía) fue derogada en marzo de 2025. La OE 14292 (seguridad de la investigación biológica) se emitió en mayo de 2025, pero el plazo de implementación de 90 días venció sin un marco de reemplazo. |
| Ley BIOSECURE | Activa en 2026 | Restringe los contratos federales de EE. UU. con determinadas empresas biotecnológicas extranjeras. Crea nuevas obligaciones de cumplimiento de la cadena de suministro para cualquier participante del ecosistema de financiación federal. |
Una referencia para conversaciones internas. Cada fila es honesta sobre las carencias, incluidas las carencias que tampoco nosotros podemos cerrar.
| Categoría | Ejemplos | Qué hacen | Qué pasan por alto |
|---|---|---|---|
| Laboratorios de frontera | Anthropic (ASL-3), OpenAI | Evaluaciones CBRN a nivel de modelo, clasificadores constitucionales, entrenamiento de rechazo en el límite de la API | No pueden proteger sus modelos internos ajustados, sus canalizaciones generativas de química ni sus flujos de trabajo RAG. ASL-3 protege a Claude, no a su instancia de REINVENT. |
| Plataformas de química generativa | Chemistry42, REINVENT 4, Schrödinger | Filtrado de alertas estructurales (toxicóforos, PAINS, grupos reactivos), puntuación ADMET, acoplamiento basado en física | Filtran salidas, no objetivos. No pueden detectar la proximidad en el espacio latente a la variedad de los CWA. La función de recompensa de REINVENT es un archivo de configuración con la vulnerabilidad de MegaSyn. |
| Cribado de ADN | IGSC, SecureDNA, IBBIS | Cribado basado en homología frente a las listas de Agentes Selectos. SecureDNA añade hashing criptográfico. Parches posteriores al Paraphrase Project desplegados a finales de 2025. | El cribado ocurre después de que usted realiza el pedido. Sin visibilidad de lo que sus modelos generativos proponen internamente. La predicción funcional sigue siendo limitada para andamiajes novedosos. |
| Académicos / CAIS | CAIS (WMDP), CMU, Stanford | Publican benchmarks (WMDP), desarrollan técnicas de desaprendizaje (RMU, UIPE), ejecutan evaluaciones | No despliegan, integran, mantienen ni certifican. Los resultados de investigación necesitan ingeniería para convertirse en controles operativos. |
| Big 4 / grandes integradores | Deloitte, Accenture, EY, KPMG | Marcos de gobernanza de IA, redacción de políticas, evaluaciones de riesgo, análisis de brechas de ISO 42001 sobre el papel | Implementan gobernanza, no controles técnicos. No construirán un crítico de espacio latente, ni ejecutarán ataques de reaprendizaje, ni integrarán la ablación de características SAE en su MLOps. Los proyectos cuestan entre 500 K$ y más de 5 M$ y entregan documentos, no sistemas desplegados. |
| Equipos de ML internos | El grupo de IA/ML de su farmacéutica | Experiencia en el dominio, entrenamiento de modelos, ingeniería de canalizaciones, conocimiento profundo de sus datos y flujos de trabajo específicos | Rara vez tienen experiencia especializada en robustez adversarial, desaprendizaje de LLM, análisis topológico de datos para detección de variedades o modelado de amenazas específico de CBRN. No es su trabajo. |
Carencias honestas que tampoco nosotros podemos cerrar: Si la dirección de su área de I+D no quiere que las revisiones de bioseguridad ralenticen la iteración, ninguna capa técnica perdurará. Si un adversario exfiltra los pesos Y dispone de un conjunto de datos curado sobre armas biológicas, la capacidad puede reconstruirse con independencia del desaprendizaje. Las amenazas de incógnitas desconocidas (capacidades aún no enumeradas en WMDP) quedan fuera del alcance de cualquier benchmark. El envenenamiento de datos aguas arriba requiere una cooperación que no podemos imponer.
Cinco capacidades, cada una abordando una carencia específica del panorama de defensa actual. Nos situamos sobre cualquier pila que ya esté ejecutando. No es un producto. Es una construcción personalizada por proyecto.
Intercepta las salidas SMILES, SELFIES y de grafos de su canalización generativa antes de que lleguen al investigador. No es un filtro sobre estructuras malas conocidas. Es un puntuador de proximidad en el espacio latente que mide la distancia a la variedad de los agentes de armas químicas mediante análisis topológico de datos.
Decisiones técnicas: Recurrimos a la homología persistente (filtración de Vietoris-Rips) para caracterizar la región de los CWA del espacio latente porque es robusta frente a las transformaciones de coordenadas que vencen a las métricas de distancia más simples. Se combina con la detección de saltos de actividad para candidatos límite. Cada intercepción produce una entrada de registro de auditoría ISO 42001.
RMU + ablación de características SAE + UIPE aplicados a su modelo de biología específico. Apuntamos a los circuitos de capacidad que habilitan la generación relacionada con patógenos a la vez que preservamos las capacidades de descubrimiento terapéutico que sus investigadores necesitan a diario.
Decisiones técnicas: La identificación de características SAE (autoencoder disperso) localiza las neuronas específicas y las cabezas de atención responsables de la generación relevante para CBRN. La ablación es quirúrgica: verificamos que los benchmarks de rendimiento terapéutico se mantengan dentro del 2% de las líneas base previas a la intervención. La recertificación mensual detecta la deriva por reaprendizaje. Esto no es configurar y olvidar.
Pruebas adversariales trimestrales que cubren toda la superficie de ataque de 2025-2026: ataques de homología al estilo de GeneBreaker contra sus modelos de biología, jailbreaks por inducción con SMILES contra sus canalizaciones de química, simulación de ajuste fino malicioso sobre sus modelos de pesos abiertos y pruebas de recuperación por reaprendizaje sobre sistemas desaprendidos.
Entregable: Informe escrito asignado a los controles de NIST AI 600-1 (Gobernar, Mapear, Medir, Gestionar). Cada hallazgo puntuado por explotabilidad, impacto y dificultad de remediación. No es un formato de informe de prueba de penetración. Es un análisis de brechas de controles que su auditor de ISO puede leer directamente.
Traslada el punto de control de cribado de ADN desde su proveedor (tras el pedido) a su canalización (antes del pedido). Se integra con el protocolo criptográfico de SecureDNA y añade una puntuación de predicción funcional que detecta las variantes parafraseadas por IA que la homología por sí sola pasa por alto.
Por qué esto importa: El Paraphrase Project (Microsoft/Twist/IDT, Science 2025) generó miles de variantes de ricina parafraseadas por IA que se colaron por todos los cribados comerciales. Los parches están desplegados, pero su postura de cumplimiento mejora de forma medible cuando criba antes de que la secuencia entre en su ELN, no después de que su proveedor marque un pedido.
Asigna todos los controles técnicos a ISO 42001, NIST AI RMF, las obligaciones GPAI de la Ley de IA de la UE, la política DURC de los NIH e ISO 20688-2:2024. El entregable es una matriz de controles que su equipo de cumplimiento puede entregar directamente a un auditor de ISO, a un organismo notificado de la UE o a una aseguradora de ciberresponsabilidad. No es un documento de políticas y procedimientos. Es evidencia de que los controles técnicos están desplegados, probados y validados de forma continua.
Relevancia para los seguros: Las aseguradoras de ciberresponsabilidad (Munich Re Specialty, a partir de noviembre de 2025) están subiendo las primas o excluyendo el "daño generado por IA" para empresas que ejecutan modelos de pesos abiertos sin controles de riesgo documentados. Este paquete es lo que su equipo de riesgos necesita para responder al cuestionario de suscripción.
Cuatro fases. Plazos realistas. Explícitos sobre lo que cada fase no puede lograr.
3-4 semanas
Mapea cada modelo generativo de su canalización: química (REINVENT, Chemistry42, personalizado), biología (Evo 2, ESM-3, Llama ajustado), diseño de proteínas (RFdiffusion, ProteinMPNN). Para cada modelo: caracterizamos el espacio latente, identificamos las regiones adyacentes a los CWA, evaluamos la manipulabilidad de la función de recompensa, probamos los límites de rechazo y evaluamos los controles de acceso a los pesos.
Limitación: La auditoría identifica vulnerabilidades. No las soluciona. Una farmacéutica que quiera el informe de auditoría con fines de seguro pero que no se comprometa con la remediación tendrá una responsabilidad documentada.
8-12 semanas
Construir e integrar las capas de defensa específicas identificadas en la auditoría: middleware de seguridad para canalizaciones de química, ingeniería de brechas de conocimiento para modelos de biología, integración del cribado previo a la síntesis. Cada componente se despliega en su infraestructura MLOps existente, no en un sistema paralelo.
Limitación: La ingeniería de brechas de conocimiento sobre un modelo de 70.000 millones de parámetros requiere un tiempo de GPU considerable. Presupueste entre 50 K$ y 150 K$ en cómputo para una pasada completa de RMU + ablación SAE, según el tamaño del modelo. La ablación dirigida por SAE reduce esto frente al desaprendizaje del modelo completo, pero no lo elimina.
3-4 semanas
Simulación de ataque de espectro completo contra las capas de defensa desplegadas. Ataques de homología de GeneBreaker, variantes de inducción con SMILES, simulación de MFT (sobre una copia en entorno aislado), intentos de recuperación por reaprendizaje sobre modelos desaprendidos. Documentamos qué se rompe, qué resiste y qué requiere monitorización.
Limitación: El red team prueba clases de ataque conocidas. Los ataques novedosos (incógnitas desconocidas) requieren monitorización continua y reevaluación trimestral. Un red team superado no significa "seguro". Significa "robusto frente a las técnicas adversariales de vanguardia actuales".
2-3 semanas + retención continua
Recopilar el paquete de evidencia de cumplimiento. Asignar los controles a ISO 42001, NIST AI 600-1 y las obligaciones GPAI de la Ley de IA de la UE. Establecer la cadencia de recertificación mensual: ataques de reaprendizaje, validación del rendimiento del middleware, integración de nuevas amenazas. Traspaso a su equipo de cumplimiento con manuales operativos.
Continuo: Una retención de 8 K$-15 K$/mes cubre la recertificación mensual, la actualización trimestral del red team y la integración de inteligencia sobre amenazas (nuevos artículos, nuevas técnicas de ataque, actualizaciones regulatorias).
Seis preguntas. Tres minutos. Descubra dónde se sitúa su canalización generativa respecto al panorama de amenazas y las expectativas regulatorias de 2026.
Parcialmente, y la respuesta honesta importa. El RMU (redirección de representaciones para el desaprendizaje) puede reducir la puntuación WMDP-Bio de un modelo del 75% a un nivel cercano al azar (26%). Pero la investigación sobre reaprendizaje de CMU (ICLR 2025) demostró que los modelos desaprendidos pueden ser empujados de vuelta hacia su rendimiento previo al desaprendizaje usando datos vagamente relacionados, como artículos médicos públicos.
El UIPE (ACL 2025) mejora la durabilidad eliminando el conocimiento relacionado con los objetivos del olvido, y la ablación de características SAE apunta a circuitos de capacidad específicos. Tratamos el desaprendizaje como una capa de defensa con un ciclo de recertificación mensual. Cada 30 días, ejecutamos ataques de reaprendizaje contra el modelo desaprendido. Si la recuperación supera un umbral, volvemos a aplicar la pasada de desaprendizaje con parámetros actualizados.
Esta no es una solución de configurar y olvidar. Es un compromiso de mantenimiento continuo, normalmente de 2-3 días de ingeniería por ciclo mensual.
Un proyecto completo que cubre la auditoría de la variedad, la construcción del middleware de seguridad, la ingeniería de brechas de conocimiento, el red team y el paquete de evidencia de cumplimiento se sitúa en el rango de 180 K$-450 K$, según el número de modelos dentro del alcance, si son de pesos abiertos o basados en API, y las jurisdicciones regulatorias en las que opera. La retención continua de red team y recertificación es normalmente de 8 K$-15 K$ al mes.
Para contextualizar: las sanciones por incumplimiento de la Ley de IA de la UE para los proveedores de GPAI alcanzan los 15 M€ o el 3% de la facturación global. Un único incidente de bioseguridad que llegue a los titulares costará múltiplos del proyecto en daño reputacional, escrutinio regulatorio y aumentos de las primas de seguro. El proyecto es un seguro con un entregable.
Sí. Los clasificadores constitucionales ASL-3 de Anthropic protegen el límite de la API de Claude. Vigilan las entradas y salidas para una clase definida de generaciones relevantes para CBRN. Esto es valioso y representa la postura comercial más sólida disponible.
Pero ASL-3 no protege sus modelos internos de biología ajustados (Evo 2, ESM-3 o un modelo de difusión de proteínas personalizado), sus canalizaciones generativas de química (REINVENT, Chemistry42), sus flujos de trabajo con generación aumentada por recuperación en los que un modelo de biología extrae datos de bases de datos internas, ni las salidas de cualquier modelo de pesos abiertos que se ejecute en su propia infraestructura.
Si un investigador ajusta un modelo de pesos abiertos sobre datos internos para una tarea legítima de descubrimiento de fármacos, ASL-3 no tiene visibilidad de las salidas de ese modelo. El ataque de GeneBreaker funciona sobre Evo 2, no sobre Claude. Su postura de bioseguridad debe cubrir toda la canalización, no solo la API de frontera que invoca para la generación de texto.
Este es el problema más difícil de la seguridad de IA para bioseguridad, y somos honestos sobre el riesgo residual. Un modelo cuyos pesos sean accesibles para cualquiera con acceso al sistema de archivos puede ajustarse de forma maliciosa con 10-50 ejemplos y unos pocos cientos de dólares de tiempo de GPU (arXiv 2508.03153). Ninguna alineación sobrevive al MFT.
Nuestro enfoque tiene tres capas. Primera, la ingeniería de brechas de conocimiento (RMU + ablación SAE) elimina las capacidades peligrosas de los pesos antes del despliegue, dificultando la recuperación por MFT. Segunda, el middleware de seguridad en tiempo de inferencia intercepta las salidas con independencia del estado interno del modelo. Tercera, controles operativos: monitorización de la integridad del archivo de pesos, registro de accesos y detección de anomalías en los patrones de generación.
El riesgo residual que no podemos eliminar: si un adversario exfiltra los pesos Y tiene acceso a un conjunto de datos curado sobre armas biológicas, puede reconstruir la capacidad. Ningún consultor puede impedir esto. Lo que sí podemos hacer es hacerlo detectablemente más difícil y garantizar que sus controles documentados satisfagan los requisitos de diligencia debida de ISO 42001 y la Ley de IA de la UE.
No. Lo complementa. Su proveedor de síntesis de ADN (Twist, IDT, Genscript) ejecuta el Protocolo de Cribado Armonizado del IGSC v3.0 y, cada vez más, comprobaciones conformes con ISO 20688-2:2024. A finales de 2025, los proveedores han parcheado la vulnerabilidad específica de paráfrasis por IA que expuso el Paraphrase Project de Microsoft.
Pero el cribado ocurre después de que usted realiza el pedido. Eso crea dos problemas: un cribado fallido significa tiempo desperdiciado y una marca de cumplimiento en su cuenta, y usted no tiene visibilidad de lo que sus modelos generativos internos están proponiendo antes de que salga el pedido.
El cribado interno previo a la síntesis detecta las secuencias problemáticas en el momento de la generación, antes de que entren en su cuaderno de laboratorio electrónico, antes de que un investigador decida pedirlas y antes de que el cribado de su proveedor desencadene una investigación. Nos integramos con el protocolo de hashing criptográfico de SecureDNA y añadimos una capa de predicción funcional que detecta la clase de variantes parafraseadas por IA que la homología por sí sola pasa por alto. Piénselo como trasladar el punto de control aguas arriba, del proveedor a la canalización.
Los whitepapers interactivos que respaldan esta página de solución. Para equipos que quieren toda la profundidad técnica sobre mecanismos de defensa específicos.
Enfoques topológicos para detectar regiones adyacentes a los CWA en espacios latentes moleculares. Homología persistente, puntuación de variedades y arquitecturas de intervención en tiempo de inferencia.
Desaprendizaje automático (RMU, ablación SAE, UIPE) aplicado a modelos de biología de pesos abiertos. Resistencia al reaprendizaje, protocolos de recertificación mensual y benchmarking con WMDP-Bio.
Una farmacéutica que ejecute modelos generativos de biología o química con operaciones en la UE necesita controles CBRN documentados antes de la fecha de aplicación. Las sanciones por incumplimiento alcanzan los 15 M€ o el 3% de la facturación global.
Comience con una auditoría de la variedad de la canalización de 3-4 semanas. Mapeamos cada modelo generativo de su pila, identificamos las regiones adyacentes a los CWA y entregamos una evaluación de riesgos que puede llevar a su comité de cumplimiento.