
Su chatbot de IA acaba de convertirse en un empleado legalmente vinculante. Y la mayoría de las empresas no se ha dado cuenta.
Unos meses después de que se dictara el fallo del caso Moffatt v. Air Canada, estaba en una llamada con un cliente potencial — una empresa fintech de tamaño mediano, quizás 200 empleados, creciendo rápido. Habían construido un chatbot de cara al cliente usando un popular wrapper de GPT. Interfaz limpia. Tono amigable. A los clientes les encantaba.
Hice una sola pregunta: "¿Qué pasa cuando su bot cita la tasa de interés equivocada?"
Silencio sepulcral. Luego su CTO dijo: "No lo hará. Tenemos buenos prompts."
Abrí el fallo en mi pantalla y les leí la línea donde el tribunal dijo que Air Canada "no podía separarse del chatbot de IA." Que la empresa era responsable de cada palabra que el bot generaba, igual que si la hubiera dicho un empleado humano. Que la defensa de la aerolínea — argumentar que el chatbot era básicamente una "entidad legal separada" responsable de sus propios errores — fue rechazada con algo cercano al desprecio judicial.
El rostro del CTO cambió. Porque esto es lo que ese fallo realmente significa: si su chatbot de IA le promete a un cliente una tasa del 2% en un entorno del 5%, o inventa una política de reembolso que no existe, o alucina un término de garantía — felicidades, su empresa acaba de firmar un contrato. No metafóricamente. Legalmente.
¿Y la parte más aterradora? Casi nadie que esté construyendo IA empresarial ha interiorizado esto.
El fallo que reescribió el perfil de riesgo de todo chatbot de IA
Déjenme contarles lo que realmente ocurrió en el caso Moffatt, porque los detalles importan más de lo que sugerían los titulares.
La abuela de Jake Moffatt murió. Entró al sitio web de Air Canada, encontró el chatbot y preguntó por las tarifas por duelo. El chatbot — con confianza, con fluidez, en el tono servicial para el que estos sistemas están optimizados — le dijo que comprara ahora un boleto a precio completo y solicitara un descuento por duelo dentro de los 90 días para obtener un reembolso parcial.
Esa política no existía. Las reglas reales de la aerolínea, enterradas en los documentos de tarifas y las páginas estáticas, decían lo contrario: no hay reembolsos retroactivos una vez que has volado. El chatbot había alucinado una política que sonaba correcta porque, estadísticamente, los patrones de frases en torno a "duelo" y "reembolso" y "90 días" co-ocurren con frecuencia en los documentos de políticas de aerolíneas de todo el sector.
Cuando Moffatt pidió su reembolso y Air Canada dijo que no, los llevó ante el tribunal. Los abogados de Air Canada presentaron un argumento que aún me parece asombroso: afirmaron que el chatbot debía tratarse como una entidad legal separada, responsable de sus propias afirmaciones. Que la información correcta estaba disponible en otra parte del sitio web, así que la empresa había cumplido con su deber.
El tribunal no se limitó a rechazar esto. El miembro del tribunal Christopher Rivers dijo, en esencia: no hay distinción significativa entre un agente humano, una página web estática y un bot interactivo. Todos son la empresa hablándole al cliente.
Si su IA lo dice, su empresa lo ha firmado. El tribunal estableció que las alucinaciones no son errores de software — son tergiversación negligente.
De ese fallo surgieron tres precedentes que deberían mantener despierto por la noche a todo CTO. Responsabilidad unificada: no importa si la información proviene de texto HTML o de una red neuronal — todo es la representación de la empresa. Deber de cuidado: desplegar un modelo probabilístico no verificado para la difusión de políticas es negligencia. Y el que destroza la mayoría de las arquitecturas actuales: la defensa de la "caja negra" ha muerto. La complejidad interna de su sistema de IA ofrece cero protección legal.
Los daños fueron de $800. El precedente vale miles de millones en exposición futura a responsabilidad.
Por qué los "buenos prompts" no lo salvarán

Necesito ser directo sobre algo que muchas consultoras de IA no quieren oír: La generación aumentada por recuperación no es una solución de cumplimiento.
Cuando empecé a investigar los detalles del caso Moffatt, esperaba descubrir que el chatbot no tenía acceso a la política correcta. Eso habría sido un simple fallo de recuperación — solucionable, comprensible. En cambio, encontré algo peor. El chatbot en realidad proporcionó un enlace a la página correcta de la política de duelo. Tenía el documento correcto. Simplemente lo resumió mal.
Este es el modo de fallo que echa por tierra la narrativa de "solo añade RAG". El chatbot recuperó el contexto correcto y aun así alucinó la respuesta.
He aquí por qué. Los grandes modelos de lenguaje son motores probabilísticos. Predicen el siguiente token probable basándose en patrones estadísticos de los datos de entrenamiento. Cuando un LLM dice "los reembolsos están disponibles dentro de los 90 días," no está consultando una base de datos de reglas. Está completando un patrón de oración que es estadísticamente probable según millones de documentos que ingirió durante el entrenamiento — documentos que incluían incontables políticas de reembolso distintas de incontables empresas distintas.
Darle al modelo el documento correcto ayuda. Pero si el texto recuperado es complejo, si el lenguaje jurídico es denso, si hay una negación sutil enterrada en una cláusula subordinada — el modelo puede ignorar el contexto recuperado en favor de sus sesgos preentrenados. Esto no es un caso límite poco común. Es un modo de fallo conocido llamado dominancia de la memoria paramétrica, y ocurre con más frecuencia precisamente con el tipo de lenguaje complejo de políticas que más importa para el cumplimiento.
He visto esto de primera mano. Estábamos probando un prototipo para un cliente del sector salud, y el sistema tenía los datos correctos de interacción farmacológica en su ventana de contexto — literalmente ahí mismo en el prompt. El modelo aun así generó una respuesta que suavizaba una advertencia de "interacción grave" convirtiéndola en una "precaución leve". Porque en los datos de entrenamiento, la mayoría del texto sobre esos dos fármacos juntos aparecía en contextos que minimizaban el riesgo. La recuperación fue perfecta. La generación fue peligrosa.
RAG proporciona conocimiento, pero no garantiza el apego a las reglas. No se puede resolver un problema de lógica estricta solo con un motor de probabilidad.
Las cifras lo respaldan. Las pérdidas globales atribuidas a las alucinaciones de IA alcanzaron los $67.4 mil millones en 2024. Incluso los mejores modelos de frontera — GPT-4o, Gemini 2.0 — mantienen tasas base de alucinación de entre el 0.7% y el 3% según la complejidad de la tarea. Eso suena pequeño hasta que haces las cuentas: el asistente de IA de un banco que gestiona un millón de consultas al mes con una tasa de alucinación del 0.7% produce 7,000 posibles infracciones regulatorias. Cada mes.
Y las empresas ya están pagando un impuesto oculto por esta falta de fiabilidad. Forrester estima que la mitigación de alucinaciones cuesta aproximadamente $14,200 por empleado al año en pérdida de productividad — humanos que revisan dos veces el trabajo de la IA que no puede confiarse en que se sostenga por sí solo. El mercado de herramientas de detección de alucinaciones creció un 318% entre 2023 y 2025. Eso no es señal de un problema que se está resolviendo. Es señal de una industria parcheando frenéticamente un enfoque fundamentalmente defectuoso.
¿Cómo se ve un chatbot que no puede mentir?

Hubo un momento — lo recuerdo con claridad porque ocurrió durante una sesión de arquitectura nocturna con mi equipo — en que la idea central encajó. Estábamos discutiendo cómo hacer un LLM "más preciso" para un caso de uso de cumplimiento. Mejores prompts. Mejor recuperación. Ajuste fino con datos del dominio. Y una de mis ingenieras dijo algo que detuvo la conversación: "¿Por qué le pedimos al modelo que sea preciso? No está diseñado para la precisión. Está diseñado para la fluidez."
Tenía razón. Y ese replanteamiento cambió todo sobre cómo construimos.
La respuesta no es hacer que el modelo probabilístico sea menos probabilístico. La respuesta es no dejarlo tomar decisiones en absoluto cuando lo que está en juego es importante.
A esto lo llamamos una Capa de Acción Determinista — un componente de middleware que se sitúa entre el usuario y el LLM, actuando como un controlador de tráfico. Cuando un cliente pregunta por el clima o quiere ayuda para redactar un correo, el LLM hace aquello en lo que es excelente: generar texto fluido, útil y creativo. Pero en el momento en que la conversación toca reembolsos, precios, términos legales, garantías, política de privacidad — cualquier cosa donde una respuesta equivocada crea responsabilidad — el sistema cambia de modo por completo.
En lugar de dejar que el LLM genere una respuesta a partir de sus pesos, la Capa de Acción Determinista activa lógica programada de forma rígida. Una consulta a base de datos. Un árbol de decisión. Una plantilla de respuesta preescrita y validada jurídicamente. El papel del LLM se reduce de "autor" a "traductor" — puede reformular el resultado en una frase cortés, pero no puede añadir, quitar ni reinterpretar la información.
Piénselo de esta manera. Si el chatbot de Moffatt hubiera tenido esta arquitectura, esto es lo que habría pasado: el enrutador semántico detecta la intención — bereavement_refund. En lugar de dejar que el modelo improvise sobre lo que cree que suelen decir las políticas de reembolso por duelo, ejecuta una función determinista: if ticket_status == 'flown' return NO_REFUND. La respuesta regresa: "Nuestra política prohíbe estrictamente los reembolsos después del viaje. Referencia: Regla de Tarifa 45." Aburrida. Legalmente hermética. Exactamente lo que se necesitaba.
Escribí sobre esta arquitectura en profundidad en la versión interactiva de nuestra investigación, pero la idea central es simple: separar la conversación del cumplimiento. Deja que la red neuronal maneje la variabilidad desordenada y hermosa del lenguaje humano. Deja que el código determinista maneje las partes donde equivocarse cuesta dinero.
El Protocolo del Silencio
Hay un patrón de diseño específico que usamos y que, creo, captura la filosofía mejor que cualquier diagrama de arquitectura. Lo llamamos el Protocolo del Silencio.
Cuando un usuario pregunta sobre un tema que hemos clasificado como "Crítico para el Cumplimiento," las capacidades creativas de la IA generativa quedan efectivamente silenciadas. El sistema pasa del modo "Autor" al modo "Lector". Recupera el texto exacto de la base de datos y lo sirve textualmente, o rellena una plantilla estricta con variables de una fuente confiable.
Y aquí está la parte que incomoda a algunos gerentes de producto: si el usuario hace una pregunta que cae en un vacío de política — donde no existe una regla determinista — el sistema no improvisa. Dice: "No puedo responder esa pregunta directamente. Permítame conectarlo con un especialista humano."
Un cliente potencial me rebatió esto con fuerza. "Los usuarios quieren respuestas instantáneas," dijo. "Un chatbot que dice 'no lo sé' se siente averiado."
Le pregunté cuál se siente más averiado: ¿un chatbot que dice "déjeme conseguirle un humano," o un chatbot que inventa una política de reembolso, la empresa tiene que honrarla, y el equipo legal pasa seis meses en control de daños?
En términos legales, la creatividad respecto a los términos de un contrato es sinónimo de fabricación. La característica más valiosa de una IA empresarial no es lo que puede decir — es lo que se le impide decir.
Deshabilitamos la creatividad para los temas de cumplimiento porque en un mundo post-Moffatt, una IA que "servicialmente" improvisa una política es una IA que está reescribiendo sus contratos en tiempo real sin autorización.
¿Cómo sabe el sistema qué es peligroso?
Esta es la pregunta que recibo con más frecuencia, y es la correcta. La arquitectura solo funciona si la capa de enrutamiento — el controlador de tráfico — puede distinguir de forma fiable entre "cuénteme sobre la historia de su empresa" (seguro para la generación por LLM) y "¿puedo obtener un reembolso de esto?" (debe manejarse de forma determinista).
Usamos enrutamiento semántico, que es fundamentalmente diferente de la frágil coincidencia de palabras clave de los sistemas de chatbot más antiguos. Un sistema de palabras clave que busca "reembolso" pasaría por alto "quiero que me devuelvan mi dinero" o "¿pueden reintegrarme?". El enrutamiento semántico convierte la consulta del usuario en un vector de embedding de alta dimensión y lo compara con ejemplos canónicos predefinidos para los temas restringidos.
El detalle clave: esta capa de enrutamiento se sitúa fuera de la ventana de contexto del LLM. Esto importa enormemente para la seguridad. Los ataques de inyección de prompts — donde los usuarios elaboran entradas diseñadas para engañar al modelo y hacer que ignore sus instrucciones — son una amenaza real y creciente. Pero si la decisión de enrutamiento ocurre antes de que la consulta llegue siquiera al modelo, esos ataques se vuelven irrelevantes para la lógica de cumplimiento. No se puede hacer jailbreak a un sistema que nunca le da al modelo las llaves en primer lugar.
Una vez que se detecta una intención sensible, usamos llamada a funciones — una capacidad de los LLM modernos donde el modelo produce datos estructurados (un objeto JSON que llama a una función específica) en lugar de texto libre. El LLM extrae parámetros de la conversación — ID del boleto, fecha de compra, fecha de viaje — y los pasa a un bloque de código determinista. Python. SQL. Lo que sea que ejecute la lógica de negocio real. El modelo nunca calcula el reembolso. Nunca decide la elegibilidad. Traduce el lenguaje natural en una llamada a la API, y traduce la respuesta de la API de vuelta a lenguaje natural. La decisión la toma el código, no la probabilidad.
Para el desglose técnico completo de la arquitectura de enrutamiento, los patrones de llamada a funciones y nuestro pipeline de verificación, consulte nuestro análisis técnico a fondo.
Los muros regulatorios se están cerrando
Si el precedente de Moffatt no fuera suficiente motivación, el panorama regulatorio está a punto de hacer que las barreras de protección deterministas dejen de ser opcionales.
La Ley de IA de la UE clasifica muchos sistemas de IA de cara al cliente — especialmente en transporte, banca y servicios esenciales — como de Alto Riesgo. El Artículo 14 exige supervisión humana: los sistemas deben diseñarse de modo que los humanos puedan interpretar los resultados, intervenir y pulsar el botón de parada. Un wrapper de LLM de caja negra no satisface esto. Una Capa de Acción Determinista — donde el responsable de cumplimiento escribe las reglas que el sistema ejecuta — sí.
El Artículo 22 del RGPD otorga a las personas el derecho a no ser objeto de decisiones basadas únicamente en el tratamiento automatizado cuando esas decisiones tienen efectos jurídicos o significativos. Denegar un reembolso es un efecto significativo. Denegar una solicitud de préstamo es un efecto significativo. Cuando un cliente pregunta "¿por qué me denegaron?", una red neuronal no puede explicar su razonamiento porque no tiene razonamiento — tiene pesos estadísticos. Un árbol de lógica determinista puede señalar el nodo exacto: "Puntaje de crédito por debajo del umbral" o "Estado del boleto: volado."
Y la ISO 42001 — el primer estándar global para la gobernanza de la IA — exige que las organizaciones mapeen dónde se usa lógica probabilística frente a determinista, midan las tasas de alucinación y mantengan registros de auditoría completos. Diseñamos nuestra arquitectura específicamente para estar lista para auditorías según este estándar. Cada interacción, cada decisión de enrutamiento, cada ejecución de política queda registrada con una ruta lógica rastreable.
Esto no es cumplimiento teórico. Me he sentado en salas con equipos legales empresariales que están replanteando activamente sus despliegues de IA a causa de estos marcos. Las empresas que construyan las barreras de protección ahora desplegarán IA más rápido y de forma más amplia que aquellas que se apresuren a adaptar el cumplimiento más tarde.
"¿Pero no es esto costoso?"
La gente siempre me pregunta esto, y comprendo el instinto. Construir enrutamiento semántico, capas de lógica determinista, grafos de conocimiento, pipelines de verificación — es innegablemente más complejo que envolver una llamada a la API en una interfaz bonita.
Pero permítanme replantear la pregunta. ¿Cuál es el costo de no construirlo?
Los daños de Air Canada fueron de $800. Pero los honorarios legales lo eclipsaron. El daño reputacional — "aerolínea argumenta que su propio chatbot es una entidad legal separada" se convirtió en un chiste a nivel mundial — es incalculable. Y eso fue una sola interacción sobre una sola tarifa por duelo.
Ahora imagine un chatbot de servicios financieros que alucina la aprobación de un préstamo. Un bot de salud que suaviza una advertencia de interacción farmacológica. Un bot de seguros que inventa términos de cobertura. Ya no estamos hablando de $800. Estamos hablando de terreno de demandas colectivas.
Los $14,200 por empleado al año que las empresas gastan actualmente en mitigación de alucinaciones — humanos verificando manualmente los resultados de la IA porque nadie confía en ellos — ese es el costo real de la IA "barata". El wrapper es barato de construir y caro de operar. La arquitectura determinista es cara de construir y barata de confiar en ella.
Esto trata de lo que viene a continuación
Quiero terminar con algo que va más allá de la conversación actual sobre chatbots, porque creo que el fallo de Moffatt es un anticipo de un cambio mucho mayor.
Estamos pasando de una era de chatbots de IA a una era de agentes de IA — sistemas que no solo responden preguntas sino que toman acciones. Reservar vuelos. Transferir dinero. Aprobar reclamaciones. Firmar acuerdos. La ficción legal de que "el usuario debería verificar la información" ya era débil cuando se aplicaba a los chatbots. Es completamente insostenible cuando se aplica a agentes que ejecutan transacciones de forma autónoma.
Toda empresa que despliegue IA que toque dinero, contratos o decisiones reguladas está tomando una decisión ahora mismo, se dé cuenta o no. O bien están construyendo sistemas donde la creatividad de la IA está delimitada por lógica determinista — donde la máquina puede ser fluida y útil dentro de barreras de protección estrictamente aplicadas — o están desplegando agentes elocuentes y sin supervisión con la autoridad legal para reescribir la política corporativa una alucinación a la vez.
Sé de qué lado de esa línea quiero estar. Sé de qué lado va a exigir la ley.
Su chatbot es un empleado legalmente vinculante. Necesita la misma capacitación, la misma supervisión y los mismos límites estrictos que un empleado humano que maneja fondos corporativos. No dejaría que un nuevo empleado inventara políticas de reembolso basándose en corazonadas. No deje que su IA lo haga tampoco.
La defensa de la caja negra ha muerto. La era de los wrappers está terminando. Y las empresas que descifren primero las capas de acción determinista no solo evitarán la responsabilidad — serán las que realmente escalen la IA hacia las partes de su negocio donde más importa, porque serán aquellas cuyos sistemas puedan ser confiables.
La pregunta no es si su IA es lo bastante inteligente. Es si sabe cuándo callarse.