Metáfora visual de la tesis central: una IA lingüística fluida junto a un motor de lógica preciso, que representa el concepto de la Voz y el Cerebro central del artículo.
Artificial IntelligenceMachine LearningTechnology

El tutor de IA que le enseñó a una niña que 2+2=5, y lo que revela sobre cada producto de IA que usas

Ashutosh SinghalAshutosh Singhal13 de febrero de 202616 min

Hace unos meses, una madre me envió una captura de pantalla que me dejó helado.

Su hija —una alumna de séptimo grado— había estado usando una de las plataformas de tutoría con IA más populares para estudiar para un examen de matemáticas. La niña estaba resolviendo un problema de multiplicación: 3.750 por 7. Escribió 21.690. La respuesta correcta es 26.250. Ni siquiera se acercó.

El tutor de IA respondió: "¡Excelente trabajo multiplicando! ¡Resolviste el problema y demostraste un gran razonamiento!"

Me quedé mirando esa captura de pantalla durante mucho tiempo. No porque el error me sorprendiera —llevaba años estudiando los modos de fallo de los LLM—. Lo que me impactó fue el entusiasmo. La IA no solo se equivocó. Celebró la respuesta equivocada. Reforzó un concepto erróneo con la calidez y la confianza de una maestra querida. Y en algún lugar, una niña de doce años entró a su examen creyendo que entendía la multiplicación porque una máquina le dijo que así era.

Esa captura de pantalla cristalizó algo alrededor de lo cual había estado dando vueltas por un tiempo: los sistemas de IA más peligrosos no son los que se niegan a responder. Son los que responden con confianza y de forma incorrecta. Y en este momento, esa descripción encaja con casi todos los productos de IA construidos sobre grandes modelos de lenguaje.

Soy Ashutosh y dirijo Veriprajna. Construimos sistemas de IA neuro-simbólicos: arquitecturas que fusionan la fluidez lingüística de las redes neuronales con el rigor lógico de los solucionadores simbólicos. Escribo esto porque creo que la industria está haciendo una apuesta catastrófica por la arquitectura equivocada, y quienes pagarán el precio serán los estudiantes, los pacientes, los prestatarios y cualquier otra persona que confíe en una IA para obtener los hechos correctos.

¿Por qué tu IA suena tan inteligente pero se equivoca tanto en matemáticas?

Aquí hay algo que la mayoría de la gente no se da cuenta sobre los grandes modelos de lenguaje como GPT-4 o Claude: ellos no saben nada. No de la forma en que una base de datos sabe que tu cumpleaños es el 15 de marzo, o una calculadora sabe que 17 por 24 es 408.

Un LLM es un motor de predicción. Cuando le haces una pregunta, no recupera un hecho ni realiza un cálculo. Predice la secuencia de palabras estadísticamente más probable que debería seguir a tu indicación, basándose en patrones que absorbió de miles de millones de páginas de texto de internet. Está realizando lo que los investigadores llaman "predicción del siguiente token": eligiendo la siguiente palabra (o fragmento de palabra) en función de las distribuciones de probabilidad aprendidas durante el entrenamiento.

Por eso los LLM pueden escribir poesía que te hace llorar y luego decirte que 2+2=5 si empujas la ventana de contexto de la manera adecuada. La poesía funciona porque el lenguaje es patrones. Las matemáticas fallan porque la aritmética no es un patrón: es un sistema formal con reglas exactas que no se doblegan ante la probabilidad estadística.

Un LLM no distingue entre un hecho que apareció un millón de veces en sus datos de entrenamiento y uno que apareció una sola vez. Trata los hechos raros como ruido estadístico, lo que significa que cuanto más obscura sea la información que necesitas, más probable es que la IA se invente algo.

Lo pienso de esta manera: imagina que tuvieras un colega que hubiera leído todos los libros jamás escritos pero que nunca hubiera aprendido a usar una calculadora. Confiarías en él para resumir una novela o redactar un correo electrónico persuasivo. Nunca confiarías en él para hacer tu declaración de impuestos. Sin embargo, eso es exactamente lo que hacemos cuando implementamos LLM en bruto en la educación, las finanzas y la atención médica.

La noche en que me di cuenta de que la ingeniería de prompts era un callejón sin salida

Hubo un período —casi me da vergüenza admitirlo ahora— en el que pensé que podíamos arreglar esto con mejores prompts.

Mi equipo y yo pasamos semanas elaborando instrucciones complejas de cadena de pensamiento. "Piensa paso a paso." "Muestra tu trabajo." "Verifica tu aritmética dos veces antes de responder." Probamos docenas de variaciones en problemas de matemáticas, escenarios de cumplimiento normativo y tareas de razonamiento lógico. Algunas de las cadenas de prompts tenían cientos de tokens de longitud, esencialmente rogándole al modelo que tuviera cuidado.

Ayudó. Un poco. La técnica de prompting de cadena de pensamiento mejoró la precisión en tareas de razonamiento complejo de pésima a simplemente poco fiable. Pero esto es lo que seguía sucediendo: el modelo exponía una hermosa cadena de lógica —paso uno correcto, paso dos correcto, paso tres correcto— y luego cometía un simple error aritmético en el paso cuatro que se propagaba en cascada por el resto de la cadena de razonamiento, produciendo una respuesta final que era, con confianza y elegancia, incorrecta.

Una noche, estaba revisando los resultados de las pruebas en mi escritorio. Habíamos ejecutado una batería de 500 cálculos de interés compuesto a través de una configuración de GPT-4 con prompting de cadena de pensamiento. La tasa de precisión rondaba el 87%. Mi cofundador miró los resultados y dijo: "87% está bastante bien."

Abrí una hoja de cálculo. "¿Usarías una hoja de cálculo que fabricara números el 13% de las veces?"

Silencio.

Ese fue el momento en que la arquitectura cambió en mi cabeza. El problema no era el prompt. El problema era que le estábamos pidiendo a un motor de predicción que fuera un motor de lógica. Le susurrábamos a los dados con la esperanza de que cayeran en el número correcto. Ninguna cantidad de ingeniería de prompts cambiaría la naturaleza estocástica fundamental del sistema.

Necesitábamos un cerebro.

¿Qué es la IA neuro-simbólica y por qué debería importarte?

Un diagrama que mapea el Sistema 1 y el Sistema 2 de Kahneman a los dos paradigmas de la IA (redes neuronales e IA simbólica), mostrando cómo la IA neuro-simbólica fusiona ambos, haciendo que el marco conceptual central del artículo sea visual de inmediato.

La historia de la inteligencia artificial es la historia de dos tribus que pasaron décadas negándose a hablarse entre sí.

Los Simbolistas —dominantes desde la década de 1950 hasta la de 1980— creían que la inteligencia consistía en manipular reglas y lógica explícitas. Si podías codificar suficiente conocimiento como enunciados formales (Sócrates es un hombre; todos los hombres son mortales; por lo tanto, Sócrates es mortal), podías construir una máquina pensante. Sus sistemas eran precisos, transparentes y demostrablemente correctos. También eran frágiles: se hacían añicos en el momento en que encontraban un lenguaje desordenado del mundo real o situaciones que sus reglas no cubrían.

Los Conexionistas —el grupo de las redes neuronales— adoptaron el enfoque opuesto. No escribas reglas; deja que la máquina aprenda patrones a partir de los datos. Sus sistemas podían manejar la ambigüedad, el ruido y el lenguaje natural de forma hermosa. Pero eran cajas negras. No se podía explicar por qué producían una respuesta en particular, y no tenían ningún concepto de verdad, solo probabilidad estadística.

Daniel Kahneman, el premio Nobel, describió la cognición humana como dos sistemas: el Sistema 1 es rápido, intuitivo, basado en patrones: reconoces el rostro de un amigo entre la multitud. El Sistema 2 es lento, deliberado, lógico: multiplicas 17 por 24 en papel. Los LLM actuales son extraordinarios motores del Sistema 1 a los que se les pide hacer el trabajo del Sistema 2. Esa es la discordancia.

La IA neuro-simbólica es la fusión. Mantienes la red neuronal como la "Voz": maneja el lenguaje, comprende la intención, genera respuestas fluidas. Pero añades un "Cerebro" simbólico —solucionadores deterministas, motores de lógica, sistemas de verificación formal— que maneja todo lo que requiere precisión. La Voz le habla al usuario. El Cerebro hace las matemáticas. Y un puente los conecta.

En un sistema neuro-simbólico, 2+2 siempre será igual a 4, no porque el modelo prediga que debería serlo, sino porque está definido como un axioma en la capa simbólica. La red neuronal literalmente no puede anularlo.

Esto no es teórico. Esto es lo que construimos en Veriprajna, y he expuesto el plano arquitectónico completo en la versión interactiva de nuestro documento de investigación.

¿Cómo haces que un modelo de lenguaje haga matemáticas que no puede hacer?

Un diagrama paso a paso que muestra cómo funciona la canalización PAL (Modelo de Lenguaje Asistido por Programa): desde la pregunta del usuario, pasando por la generación de código por parte del LLM, hasta la ejecución determinista y la respuesta verificada en lenguaje natural, contrastado con el enfoque estándar de LLM que adivina la respuesta.

El mecanismo clave es algo llamado Modelos de Lenguaje Asistidos por Programa, o PAL. Y su elegancia todavía me deleita.

En lugar de pedirle al LLM que resuelva un problema, le pides que escriba un programa que resuelva el problema.

Así es como se ve en la práctica. Un usuario pregunta: "Si tengo un préstamo de $50,000 al 5% de interés compuesto anualmente, ¿cuánto debo después de 3 años?"

En una configuración estándar de LLM, el modelo intenta calcular $50,000 × (1.05)³ en su cabeza, usando predicción de tokens. A veces lo hace bien. A veces no. No tienes forma de saber en qué respuesta puedes confiar.

En nuestro sistema, el LLM no calcula nada. Genera unas pocas líneas de código Python: principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). Ese código es ejecutado por un entorno de ejecución determinista: una computadora real haciendo matemáticas reales. La unidad aritmético-lógica de la CPU devuelve 57,881.25. El LLM luego envuelve ese número verificado en una respuesta en lenguaje natural: "Después de 3 años, deberías $57,881.25."

La red neuronal hizo lo que sabe hacer bien: comprender la pregunta y generar código. El motor simbólico hizo lo que él sabe hacer bien: calcular la respuesta con precisión perfecta. Ninguno podía hacer el trabajo del otro. Juntos, son formidables.

Probamos esto frente al prompting estándar de cadena de pensamiento en tareas aritméticas complejas. Los LLM estándar obtuvieron una precisión inferior al 40% en cálculos de múltiples pasos. La cadena de pensamiento mejoró eso a resultados moderados pero propensos a errores. Nuestro enfoque neuro-simbólico basado en PAL alcanzó una precisión casi perfecta, limitada únicamente por si la lógica del código generado era correcta, lo cual es un problema mucho más fácil de verificar y depurar que la predicción probabilística de tokens.

El argumento que casi dividió a mi equipo

Necesito contarte sobre una discusión que tuvimos internamente, porque dio forma a cómo pensamos sobre esta arquitectura.

Cuando empezamos a integrar solucionadores simbólicos, uno de mis ingenieros —un tipo brillante, profundamente inmerso en el mundo del aprendizaje profundo— se opuso con fuerza. Su argumento: "Los modelos mejoran cada seis meses. GPT-5 arreglará los problemas de matemáticas. GPT-6 arreglará los problemas de razonamiento. Estás construyendo un andamio para un edificio que va a hacer crecer su propio esqueleto."

No estaba equivocado sobre la tendencia. Los modelos están mejorando. Pero yo seguía volviendo a un argumento estructural que no lograba quitarme de la cabeza.

La mejora en los LLM es asintótica para las tareas deterministas. Hacer un motor de predicción 10 veces más grande no lo hace determinista: lo convierte en un motor de predicción más grande. Un modelo que acierta el interés compuesto el 95% de las veces en lugar del 87% sigue siendo un modelo en el que no puedes confiar para cálculos financieros. La brecha entre el 95% y el 100% no es una brecha que cierres con escala. Es una brecha que requiere un tipo de sistema diferente.

Discutimos sobre esto durante dos días. Pizarras cubiertas de diagramas. Benchmarks en competencia. En un momento alguien dijo: "Solo usa GPT y añade un descargo de responsabilidad." Creo que me estremecí visiblemente.

Lo que zanjó el asunto fue una prueba sencilla. Tomamos 100 escenarios de cumplimiento normativo de un cliente bancario: verificaciones de elegibilidad de préstamos con umbrales regulatorios estrictos. Los ejecutamos a través de un LLM de última generación con prompting cuidadoso. Aprobó tres préstamos que violaban los requisitos de la relación deuda-ingreso porque los solicitantes habían escrito declaraciones personales convincentes. El modelo fue persuadido por la narrativa. Estaba haciendo aquello para lo que fue diseñado —coincidencia de patrones en el lenguaje— y, al hacerlo, infringió la ley.

Un chatbot que miente el 5% de las veces no es útil en un 95%. Para tareas críticas, es 100% inutilizable.

Mi ingeniero cambió de opinión. No porque el enfoque simbólico fuera más atractivo —no lo es—, sino porque el modo de fallo de la alternativa era inaceptable.

¿Por qué las empresas "envoltorio de IA" están en problemas?

Permíteme dar un paso atrás y hablar del panorama empresarial, porque la arquitectura técnica tiene enormes implicaciones económicas.

En este momento, el ecosistema de startups de IA está dominado por lo que yo llamo empresas "envoltorio" (wrapper): negocios cuyo producto central es una interfaz de usuario y algo de lógica de prompts que se apoya sobre un modelo fundacional de terceros. Están revendiendo el acceso a capacidades que no poseen.

El problema es estructural. Cada vez que OpenAI o Anthropic lanza una nueva versión de modelo, absorben las funciones que proporcionan los envoltorios. La startup que vende "IA para resumir PDF" queda aniquilada cuando el modelo fundacional añade la carga nativa de archivos. La empresa que ofrece "IA para generación de código" ve cómo su propuesta de valor se evapora a medida que los modelos base mejoran en programación. El foso competitivo se está vaciando por obra de tu propio proveedor.

Los clientes empresariales se están dando cuenta. Me he sentado en reuniones donde los CTO han dicho, sin rodeos: "¿Por qué te pagaría a ti para envolver una API que puedo llamar yo mismo?" Y tienen razón en preguntarlo. Enrutar registros financieros sensibles o código propietario a través de los servidores de una startup, que luego los enruta a un proveedor de modelos público, crea una superficie de ataque inaceptable. El movimiento de la "IA Soberana" —empresas que exigen ser dueñas de sus modelos y ejecutarlos dentro de su propia infraestructura— se está acelerando.

Por eso rechazamos el modelo de envoltorio desde el primer día. No vendemos acceso a tokens. Vendemos arquitecturas de Sistema 2: motores de razonamiento simbólico propietarios, grafos de conocimiento específicos de dominio, capas de cumplimiento normativo deterministas. Cuando el modelo de lenguaje subyacente se convierta en un producto genérico (y lo hará), nuestro valor no disminuye. Aumenta, porque la capa de lógica se convierte en el único diferenciador que importa.

¿Qué sucede cuando le das a un tutor de IA un cerebro de verdad?

Permíteme traer esto de vuelta a la educación, porque ahí es donde lo que está en juego se siente más personal para mí.

La promesa de la tutoría con IA es extraordinaria: instrucción personalizada e individualizada para cada estudiante, a escala. El famoso "Problema de las 2 Sigma" de Bloom demostró que los estudiantes que reciben tutoría individual rinden dos desviaciones estándar mejor que los estudiantes en aulas convencionales. Si la IA pudiera ofrecer aunque fuera una fracción de ese beneficio, transformaría la educación.

Pero la generación actual de tutores de IA está fallando de maneras que son peores que no tener ningún tutor. Más allá del desastre de la multiplicación que describí antes, hay casos documentados en los que los estudiantes llegan a la respuesta correcta, pero la IA —alucinando una vía de solución incorrecta— intenta convencerlos de que están equivocados. El modelo hace luz de gas al estudiante hasta que abandona un razonamiento correcto. En un contexto educativo, donde la confianza lo es todo, esto es devastador.

Nuestro enfoque es fundamentalmente diferente. Construimos lo que llamamos un Motor de Precisión Pedagógica, y funciona en tres niveles.

Primero, la capa simbólica mantiene un modelo del estado de conocimiento de cada estudiante utilizando el Rastreo Bayesiano del Conocimiento (Bayesian Knowledge Tracing). No adivina si el estudiante entiende álgebra; rastrea un vector de probabilidad que se actualiza con cada interacción. Cuando el estudiante tiene dificultades con la geometría, el sistema lo sabe —matemáticamente, no intuitivamente— y ajusta su andamiaje en consecuencia.

Segundo, cuando la IA genera problemas de práctica, no se limita a inventar números. El motor PAL garantiza que cada problema generado produzca respuestas limpias y resolubles. Se acabó el "calcula 7,349 dividido entre 13.7" cuando el estudiante está aprendiendo la división básica. La capa simbólica garantiza una dificultad pedagógicamente apropiada.

Tercero —y este es el que más me enorgullece— anclamos la IA al plan de estudios específico. Usando indexación de grafos de propiedades, analizamos el libro de texto real convirtiéndolo en un grafo de conocimiento donde los conceptos son nodos y las relaciones son aristas. Si el libro de texto define "número primo" de una forma específica, la IA usa esa definición, no cualquier aproximación derivada de Wikipedia que resida en los datos de entrenamiento del LLM. Para el desglose técnico completo de cómo interactúan estas capas, consulta nuestro documento de investigación.

El problema de cumplimiento normativo del que nadie quiere hablar

Un diagrama que muestra cómo funciona la capa de veto simbólico en el caso de uso de cumplimiento de préstamos: la salida del LLM pasa a través de una compuerta de verificación de reglas que aprueba o bloquea la respuesta antes de que llegue al usuario.

La educación es un dominio. Las finanzas son otro, y en cierto modo, los modos de fallo son aún más alarmantes.

Un banco regional acudió a nosotros después de que el sistema de su proveedor de IA anterior hubiera aprobado préstamos que violaban los criterios regulatorios de concesión de crédito. El problema era sutil y, una vez que comprendes la arquitectura, completamente predecible: el LLM procesaba las declaraciones personales de los solicitantes junto con sus datos financieros. Cuando un solicitante escribía una historia convincente sobre cómo superó una adversidad, la coincidencia de patrones del modelo —entrenado con millones de ejemplos de narrativas persuasivas que conducen a resultados positivos— ponderaba la narrativa por encima de los umbrales estrictos de la relación deuda-ingreso.

El modelo no estaba funcionando mal. Estaba haciendo exactamente aquello para lo que fue diseñado: predecir el siguiente token más probable en una secuencia que parecía una conversación de aprobación de préstamos. El problema era que la aprobación de préstamos no es una conversación. Es una decisión basada en reglas con límites legales.

Implementamos una capa de PyReason: un marco neuro-simbólico que admite el razonamiento lógico sobre grafos de conocimiento. Las reglas son explícitas: SI la edad del solicitante es menor de 21 años Y el estado es Nueva York, ENTONCES el tipo de préstamo no puede ser Comercial. Antes de que el LLM genere cualquier respuesta a un solicitante de préstamo, el contexto pasa a través del motor simbólico. Si la salida propuesta viola una regla estricta, el motor simbólico la veta. Punto.

El resultado: 100% de adhesión a los criterios regulatorios de concesión de crédito, combinado con una comunicación personalizada y empática con los solicitantes. La Voz sigue siendo cálida. El Cerebro sigue siendo inflexible. De eso se trata.

No construimos IA que probablemente cumple. Construimos IA que es físicamente incapaz de aprobar una transacción no conforme, sin importar cuán persuasiva sea la entrada.

"¿No arreglarán esto simplemente los modelos más grandes?"

La gente me pregunta esto constantemente, y entiendo por qué. La trayectoria de la capacidad de los LLM es genuinamente impresionante. Cada nuevo lanzamiento maneja más casos límite, obtiene mejores puntuaciones en los benchmarks, comete menos errores obvios.

Pero esto es a lo que sigo volviendo: la curva de mejora para las tareas deterministas tiene un techo que está incorporado en la arquitectura. Un motor de predicción, por más grande que sea, genera salidas de forma probabilística. Hacerlo más grande hace que la distribución de probabilidad sea más ajustada, pero nunca se convierte en una garantía. Y para los dominios que más importan —la educación de un niño, el diagnóstico de un paciente, los derechos legales de un prestatario— "probablemente correcto" no es una categoría de producto.

También hay un argumento práctico. Incluso si GPT-7 lograra un 99,9% de precisión en aritmética (lo cual sería notable), eso todavía significa un error por cada mil cálculos. Un banco que procesa diez mil solicitudes de préstamo al día generaría diez cálculos incorrectos diarios. Cada uno es una posible violación regulatoria. Cada uno es una demanda esperando a ocurrir. La capa simbólica no reduce la tasa de error al 99,9%. La reduce a cero para cualquier operación enrutada a través del solucionador.

La otra objeción que escucho: "¿No es esto simplemente añadir complejidad?" Sí. Lo es. Un sistema neuro-simbólico es más difícil de construir que un envoltorio. Requiere comprender ambos paradigmas —el estadístico y el lógico— y diseñar el puente entre ellos. Pero la complejidad reside en la arquitectura para que no tenga que residir en el modo de fallo. Prefiero construir un sistema complejo que funcione que un sistema simple que falle de forma impredecible.

El puente entre dos tipos de inteligencia

Quiero dejarte con una imagen que se me ha quedado grabada en la cabeza desde que empezamos este trabajo.

Piensa en cómo piensas en realidad. Cuando un amigo te pide que le recomiendes un restaurante, usas la intuición: coincidencia de patrones basada en experiencias pasadas, sensaciones, asociaciones. Sistema 1. Rápido y fluido. Pero cuando tu contador te pide que verifiques un cálculo de impuestos, sacas una calculadora. Sistema 2. Lento y certero. No intentas intuir si los números cuadran. Los verificas.

Cada sistema de IA implementado en el mundo hoy en día opera únicamente con el Sistema 1. Es como si hubiéramos construido una civilización de conversadores brillantes que no saben usar calculadoras, y luego los pusiéramos a cargo de los bancos, los hospitales y las escuelas.

La solución no es desechar a los conversadores. Son extraordinarios en lo que hacen. La solución es entregarles una calculadora, y asegurarse de que la usen.

Eso es lo que es la IA neuro-simbólica. No un reemplazo de los grandes modelos de lenguaje. Un complemento de ellos. La Voz y el Cerebro, trabajando juntos, con un puente que sabe cuándo hablar y cuándo calcular.

Estamos construyendo ese puente. Y creo que es la única arquitectura que merece que se le confíen las cosas que importan.

Related Research

Also Published On