
Tu tutor con IA no recuerda que batallaste con las fracciones la semana pasada
A los pocos meses de construir nuestro primer prototipo de tutoría con IA en Veriprajna, vi una demostración que debería haberme llenado de orgullo. Una estudiante escribió una pregunta sobre ecuaciones cuadráticas. La IA respondió de forma magnífica: paciente, socrática, alentadora. Guio a la estudiante a través de la factorización con la calidez de un profesor favorito. Todos en la sala asentían con la cabeza.
Luego, la estudiante volvió al día siguiente y preguntó sobre razones. La IA no tenía ni idea de que era la misma estudiante que llevaba tres semanas batallando con las fracciones. La trató como a una desconocida. Le sirvió contenido que daba por sentado un dominio que ella no tenía. En menos de cuatro minutos, cerró la pestaña.
Esa demostración rompió algo dentro de mí. No porque la tecnología fallara: se comportó exactamente como estaba diseñada. Generó el siguiente token estadísticamente probable en una conversación. Interpretó el papel de un profesor con una fluidez asombrosa. Pero no sabía nada sobre esta estudiante. No podía conectar sus dificultades con las fracciones al problema de razones que tenía delante. No tenía memoria, ni modelo, ni teoría alguna sobre quién era ella como aprendiz.
Fue entonces cuando me di cuenta: la mayoría de los tutores con IA no son tutores en absoluto. Son chatbots disfrazados de profesor.
Y esa constatación llevó a mi equipo por un camino que cambió de raíz lo que estamos construyendo.
¿Qué hace que un profesor sea un profesor?
Piensa en el mejor profesor que hayas tenido. Apuesto a que lo que lo hacía grandioso no era su capacidad de explicar las cosas con claridad, aunque probablemente también lo hacía. Era que te conocía. Recordaba que te bloqueabas durante las presentaciones orales. Se daba cuenta de que siempre entendías el concepto, pero cometías errores aritméticos bajo presión. Se adaptaba, sesión tras sesión, construyendo un modelo mental de tus fortalezas y carencias que perduraba durante meses.
Ese modelo mental es lo esencial. No la explicación. No el cuestionamiento socrático. El modelo de la mente del aprendiz que evoluciona con el tiempo.
Ahora observa lo que la industria EdTech llama "aprendizaje personalizado impulsado por IA". Casi sin excepción, estos productos son delgadas capas de software que envuelven una API pública: GPT-4, Claude, lo que sea que se lance el próximo trimestre. Toda la "inteligencia" reside en un prompt de sistema que dice algo como: "Eres un útil tutor de matemáticas. Sé paciente y alentador".
Ese prompt controla el tono, no la estrategia. Le dice al modelo cómo debe sonar, no qué debe enseñar. Y como los LLM son motores de probabilidad sin estado —predicen la siguiente palabra basándose en la ventana de conversación actual—, tratan cada sesión como un evento aislado. No pueden vincular un error conceptual de hace tres meses con un fallo de hoy, porque no tienen ninguna representación persistente del conocimiento del aprendiz.
La educación no es la generación de explicaciones. Es la gestión del estado cognitivo de un aprendiz a lo largo del tiempo.
Esta es la distinción que todo el mercado del "tutor con IA" está entendiendo mal.
La noche en que los números contaron una historia distinta
Necesito hablarte de una tarde en concreto, porque cambió el rumbo de nuestra empresa.
Llevábamos un tiempo probando nuestro prototipo basado en un wrapper con un pequeño grupo de estudiantes, y una noche, ya tarde, estaba revisando los registros de interacción, esperando encontrar el patrón habitual: los estudiantes hacen preguntas, la IA las responde, todos contentos. En cambio, encontré algo inquietante.
La IA le había dado a un estudiante una respuesta final correcta a un problema de álgebra, pero los pasos de razonamiento intermedios estaban mal. El estudiante, un chico de décimo grado sin forma de distinguir la lógica válida de una alucinación segura de sí misma, había absorbido el razonamiento defectuoso y lo había aplicado a los siguientes tres problemas. Cada respuesta posterior estaba equivocada de una manera que se remontaba directamente a la explicación inventada por la IA.
La investigación lo respalda. Los estudios sobre LLM en tutoría de matemáticas han descubierto que los modelos con frecuencia proporcionan respuestas correctas a través de pasos intermedios incorrectos, o marcan como erróneo un trabajo correcto del estudiante. Un estudiante principiante no puede distinguir entre una explicación real y una alucinación que suena plausible. La IA suena con autoridad en cualquier caso.
Llamé a mi cofundador esa noche. "No estamos construyendo un tutor", le dije. "Estamos construyendo un mentiroso seguro de sí mismo que de vez en cuando acierta".
Fue duro. Pero también fue el momento en que empezamos a hacernos una pregunta distinta: ¿y si la inteligencia de un tutor con IA no debería residir en absoluto en el modelo de lenguaje?
¿Por qué envolver un LLM fracasa para el aprendizaje real?

Los fallos no son casos aislados. Son arquitectónicos. Tres problemas seguían apareciendo en nuestros registros, y son los mismos tres problemas con los que todo tutor basado en un wrapper acabará topándose:
El déficit de memoria. El recorrido de aprendizaje de un estudiante abarca meses: miles de microinteracciones. Incluso con ventanas de contexto en expansión, el coste y la latencia de procesar todo el historial de un estudiante en cada intercambio son prohibitivos a escala. Así que la IA olvida. Olvida que este estudiante dominó la suma de enteros hace semanas y no necesita repasarla. Olvida que ella sigue cometiendo el mismo error de signo en las ecuaciones. Cada sesión empieza casi desde cero.
El problema de la alucinación. Ya lo describí, pero vale la pena insistir: cuando una IA guía con seguridad a un estudiante a través de un razonamiento equivocado, el daño se acumula. El estudiante no solo falla un problema, sino que interioriza un modelo mental defectuoso que corrompe el aprendizaje futuro. Y la IA no tiene ningún mecanismo para detectar esto, porque no tiene ningún modelo de lo que el estudiante realmente sabe.
El vacío de estrategia. "Actúa como un profesor" es una instrucción sobre la persona, no sobre la pedagogía. Un profesor de verdad toma cientos de microdecisiones por lección: ¿le doy una pista o dejo que batalle? ¿Retrocedo al material de requisito previo o sigo adelante? ¿Cambio de una explicación visual a una verbal? Estas decisiones requieren una teoría del estudiante. El wrapper no tiene ninguna teoría. Reacciona al mensaje actual. Eso es todo.
¿Qué es el Deep Knowledge Tracing y por qué debería importarte?
Aquí es donde necesito ponerme un poco técnico, pero te prometo que se conecta de vuelta con la estudiante que cerró su pestaña.
El Knowledge Tracing es una tarea de aprendizaje automático con un objetivo específico: modelar el conocimiento de un estudiante a lo largo del tiempo para predecir su rendimiento futuro. Existe desde hace décadas, comenzando con algo llamado Bayesian Knowledge Tracing, un sistema que trata el conocimiento como binario. O "sabes" fracciones o no. Cada concepto vive en su propio compartimento. Cada pregunta debe ser etiquetada manualmente por un experto humano.
Ese enfoque es limitado de maneras que importan. El aprendizaje no es binario. Puedes entender el concepto de las fracciones pero cometer errores de forma constante cuando los denominadores son distintos. Puedes estar "oxidado" en algo que dominaste el mes pasado. Y los conceptos no son independientes: batallar con la multiplicación predice batallar con la división, pero los modelos antiguos no podían captar eso a menos que un humano codificara explícitamente la relación.
El Deep Knowledge Tracing, presentado en un artículo de referencia por Piech et al. en Stanford, desechó todo eso. En lugar de etiquetas binarias y dependencias codificadas a mano, el DKT usa redes neuronales recurrentes —específicamente, redes de memoria a corto y largo plazo (Long Short-Term Memory)— para aprender la estructura del conocimiento directamente a partir de los datos de interacción del estudiante. Sin etiquetado manual. Sin supuestos binarios.
La innovación clave es lo que he empezado a llamar el "Estado Cerebral": un vector de alta dimensión que sirve como sustituto digital de todo lo que el sistema cree sobre el conocimiento actual de un estudiante. No es un libro de calificaciones que registra el rendimiento pasado. Es un modelo predictivo de la capacidad actual que se actualiza con cada una de las interacciones.
El Estado Cerebral no registra lo que acertaste ayer. Predice lo que acertarás mañana, y por qué.
Cuando un estudiante responde una pregunta, la LSTM actualiza este vector. La salida es una probabilidad para cada una de las demás preguntas de la base de datos: ¿qué probabilidad hay de que este estudiante responda cada una correctamente, ahora mismo? Ese mapa de probabilidades es donde ocurre la verdadera magia.
Escribí sobre la arquitectura técnica completa —los mecanismos de compuerta, el problema del desvanecimiento del gradiente, los datos de rendimiento comparativo— en nuestro artículo de investigación. Pero la idea que importa para este ensayo es más simple: el DKT mostró una mejora del 25% en la precisión predictiva frente a los métodos bayesianos tradicionales. Eso no es una ganancia incremental. Es la diferencia entre un sistema que más o menos conoce a tu estudiante y uno que realmente lo hace.
El argumento que casi nos descarrila
Quiero ser honesto sobre algo. Cuando propuse por primera vez construir un sistema DKT en lugar de seguir iterando sobre nuestro wrapper de chatbot, mi equipo se resistió. Con fuerza.
"Tenemos un producto que funciona", dijo uno de nuestros ingenieros. "A los usuarios les gusta conversar con él. ¿Por qué estamos reconstruyendo los cimientos?"
Un asesor fue aún más contundente: "Simplemente usa GPT. El modelo mejora cada seis meses. Tu cosa esa del knowledge tracing quedará obsoleta antes de que la lances".
Entendía la lógica. Los LLM están mejorando rápidamente. Las ventanas de contexto se están expandiendo. ¿Por qué construir una arquitectura cognitiva separada cuando el modelo de lenguaje quizá acabe manejándolo todo?
Esto es lo que les dije, y sigo creyéndolo: un LLM que mejora en la generación de texto no está mejorando en la comprensión de un aprendiz. Estas son capacidades fundamentalmente distintas. Una es lingüística. La otra es cognitiva. Puedes tener al tutor más elocuente del mundo, pero si no recuerda que batallaste con las fracciones la semana pasada, su elocuencia se desperdicia.
El equipo cambió de opinión, no por mi argumento, sino por los datos. Realizamos un experimento sencillo: dimos al mismo conjunto de estudiantes el mismo plan de estudios, la mitad a través de nuestro wrapper y la mitad a través de una versión temprana y rudimentaria de nuestro sistema guiado por DKT. La tasa de finalización del grupo con DKT fue casi el triple. No porque las explicaciones fueran mejores. Porque la secuenciación era mejor. El sistema sabía cuándo empujar y cuándo dar andamiaje.
¿Cómo mantener a un estudiante en la Zona de Flujo?

Aquí es donde la psicología se encuentra con las matemáticas, y es la parte de nuestro trabajo que me parece más hermosa.
El concepto de "Flujo" (Flow) de Mihaly Csikszentmihalyi describe un estado de absorción completa: cuando estás tan inmerso en una tarea que el tiempo desaparece. Solo ocurre cuando el desafío se ajusta a tu nivel de habilidad. Demasiado fácil, y te aburres. Demasiado difícil, y te angustias. El punto justo es estrecho.
En un aula tradicional, encontrar ese punto justo para 30 estudiantes distintos de forma simultánea es casi imposible. En un chatbot estándar, ni siquiera se intenta: la IA simplemente responde lo que sea que preguntes. Pero en un sistema DKT, el vector de probabilidad te da algo extraordinario: un mapa en tiempo real de dónde está la Zona de Flujo de cada estudiante.
¿Recuerdas esa salida, la probabilidad de acierto para cada pregunta de la base de datos? Podemos correlacionar esas probabilidades directamente con estados psicológicos:
Cuando la probabilidad predicha está por encima de 0,75, es probable que el estudiante ya domine ese contenido. Mostrárselo arriesga el aburrimiento. Por debajo de 0,35, es probable que fallen: presentárselo sin apoyo arriesga la frustración y el abandono. Pero en esa banda entre 0,40 y 0,70, donde el estudiante tiene quizá un 55% o 60% de probabilidad de acertar, eso es la zona. Saben lo suficiente para intentar el problema, pero tienen que pensar para resolverlo. Esa es la Zona de Desarrollo Próximo de Vygotsky, cuantificada.
Convertimos una teoría psicológica de la década de 1970 en un algoritmo de selección. El estudiante no sabe que está ocurriendo. Simplemente siente que el material siempre está justo en su punto.
Nuestro sistema ejecuta un bucle continuo: el estudiante responde, la LSTM actualiza el Estado Cerebral, las probabilidades cambian y se selecciona la siguiente pregunta para mantenerlo suspendido en esa zona de máxima implicación. Si tropieza, el sistema sirve automáticamente contenido de andamiaje más simple para reconstruir la confianza antes de volver a la complejidad. Si avanza sin esfuerzo, aprieta más.
Esto es lo que quiero decir cuando afirmo que la inteligencia no debería residir en el modelo de lenguaje. El LLM no decide qué enseñar. El Estado Cerebral lo hace. El LLM solo decide cómo decirlo.
¿Por qué el modelo de lenguaje no puede hacer simplemente todo esto?

La gente me pregunta esto constantemente, y es una pregunta justa. Si los LLM se están volviendo más inteligentes, con contexto más largo y más capaces, ¿por qué construir un sistema separado?
Tres razones.
Primero, coste y latencia. Procesar todo el historial de interacción de un estudiante —potencialmente miles de intercambios a lo largo de meses— a través de un LLM para cada respuesta es computacionalmente costoso y lento. El modelo DKT procesa los mismos datos en milisegundos porque está diseñado arquitectónicamente para el seguimiento secuencial del estado. Es la herramienta adecuada para el trabajo.
Segundo, contención de alucinaciones. Cuando nuestro sistema identifica la siguiente mejor pregunta que presentar, restringe el alcance del LLM. En lugar de dejar que GPT deambule libremente por todas las matemáticas, le decimos: "Presenta el Problema #882. El estudiante tiene un 60% de probabilidad de resolverlo. Proporciona una pista relacionada con la factorización si duda". Al restringir el espacio de búsqueda, reducimos drásticamente la oportunidad de que el modelo genere sinsentidos que suenan plausibles.
Tercero —y este es el argumento estratégico—, defendibilidad. Si todo tu producto es un prompt envuelto alrededor de una API pública, no tienes ningún foso defensivo. Cualquiera puede replicarlo en un fin de semana. Pero ¿un modelo DKT entrenado sobre miles de trayectorias de aprendizaje, refinado de forma continua por datos reales de estudiantes? Eso es un activo propietario. Cuantos más estudiantes usen el sistema, mejor predice, y cuanto mejor predice, más estudiantes se quedan. Es un volante de datos que los competidores no pueden clonar con una llamada a una API.
Para una mirada más profunda a cómo diseñamos la arquitectura de esto —la integración neuro-symbolic, el problema del arranque en frío, las estrategias de aprendizaje por transferencia—, preparé un recorrido interactivo que entra en más detalle del que puedo dar aquí.
El arranque en frío y las primeras veinte preguntas
Un desafío con el que lidiamos durante semanas: ¿qué haces con un estudiante completamente nuevo? El modelo DKT necesita datos de interacción para construir un Estado Cerebral, pero el estudiante no tiene historial. Este es el clásico problema del "arranque en frío" (cold start) en el aprendizaje automático, y en la educación es especialmente doloroso porque esas primeras interacciones determinan si el estudiante regresa.
Nuestra solución tiene tres capas. Preentrenamos el modelo con datos agregados y anonimizados de miles de trazas históricas de aprendizaje, estableciendo una línea base. Cuando llega un nuevo estudiante, lo asignamos a un clúster de aprendices basándonos en una breve evaluación diagnóstica, sembrando su estado oculto con el centroide de aprendices similares. Luego —y esta parte fue la que más ajuste requirió— diseñamos la LSTM para que diverja rápidamente de la línea base genérica hacia un estado personalizado dentro de las primeras 10 a 20 interacciones.
Esas primeras veinte preguntas son las más importantes. Pasamos semanas calibrándolas, no solo por la precisión diagnóstica, sino por la implicación. Si el diagnóstico se siente como un examen, los estudiantes lo abandonan. Si se siente como una conversación, se involucran. Acertar con eso fue tanto un problema de diseño como un problema de aprendizaje automático.
Lo que las tasas de finalización muestran en realidad
No voy a fingir que nuestro sistema es perfecto. Todavía estamos en las etapas iniciales. Pero los números de nuestros pilotos cuentan una historia difícil de rebatir.
Los cursos en línea tradicionales —MOOC, plataformas LMS estándar— tienen tasas de finalización en torno al 15 al 20%. Ese número se ha mantenido obstinadamente constante durante más de una década. Los sistemas adaptativos impulsados por knowledge tracing lo elevan al 60 al 80%. En contextos de formación corporativa, donde la métrica que importa es el tiempo hasta la competencia, los sistemas adaptativos han mostrado reducciones del 40 al 50% en el tiempo total de formación, porque los empleados se saltan el contenido que ya dominan y se enfocan solo en sus carencias reales.
El problema de las "2 Sigma", identificado por el investigador educativo Benjamin Bloom, mostró que la tutoría uno a uno produce resultados de aprendizaje dos desviaciones estándar por encima de la instrucción en el aula. El desafío siempre fue la escalabilidad: no puedes darle a cada estudiante un tutor personal. El DKT no resuelve del todo ese problema, pero se acerca más que ninguna otra cosa que haya visto, porque le da a cada estudiante un sistema que realmente modela su conocimiento, y no un plan de estudios genérico.
El problema de las 2 Sigma nunca tuvo que ver con encontrar mejores explicaciones. Tuvo que ver con encontrar una manera de conocer a cada aprendiz individualmente, a escala. Ese es un problema de seguimiento de estado, no un problema de lenguaje.
La incómoda verdad sobre el "aprendizaje personalizado"
Esto es lo que he llegado a creer, y sé que no es una opinión popular en el mundo EdTech: el "aprendizaje personalizado", tal como la industria lo practica actualmente, es en su mayor parte una mentira.
Cambiar el tamaño de la fuente no es personalización. Dejar que un estudiante elija entre vídeo y texto no es personalización. Incluso adaptar la dificultad basándose en las últimas tres respuestas apenas es personalización: es un termostato, no un mentor.
La personalización real requiere un modelo persistente y en evolución del aprendiz individual. Requiere recordar que este estudiante domina rápido los conceptos visuales pero batalla con la notación simbólica. Requiere comprender que su fallo en el problema de razones de hoy está conectado con una carencia en la comprensión de las fracciones de hace semanas. Requiere predecir no solo si acertará la siguiente pregunta, sino por qué podría equivocarse, y ajustar el camino en consecuencia.
Eso es lo que hace el Estado Cerebral. Y por eso creo que el futuro de la IA educativa no consiste en construir mejores chatbots. Consiste en construir mejores arquitecturas cognitivas por debajo de ellos.
El LLM es la boca. El modelo DKT es el cerebro. Sin el cerebro, la boca solo habla.
Un sistema que recuerda
Vuelvo una y otra vez a aquella estudiante de nuestra demostración temprana, la que cerró su pestaña cuando la IA la olvidó. Pienso en ella porque representa a millones de aprendices a quienes se les prometió una educación personalizada y recibieron un chatbot con un amistoso prompt de sistema.
Estamos construyendo algo distinto. No un sistema que genere mejores explicaciones —los LLM seguirán mejorando en eso por su cuenta—. Estamos construyendo un sistema que recuerda. Que sabe que batallaste con las fracciones la semana pasada y, por lo tanto, anticipa tu dificultad con las razones hoy. Que te mantiene en esa banda estrecha donde el aprendizaje ocurre de verdad: lo bastante desafiado para crecer, lo bastante apoyado para no rendirte.
La tecnología para esto existe. El Deep Knowledge Tracing no es teórico. Las arquitecturas LSTM están probadas. La Zona de Flujo puede cuantificarse y focalizarse. La pregunta nunca fue si era posible. La pregunta era si alguien se tomaría la molestia de construirlo cuando ponerle un wrapper a GPT era mucho más fácil.
Nosotros nos tomamos la molestia. Y creo que los estudiantes que se quedan —los que no cierran la pestaña— serán la prueba.