
Seu tutor de IA não sabe que você teve dificuldade com frações na semana passada
Alguns meses depois de começarmos a construir nosso primeiro protótipo de tutoria com IA na Veriprajna, assisti a uma demonstração que deveria ter me deixado orgulhoso. Uma aluna digitou uma pergunta sobre equações quadráticas. A IA respondeu maravilhosamente — paciente, socrática, encorajadora. Ela conduziu a aluna pela fatoração com o carinho de uma professora favorita. Todos na sala assentiam.
Então a aluna voltou no dia seguinte e perguntou sobre razões. A IA não fazia a menor ideia de que era a mesma aluna que vinha tendo dificuldade com frações havia três semanas. Ela a tratou como uma estranha. Serviu conteúdo que pressupunha um domínio que ela não tinha. Em quatro minutos, ela fechou a aba.
Aquela demonstração quebrou algo dentro de mim. Não porque a tecnologia falhou — ela funcionou exatamente como projetada. Gerou o próximo token estatisticamente mais provável em uma conversa. Interpretou o papel de uma professora com uma fluência assustadora. Mas ela não sabia nada sobre aquela aluna. Não conseguia conectar suas dificuldades com frações ao problema de razões à sua frente. Não tinha memória, nem modelo, nem teoria de quem ela era como aprendiz.
Foi então que percebi: a maioria dos tutores de IA não são tutores de forma alguma. São chatbots vestindo uma fantasia de professor.
E essa constatação levou minha equipe por um caminho que mudou fundamentalmente o que estamos construindo.
O que faz de um professor um professor?
Pense no melhor professor que você já teve. Aposto que o que o tornava excelente não era a capacidade de explicar as coisas com clareza — embora provavelmente também fizesse isso. Era que ele conhecia você. Ele lembrava que você travava durante apresentações orais. Ele notava que você sempre entendia o conceito, mas cometia erros de aritmética sob pressão. Ele se ajustava, sessão após sessão, construindo um modelo mental dos seus pontos fortes e das suas lacunas que persistia ao longo de meses.
Esse modelo mental é a chave. Não a explicação. Não o questionamento socrático. O modelo da mente do aprendiz que evolui ao longo do tempo.
Agora observe o que a indústria de EdTech chama de "aprendizagem personalizada com IA". Quase sem exceção, esses produtos são finos invólucros de software em torno de uma API pública — GPT-4, Claude, seja lá o que for lançado no próximo trimestre. Toda a "inteligência" reside em um prompt de sistema que diz algo como: "Você é um tutor de matemática prestativo. Seja paciente e encorajador."
Esse prompt controla o tom, não a estratégia. Ele diz ao modelo como soar, não o que ensinar. E como os LLMs são motores de probabilidade sem estado — eles preveem a próxima palavra com base na janela de conversa atual — tratam cada sessão como um evento isolado. Não conseguem ligar uma concepção equivocada de três meses atrás a uma falha de hoje, porque não têm nenhuma representação persistente do conhecimento do aprendiz.
Educação não é a geração de explicações. É a gestão do estado cognitivo de um aprendiz ao longo do tempo.
Essa é a distinção que todo o mercado de "tutores de IA" está entendendo errado.
A noite em que os números contaram uma história diferente
Preciso lhe contar sobre uma noite específica, porque ela mudou o rumo da nossa empresa.
Vínhamos rodando nosso protótipo baseado em invólucro com um pequeno grupo de alunos, e eu estava revisando os registros de interação tarde da noite, esperando encontrar o padrão de sempre — os alunos fazem perguntas, a IA as responde, todos ficam felizes. Em vez disso, encontrei algo perturbador.
A IA havia dado a um aluno uma resposta final correta para um problema de álgebra — mas as etapas intermediárias do raciocínio estavam erradas. O aluno, um estudante do primeiro ano do ensino médio sem meios de distinguir uma lógica válida de uma alucinação confiante, absorveu o raciocínio falho e o aplicou aos três problemas seguintes. Cada resposta subsequente estava errada de uma forma que remontava diretamente à explicação inventada pela IA.
A pesquisa confirma isso. Estudos de LLMs em tutoria de matemática constataram que os modelos frequentemente fornecem respostas corretas por meio de etapas intermediárias incorretas, ou sinalizam como errado um trabalho correto do aluno. Um aluno iniciante não consegue distinguir uma explicação real de uma alucinação que soa plausível. A IA soa autoritária de qualquer forma.
Liguei para meu cofundador naquela noite. "Não estamos construindo um tutor", eu disse. "Estamos construindo um mentiroso confiante que ocasionalmente acerta."
Foi duro. Mas também foi o momento em que começamos a fazer uma pergunta diferente: e se a inteligência de um tutor de IA não devesse residir no modelo de linguagem, de forma alguma?
Por que envolver um LLM falha na aprendizagem real?

As falhas não são casos extremos. São arquiteturais. Três problemas apareciam repetidamente em nossos registros, e são os mesmos três problemas que todo tutor baseado em invólucro acabará enfrentando:
O déficit de memória. A jornada de aprendizagem de um aluno se estende por meses — milhares de microinterações. Mesmo com janelas de contexto em expansão, o custo e a latência de processar todo o histórico de um aluno a cada troca isolada são proibitivos em escala. Então a IA esquece. Esquece que este aluno dominou a adição de inteiros semanas atrás e não precisa revisá-la. Esquece que ela continua cometendo o mesmo erro de sinal nas equações. Cada sessão começa quase do zero.
O problema da alucinação. Já descrevi isso, mas vale enfatizar: quando uma IA conduz com confiança um aluno por um raciocínio errado, o dano se agrava. O aluno não erra apenas um problema — ele internaliza um modelo mental falho que corrompe a aprendizagem futura. E a IA não tem mecanismo para detectar isso, porque não tem nenhum modelo do que o aluno de fato sabe.
O vácuo estratégico. "Aja como um professor" é uma instrução sobre persona, não sobre pedagogia. Um professor de verdade toma centenas de microdecisões por aula: devo dar uma dica ou deixá-los se esforçar? Devo voltar ao material pré-requisito ou avançar? Devo mudar de uma explicação visual para uma verbal? Essas decisões exigem uma teoria do aluno. O invólucro não tem teoria. Ele reage à mensagem atual. Só isso.
O que é Deep Knowledge Tracing e por que você deveria se importar?
Aqui é onde preciso ficar um pouco técnico, mas prometo que se conecta de volta à aluna que fechou a aba.
Knowledge Tracing (rastreamento de conhecimento) é uma tarefa de aprendizado de máquina com um objetivo específico: modelar o conhecimento de um aluno ao longo do tempo para prever o desempenho futuro. Existe há décadas, começando com algo chamado Bayesian Knowledge Tracing — um sistema que trata o conhecimento como binário. Você ou "sabe" frações ou não. Cada conceito vive em seu próprio silo. Cada questão precisa ser rotulada manualmente por um especialista humano.
Essa abordagem é limitada de maneiras que importam. A aprendizagem não é binária. Você pode entender o conceito de frações, mas cometer erros de forma consistente quando os denominadores são diferentes. Você pode estar "enferrujado" em algo que dominou no mês passado. E os conceitos não são independentes — a dificuldade com multiplicação prevê dificuldade com divisão, mas os modelos antigos não conseguiam captar isso, a menos que um humano codificasse explicitamente a relação.
Deep Knowledge Tracing, apresentado em um artigo histórico de Piech et al. em Stanford, jogou tudo isso fora. Em vez de rótulos binários e dependências codificadas à mão, o DKT usa redes neurais recorrentes — especificamente, redes Long Short-Term Memory — para aprender a estrutura do conhecimento diretamente dos dados de interação dos alunos. Sem rotulagem manual. Sem premissas binárias.
A inovação central é o que passei a chamar de "Estado Cerebral" — um vetor de alta dimensionalidade que serve como um proxy digital para tudo o que o sistema acredita sobre o conhecimento atual de um aluno. Não é um boletim que registra o desempenho passado. É um modelo preditivo da capacidade atual que se atualiza a cada interação isolada.
O Estado Cerebral não registra o que você acertou ontem. Ele prevê o que você acertará amanhã — e por quê.
Quando um aluno responde a uma questão, a LSTM atualiza esse vetor. A saída é uma probabilidade para cada outra questão no banco de dados: qual é a chance de este aluno responder cada uma corretamente, agora mesmo? Esse mapa de probabilidades é onde a verdadeira mágica acontece.
Escrevi sobre a arquitetura técnica completa — os mecanismos de gating, o problema do gradiente evanescente, os dados comparativos de desempenho — em nosso artigo de pesquisa. Mas a percepção que importa para este ensaio é mais simples: o DKT mostrou uma melhoria de 25% na precisão preditiva em relação aos métodos bayesianos tradicionais. Isso não é um ganho incremental. É a diferença entre um sistema que meio que conhece seu aluno e um que de fato o conhece.
O argumento que quase nos descarrilou
Quero ser honesto sobre uma coisa. Quando propus pela primeira vez construir um sistema de DKT em vez de iterar sobre nosso invólucro de chatbot, minha equipe resistiu. Muito.
"Temos um produto que funciona", disse um dos nossos engenheiros. "Os usuários gostam de conversar com ele. Por que estamos reconstruindo a fundação?"
Um consultor foi ainda mais direto: "É só usar o GPT. O modelo melhora a cada seis meses. Essa sua coisa de rastreamento de conhecimento vai estar obsoleta antes de você lançá-la."
Eu entendia a lógica. Os LLMs estão melhorando rapidamente. As janelas de contexto estão se expandindo. Por que construir uma arquitetura cognitiva separada quando o modelo de linguagem pode acabar lidando com tudo?
Eis o que eu disse a eles, e ainda acredito nisso: um LLM que fica melhor em gerar texto não está ficando melhor em compreender um aprendiz. Essas são capacidades fundamentalmente diferentes. Uma é linguística. A outra é cognitiva. Você pode ter o tutor mais eloquente do mundo, mas se ele não lembrar que você teve dificuldade com frações na semana passada, sua eloquência é desperdiçada.
A equipe se convenceu — não por causa do meu argumento, mas por causa dos dados. Fizemos um experimento simples: demos ao mesmo conjunto de alunos o mesmo currículo, metade por meio do nosso invólucro e metade por meio de uma versão inicial e rudimentar do nosso sistema guiado por DKT. A taxa de conclusão do grupo de DKT foi quase o triplo. Não porque as explicações fossem melhores. Porque o sequenciamento era melhor. O sistema sabia quando pressionar e quando dar apoio.
Como manter um aluno na Zona de Fluxo?

É aqui que a psicologia encontra a matemática, e é a parte do nosso trabalho que acho mais bela.
O conceito de "Fluxo" (Flow) de Mihaly Csikszentmihalyi descreve um estado de absorção completa — quando você está tão envolvido em uma tarefa que o tempo desaparece. Ele só acontece quando o desafio corresponde ao seu nível de habilidade. Fácil demais, e você fica entediado. Difícil demais, e você fica ansioso. O ponto ideal é estreito.
Em uma sala de aula tradicional, encontrar esse ponto ideal para 30 alunos diferentes simultaneamente é quase impossível. Em um chatbot comum, isso nem é tentado — a IA simplesmente responde ao que quer que você pergunte. Mas em um sistema de DKT, o vetor de probabilidade lhe dá algo extraordinário: um mapa em tempo real de onde está a Zona de Fluxo de cada aluno.
Lembra daquela saída — a probabilidade de acerto para cada questão do banco de dados? Podemos mapear essas probabilidades diretamente para estados psicológicos:
Quando a probabilidade prevista está acima de 0,75, o aluno provavelmente dominou aquele conteúdo. Apresentá-lo a ele arrisca o tédio. Abaixo de 0,35, é provável que ele falhe — apresentá-lo sem apoio arrisca frustração e desistência. Mas naquela faixa entre 0,40 e 0,70, onde o aluno tem talvez 55% ou 60% de chance de acertar? Essa é a zona. Ele sabe o suficiente para tentar o problema, mas precisa pensar para resolvê-lo. Essa é a Zona de Desenvolvimento Proximal de Vygotsky, quantificada.
Transformamos uma teoria psicológica dos anos 1970 em um algoritmo de seleção. O aluno não sabe que isso está acontecendo. Ele apenas sente que o material está sempre na medida certa.
Nosso sistema roda um loop contínuo: o aluno responde, a LSTM atualiza o Estado Cerebral, as probabilidades se deslocam, e a próxima questão é selecionada para mantê-lo suspenso naquela zona de máximo engajamento. Se ele tropeça, o sistema serve automaticamente conteúdo de apoio mais simples para reconstruir a confiança antes de retornar à complexidade. Se ele está passando com facilidade, o sistema aperta mais.
É isso que quero dizer quando afirmo que a inteligência não deveria residir no modelo de linguagem. O LLM não decide o que ensinar. O Estado Cerebral decide. O LLM apenas decide como dizer.
Por que o modelo de linguagem não pode simplesmente fazer tudo isso?

As pessoas me perguntam isso constantemente, e é uma pergunta justa. Se os LLMs estão ficando mais inteligentes, com contexto mais longo e mais capazes, por que construir um sistema separado?
Três razões.
Primeiro, custo e latência. Processar todo o histórico de interação de um aluno — potencialmente milhares de trocas ao longo de meses — por meio de um LLM a cada resposta isolada é computacionalmente caro e lento. O modelo de DKT processa os mesmos dados em milissegundos porque é arquiteturalmente projetado para o rastreamento sequencial de estado. É a ferramenta certa para o trabalho.
Segundo, contenção de alucinações. Quando nosso sistema identifica a próxima melhor questão a ser apresentada, ele restringe o escopo do LLM. Em vez de deixar o GPT vagar livremente por toda a matemática, dizemos a ele: "Apresente o Problema #882. O aluno tem 60% de chance de resolvê-lo. Forneça uma dica relacionada à fatoração se ele hesitar." Ao restringir o espaço de busca, reduzimos drasticamente a oportunidade de o modelo gerar bobagens que soam plausíveis.
Terceiro — e este é o argumento estratégico — defensabilidade. Se todo o seu produto é um prompt envolto em uma API pública, você não tem fosso defensivo. Qualquer um pode replicá-lo em um fim de semana. Mas um modelo de DKT treinado em milhares de trajetórias de aprendizagem, continuamente refinado por dados reais de alunos? Isso é um ativo proprietário. Quanto mais alunos usam o sistema, melhor ele prevê, e quanto melhor ele prevê, mais alunos permanecem. É um volante de dados que os concorrentes não conseguem clonar com uma chamada de API.
Para uma análise mais aprofundada de como arquitetamos isso — a integração neuro-simbólica, o problema de partida a frio, as estratégias de aprendizado por transferência — montei um tour interativo que entra em mais detalhes do que consigo aqui.
A partida a frio e as primeiras vinte questões
Um desafio com o qual lutamos por semanas: o que fazer com um aluno totalmente novo? O modelo de DKT precisa de dados de interação para construir um Estado Cerebral, mas o aluno não tem histórico. Este é o clássico problema de "partida a frio" (cold start) no aprendizado de máquina, e na educação ele é especialmente doloroso, porque aquelas primeiras interações determinam se o aluno volta.
Nossa solução tem três camadas. Pré-treinamos o modelo em dados agregados e anonimizados de milhares de traços históricos de aprendizagem, estabelecendo uma linha de base. Quando um novo aluno chega, nós o atribuímos a um agrupamento de aprendizes com base em uma breve avaliação diagnóstica, semeando seu estado oculto com o centroide de aprendizes semelhantes. Então — e essa parte exigiu o maior ajuste — projetamos a LSTM para divergir rapidamente da linha de base genérica para um estado personalizado dentro das primeiras 10 a 20 interações.
Aquelas primeiras vinte questões são as mais importantes. Passamos semanas calibrando-as — não apenas quanto à precisão diagnóstica, mas quanto ao engajamento. Se o diagnóstico parece uma prova, os alunos desistem. Se parece uma conversa, eles se envolvem. Acertar isso foi tanto um problema de design quanto de aprendizado de máquina.
O que as taxas de conclusão de fato mostram
Não vou fingir que nosso sistema é perfeito. Ainda estamos no início. Mas os números dos nossos pilotos contam uma história difícil de contestar.
Cursos on-line tradicionais — MOOCs, plataformas de LMS padrão — apresentam taxas de conclusão em torno de 15 a 20%. Esse número tem se mantido teimosamente consistente por mais de uma década. Sistemas adaptativos alimentados por rastreamento de conhecimento elevam isso para 60 a 80%. Em contextos de treinamento corporativo, onde a métrica que importa é o tempo até a proficiência, os sistemas adaptativos demonstraram reduções de 40 a 50% no tempo total de treinamento — porque os funcionários pulam o conteúdo que já dominam e se concentram apenas em suas lacunas reais.
O problema dos "2 Sigma", identificado pelo pesquisador educacional Benjamin Bloom, mostrou que a tutoria individual produz resultados de aprendizagem dois desvios-padrão acima da instrução em sala de aula. O desafio sempre foi a escalabilidade — não dá para dar um tutor pessoal a cada aluno. O DKT não resolve completamente esse problema, mas chega mais perto do que qualquer outra coisa que já vi, porque dá a cada aluno um sistema que de fato modela o conhecimento dele, não um currículo genérico.
O problema dos 2 Sigma nunca foi sobre encontrar explicações melhores. Foi sobre encontrar uma forma de conhecer cada aprendiz individualmente, em escala. Isso é um problema de rastreamento de estado, não um problema de linguagem.
A verdade incômoda sobre a "aprendizagem personalizada"
Eis o que passei a acreditar, e sei que não é uma opinião popular na EdTech: a "aprendizagem personalizada", tal como a indústria a pratica atualmente, é em grande parte uma mentira.
Mudar o tamanho da fonte não é personalização. Deixar um aluno escolher entre vídeo e texto não é personalização. Mesmo adaptar a dificuldade com base nas últimas três respostas mal chega a ser personalização — é um termostato, não um mentor.
A personalização real exige um modelo persistente e evolutivo do aprendiz individual. Exige lembrar que este aluno domina conceitos visuais rapidamente, mas tem dificuldade com notação simbólica. Exige compreender que sua falha no problema de razões de hoje está conectada a uma lacuna na compreensão de frações de semanas atrás. Exige prever não apenas se ela acertará a próxima questão, mas por que ela pode errá-la — e ajustar o caminho de acordo.
É isso que o Estado Cerebral faz. E é por isso que acredito que o futuro da IA educacional não é sobre construir chatbots melhores. É sobre construir arquiteturas cognitivas melhores por baixo deles.
O LLM é a boca. O modelo de DKT é o cérebro. Sem o cérebro, a boca apenas fala.
Um sistema que lembra
Sempre volto àquela aluna da nossa demonstração inicial — a que fechou a aba quando a IA a esqueceu. Penso nela porque ela representa milhões de aprendizes a quem foi prometida educação personalizada e que receberam um chatbot com um prompt de sistema simpático.
Estamos construindo algo diferente. Não um sistema que gera explicações melhores — os LLMs vão continuar melhorando nisso por conta própria. Estamos construindo um sistema que lembra. Que sabe que você teve dificuldade com frações na semana passada e, portanto, antecipa sua dificuldade com razões hoje. Que o mantém naquela faixa estreita onde a aprendizagem de fato acontece — desafiado o suficiente para crescer, apoiado o suficiente para não desistir.
A tecnologia para isso existe. O Deep Knowledge Tracing não é teórico. As arquiteturas LSTM são comprovadas. A Zona de Fluxo pode ser quantificada e visada. A questão nunca foi se era possível. A questão era se alguém se daria ao trabalho de construí-la quando enfiar um invólucro em cima do GPT era tão mais fácil.
Nós nos demos ao trabalho. E acho que os alunos que ficam — os que não fecham a aba — serão a prova.