AI 튜터링을 주제로, 얕은 챗봇 계층과 그 아래의 심층 인지 아키텍처를 대비시킨 시각적 은유 이미지.
Artificial IntelligenceEducationMachine Learning

당신의 AI 튜터는 당신이 지난주에 분수로 씨름했다는 걸 모른다

Ashutosh SinghalAshutosh Singhal2026년 2월 14일16 min

VeriPrajna에서 우리의 첫 AI 튜터링 프로토타입을 만든 지 몇 달이 지났을 무렵, 나는 나를 뿌듯하게 만들었어야 할 데모를 지켜봤다. 한 학생이 이차방정식에 관한 질문을 입력했다. AI는 아름답게 응답했다 — 인내심 있고, 소크라테스식이며, 격려가 담긴 답이었다. AI는 좋아하는 선생님 같은 따뜻함으로 학생에게 인수분해를 차근차근 안내했다. 방 안의 모두가 고개를 끄덕이고 있었다.

그런데 그 학생이 다음 날 다시 와서 비율에 대해 물었다. AI는 이 학생이 3주 동안 분수로 씨름해 온 바로 그 학생이라는 사실을 전혀 알지 못했다. AI는 그녀를 낯선 사람처럼 대했다. AI는 그녀가 갖추지 못한 숙달을 전제로 한 콘텐츠를 내놓았다. 4분도 채 되지 않아, 그녀는 탭을 닫아 버렸다.

그 데모는 내 안의 무언가를 무너뜨렸다. 기술이 실패해서가 아니다 — 기술은 설계된 그대로 정확히 작동했다. 그것은 대화에서 통계적으로 다음에 올 확률이 가장 높은 토큰을 생성했다. 그것은 섬뜩할 만큼 유창하게 교사를 연기했다. 하지만 그것은 정작 알지 못했다 — 이 학생에 대해 아무것도. 그것은 그녀의 분수 씨름을 눈앞의 비율 문제와 연결하지 못했다. 그것은 기억도, 모델도, 그녀가 어떤 학습자인지에 대한 그 어떤 이론도 갖고 있지 않았다.

바로 그때 나는 깨달았다: 대부분의 AI 튜터는 사실 튜터가 전혀 아니다. 그것들은 교사 의상을 걸친 챗봇이다.

그리고 그 깨달음은 우리 팀을 우리가 만들고 있는 것을 근본적으로 바꿔 놓은 길로 이끌었다.

무엇이 교사를 교사로 만드는가?

당신이 만났던 최고의 선생님을 떠올려 보라. 장담컨대 그분을 훌륭하게 만든 것은 무언가를 명료하게 설명하는 능력이 아니었을 것이다 — 물론 그것도 잘하셨겠지만. 그것은 바로 그분이 당신을 알고 있었다는 사실이었다. 그분은 당신이 구두 발표 때 얼어붙었다는 걸 기억했다. 그분은 당신이 개념은 늘 이해하지만 압박 속에서 계산 실수를 한다는 걸 알아챘다. 그분은 수업마다 조정하며, 몇 달에 걸쳐 지속되는 당신의 강점과 약점에 대한 심상 모델을 만들어 갔다.

바로 그 심상 모델이 핵심이다. 설명이 아니다. 소크라테스식 질문도 아니다. 바로 학습자의 마음을 담은 모델, 시간이 흐르며 진화하는 그 모델이다.

이제 에듀테크 업계가 "AI 기반 맞춤형 학습"이라 부르는 것을 보라. 거의 예외 없이, 이런 제품들은 공개 API — GPT-4, Claude, 다음 분기에 나올 무엇이든 — 를 감싼 얇은 소프트웨어 래퍼다. 모든 "지능"은 다음과 같은 시스템 프롬프트 안에 들어 있다: "당신은 도움을 주는 수학 튜터입니다. 인내심 있고 격려하는 태도를 보이세요."

그 프롬프트가 통제하는 것은 말투이지, 전략이 아니다. 그것은 모델에게 무엇을 가르칠지가 아니라 어떻게 들릴지를 알려줄 뿐이다. 그리고 LLM은 상태가 없는 확률 엔진이기 때문에 — 현재 대화 창을 바탕으로 다음 단어를 예측한다 — 모든 세션을 고립된 사건으로 취급한다. LLM은 3개월 전의 오개념을 오늘의 실패와 연결하지 못하는데, 학습자의 지식에 대한 지속적인 표상을 갖고 있지 않기 때문이다.

교육은 설명의 생성이 아니다. 그것은 시간에 걸친 학습자의 인지 상태를 관리하는 일이다.

이것이 바로 "AI 튜터" 시장 전체가 잘못 이해하고 있는 구분이다.

숫자가 다른 이야기를 들려준 그 밤

특정한 어느 저녁에 대해 이야기해야겠다. 그날이 우리 회사의 방향을 바꿔 놓았기 때문이다.

우리는 소규모 학생 그룹을 대상으로 래퍼 기반 프로토타입을 운영해 왔고, 어느 늦은 밤 나는 상호작용 로그를 살펴보며 늘 보던 패턴 — 학생이 질문하고, AI가 답하고, 모두가 만족하는 — 을 발견하리라 기대하고 있었다. 그런데 나는 불편한 무언가를 발견했다.

AI는 한 학생에게 대수 문제의 최종 정답을 정확히 제시했다 — 그러나 중간 추론 단계는 틀려 있었다. 타당한 논리와 자신만만한 환각을 구별할 방법이 없는 10학년생인 그 학생은 그 결함 있는 추론을 흡수해 다음 세 문제에 적용했다. 이후의 각 답은 AI가 지어낸 설명으로 곧장 거슬러 올라가는 방식으로 틀려 있었다.

연구도 이를 뒷받침한다. 수학 튜터링에서의 LLM 연구들은 모델이 잘못된 중간 단계를 거쳐 정답을 내놓거나, 학생의 옳은 풀이를 틀렸다고 표시하는 경우가 빈번하다는 것을 발견했다. 초보 학생은 진짜 설명과 그럴듯하게 들리는 환각의 차이를 구별하지 못한다. AI는 어느 쪽이든 권위 있게 들린다.

그날 밤 나는 공동 창업자에게 전화를 걸었다. "우리는 튜터를 만들고 있는 게 아니야."라고 나는 말했다. "우리는 가끔씩 맞히는 자신만만한 거짓말쟁이를 만들고 있는 거야."

가혹한 말이었다. 하지만 그것은 우리가 다른 질문을 던지기 시작한 순간이기도 했다: AI 튜터의 지능이 애초에 언어 모델 안에 있어서는 안 되는 것이라면?

LLM을 감싸는 것이 왜 진짜 학습에는 실패하는가?

래퍼 기반 AI 튜터의 세 가지 구조적 실패 — 기억 결핍, 환각 누적, 전략 공백 — 를 보여주는 3단 비교 다이어그램.

이 실패들은 예외적 사례가 아니다. 그것들은 구조적이다. 세 가지 문제가 우리 로그에 계속 나타났고, 그것들은 모든 래퍼 기반 튜터가 결국 부딪히게 될 바로 그 세 가지 문제다:

기억 결핍. 학생의 학습 여정은 몇 달에 걸쳐 이어진다 — 수천 번의 미세 상호작용이다. 컨텍스트 창이 확장되더라도, 매 교류마다 학생의 전체 이력을 처리하는 비용과 지연 시간은 대규모에서는 감당할 수 없을 만큼 크다. 그래서 AI는 잊어버린다. 이 학생이 몇 주 전에 정수 덧셈을 숙달해 복습할 필요가 없다는 것을 잊는다. 그녀가 방정식에서 같은 부호 실수를 계속 저지른다는 것을 잊는다. 모든 세션이 거의 영에서 다시 시작된다.

환각 문제. 앞서 이미 설명했지만, 강조할 만하다: AI가 자신만만하게 학생을 잘못된 추론으로 이끌면, 피해는 누적된다. 학생은 문제 하나만 틀리는 게 아니라 — 이후의 학습을 오염시키는 결함 있는 심상 모델을 내면화한다. 그리고 AI는 이것을 잡아낼 메커니즘이 없는데, 학생이 실제로 무엇을 아는지에 대한 모델이 없기 때문이다.

전략 공백. "교사처럼 행동하라"는 것은 페르소나에 관한 지시이지, 교육학에 관한 지시가 아니다. 진짜 교사는 수업마다 수백 가지의 미세 결정을 내린다: 힌트를 줄까, 아니면 씨름하게 둘까? 선수 학습 자료로 돌아갈까, 아니면 앞으로 밀고 나갈까? 시각적 설명에서 언어적 설명으로 바꿀까? 이런 결정들에는 학생에 대한 이론이 필요하다. 래퍼에는 이론이 없다. 그것은 현재 메시지에 반응할 뿐이다. 그게 전부다.

심층 지식 추적(Deep Knowledge Tracing)이란 무엇이며, 왜 관심을 가져야 하는가?

여기서부터는 조금 기술적인 이야기를 해야 하지만, 탭을 닫아 버린 그 학생과 다시 연결된다고 약속한다.

지식 추적(Knowledge Tracing)은 구체적인 목표를 가진 기계 학습 과제다: 미래의 수행을 예측하기 위해 시간에 걸친 학생의 지식을 모델링하는 것이다. 이것은 수십 년 동안 존재해 왔으며, 베이지안 지식 추적(Bayesian Knowledge Tracing)이라 불리는 것에서 시작되었다 — 지식을 이분법적으로 다루는 시스템이다. 당신은 분수를 "알거나" 모르거나 둘 중 하나다. 각 개념은 저마다 고립된 칸에 머문다. 모든 문항은 인간 전문가가 수동으로 태그를 달아야 한다.

그 접근법은 중요한 측면에서 한계가 있다. 학습은 이분법적이지 않다. 분수의 개념은 이해하면서도 분모가 다를 때는 꾸준히 실수를 할 수 있다. 지난달에 숙달한 것에 "녹이 슬" 수도 있다. 그리고 개념들은 독립적이지 않다 — 곱셈에서 어려움을 겪는 것은 나눗셈에서의 어려움을 예측하지만, 옛 모델들은 인간이 그 관계를 명시적으로 코딩하지 않는 한 그것을 포착하지 못했다.

심층 지식 추적(Deep Knowledge Tracing)은, 스탠퍼드의 Piech 외 연구진이 발표한 획기적인 논문에서 소개되어, 그 모든 것을 폐기했다. 이분법적 레이블과 손으로 코딩한 종속성 대신, DKT는 순환 신경망 — 구체적으로는 장단기 기억(Long Short-Term Memory) 네트워크 — 을 사용해 학생 상호작용 데이터에서 지식의 구조를 직접 학습한다. 수동 태깅도 없다. 이분법적 가정도 없다.

핵심 혁신은 내가 "두뇌 상태(Brain State)"라 부르기 시작한 것이다 — 학생의 현재 지식에 대해 시스템이 믿는 모든 것을 대리하는 디지털 대용물 역할을 하는 고차원 벡터다. 그것은 과거의 수행을 기록하는 성적표가 아니다. 그것은 현재 역량을 예측하는 모델이며, 매번의 상호작용마다 갱신된다.

두뇌 상태(Brain State)는 당신이 어제 무엇을 맞혔는지를 기록하지 않는다. 그것은 당신이 내일 무엇을 맞힐지 — 그리고 그 이유를 — 예측한다.

학생이 질문에 답하면, LSTM은 이 벡터를 갱신한다. 그 출력은 데이터베이스의 다른 모든 문항에 대한 확률이다: 이 학생이 지금 당장 각 문항을 맞힐 가능성은 얼마나 되는가? 바로 그 확률 지도에서 진짜 마법이 일어난다.

나는 전체 기술 아키텍처 — 게이팅 메커니즘, 기울기 소실 문제, 비교 성능 데이터 — 를 우리의 연구 논문에서 다루었다. 하지만 이 글에서 중요한 통찰은 더 단순하다: DKT는 전통적인 베이지안 방법 대비 예측 정확도에서 25%의 향상을 보였다. 그것은 점진적인 개선이 아니다. 그것은 당신의 학생을 어느 정도 아는 시스템과 실제로 아는 시스템의 차이다.

우리를 거의 탈선시킬 뻔한 논쟁

솔직히 털어놓고 싶은 것이 있다. 내가 챗봇 래퍼를 반복 개선하는 대신 DKT 시스템을 만들자고 처음 제안했을 때, 우리 팀은 반발했다. 강하게.

"우리에겐 작동하는 제품이 있어요."라고 우리 엔지니어 중 한 명이 말했다. "사용자들은 그것과 대화하는 걸 좋아해요. 왜 기반을 다시 만드는 거죠?"

한 자문위원은 더욱 직설적이었다: "그냥 GPT를 쓰세요. 모델은 6개월마다 좋아집니다. 당신의 지식 추적이란 것은 출시하기도 전에 쓸모없어질 겁니다."

나는 그 논리를 이해했다. LLM은 빠르게 발전하고 있다. 컨텍스트 창은 확장되고 있다. 언어 모델이 결국 모든 것을 처리할 수도 있는데 왜 별도의 인지 아키텍처를 만드는가?

내가 그들에게 한 말이 있는데, 나는 여전히 그것을 믿는다: 텍스트를 생성하는 데 능숙해지는 LLM이 학습자를 이해하는 데 능숙해지는 것은 아니다. 이것들은 근본적으로 다른 능력이다. 하나는 언어적이다. 다른 하나는 인지적이다. 세상에서 가장 유창한 튜터를 둘 수 있지만, 그가 당신이 지난주에 분수로 씨름했다는 것을 기억하지 못한다면, 그 유창함은 헛된 것이다.

팀은 마음을 돌렸다 — 내 주장 때문이 아니라, 데이터 때문이었다. 우리는 간단한 실험을 진행했다: 같은 학생 집단에게 같은 커리큘럼을 주되, 절반은 우리 래퍼를 통해, 절반은 우리 DKT 유도 시스템의 조야한 초기 버전을 통해 제공했다. DKT 그룹의 완료율은 거의 세 배였다. 설명이 더 나아서가 아니었다. 바로 순서 배치(sequencing)가 더 나았기 때문이다. 시스템은 언제 밀어붙이고 언제 발판을 놓아줄지 알았다.

학생을 몰입 구간에 어떻게 붙잡아 두는가?

DKT 확률 점수가 심리 상태(지루함, 몰입 구간, 좌절)에 어떻게 대응되고 문항 선택을 이끄는지를 보여주는 가로형 확률 척도 다이어그램.

바로 여기서 심리학이 수학을 만나며, 이것은 우리 작업에서 내가 가장 아름답다고 느끼는 부분이다.

미하이 칙센트미하이의 "몰입(Flow)" 개념은 완전한 몰두의 상태 — 과제에 너무나 몰입한 나머지 시간이 사라지는 상태 — 를 묘사한다. 그것은 도전 과제가 당신의 실력 수준과 일치할 때만 일어난다. 너무 쉬우면 지루해진다. 너무 어려우면 불안해진다. 최적 지점은 좁다.

전통적인 교실에서 서로 다른 30명의 학생 각각에 대해 그 최적 지점을 동시에 찾는 것은 거의 불가능하다. 표준 챗봇에서는 아예 시도조차 되지 않는다 — AI는 그저 당신이 무엇을 묻든 답할 뿐이다. 하지만 DKT 시스템에서는 확률 벡터가 놀라운 것을 제공한다: 모든 학생의 몰입 구간이 어디에 있는지에 대한 실시간 지도다.

그 출력 — 데이터베이스의 모든 문항에 대한 정답 확률 — 을 기억하는가? 우리는 그 확률들을 심리 상태에 직접 대응시킬 수 있다:

예측 확률이 0.75를 넘으면, 학생은 그 콘텐츠를 이미 숙달했을 가능성이 크다. 그것을 보여주면 지루함의 위험이 있다. 0.35 아래면, 학생은 실패할 가능성이 크다 — 지원 없이 제시하면 좌절과 이탈의 위험이 있다. 하지만 학생이 맞힐 확률이 아마 55%나 60% 정도인, 0.40에서 0.70 사이의 그 구간에서는? 그것이 바로 그 구간이다. 그들은 문제를 시도할 만큼은 알지만, 풀려면 생각을 해야 한다. 그것이 바로 비고츠키의 근접발달영역을 정량화한 것이다.

우리는 1970년대의 심리학 이론을 선택 알고리즘으로 바꿨다. 학생은 그런 일이 일어나고 있다는 걸 알지 못한다. 그들은 그저 학습 자료가 늘 딱 알맞다고 느낄 뿐이다.

우리 시스템은 연속적인 루프를 돈다: 학생이 답하면, LSTM이 두뇌 상태를 갱신하고, 확률이 이동하며, 다음 문항이 그들을 최대 몰입의 구간에 머물게 하도록 선택된다. 그들이 비틀거리면, 시스템은 복잡함으로 돌아가기 전에 자신감을 회복시키기 위해 더 단순한 발판 콘텐츠를 자동으로 제공한다. 그들이 수월하게 통과하고 있으면, 더 강하게 밀어붙인다.

이것이 바로 지능이 언어 모델 안에 있어서는 안 된다고 말할 때 내가 의미하는 바다. LLM은 무엇을 가르칠지 결정하지 않는다. 두뇌 상태가 결정한다. LLM은 그저 그것을 어떻게 말할지만 결정한다.

언어 모델이 이 모든 것을 그냥 할 수는 없는가?

DKT 두뇌 상태 계층이 학생 상호작용 데이터와 LLM 사이에 자리하며, LLM이 그것을 어떻게 말할지는 통제하는 동안 무엇을 가르칠지는 그 계층이 통제하는 방식을 보여주는 아키텍처 다이어그램.

사람들은 내게 이것을 끊임없이 묻는데, 타당한 질문이다. LLM이 더 똑똑해지고, 컨텍스트가 길어지며, 더 유능해지고 있다면, 왜 별도의 시스템을 만드는가?

세 가지 이유가 있다.

첫째, 비용과 지연 시간이다. 학생의 전체 상호작용 이력 — 몇 달에 걸친 잠재적으로 수천 번의 교류 — 을 매 응답마다 LLM을 통해 처리하는 것은 계산 비용이 크고 느리다. DKT 모델은 순차적 상태 추적을 위해 구조적으로 설계되었기 때문에 같은 데이터를 밀리초 단위로 처리한다. 그것이 이 작업에 알맞은 도구다.

둘째, 환각 억제다. 우리 시스템이 다음으로 제시할 최적의 문항을 식별하면, 그것은 LLM의 범위를 제한한다. GPT가 수학 전체를 자유롭게 돌아다니게 두는 대신, 우리는 이렇게 지시한다: "문제 #882를 제시하라. 학생이 그것을 풀 확률은 60%다. 그들이 머뭇거리면 인수분해와 관련된 힌트를 제공하라." 탐색 공간을 제한함으로써, 우리는 모델이 그럴듯하게 들리는 헛소리를 생성할 기회를 극적으로 줄인다.

셋째 — 그리고 이것은 전략적 논거인데 — 방어 가능성이다. 당신의 제품 전체가 공개 API를 감싼 프롬프트라면, 당신에게는 해자가 없다. 누구나 주말 동안에 그것을 복제할 수 있다. 하지만 수천 개의 학습 궤적으로 훈련되고 실제 학생 데이터로 지속적으로 정교화된 DKT 모델은? 그것은 독점적 자산이다. 학생들이 시스템을 더 많이 쓸수록, 시스템은 더 잘 예측하고, 더 잘 예측할수록, 더 많은 학생이 남는다. 그것은 경쟁자들이 API 호출로는 복제할 수 없는 데이터 플라이휠이다.

우리가 이것을 어떻게 설계했는지 — 뉴로-심볼릭 통합, 콜드 스타트 문제, 전이 학습 전략 — 를 더 깊이 살펴보고 싶다면, 나는 인터랙티브 안내 자료를 준비했는데, 여기서 다룰 수 있는 것보다 더 자세한 내용을 담고 있다.

콜드 스타트와 처음 스무 개의 문항

우리가 몇 주 동안 씨름한 한 가지 과제: 완전히 새로운 학생을 어떻게 할 것인가? DKT 모델은 두뇌 상태를 구축하기 위해 상호작용 데이터가 필요하지만, 그 학생에게는 이력이 없다. 이것은 기계 학습의 고전적인 "콜드 스타트" 문제이며, 교육에서는 특히 뼈아픈데, 그 처음 몇 번의 상호작용이 학생이 다시 돌아올지를 결정하기 때문이다.

우리의 해법은 세 개의 계층으로 이루어진다. 우리는 수천 개의 과거 학습 흔적에서 나온 익명화된 집계 데이터로 모델을 사전 학습시켜 기준선을 마련한다. 새로운 학생이 도착하면, 짧은 진단 평가를 바탕으로 그들을 학습자 군집에 배정하고, 유사한 학습자들의 중심점으로 그들의 은닉 상태를 초기화한다. 그런 다음 — 그리고 이 부분이 가장 많은 조정을 필요로 했는데 — 우리는 LSTM이 처음 10~20번의 상호작용 안에 일반적인 기준선에서 개인화된 상태로 빠르게 발산하도록 설계했다.

그 처음 스무 개의 문항이 가장 중요하다. 우리는 그것들을 조정하는 데 몇 주를 썼다 — 진단 정확도뿐만 아니라 몰입을 위해서도. 진단이 시험처럼 느껴지면, 학생들은 이탈한다. 그것이 대화처럼 느껴지면, 그들은 빠져든다. 그것을 제대로 해내는 일은 기계 학습 문제인 만큼이나 디자인 문제이기도 했다.

완료율이 실제로 보여주는 것

우리 시스템이 완벽한 척하지는 않겠다. 우리는 아직 초기 단계다. 하지만 우리 파일럿에서 나온 숫자들은 반박하기 어려운 이야기를 들려준다.

전통적인 온라인 강좌 — MOOC, 표준 LMS 플랫폼 — 는 대략 15~20%의 완료율을 보인다. 그 숫자는 10년 넘게 완강하게 일정했다. 지식 추적으로 구동되는 적응형 시스템은 그것을 60~80%까지 끌어올린다. 숙련까지의 시간이 중요한 지표인 기업 교육 맥락에서, 적응형 시스템은 총 교육 시간을 40~50% 줄이는 것으로 나타났다 — 직원들이 이미 숙달한 콘텐츠를 건너뛰고 자신의 실제 약점에만 집중하기 때문이다.

교육 연구자 벤저민 블룸이 규명한 "2 시그마" 문제는 일대일 튜터링이 교실 수업보다 표준편차 2만큼 높은 학습 성과를 낸다는 것을 보여주었다. 문제는 늘 확장성이었다 — 모든 학생에게 개인 튜터를 붙여 줄 수는 없다. DKT가 그 문제를 완전히 해결하지는 못하지만, 내가 본 그 무엇보다 더 가까이 다가서는데, 모든 학생에게 실제로 그들 자신의 지식을 모델링하는 시스템을 제공하기 때문이다 — 일반적인 커리큘럼이 아니라.

2 시그마 문제는 결코 더 나은 설명을 찾는 일에 관한 것이 아니었다. 그것은 각 학습자를 대규모로, 개별적으로 아는 방법을 찾는 일에 관한 것이었다. 그것은 언어 문제가 아니라, 상태 추적 문제다.

"맞춤형 학습"에 관한 불편한 진실

내가 믿게 된 것이 있는데, 에듀테크 업계에서 인기 있는 견해가 아니라는 걸 안다: 업계가 현재 실천하는 방식의 "맞춤형 학습"은 대체로 거짓말이다.

글꼴 크기를 바꾸는 것은 맞춤화가 아니다. 학생이 영상과 텍스트 중에서 고르게 하는 것은 맞춤화가 아니다. 최근 세 개의 답을 바탕으로 난이도를 조정하는 것조차 맞춤화라고 하기 어렵다 — 그것은 멘토가 아니라 온도 조절기다.

진정한 맞춤화는 개별 학습자에 대한 지속적이고 진화하는 모델을 요구한다. 그것은 이 학생이 시각적 개념은 빠르게 숙달하지만 기호 표기법에서는 어려움을 겪는다는 것을 기억하기를 요구한다. 그것은 오늘의 비율 문제에서 그녀가 겪은 실패가 몇 주 전 분수 이해의 공백과 연결되어 있음을 이해하기를 요구한다. 그것은 그녀가 다음 문제를 맞힐지 여부뿐만 아니라, 그녀가 틀릴 수 있는지까지 예측하고, 그에 따라 경로를 조정하기를 요구한다.

그것이 바로 두뇌 상태가 하는 일이다. 그리고 그것이 바로 내가 교육 AI의 미래가 더 나은 챗봇을 만드는 데 있지 않다고 믿는 이유다. 그것은 그 밑에 더 나은 인지 아키텍처를 만드는 데 있다.

LLM은 입이다. DKT 모델은 두뇌다. 두뇌가 없으면, 입은 그저 떠들 뿐이다.

기억하는 시스템

나는 우리 초기 데모의 그 학생 — AI가 그녀를 잊었을 때 탭을 닫아 버린 그 학생 — 에게 자꾸 되돌아간다. 내가 그녀를 생각하는 이유는, 그녀가 맞춤형 교육을 약속받고서 친절한 시스템 프롬프트를 지닌 챗봇을 받은 수백만 명의 학습자를 대변하기 때문이다.

우리는 다른 것을 만들고 있다. 더 나은 설명을 생성하는 시스템이 아니다 — LLM은 그 부분에서 알아서 계속 좋아질 것이다. 우리는 기억하는 시스템을 만들고 있다. 당신이 지난주에 분수로 씨름했다는 것을 알고, 따라서 오늘 비율에서 겪을 어려움을 예상하는 시스템이다. 학습이 실제로 일어나는 좁은 구간 — 성장할 만큼 충분히 도전적이고, 그만두지 않을 만큼 충분히 지원받는 — 에 당신을 붙잡아 두는 시스템이다.

이를 위한 기술은 존재한다. 심층 지식 추적(Deep Knowledge Tracing)은 이론에 그치지 않는다. LSTM 아키텍처는 검증되었다. 몰입 구간은 정량화하고 겨냥할 수 있다. 문제는 결코 그것이 가능한가가 아니었다. 문제는 GPT에 래퍼를 씌우는 것이 훨씬 쉬운데도 누군가가 굳이 그것을 만들려 할 것인가였다.

우리는 굳이 그것을 만들었다. 그리고 나는 남아 있는 학생들 — 탭을 닫지 않는 학생들 — 이 그 증거가 될 것이라고 생각한다.

Related Research

Also Published On