유창한 언어 AI와 정밀한 논리 엔진이 짝을 이룬 모습을 담은 시각적 은유 — 이 글의 핵심인 '목소리와 두뇌' 개념을 표현한다.
Artificial IntelligenceMachine LearningTechnology

2+2=5라고 가르친 AI 튜터 — 그리고 그것이 당신이 쓰는 모든 AI 제품에 대해 드러내는 것

Ashutosh SinghalAshutosh Singhal2026년 2월 13일16 min

몇 달 전, 한 학부모가 나를 얼어붙게 만든 스크린샷 한 장을 보내왔다.

그녀의 딸 — 7학년 학생 — 은 수학 시험 공부를 위해 가장 인기 있는 AI 튜터링 플랫폼 중 하나를 사용하고 있었다. 그 아이는 곱셈 문제를 풀고 있었다: 3,750 곱하기 7. 아이는 21,690이라고 입력했다. 정답은 26,250이다. 근처에도 가지 못했다.

그 AI 튜터는 이렇게 응답했다: "정말 잘했어요! 문제를 풀어냈고 훌륭한 사고력을 보여줬어요!"

나는 그 스크린샷을 오랫동안 바라보았다. 오류가 놀라워서가 아니었다 — 나는 몇 년간 LLM의 실패 양상을 연구해왔다. 나를 강타한 것은 그 열정이었다. 그 AI는 단지 틀린 것만이 아니었다. 그것은 틀린 답을 축하했다. 사랑받는 선생님의 따뜻함과 자신감으로 잘못된 개념을 강화했다. 그리고 어딘가에서, 열두 살 소녀는 기계가 자신이 이해했다고 말해줬다는 이유로 곱셈을 이해했다고 믿으며 시험장에 걸어 들어갔다.

그 스크린샷은 내가 한동안 맴돌던 무언가를 결정화시켰다: 가장 위험한 AI 시스템은 답하기를 거부하는 시스템이 아니다. 자신 있게, 그리고 틀리게 답하는 시스템이다. 그리고 지금 이 순간, 그 설명은 대규모 언어 모델 위에 구축된 거의 모든 AI 제품에 들어맞는다.

나는 Ashutosh이고, Veriprajna를 운영한다. 우리는 neuro-symbolic AI 시스템을 구축한다 — 신경망의 언어적 유창함과 기호적 솔버의 논리적 엄밀함을 융합하는 아키텍처다. 내가 이 글을 쓰는 이유는 업계가 잘못된 아키텍처에 파국적인 베팅을 하고 있다고 생각하기 때문이며, 그 대가를 치를 사람들은 학생, 환자, 대출자, 그리고 사실을 정확히 알려줄 것이라 AI를 신뢰하는 그 밖의 모든 이들이다.

당신의 AI는 왜 그렇게 똑똑하게 들리면서 수학은 그토록 틀리는가?

GPT-4나 Claude 같은 대규모 언어 모델에 대해 대부분의 사람들이 깨닫지 못하는 것이 있다: 그것들은 아무것도 알지 못한다. 데이터베이스가 당신의 생일이 3월 15일이라는 것을 아는 방식으로도, 계산기가 17 곱하기 24가 408이라는 것을 아는 방식으로도 아니다.

LLM은 예측 엔진이다. 당신이 질문을 하면, 그것은 사실을 검색하거나 계산을 수행하지 않는다. 수십억 페이지의 인터넷 텍스트에서 흡수한 패턴을 바탕으로, 당신의 프롬프트 뒤에 이어질 통계적으로 가장 가능성 높은 단어 시퀀스를 예측한다. 이것은 연구자들이 "다음 토큰 예측"이라고 부르는 것을 수행하는 것이다 — 학습 중에 배운 확률 분포를 바탕으로 다음 단어(또는 단어의 조각)를 선택하는 것이다.

이것이 바로 LLM이 당신을 울릴 만한 시를 쓸 수 있으면서도, 컨텍스트 창을 적절히 자극하면 2+2=5라고 말하는 이유다. 시가 통하는 이유는 언어가 패턴이기 때문이다. 수학이 실패하는 이유는 산술이 패턴이 아니기 때문이다 — 그것은 통계적 가능성에 굴복하지 않는 정확한 규칙을 가진 형식 체계다.

LLM은 학습 데이터에 백만 번 등장한 사실과 한 번 등장한 사실을 구별하지 못한다. 그것은 희귀한 사실을 통계적 잡음으로 취급한다 — 이는 당신이 필요로 하는 정보가 더 모호할수록, AI가 무언가를 지어낼 가능성이 더 높다는 것을 의미한다.

나는 이렇게 생각한다: 세상의 모든 책을 읽었지만 계산기를 사용하는 법은 배운 적이 없는 동료가 있다고 상상해보라. 당신은 그에게 소설을 요약하거나 설득력 있는 이메일을 초안하도록 신뢰할 것이다. 하지만 세금 신고를 맡기지는 절대 않을 것이다. 그런데 우리가 원시 LLM을 교육, 금융, 의료에 배치할 때 하고 있는 일이 바로 그것이다.

프롬프트 엔지니어링이 막다른 길임을 깨달은 밤

지금은 인정하기 거의 부끄러운 시기가 있었다 — 더 나은 프롬프트로 이 문제를 해결할 수 있다고 생각했던 때 말이다.

내 팀과 나는 정교한 사고 사슬(chain-of-thought) 지시문을 만드는 데 몇 주를 보냈다. "단계별로 생각하라." "풀이 과정을 보여라." "응답하기 전에 산술을 재확인하라." 우리는 수학 문제, 규정 준수 시나리오, 논리적 추론 과제 전반에 걸쳐 수십 가지 변형을 테스트했다. 일부 프롬프트 사슬은 수백 토큰에 달했고, 본질적으로 모델에게 신중해달라고 애원하는 것이었다.

도움이 되었다. 조금은. 사고 사슬 프롬프팅은 복잡한 추론 과제의 정확도를 형편없는 수준에서 그저 믿을 수 없는 수준으로 개선했다. 하지만 계속 벌어진 일은 이것이었다: 모델은 아름다운 논리의 사슬을 펼쳐놓았다 — 1단계 정답, 2단계 정답, 3단계 정답 — 그러고는 4단계에서 단순한 산술 오류를 저질러 나머지 추론 사슬 전체로 연쇄되어, 자신 있게, 우아하게 틀린 최종 답을 만들어냈다.

어느 날 밤, 나는 책상에서 테스트 결과를 검토하고 있었다. 우리는 사고 사슬 프롬프트가 적용된 GPT-4 구성을 통해 500개의 복리 계산을 일괄 실행했다. 정확도는 약 87%였다. 내 공동 창업자는 결과를 보고 말했다. "87%면 꽤 괜찮네."

나는 스프레드시트를 띄웠다. "13%의 확률로 숫자를 조작하는 스프레드시트를 사용하겠어?"

침묵.

그 순간 내 머릿속에서 아키텍처가 바뀌었다. 문제는 프롬프트가 아니었다. 문제는 우리가 예측 엔진에게 논리 엔진이 되어달라고 요구하고 있었다는 것이다. 우리는 주사위에게 속삭이면서 그것이 올바른 숫자에 떨어지기를 바라고 있었다. 아무리 많은 프롬프트 엔지니어링도 시스템의 근본적인 확률적 본질을 바꾸지 못할 것이었다.

우리에게는 두뇌가 필요했다.

Neuro-Symbolic AI란 무엇이며, 왜 신경 써야 하는가?

Kahneman의 시스템 1과 시스템 2를 두 가지 AI 패러다임(신경망과 기호적 AI)에 대응시키고, neuro-symbolic AI가 어떻게 둘을 융합하는지 보여주는 다이어그램 — 이 글의 핵심 개념적 틀을 즉시 시각화한다.

인공지능의 역사는 수십 년 동안 서로 대화하기를 거부한 두 부족의 이야기다.

기호주의자(Symbolists)들 — 1950년대부터 1980년대까지 지배적이었던 — 은 지능이 명시적인 규칙과 논리를 조작하는 것에 관한 것이라고 믿었다. 충분한 지식을 형식적 진술로 인코딩할 수 있다면(소크라테스는 사람이다; 모든 사람은 죽는다; 그러므로 소크라테스는 죽는다), 생각하는 기계를 만들 수 있었다. 그들의 시스템은 정확하고, 투명하며, 증명 가능하게 옳았다. 또한 취약했다 — 규칙이 다루지 못하는 지저분한 실세계 언어나 상황을 만나는 순간 산산조각 났다.

연결주의자(Connectionists)들 — 신경망 진영 — 은 정반대의 접근을 취했다. 규칙을 쓰지 말고, 기계가 데이터에서 패턴을 학습하게 하라. 그들의 시스템은 모호함, 잡음, 자연어를 훌륭하게 처리할 수 있었다. 하지만 그것들은 블랙박스였다. 그것들이 특정한 답을 만들어낸 이유를 설명할 수 없었고, 진리라는 개념이 없었다 — 오직 통계적 가능성만 있었다.

노벨상 수상자 Daniel Kahneman은 인간의 인지를 두 가지 시스템으로 설명했다: 시스템 1은 빠르고, 직관적이며, 패턴 기반이다 — 당신은 군중 속에서 친구의 얼굴을 알아본다. 시스템 2는 느리고, 신중하며, 논리적이다 — 당신은 종이에 17 곱하기 24를 계산한다. 현재의 LLM은 시스템 2 작업을 수행하도록 요구받는 비범한 시스템 1 엔진이다. 그것이 바로 불일치다.

Neuro-symbolic AI는 그 융합이다. 당신은 신경망을 "목소리(Voice)"로 유지한다 — 그것은 언어를 다루고, 의도를 이해하며, 유창한 응답을 생성한다. 하지만 당신은 기호적 "두뇌(Brain)"를 추가한다 — 결정론적 솔버, 논리 엔진, 형식 검증 시스템 — 이것은 정밀함을 요구하는 모든 것을 처리한다. 목소리는 사용자와 대화한다. 두뇌는 수학을 한다. 그리고 다리가 이 둘을 연결한다.

Neuro-symbolic 시스템에서 2+2는 항상 4가 될 것이다 — 모델이 그래야 한다고 예측하기 때문이 아니라, 기호 계층에서 공리로 정의되어 있기 때문이다. 신경망은 말 그대로 그것을 무시할 수 없다.

이것은 이론이 아니다. 이것이 우리가 Veriprajna에서 구축하는 것이며, 나는 전체 아키텍처 청사진을 우리 연구 논문의 인터랙티브 버전에 상세히 담아두었다.

어떻게 언어 모델이 할 수 없는 수학을 하게 만드는가?

PAL(Program-Aided Language Model) 파이프라인이 어떻게 작동하는지 — 사용자 질문에서, LLM의 코드 생성으로, 결정론적 실행으로, 검증된 자연어 응답에 이르기까지 — 단계별로 보여주고, 답을 추측하는 표준 LLM 접근과 대조하는 다이어그램.

핵심 메커니즘은 프로그램 보조 언어 모델(Program-Aided Language Models), 즉 PAL이라 불리는 것이다. 그리고 그 우아함은 여전히 나를 즐겁게 한다.

LLM에게 문제를 풀라고 요청하는 대신, 문제를 푸는 프로그램을 작성하라고 요청하는 것이다.

실제로 이것이 어떤 모습인지 보자. 한 사용자가 묻는다: "연 5% 이자로 매년 복리 계산되는 50,000달러의 대출이 있다면, 3년 후에 얼마를 빚지게 되나요?"

표준 LLM 구성에서는, 모델이 머릿속에서 — 토큰 예측을 사용해 — 50,000달러 × (1.05)³를 계산하려고 시도한다. 때로는 맞힌다. 때로는 틀린다. 당신은 어떤 답을 신뢰할 수 있는지 알 방법이 없다.

우리 시스템에서는, LLM이 아무것도 계산하지 않는다. 그것은 몇 줄의 Python 코드를 생성한다: principal = 50000, rate = 0.05, years = 3, print(principal * (1 + rate) ** years). 그 코드는 결정론적 런타임에 의해 실행된다 — 진짜 수학을 하는 진짜 컴퓨터다. CPU의 산술 논리 장치가 57,881.25를 반환한다. 그런 다음 LLM은 그 검증된 숫자를 자연어 응답으로 감싼다: "3년 후, 당신은 57,881.25달러를 빚지게 됩니다."

신경망은 자신이 잘하는 것을 했다: 질문을 이해하고 코드를 생성하는 것. 기호 엔진은 자신이 잘하는 것을 했다: 완벽한 정확도로 답을 계산하는 것. 어느 쪽도 상대방의 일을 할 수 없었다. 함께라면, 그들은 가공할 만하다.

우리는 이것을 복잡한 산술 과제에서 표준 사고 사슬 프롬프팅과 비교해 테스트했다. 표준 LLM은 다단계 계산에서 40% 미만의 정확도를 기록했다. 사고 사슬은 그것을 적당하지만 오류가 잦은 결과로 개선했다. 우리의 PAL 기반 neuro-symbolic 접근법은 거의 완벽한 정확도를 달성했다 — 오직 생성된 코드 논리가 올바른지 여부에 의해서만 제한되며, 이는 확률적 토큰 예측보다 검증하고 디버깅하기가 훨씬 쉬운 문제다.

우리 팀을 거의 갈라놓을 뻔한 논쟁

우리가 내부적으로 벌였던 다툼에 대해 이야기해야겠다. 그것이 우리가 이 아키텍처를 생각하는 방식을 형성했기 때문이다.

우리가 처음 기호적 솔버를 통합하기 시작했을 때, 내 엔지니어 중 한 명 — 뛰어난 친구이자 딥러닝 세계에 깊이 몸담은 사람 — 이 강하게 반발했다. 그의 주장은 이랬다: "모델은 6개월마다 좋아지고 있어. GPT-5가 수학 문제를 고칠 거야. GPT-6가 추론 문제를 고칠 거고. 넌 스스로 골격을 자라나게 할 건물을 위한 비계를 짓고 있는 거야."

그가 추세에 대해 틀린 것은 아니었다. 모델은 정말로 개선되고 있다. 하지만 나는 떨쳐낼 수 없는 구조적 논거로 계속 되돌아왔다.

LLM의 개선은 결정론적 과제에 대해 점근적이다. 예측 엔진을 10배 크게 만든다고 해서 결정론적으로 되지는 않는다 — 그것은 더 큰 예측 엔진이 될 뿐이다. 복리를 87%의 확률이 아니라 95%의 확률로 맞히는 모델도 여전히 금융 계산에 신뢰할 수 없는 모델이다. 95%와 100% 사이의 간극은 규모로 좁힐 수 있는 간극이 아니다. 그것은 다른 종류의 시스템을 요구하는 간극이다.

우리는 이것을 두고 이틀 동안 논쟁했다. 다이어그램으로 뒤덮인 화이트보드. 경쟁하는 벤치마크들. 어느 순간 누군가 말했다. "그냥 GPT를 쓰고 면책 조항을 붙여." 나는 눈에 띄게 움찔했던 것 같다.

결말을 지은 것은 간단한 테스트였다. 우리는 한 은행 고객으로부터 100개의 규정 준수 시나리오를 가져왔다 — 엄격한 규제 기준선이 있는 대출 자격 검사였다. 우리는 그것들을 신중한 프롬프팅과 함께 최첨단 LLM을 통해 실행했다. 모델은 신청자들이 설득력 있는 개인 진술서를 작성했다는 이유로 부채 대비 소득 비율 요건을 위반하는 세 건의 대출을 승인했다. 그 모델은 서사에 설득당했다. 그것은 설계된 대로의 일을 하고 있었다 — 언어에 대한 패턴 매칭 — 그리고 그렇게 함으로써, 그것은 법을 어겼다.

5%의 확률로 거짓말을 하는 챗봇은 95% 유용한 것이 아니다. 중대한 과제에 있어서, 그것은 100% 사용 불가능하다.

내 엔지니어는 마음을 돌렸다. 기호적 접근법이 더 매력적이어서가 아니라 — 그렇지 않다 — 대안의 실패 양상이 용납할 수 없는 것이었기 때문이다.

왜 "AI 래퍼(Wrapper)" 회사들은 곤경에 처해 있는가?

한 걸음 물러나 비즈니스 지형에 대해 이야기해보겠다. 기술 아키텍처가 막대한 경제적 함의를 가지기 때문이다.

지금 이 순간, AI 스타트업 생태계는 내가 "래퍼(wrapper)" 회사라고 부르는 것들이 지배하고 있다 — 핵심 제품이 제3자 기반 모델 위에 얹힌 사용자 인터페이스와 약간의 프롬프트 로직인 사업체들이다. 그들은 자신이 소유하지 않은 역량에 대한 접근권을 되팔고 있다.

문제는 구조적이다. OpenAI나 Anthropic이 새 모델 버전을 출시할 때마다, 그들은 래퍼가 제공하던 기능을 흡수한다. "PDF 요약 AI"를 파는 스타트업은 기반 모델이 네이티브 파일 업로드를 추가하는 순간 쓸려나간다. "코드 생성 AI"를 제공하는 회사는 기본 모델이 코딩에 능숙해지면서 자신의 가치 제안이 증발하는 것을 지켜본다. 당신의 경쟁 해자는 다름 아닌 당신의 공급자에 의해 빠져나가고 있다.

기업 고객들은 이를 알아차리고 있다. 나는 CTO들이 대놓고 이렇게 말하는 회의에 앉아 있었다: "내가 직접 호출할 수 있는 API를 감싸는 대가로 왜 당신에게 돈을 내야 하죠?" 그리고 그들이 그렇게 묻는 것은 옳다. 민감한 금융 기록이나 독점 코드를 스타트업 서버로 라우팅하고, 그것이 다시 공개 모델 제공업체로 라우팅되는 것은 용납할 수 없는 공격 표면을 만든다. "주권 AI(Sovereign AI)" 운동 — 기업들이 자신의 모델을 소유하고 자신의 인프라 내에서 실행할 것을 요구하는 것 — 은 가속화되고 있다.

이것이 바로 우리가 첫날부터 래퍼 모델을 거부한 이유다. 우리는 토큰에 대한 접근권을 팔지 않는다. 우리는 시스템 2 아키텍처를 판매한다 — 독점적 기호 추론 엔진, 도메인 특화 지식 그래프, 결정론적 규정 준수 계층. 기저 언어 모델이 범용화될 때(그리고 그렇게 될 것이다), 우리의 가치는 줄어들지 않는다. 오히려 증가한다. 논리 계층이 중요한 유일한 차별화 요소가 되기 때문이다.

AI 튜터에게 진짜 두뇌를 주면 무슨 일이 일어나는가?

이 이야기를 교육으로 다시 가져와보겠다. 나에게 가장 개인적으로 다가오는 지점이기 때문이다.

AI 튜터링의 약속은 비범하다: 모든 학생을 위한, 대규모로 제공되는 개인화된 일대일 교육. Bloom의 유명한 "2 시그마 문제"는 개별 튜터링을 받는 학생이 전통적인 교실의 학생보다 두 표준편차만큼 더 잘 수행한다는 것을 보여주었다. AI가 그 이점의 일부만이라도 제공할 수 있다면, 그것은 교육을 변혁시킬 것이다.

하지만 현세대의 AI 튜터는 튜터가 아예 없는 것보다 더 나쁜 방식으로 실패하고 있다. 내가 앞서 설명한 곱셈 참사를 넘어, 학생이 올바른 답에 도달했음에도, AI가 — 잘못된 풀이 경로를 환각하며 — 학생이 틀렸다고 설득하려 하는 문서화된 사례들이 있다. 그 모델은 학생이 올바른 추론을 포기하도록 가스라이팅한다. 신뢰가 전부인 교육적 맥락에서, 이것은 파괴적이다.

우리의 접근법은 근본적으로 다르다. 우리는 우리가 교육적 정확성 엔진(Pedagogical Accuracy Engine)이라고 부르는 것을 구축했다 — 그리고 그것은 세 가지 수준에서 작동한다.

첫째, 기호 계층은 베이지안 지식 추적(Bayesian Knowledge Tracing)을 사용해 각 학생의 지식 상태 모델을 유지한다. 그것은 학생이 대수를 이해하는지 추측하는 것이 아니다; 그것은 모든 상호작용마다 갱신되는 확률 벡터를 추적한다. 학생이 기하학에서 어려움을 겪을 때, 시스템은 안다 — 직관적으로가 아니라 수학적으로 — 그리고 그에 따라 스캐폴딩을 조정한다.

둘째, AI가 연습 문제를 생성할 때, 그것은 단지 숫자를 지어내지 않는다. PAL 엔진은 생성된 모든 문제가 깔끔하고 풀 수 있는 답을 산출하도록 보장한다. 학생이 기초 나눗셈을 배우고 있는데 "7,349를 13.7로 나누어 계산하라"는 일은 더 이상 없다. 기호 계층은 교육적으로 적절한 난이도를 보장한다.

셋째 — 그리고 이것이 내가 가장 자랑스러워하는 것인데 — 우리는 AI를 특정 커리큘럼에 고정한다. 속성 그래프 인덱싱(property graph indexing)을 사용해, 우리는 실제 교과서를 개념이 노드이고 관계가 엣지인 지식 그래프로 파싱한다. 교과서가 "소수(prime number)"를 특정한 방식으로 정의한다면, AI는 LLM의 학습 데이터에 존재하는 위키피디아 유래 근사치가 아니라 정의를 사용한다. 이 계층들이 어떻게 상호작용하는지에 대한 전체 기술적 분석은 우리 연구 논문을 참조하라.

아무도 이야기하고 싶어 하지 않는 규정 준수 문제

대출 규정 준수 사용 사례에서 기호적 거부권(veto) 계층이 어떻게 작동하는지 보여주는 다이어그램 — LLM 출력이 규칙 검사 게이트를 통과하며, 그 게이트는 응답이 사용자에게 도달하기 전에 그것을 승인하거나 차단한다.

교육은 하나의 영역이다. 금융은 또 다른 영역이다 — 그리고 어떤 면에서는, 실패 양상이 훨씬 더 우려스럽다.

한 지역 은행이 이전 AI 공급업체의 시스템이 규제 대출 기준을 위반하는 대출을 승인한 후 우리를 찾아왔다. 그 문제는 미묘했지만, 일단 아키텍처를 이해하고 나면 완전히 예측 가능했다: LLM이 신청자들의 개인 진술서를 그들의 금융 데이터와 함께 처리하고 있었던 것이다. 신청자가 역경을 극복한 설득력 있는 이야기를 썼을 때, 모델의 패턴 매칭 — 긍정적 결과로 이어지는 설득력 있는 서사의 수백만 사례로 학습된 — 은 그 서사에 가중치를 두었다. 엄격한 부채 대비 소득 기준선보다 말이다.

그 모델은 오작동하고 있던 것이 아니었다. 그것은 설계된 그대로의 일을 하고 있었다: 대출 승인 대화처럼 보이는 시퀀스에서 가장 가능성 높은 다음 토큰을 예측하는 것. 문제는 대출 승인이 대화가 아니라는 것이었다. 그것은 법적 경계가 있는 규칙 기반 결정이다.

우리는 PyReason 계층을 구현했다 — 지식 그래프에 대한 논리적 추론을 지원하는 neuro-symbolic 프레임워크다. 규칙은 명시적이다: 만약 신청자 나이가 21세 미만이고 주(state)가 뉴욕이면, 대출 유형은 상업용일 수 없다. LLM이 대출 신청자에게 어떤 응답을 생성하기 전에, 컨텍스트는 기호 엔진을 통과한다. 제안된 출력이 엄격한 규칙을 위반하면, 기호 엔진이 그것에 거부권을 행사한다. 예외는 없다.

결과: 규제 대출 기준에 대한 100% 준수와, 신청자에 대한 개인화되고 공감 어린 소통의 결합. 목소리는 따뜻하게 유지된다. 두뇌는 완고하게 유지된다. 그것이 요점이다.

우리는 아마도 규정을 준수하는 AI를 만들지 않는다. 우리는 입력이 아무리 설득력 있더라도, 규정 미준수 거래를 승인하는 것이 물리적으로 불가능한 AI를 만든다.

"더 큰 모델이 그냥 이걸 고치지 않을까요?"

사람들은 나에게 이것을 끊임없이 묻고, 나는 그 이유를 이해한다. LLM 역량의 궤적은 진정으로 인상적이다. 새 릴리스마다 더 많은 예외 사례를 처리하고, 벤치마크에서 더 높은 점수를 기록하며, 명백한 오류를 더 적게 낸다.

하지만 내가 계속 되돌아오는 것은 이것이다: 결정론적 과제에 대한 개선 곡선에는 아키텍처에 내재된 천장이 있다. 예측 엔진은, 아무리 크더라도, 출력을 확률적으로 생성한다. 그것을 더 크게 만들면 확률 분포가 더 조여진다 — 하지만 그것은 결코 보장이 되지 않는다. 그리고 가장 중요한 영역들에 대해서는 — 아이의 교육, 환자의 진단, 대출자의 법적 권리 — "아마도 정확함"은 제품 범주가 아니다.

실용적인 논거도 있다. 설령 GPT-7이 산술에서 99.9%의 정확도를 달성하더라도(그것은 놀라운 일일 것이다), 그것은 여전히 천 번의 계산당 한 번의 오류를 의미한다. 하루에 만 건의 대출 신청을 처리하는 은행은 매일 열 건의 잘못된 계산을 만들어낼 것이다. 그 각각은 잠재적인 규제 위반이다. 그 각각은 일어나기를 기다리는 소송이다. 기호 계층은 오류율을 99.9%로 줄이지 않는다. 그것은 솔버를 통해 라우팅되는 모든 연산에 대해 오류율을 0으로 줄인다.

내가 듣는 다른 반론: "이건 그냥 복잡성을 더하는 것 아닌가요?" 그렇다. 맞다. Neuro-symbolic 시스템은 래퍼보다 만들기가 더 어렵다. 그것은 두 패러다임 — 통계적인 것과 논리적인 것 — 을 모두 이해하고, 그 둘 사이의 다리를 엔지니어링할 것을 요구한다. 하지만 복잡성은 아키텍처 안에 자리 잡아서 실패 양상 속에 자리 잡을 필요가 없게 한다. 나는 예측 불가능하게 실패하는 단순한 시스템보다는 작동하는 복잡한 시스템을 짓는 편을 택하겠다.

두 종류의 지능 사이의 다리

우리가 이 작업을 시작한 이래로 내 머릿속에 박혀 있는 한 이미지를 당신에게 남기고 싶다.

당신이 실제로 어떻게 생각하는지 떠올려보라. 친구가 당신에게 식당을 추천해달라고 부탁하면, 당신은 직관을 사용한다 — 과거 경험, 분위기, 연상에 대한 패턴 매칭. 시스템 1. 빠르고 유동적이다. 하지만 당신의 회계사가 세금 계산을 검증해달라고 부탁하면, 당신은 계산기를 꺼낸다. 시스템 2. 느리고 확실하다. 당신은 숫자가 맞는지 직관하려 하지 않는다. 당신은 확인한다.

오늘날 세상에 배치된 모든 AI 시스템은 시스템 1만으로 작동하고 있다. 그것은 마치 우리가 계산기를 사용할 줄 모르는 뛰어난 대화가들의 문명을 건설한 다음, 그들에게 은행, 병원, 학교를 맡긴 것과 같다.

해결책은 대화가들을 내다 버리는 것이 아니다. 그들은 자신이 하는 일에 비범하다. 해결책은 그들에게 계산기를 쥐여주는 것 — 그리고 그들이 그것을 반드시 사용하도록 하는 것이다.

그것이 바로 neuro-symbolic AI다. 대규모 언어 모델의 대체물이 아니다. 그것들의 완성이다. 목소리와 두뇌가, 언제 말하고 언제 계산할지를 아는 다리와 함께, 협력한다.

우리는 그 다리를 짓고 있다. 그리고 나는 그것이 중요한 것들을 맡기기에 신뢰받을 자격이 있는 유일한 아키텍처라고 믿는다.

Related Research

Also Published On