법적 인용의 권위와 AI가 만들어낸 조작이 충돌하는 모습을 담은 강렬한 이미지 — 가짜 사건이 등장하는 부분에서 인용 텍스트가 눈에 띄게 조각나거나 흩어지는 법률 준비서면.

Artificial IntelligenceLawTechnology

가짜 판례를 지어낸 AI — 그리고 그것을 원천 차단하기 위해 우리가 만든 아키텍처

Ashutosh Singhal 2026년 1월 24일15 min

저는 대부분의 사람들이 리걸 AI를 구축하는 방식을 더 이상 신뢰하지 않게 된 정확한 순간을 기억합니다.

화요일 늦은 밤이었고, 저는 Mata v. Avianca 사건의 법정 기록을 읽고 있었습니다. 요약본이 아니었습니다. 트윗 스레드도 아니었습니다. 실제 소송 서류였습니다. 한 변호사가 다음과 같은 판례를 인용한 준비서면을 제출했습니다: Varghese v. China Southern Airlines, Shaboon v. Egyptair, 그리고 Petersen v. Iran Air — 사건 번호, 날짜, 인용된 판시 내용까지 완비되어 있었습니다. 상대측 변호인이 직접 찾아봐야 할 만큼 설득력이 있었습니다. 그 사건들은 존재하지 않았습니다. ChatGPT가 지어낸 것이었습니다. 그리고 그 변호사가 다시 확인하려고 ChatGPT에게 돌아갔을 때, 모델은 자신이 만들어낸 허구를 태연하게 확인해 주었습니다: "네, 그 사건들은 실제로 존재하며 신뢰할 수 있는 법률 데이터베이스에서 찾을 수 있습니다."

저는 기록을 내려놓고 생각했습니다: 이것은 프롬프트의 문제가 아니다. 이것은 아키텍처의 문제다. 그리고 리걸 AI 업계의 대부분은 그렇지 않은 척하고 있습니다.

$5,000의 벌금, 사법적 견책, 그리고 평판의 추락으로 이어진 그 사건은, 오늘날 Veriprajna의 제 팀이 구축하는 것의 출발점이 된 사례 연구가 되었습니다: 리걸 AI를 위한 인용 강제(Citation-Enforced) GraphRAG 시스템입니다. AI가 물리적으로 출력할 수 없는 시스템입니다 — 지식 그래프의 검증된 항목에 대응하지 않는 판례 인용을 말이죠. "아마 안 할 것"이 아닙니다. 할 수 없습니다.

저는 그 구분이 왜 중요한지, 이를 구축하는 데 무엇이 필요했는지, 그리고 파운데이션 모델에 챗봇 인터페이스를 씌우고 그것을 "리걸 AI"라고 부르던 시대가 왜 끝났다고 믿는지 설명하고자 합니다.

ChatGPT는 왜 존재하지 않는 판례를 지어냈는가?

이것은 모두가 던지지만 거의 아무도 제대로 답하지 못하는 질문입니다.

흔한 설명은 "환각(hallucination)"입니다 — 너무 남용된 나머지 진단적 가치를 잃어버린 단어죠. 실제로 Mata v. Avianca 사건에서 벌어진 일은 훨씬 더 구체적이고 훨씬 더 치명적입니다. 그 모델은 승객 부상에 대한 항공사 책임에 관한 판례를 찾으라는 요청을 받았습니다. 모델은 데이터베이스를 검색하지 않았습니다. 데이터베이스가 없기 때문입니다. 모델은 통계적으로 다음에 올 가능성이 높은 단어의 나열을 예측했을 뿐입니다.

"Varghese"는 그럴듯한 원고 이름입니다. "China Southern Airlines"는 그럴듯한 피고입니다. "2017 WL 3245891" 같은 사건 번호는 실제 인용의 구문 패턴을 따릅니다. 모델은 시나 마케팅 이메일을 조립하는 것과 똑같은 방식으로 이 조각들을 조립했습니다 — 이른바 퍼플렉서티(perplexity)라는 것을 최소화함으로써 말입니다. 이는 본질적으로 모델이 자신의 출력에 대해 얼마나 "놀라는지"를 나타내는 척도입니다. 낮은 놀라움은 유창한 텍스트를 뜻합니다. 유창한 텍스트는 참인 텍스트와 같지 않습니다.

모델은 퍼플렉서티 — 다음 단어에 대해 얼마나 놀라는지 — 를 최소화하도록 훈련됩니다. 모델은 출처(provenance) — 그 단어가 실제로 존재하는 무언가로 거슬러 올라가는지 — 를 최적화하도록 훈련되지 않습니다.

이것이 핵심적인 긴장입니다. LLM은 일관성(coherence)을 최적화합니다. 법은 출처(provenance)를 요구합니다. 이것들은 근본적으로 다른 목표이며, 아무리 프롬프트 엔지니어링을 해도 그 간극을 메울 수 없습니다. GPT-4에게 "당신은 신중한 변호사입니다. 실제 사건만 인용하세요"라고 말할 수 있습니다. 모델은 고개를 끄덕이며 따를 것입니다 — 당신이 필요로 하는 사건이 훈련 데이터에 없는 바로 그 순간까지는 말이죠. 그 지점에서 모델은 그럴듯하게 들리는 사건을 지어낼 것입니다. 그럴듯하게 들리는 것이야말로 문자 그대로 모델이 최적화된 목표이기 때문입니다.

스탠퍼드 연구진은 이를 엄밀하게 검증했습니다. 인터넷 접속이나 기본적인 검색 기능을 갖춘 것들조차 포함해, 범용 챗봇은 복잡한 법률 질의에서 58%에서 82%의 확률로 환각을 일으켰습니다. 예외적인 사례가 아닙니다. 일상적인 법률 조사 질문에서 말입니다.

래퍼(Wrapper)의 함정

그 Mata 사건 이후, 저는 시장에 나와 있는 리걸 AI 도구들을 목록화하기 시작했습니다. 그중 대부분은 업계가 점잖게 "래퍼"라고 부르는 것이었습니다 — OpenAI나 Anthropic의 API 위에 얹은 얇은 사용자 인터페이스 말이죠. "당신은 유능한 법률 비서입니다"라고 말하는 시스템 프롬프트. 어쩌면 PDF 업로드 기능. 어쩌면 좀 더 예쁜 글꼴.

저는 한 잠재 고객 — 중견 로펌의 법무 책임자 — 과 통화를 했는데, 그녀는 이런 도구 중 하나를 평가해 왔다고 말했습니다. "빠르긴 해요." 그녀가 말했습니다. "하지만 지난주에 그것이 반대의견을 다수의견 판시인 것처럼 인용했어요. 제 어소시에이트가 하마터면 그걸 제출할 뻔했죠." 그녀는 잠시 말을 멈췄습니다. "무서운 부분은, 그 사건은 실제였다는 겁니다. 판시만 그저... 틀렸을 뿐이죠."

그것이 바로 저를 밤잠 못 이루게 하는 리걸 환각의 특징입니다. Mata 사건은 판례들이 완전히 조작되었기 때문에 극적이었습니다. 하지만 더 미묘한 오류들 — 실제 사건이지만 잘못된 판시; 유효했으나 이후 폐지된 법령; 잘못된 관할권의 구속력 있는 선례 — 은 잡아내기가 더 어렵고 어쩌면 더 위험합니다. 가짜 사건은 첫 번째 검증 단계에서 걸러집니다. 하지만 뒷받침하지도 않는 주장을 위해 인용된 실제 사건은? 그것은 여러 차례의 검토를 거치고도 살아남을 수 있습니다.

래퍼 방식은 데이터 계층을 소유하지 않기 때문에 이 문제를 해결할 수 없습니다. 어떤 사건이 존재하는지 알지 못합니다. 어떤 사건이 파기되었는지 알지 못합니다. 제2연방항소법원의 판결이 제9연방항소법원을 구속하지 않는다는 것을 이해하지 못합니다. 그것은 확률 엔진에 연결된 화려한 텍스트 상자일 뿐입니다.

그리고 경제성은 냉혹합니다. 래퍼 시장에 대한 분석에 따르면, 일부는 빠르게 매출에 도달하지만 절대다수는 방어 가능한 기술이 전혀 없기 때문에 실패합니다. 파운데이션 모델이 개선될수록, 래퍼를 유용하게 만들었던 모든 기능 — 요약, 초안 작성, 질의응답 — 은 기본 모델 안으로 흡수됩니다. 당신은 임대한 땅 위에 건물을 짓고 있는 것이고, 그 땅 주인은 OpenAI입니다.

AI에게 법의 지도를 쥐여주면 어떤 일이 벌어지는가?

Vector RAG가 유사도로 고립된 텍스트 조각을 검색하는 반면 GraphRAG는 구조적으로 연결된 근거를 찾기 위해 명시적인 법적 관계(인용, 파기, 해석)를 순회하는 방식을 나란히 비교해 보여주는 다이어그램.

여기서 제 팀의 집착이 시작됩니다.

환각에 대한 표준적인 해법은 검색 증강 생성(Retrieval-Augmented Generation) — RAG입니다. 모델의 기억에 의존하는 대신, 데이터베이스에서 관련 문서를 검색해 컨텍스트로 제공하는 것이죠. 이것은 실질적인 개선입니다. 하지만 법에서는 충분하지 않으며, 저는 몇 주 동안 우리를 미치게 만든 구체적인 사례를 통해 그 이유를 설명하고자 합니다.

우리는 1990년의 특정 환경 규제가 2023년 대법원 판결 이후에도 여전히 집행 가능한지에 관한 질문에 표준 벡터 RAG 파이프라인을 테스트하고 있었습니다. 벡터 RAG는 늘 하던 대로 했습니다: 질의와 의미적으로 유사한 텍스트 조각들을 찾아냈죠. 그 규제를 반환했습니다. 대법원 의견을 반환했습니다. 둘 다 논하는 법률 리뷰 논문을 반환했습니다.

LLM은 이것들을 자신감 있고 잘 쓰인 하나의 답변으로 엮어냈는데, 그 답변은 완전히 틀렸습니다. LLM은 법률 리뷰 논문 — 설득력은 있지만 구속력은 없는 학술 논평 — 을 마치 대법원 판시와 동일한 무게를 지닌 것처럼 취급했습니다. 더 나쁜 것은, 그 규제가 사실상 무효화되었다는 사실을 놓쳤다는 점입니다. 그 규제를 무효화 판결에 연결하는 근거의 사슬이 벡터 검색이 찾아내지 못한 중간 항소심 사건을 거쳐 이어졌기 때문입니다. 그 연결은 의미적인 것이 아니었습니다. 구조적인 것이었습니다.

저는 우리 수석 엔지니어가 이 문제를 디버깅하던 도중에 저를 돌아보며 이렇게 말한 것을 기억합니다: "문제는 검색이 아닙니다. 문제는 벡터가 관계를 이해하지 못한다는 것입니다."

그녀가 옳았습니다. 그리고 그것이 바로 GraphRAG — 그래프 기반 검색 증강 생성(Graph-based Retrieval-Augmented Generation) — 의 배경에 있는 통찰입니다.

법률 문서를 벡터 공간의 고립된 점으로 저장하는 대신, 우리는 그것들을 지식 그래프(Knowledge Graph)로 매핑합니다: 모든 법령, 판례, 규제, 법리가 노드이고, 그것들 사이의 관계 — 인용한다(cites), 파기한다(overrules), 구별한다(distinguishes), 해석한다(interprets), 확정한다(affirms) — 는 명시적이고 라벨이 붙은 엣지인 네트워크입니다. 저는 전체 아키텍처에 대해 우리 연구의 인터랙티브 버전에서 다뤘습니다.

Vector RAG는 이렇게 묻습니다: "이 질의처럼 보이는 텍스트를 찾아라." GraphRAG는 이렇게 묻습니다: "법령을 찾고, '해석한다' 엣지를 순회해 판례법을 찾은 다음, '파기한다' 엣지를 순회해 그것이 여전히 유효한지 확인하라."

그것은 미묘한 차이가 아닙니다. 그것은 도서관을 느낌으로 검색하는 것과, 카드 목록, 인용 색인, 그리고 셰퍼드 리포트(Shepard's report)를 동시에 사용해 검색하는 것 사이의 차이입니다.

AI가 인용을 지어내는 것을 어떻게 막을 것인가?

KG-Trie 제약 디코딩 과정을 단계별로 보여주는 다이어그램 — LLM이 부분 인용을 생성하면, Trie가 지식 그래프에 대조해 유효하게 이어질 토큰을 확인하고, 유효하지 않은 토큰 경로는 차단된다(확률이 음의 무한대로 설정됨).

이것은 제대로 만드는 데 가장 오랜 시간이 걸린 부분이자, 제가 가장 자랑스러워하는 부분입니다.

지식 그래프를 갖는 것은 필요조건이지만 충분조건은 아닙니다. 그래프는 구조를 제공합니다. 하지만 LLM은 여전히 토큰 단위로 텍스트를 생성하고 있으며, 언제든 그래프에서 벗어나 지어내기 시작할 수 있습니다. 우리에게는 단지 장려하는 것 — 모델이 실제 사건을 인용하도록 — 에 그치지 않고, 물리적으로 방지하는 메커니즘이 필요했습니다. 가짜 사건을 인용하지 못하도록 말이죠.

우리는 이것을 그래프 제약 디코딩(Graph-Constrained Decoding)이라고 부르며, 그 핵심 메커니즘은 KG-Trie라고 불리는 것입니다.

쉽게 풀어 설명하면 이렇게 작동합니다. 우리는 지식 그래프에 있는 모든 유효한 엔티티 — 모든 사건명, 모든 판례집 인용, 모든 사건 번호 — 를 가져와 그 식별자들로부터 접두사 트리(Trie)를 구축합니다. LLM이 텍스트를 생성하다가 인용을 출력하려는 지점에 도달하면, 제약 메커니즘이 활성화됩니다. 그것은 확인합니다: Trie에 따르면 유효한 다음 토큰은 무엇인가?

만약 모델이 "Mata v. A"를 생성했다면 — Trie는 그 문자열로 시작하는 유효한 사건명을 완성하는 토큰만 허용합니다. "Avianca"는 유효합니다. 그 외의 모든 것은 확률이 음의 무한대로 설정됩니다. 차단되는 것이죠.

만약 모델이 "Varghese v. Chi"를 생성하려고 하면 — Trie는 유효한 이어짐을 찾지 못합니다. 생성이 중단됩니다. 모델은 되돌아가서 실제 인용을 찾거나 "선례를 찾을 수 없음"과 같은 것을 출력하도록 강제됩니다.

AI는 사건을 꾸며낼 수 없습니다. 검증된 데이터베이스에 없는 사건에 대한 토큰 시퀀스를 물리적으로 출력할 수 없기 때문입니다.

이것은 구조적 보장(structural guarantee)이며, 확률적 보장이 아닙니다. 우리는 "모델이 환각을 일으킬 가능성이 95% 낮아진다"고 말하는 것이 아닙니다. 우리는 조작 경로가 닫혀 있다고 말하는 것입니다. 가짜 인용에 대한 토큰 시퀀스는 말 그대로 생성될 수 없습니다.

이제, 이것이 무엇을 하고 무엇을 하지 않는지 정확히 짚고 넘어가고자 합니다. 이것은 조작(fabrication) — 존재하지 않는 사건을 지어내는 것 — 을 방지합니다. 이것은 오해석(misinterpretation) — 실제 사건을 인용하되 그로부터 잘못된 결론을 이끌어내는 것 — 을 방지하지는 못합니다. 그것은 추론 오류이며, 여전히 인간의 검토가 필요합니다. 하지만 조작을 제거하는 것은 엄청난 일입니다. 그것은 가장 파국적인 실패 유형 — Mata 시나리오 — 를 완전히 배제해 버립니다.

개발 초기의 어느 밤, 우리는 첫 엔드투엔드 테스트를 실행했습니다. 우리는 Mata 사건에서 가짜 인용을 만들어냈던 바로 그 질의를 시스템에 입력했습니다. 제약이 걸린 시스템은 "Varghese"를 생성하려다 Trie 벽에 부딪혔고, 되돌아가, 유효한 인용 사슬을 갖춘 실제 사건을 반환했습니다. 우리 엔지니어는 새벽 1시 47분에 단체 채팅방에 스크린샷을 보냈습니다. 아무도 말로 답하지 않았습니다. 그저 불꽃 이모지가 줄지어 있을 뿐이었습니다.

왜 래퍼는 이것을 할 수 없는가?

사람들은 제게 이것을 끊임없이 묻는데, 그 답은 상업적인 것이 아니라 구조적인 것입니다.

그래프 제약 디코딩은 생성 도중 실시간으로 모델의 토큰 확률 — 즉 로짓(logits) — 을 조작해야 합니다. 디코딩 수준에서 추론 엔진에 접근할 수 있어야 합니다. GPT-4 같은 표준 상용 API는 이것을 노출하지 않습니다. 프롬프트를 보내고 응답을 받을 수는 있습니다. 하지만 생성 과정을 토큰 중간에 가로채 제약을 주입할 수는 없습니다.

이것이 우리가 오픈 웨이트 모델 — Llama, Mistral — 위에 구축하거나, 커스텀 디코딩 루프를 허용하는 엔터프라이즈 엔드포인트를 통해 배포하는 이유입니다. 우리가 모델을 호스팅합니다. 우리가 추론 파이프라인을 통제합니다. 우리는 KG-Trie 제약을 모든 토큰이 생성되는 순간 그 확률 분포에 직접 주입합니다.

래퍼는 정의상 이것을 할 수 없습니다. 그것은 다른 누군가의 API를 호출하고 있을 뿐입니다. 그것은 조종사가 아니라 승객입니다.

아무도 이야기하지 않는 가장 어려운 부분

제약 메커니즘을 만드는 일은 지적으로 만족스러웠습니다. 그 아래에 있는 지식 그래프를 만드는 일은 고된 작업이었습니다.

법률 텍스트는 데이터 엔지니어를 눈물짓게 할 만큼 지저분합니다. 하나의 사건이 "Mata v. Avianca," "Mata," "678 F. Supp. 3d 443," "the Avianca case," 또는 단순히 "Id." — "방금 언급한 그 사건"을 뜻하는 두 글자 약어 — 로 지칭될 수 있습니다. 이 모든 것이 그래프의 단일한 정규 노드로 귀결되어야 합니다. 하나라도 놓치면, 인용 네트워크에 구멍이 생기는 것입니다.

우리는 중복 제거("Smith v. Jones, 123 F.3d 456"과 "Smith, 123 F.3d at 456"은 같은 사건), 모호성 해소("Smith v. Jones (1995)" 대 "Smith v. Jones (2002)" — 같은 이름, 다른 사건), 그리고 슬라이딩 윈도우 컨텍스트 파싱을 사용해 "Id." 참조를 해결하는 특유의 지옥을 처리하는 엔티티 해소(Entity Resolution) 파이프라인을 구축하는 데 몇 달을 보냈습니다.

그리고 부정적 처리(negative treatment) — 즉 "레드 플래그" 시스템이 있습니다. 파기된 사건을 유효한 근거로 취급하는 리걸 지식 그래프는 쓸모없는 것보다 더 나쁩니다. 우리는 인용 검토 신호 — "overruled(파기됨)," "abrogated(폐지됨)," "superseded(대체됨)" 같은 표현 — 를 수집해 그래프에서 차단 엣지로 인코딩합니다. 시스템이 경로를 순회하다 OVERRULES 엣지에 부딪히면, 그 경로는 구속력 있는 근거로서 무효화됩니다. 누군가 Roe v. Wade 사건을 생식권과 관련해 묻는다면, 그래프는 즉시 Dobbs v. Jackson 로부터의 OVERRULES 엣지를 드러냅니다. 벡터 검색은 여전히 Roe 를 열정적으로 인용할지도 모릅니다. 그것을 뒷받침하는 방대한 양의 역사적 텍스트가 유사도 점수를 지배하기 때문입니다.

그래프 스키마, 엔티티 해소 파이프라인, 제약 아키텍처에 대한 전체 기술적 설명은 우리의 연구 논문을 참조하십시오.

이것이 로펌에게 실제로 무엇을 의미하는가?

저는 한 경영 파트너와 대화를 나눴는데, 그는 단도직입적으로 말했습니다: "나는 지식 그래프에 관심 없어요. 나는 우리 어소시에이트들이 판사 앞에서 나를 망신시킬지 여부에 관심이 있습니다."

일리 있는 말입니다. 그러니 제가 풀어 설명해 보겠습니다.

그 Mata v. Avianca 사건이 치른 대가는 5,000달러가 아니었습니다. 그것은 공개적인 망신, 의뢰인 통지 의무, 과오 배상 책임 노출, 그리고 이 로펌이 자기 작업을 검증하지 않는다는 사실을 모든 잠재 고객에게 보내는 신호였습니다. 대형 로펌에게 단 한 건의 환각 서면은 존립을 위협하는 평판 사건입니다.

인용 강제(Citation-Enforced) GraphRAG는 조작에 대한 보험 역할을 합니다. 래퍼 방식은 낮은 초기 비용과 무제한의 책임을 제공합니다. 우리의 접근법은 데이터 계층과 제약 아키텍처에 대한 실질적인 투자를 요구하지만, 인용 조작의 위험을 0으로 줄입니다.

덜 명백하지만 효율성에 관한 논점도 있습니다. 지금 당장은, 로펌이 조사에 AI를 사용하면 어소시에이트가 모든 인용을 하나하나 검증해야 합니다. 그 검증 단계는 종종 조사 자체보다 더 오래 걸리며, 이는 본래의 목적을 무색하게 만듭니다. GraphRAG 벤치마크는 다중 홉 추론 과제에서 표준 RAG 대비 30~35% 향상 을 보여줍니다 — 소송에서 실제로 중요한, 점들을 잇는 복잡한 조사 말입니다. 더 중요한 것은, 인용이 유효하다는 것이 구조적으로 보장되기 때문에 인간의 역할이 "사실 확인자"에서 "전략 검토자"로 이동한다는 점입니다. 당신은 사건이 존재하는지 확인하는 데 세 시간을 쓰지 않습니다. 그 시간을 논거가 설득력 있는지에 씁니다.

모든 인용이 구조적으로 검증될 때, 변호사의 일은 AI의 사실을 확인하는 것에서 전략을 고민하는 것으로 이동합니다. 진정한 지렛대는 바로 거기에 있습니다.

그리고 컴플라이언스에 중요한 투명성 측면도 있습니다. 래퍼는 왜 특정 사건을 선택했는지 설명할 수 없습니다. GraphRAG 시스템은 정확한 순회 경로를 보여줄 수 있습니다: "나는 사건 A가 법령 B를 해석하며 법원 C에 의해 확정되었고, 그 법원 C가 당신의 관할권에서 구속력을 갖기 때문에 사건 A를 선택했습니다." 그러한 감사 추적(audit trail)은 단지 있으면 좋은 것이 아니라 — 규제상의 기대치가 되어가고 있습니다.

이것은 다음에 어디로 향하는가?

업계는 챗봇에서 에이전트로 이동하고 있습니다 — 단지 질문에 답하는 것이 아니라 다단계 작업을 계획하고 실행하는 AI 시스템 말입니다. 소 각하 신청서 작성을 요청받은 리걸 에이전트는 적용 기준을 조사하고, 뒷받침하는 판례법을 찾고, 그 사건들이 유효한 법(good law)인지 검증하고, 절차적 요건을 확인하고, 논거를 조립해야 합니다.

벡터 검색 위에서 작동하는 에이전트에게는 지도가 없습니다. 그것은 문서 더미와 그럴듯한 추측을 가지고 있을 뿐입니다. 지식 그래프 위에서 작동하는 에이전트는 순회할 수 있는 명시적인 구조를 가집니다: 법령 → 해석하는 사건 → 절차 규칙 → 관할권별 요건. 그래프가 바로 에이전트의 계획 계층입니다.

이것이 제가 지금의 그래프 인프라 투자가 나중에 복리 수익으로 돌아온다고 믿는 이유입니다. 래퍼는 채팅 로그를 남깁니다. 지식 그래프는 구조화되어 있고, 성장하며, 갈수록 가치가 커지는 법적 근거의 지도를 남깁니다. 사건이 추가될 때마다, 관계가 인코딩될 때마다, 부정적 처리 신호가 수집될 때마다 더 유용해지는 지도 말입니다.

정직한 반론

사람들은 두 가지 측면에서 반박하는데, 저는 두 가지 모두에 직접 답하고자 합니다.

첫째: "이건 그냥 단계만 더 늘린 Westlaw 아닌가요?" 아닙니다. Westlaw는 인간을 위한 검색 엔진입니다. 그것은 변호사가 읽고 해석하는 문서를 반환합니다. 우리가 만드는 것은 AI를 위한 제약 아키텍처입니다 — AI가 무엇을 말할 수 있고 말할 수 없는지를 통제하는 시스템이죠. Westlaw는 변호사가 법을 찾도록 돕습니다. GraphRAG는 AI가 법을 지어내는 것을 막습니다. 둘은 경쟁 관계가 아니라 상호 보완 관계입니다.

둘째: "그냥 모델을 파인튜닝해서 환각을 멈추게 하면 안 되나요?" 우리도 시도해 봤습니다. 작업 초기에, 우리는 검증된 법률 데이터셋으로 파인튜닝하는 실험을 했습니다. 환각 발생률은 줄었습니다. 하지만 없어지지는 않았습니다. 파인튜닝된 모델도 여전히 확률 엔진입니다. 그것은 더 나은 확률 엔진이지만, 법률 인용에서 "더 낫다"는 것은 "덜 자주 틀린다"는 뜻이고, "덜 자주 틀린다"는 것은 어떤 법원도 받아들이지 않을 기준입니다. 조작을 0으로 보장하는 유일한 방법은 조작을 구조적으로 불가능하게 만드는 것이며, 이는 단지 입력 데이터를 개선하는 것이 아니라 출력 공간을 제약하는 것을 의미합니다.

"충분히 좋음"의 종말

제가 계속 되돌아가는 지점은 이것입니다. 법조 전문직은 단순한 전제 위에 세워져 있습니다: 근거를 인용할 때, 그 근거는 실제여야 한다는 것입니다. 아마도 실제인 것이 아니라. 대개 실제인 것이 아니라. 실제여야 합니다.

그 Mata 사건 이후 2년 동안, 법원들은 제재를 강화하고, AI 공개에 관한 상시 명령을 발령하며, "AI가 그랬다"는 것이 변론이 되지 않는다는 점을 분명히 해 왔습니다. 이 전문직은 선을 긋고 있습니다: AI를 사용한다면, 그 출력은 반드시 검증되어야 한다는 것입니다. 그리고 출력을 검증하는 것이 수작업으로 일하는 것보다 더 오래 걸린다면, AI는 도구가 아니라 — 부채입니다.

래퍼 시대는 잘못된 문제를 해결했습니다. 그것은 법률 조사를 더 빠르게 만들었습니다. 그것이 필요로 했던 것은 법률 조사를 신뢰할 수 있게 만드는 것이었습니다. 신뢰 없는 속도는 그저 효율적인 과오(malpractice)일 뿐입니다.

우리가 Veriprajna에서 만드는 것은 우연히 약간의 법을 아는 챗봇이 아닙니다. 그것은 모든 인용이 지식 그래프를 통한 검증된 순회이고, 모든 관계가 명시적이며 감사 가능하고, 생성 모델이 허구로 넘어가는 것이 물리적으로 방지되는 제약된 추론 시스템입니다.

구속력 있는 선례라는 개념을 발명한 이 전문직은 그것을 실제로 존중하는 AI를 누릴 자격이 있습니다.

Related Research

법률 AI 인용 검증 & 거버넌스 | VeriprajnaSolution Page

The $5,000 Hallucination: Citation-Enforced GraphRAG for Legal AI | VeriprajnaInteractive Whitepaper

The $5,000 Hallucination: Why Enterprise Legal AI Needs GraphRAGTechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X