Verificação & Governança de IA Jurídica
O Westlaw Precision alucinou em 33% das consultas complexas em testes revisados por pares. O Lexis+ AI, em 17%. As sanções já ultrapassaram US$ 30.000 por incidente. Quer seu escritório use o Harvey, o Lexis Protege ou modelos de código aberto, nós construímos o pipeline de verificação de citações, a infraestrutura de grafo de conhecimento e os sistemas de governança que tornam o resultado da IA seguro para ser protocolado.
33%
Taxa de alucinação do Westlaw Precision
Stanford/JELS, 2025
US$ 30.000
Sanções do Sixth Circuit, março de 2026
Bloomberg Law
1.222
Casos judiciais documentados de alucinação de IA
Charlotin Database, 2026
A maioria dos escritórios conhece o caso Mata v. Avianca: nomes de processos fabricados, multa de US$ 5.000, um constrangimento capaz de encerrar carreiras. Isso foi em 2023. O problema evoluiu. As sanções se agravaram. E o modo de falha que mais deveria preocupá-lo é justamente aquele que suas ferramentas atuais não conseguem detectar.
A IA inventa um caso que não existe. Varghese v. China Southern Airlines tinha um número de processo convincente, um tribunal plausível e citações internas detalhadas. Era inteiramente fictício. É isso que o Shepard's e o KeyCite detectam: uma citação que não corresponde a nada na base de dados.
Ferramentas desenvolvidas para esse fim reduzem isso substancialmente. O Harvey e o Lexis Protege fundamentam seus resultados em bases de dados reais. Mas "reduzir" não é "eliminar", e o caso de New Orleans de fevereiro de 2026 comprovou isso: o advogado usou tanto o ChatGPT quanto o Westlaw Precision AI, e ainda assim apresentou 11 citações fabricadas ou deturpadas.
A IA cita um caso real para sustentar uma tese que ele não respalda. O número do processo é válido. O caso existe. O KeyCite exibe sinalização verde. Mas a IA citou o voto dissidente como se fosse a decisão majoritária. Ou citou um caso que interpreta uma versão antiga de uma lei que foi alterada há dois anos.
É isso que a taxa de alucinação de 33% do Westlaw no estudo de Stanford de fato capta. Não citações falsas, mas análise equivocada de citações reais. Sua ferramenta de verificação de citações diz que o caso existe. E ele existe. Só não diz o que a IA afirma que ele diz. E um advogado júnior revisando o resultado sob pressão de tempo não vai detectar isso, porque a citação parece correta.
Um advogado de contencioso pede ao Harvey para pesquisar defesas contra uma alegação de quebra de dever fiduciário sob a lei de Delaware. A IA retorna uma análise minuciosa citando Stone v. Ritter (2006) para o padrão de responsabilidade por supervisão dos diretores. A citação é real. O resumo da decisão é preciso para 2006.
O que a IA não percebeu: a decisão de 2019 da Suprema Corte de Delaware em Marchand v. Barnhill expandiu significativamente o Caremark dever de supervisão, e decisões subsequentes do Chancery Court desenvolveram ainda mais o padrão de conformidade regulatória "missão crítica". A IA citou autoridade vinculante que é tecnicamente "lei válida" (não superada), mas cuja aplicação prática foi substancialmente restringida por desenvolvimentos posteriores que uma sinalização de citator não captaria. Stone ainda tem uma sinalização verde no KeyCite. A análise construída sobre ele continua errada para um protocolo de 2026.
Um pipeline de verificação detecta isso checando não apenas o status no citator, mas as referências citantes subsequentes, examinando se casos posteriores distinguiram ou restringiram a decisão, e sinalizando opiniões em que a tese central foi substantivamente modificada, mesmo que o próprio caso permaneça como "lei válida".
Toda plataforma tem pontos fortes. Nenhuma delas resolve o problema completo da verificação. Esta tabela é uma referência que você pode levar à sua próxima reunião do comitê de tecnologia.
| Opção | No Que Se Destaca | Precisão de Citações | Lacunas |
|---|---|---|---|
| Harvey AI | Pesquisa, redação, fluxos de trabalho agênticos. Mais de 25.000 agentes personalizados. Acesso completo ao cofre de dados da LexisNexis. Avaliação de US$ 11 bi, 50% das 100 maiores da AmLaw. | Fundamentado em dados da LexisNexis. Melhor que LLMs genéricos. Sem taxa de alucinação independente publicada. | Sem camada de verificação independente. A verificação do resultado é responsabilidade do usuário. Fluxos de trabalho agênticos produzem resultados complexos de múltiplas etapas que exigem QA sistemático. |
| Westlaw AI / CoCounsel | Capacidade de Deep Research. Revisão de documentos agêntica. Construído sobre o sistema de citator KeyCite. Os fluxos de trabalho do CoCounsel foram lançados no início de 2026. | Taxa de alucinação de 33% no Precision. 17% no Ask Practical Law. (Stanford/JELS 2025) | Os dados de precisão publicados mostram uma taxa de falha significativa em consultas complexas. O KeyCite detecta citações fabricadas, mas não a alucinação contextual. |
| Lexis+ com Protege | Mais de 300 fluxos de trabalho pré-construídos. Quatro agentes especializados. Shepard's Citations (padrão de excelência). Substituiu o Lexis+ AI em fev. de 2026. | Taxa de alucinação de 17%. Recuou da alegação de "100% livre de alucinações". (Stanford/JELS 2025) | A cobertura do Shepard's fica defasada em decisões administrativas de nível estadual. Os fluxos de trabalho agênticos de múltiplas etapas são novos e não comprovados em escala. |
| LLMs de Código Aberto + RAG | Controle total sobre o modelo, os dados e a lógica de verificação. Sem dependência de fornecedor. Permite construir mecanismos de restrição personalizados. | 58-82% de alucinação sem verificação desenvolvida para esse fim. Altamente variável com RAG personalizado. | Exige investimento significativo em engenharia. Sem citator integrado. Desafio de acesso a dados: o Harvard CAP fornece texto bruto, mas não os enriquecimentos editoriais. |
| Big 4 / Grandes SIs | Credibilidade de marca. Escala global. Capacidade de alocar muitas pessoas ao problema. Relacionamentos já existentes com a liderança do escritório. | Implementam plataformas em vez de construir infraestrutura de verificação. Dependem das alegações de precisão do fornecedor. | Eles implantam o Harvey ou o Lexis e dão por encerrado. Os projetos custam de US$ 500 mil a mais de US$ 2 milhões para o que é essencialmente a configuração de uma plataforma. Sem expertise em pipeline de verificação personalizado. A IA jurídica é uma prática pequena dentro de uma firma generalista. |
| Construção Interna | Controle total. Profundamente personalizado para as áreas de atuação e fluxos de trabalho do escritório. | Depende inteiramente da capacidade da equipe e de investimento contínuo. | Exige contratar engenheiros de ML, engenheiros de dados jurídicos e especialistas em PLN. A maioria dos escritórios não consegue recrutar esse talento de forma competitiva. O ônus de manutenção contínua é substancial. |
As taxas de alucinação são do estudo revisado por pares de Stanford HAI/JELS (2025). O Harvey não publicou benchmarks independentes de precisão. As lacunas são estruturais, não juízos de qualidade. Toda opção desta tabela faz algo valioso.
Não substituímos sua plataforma de pesquisa. Construímos as camadas de verificação, governança e infraestrutura que tornam suas ferramentas existentes seguras para a prática de alto risco.
Uma camada automatizada de QA entre o resultado da IA e a revisão humana. Recebe resultados de pesquisa do Harvey, do Lexis, do Westlaw ou de qualquer fonte. Executa verificações de existência das citações nas bases de dados de citator. Sinaliza tratamento negativo. Valida a autoridade vinculante para a jurisdição e o nível de tribunal específicos. Pontua a confiança quanto à precisão contextual analisando as referências citantes subsequentes.
Recorremos à verificação baseada em grafos quando as áreas de atuação têm redes densas de citações (tributário, regulatório, prosseguimento de patentes). Para necessidades de verificação mais leves (revisão de contratos, memorandos de conformidade), construímos pipelines simplificados com verificações baseadas em regras e validação cruzada por LLM.
Grafos de conhecimento específicos por área de atuação construídos sobre o Neo4j. Nós para leis, casos, regulamentos e conceitos jurídicos. Arestas codificando relações de citação, tratamento negativo, hierarquia jurisdicional e validade temporal. Começamos com dados abertos: Harvard Caselaw Access Project (6,7 mi de casos), eCFR, Federal Register e registros judiciais públicos.
O GraphRAG supera o RAG vetorial em 14% na relevância de recuperação para consultas jurídicas. A vantagem é mais nítida no raciocínio de múltiplos saltos: "encontrar o caso mais recente do Second Circuit que aplica o padrão de plausibilidade Twombly" é uma travessia determinística de grafo, não uma busca textual imprecisa. Construímos grafos para áreas de atuação específicas em que a densidade de citações justifica o investimento.
Não um PDF de política que fica parado em uma pasta compartilhada. Um sistema executável que implementa os requisitos da Opinião 512 da ABA: fluxos de trabalho de aprovação de ferramentas por área de atuação, registro de uso que rastreia quais ferramentas de IA foram usadas em quais casos de clientes, acompanhamento de treinamento com verificação de conclusão e trilhas de auditoria que satisfazem as seguradoras de responsabilidade profissional. Quando 68% dos profissionais do direito já usaram ferramentas de IA não aprovadas, você precisa de fiscalização, não de diretrizes.
O sistema inclui conformidade com ordens permanentes: uma base de dados de mais de 300 requisitos de IA específicos por tribunal, sinalização automática quando um protocolo entra em uma jurisdição com regras de divulgação, e texto-modelo de divulgação correspondente aos requisitos específicos de cada ordem. Atualiza-se continuamente à medida que novas ordens são emitidas.
Os mais de 25.000 agentes personalizados do Harvey e a arquitetura de quatro agentes do LexisNexis Protege agora conseguem lidar com fluxos de trabalho de múltiplas etapas de forma autônoma. Um agente de constituição de fundos produz uma análise de 40 páginas. Um agente de contencioso redige pedidos de produção de provas em múltiplas demandas. Esses fluxos de trabalho precisam de verificação sistemática, não de conferências pontuais ad hoc.
Construímos camadas de monitoramento e validação para IA jurídica agêntica: pontos de verificação de resultados em cada etapa do fluxo de trabalho, rastreamento de proveniência que registra quais fontes o agente consultou, pontuação de confiança em cada afirmação e citação, e portões com humano no circuito nos pontos de decisão definidos pelo escritório. A verificação escala com a complexidade do fluxo de trabalho agêntico.
Este é o processo passo a passo que construímos para os escritórios. Ele fica entre o resultado gerado pela IA e a revisão do advogado, detectando erros antes que cheguem a um protocolo.
O pipeline recebe o texto gerado pela IA (do Harvey, do Lexis, do Westlaw ou de qualquer fonte) e extrai cada citação jurídica usando correspondência de padrões e PLN. Isso inclui citações padrão de repertório (678 F. Supp. 3d 443), referências em forma abreviada ("Id. at 445") e citações legais (28 U.S.C. § 1332). Cada citação é canonizada em um identificador único, resolvendo "o caso Mata", "Mata v. Avianca" e "678 F. Supp. 3d 443" para a mesma entidade.
Cada citação extraída é verificada nas bases de dados autorizadas. Para jurisprudência: este caso existe no volume do repertório citado? Para leis: este número de seção é válido e vigente no código citado? Para regulamentos: esta seção do CFR existe na edição atual? Citações que falham nas verificações de existência são sinalizadas como fabricadas. Esta é a verificação que teria detectado o caso Mata v. Avianca.
As citações válidas são checadas quanto a tratamento negativo. O caso foi superado, revertido, anulado ou distinguido? A lei ainda está em vigor, ou foi alterada ou revogada? O pipeline vai além das sinalizações do citator: ele analisa as referências citantes subsequentes para detectar casos em que a tese central foi restringida ainda que o caso mantenha um status positivo no citator. Esta é a verificação que detecta o Stone v. Ritter problema descrito acima.
A verificação mais difícil. O pipeline compara a tese que a IA atribui ao caso citado com a decisão de fato proferida. Se a IA escreve "o tribunal decidiu que os diretores não têm dever de supervisão na ausência de sinais de alerta", e o caso citado de fato decidiu o oposto, isso é sinalizado como uma alucinação contextual. Isso usa uma segunda chamada de LLM, independente, com o texto real do caso e a caracterização feita pela IA, validada de forma cruzada contra as decisões codificadas no grafo de conhecimento.
O caso citado é vinculante ou persuasivo na jurisdição em que o protocolo está sendo feito? Uma decisão do Ninth Circuit citada em uma petição do Second Circuit é apenas persuasiva. A decisão de um tribunal estadual de primeira instância não tem valor de precedente. O pipeline valida que as autoridades vinculantes estão corretamente identificadas e sinaliza citações apenas persuasivas que são apresentadas como lei vigente vinculante.
O resultado é um relatório estruturado ao lado do produto de trabalho gerado pela IA. Cada citação recebe um status: verificada, atenção (válida, mas restringida/distinguida), ou reprovada (fabricada, superada ou contextualmente imprecisa). O advogado revisor vê exatamente quais citações precisam de atenção manual, reduzindo o ônus da revisão de "checar tudo" para "checar os itens sinalizados". O relatório passa a integrar o arquivo do caso para fins de trilha de auditoria.
Todo projeto começa com a compreensão do perfil de risco específico do seu escritório, das áreas de atuação e da pilha tecnológica existente. Construímos para o seu fluxo de trabalho, não para um genérico.
Fase 1
Semanas 1-3
Fase 2
Semanas 4-10
Fase 3
Semanas 11-16
Responda a estas perguntas para entender a exposição ao risco atual do seu escritório e sua maturidade em verificação. Os resultados oferecem um arcabouço para priorizar os investimentos em governança de IA, trabalhe você conosco ou não.
Um estudo de Stanford revisado por pares, publicado no Journal of Empirical Legal Studies em 2025, testou ambas as plataformas de forma sistemática. O Westlaw Precision alucinou 33% das vezes, com apenas 42% das respostas totalmente precisas. O Lexis+ AI (agora Lexis+ com Protege) alucinou 17% das vezes, com apenas 20% das respostas totalmente precisas. Esses números se aplicam a consultas complexas de múltiplos saltos, do tipo que os associados lidam diariamente em contencioso e trabalho regulatório. Consultas mais simples têm desempenho melhor.
A nuance crítica: a LexisNexis recuou discretamente de sua linguagem de marketing "100% livre de alucinações" após o estudo, esclarecendo que a promessa se aplicava apenas a citações jurídicas vinculadas, não ao raciocínio em torno delas. A alucinação contextual, citar um caso real para sustentar uma tese que ele não respalda, não é captada pelas métricas de precisão de vínculo de citação. Um pipeline de verificação precisa checar ambos: o caso existe e ele diz o que a IA afirma que ele diz?
Mais de 300 juízes federais e estaduais adotaram ordens permanentes ou regras locais que regem o uso de IA em protocolos, e elas variam significativamente. Algumas exigem apenas a divulgação de que a IA foi usada e quais ferramentas. Outras exigem a certificação de que cada citação foi verificada de forma independente. O Western District of North Carolina veda na prática totalmente a IA generativa para redação, permitindo apenas plataformas de pesquisa padrão. A Flórida promulgou uma nova exigência de divulgação de IA em fevereiro de 2026. Um tribunal federal decidiu que documentos gerados por IA não estão protegidos pelo sigilo entre advogado e cliente.
O desafio da conformidade não é ler uma ordem. É rastrear mais de 300 ordens em todas as jurisdições onde seu escritório protocola, mantê-las atualizadas conforme os juízes revisam os requisitos, e gerar o texto de divulgação correto para cada protocolo. Construímos sistemas automatizados de conformidade com ordens permanentes: uma base de dados de requisitos vigentes mapeados por tribunal, sinalização automática quando um novo protocolo entra em uma jurisdição com regras de IA, e texto-modelo de divulgação que corresponde aos requisitos específicos de cada ordem. O sistema se atualiza à medida que novas ordens são emitidas.
O Harvey é excelente no que faz. Com uma avaliação de US$ 11 bi e 50% de adoção entre as 100 maiores da AmLaw, é a principal plataforma de IA jurídica para pesquisa, redação e automação de fluxos de trabalho. Com mais de 25.000 agentes personalizados operando na plataforma, ela está se tornando infraestrutura. Mas o Harvey é uma plataforma generativa, não um sistema de verificação. Ele produz análise jurídica. Ele não verifica de forma independente essa análise contra uma segunda fonte.
Um pipeline de verificação de citações é uma preocupação à parte. Pense nele como garantia de qualidade para o resultado da IA, do mesmo modo que um escritório tem processos de revisão de documentos que existem de forma independente das ferramentas de redação. Construímos camadas de verificação que recebem o resultado do Harvey (ou do Lexis Protege, ou do Westlaw, ou de qualquer fonte) e executam verificações automatizadas: existência da citação contra o KeyCite/Shepard's, sinalização de tratamento negativo, validação de autoridade vinculante para a jurisdição específica e pontuação de confiança.
Isso importa particularmente com os fluxos de trabalho agênticos do Harvey, em que agentes de horizonte longo lidam com processos de múltiplas etapas, como a constituição de fundos. Um agente autônomo que produz uma análise de 40 páginas precisa de verificação sistemática, não de conferências pontuais ad hoc.
A Opinião Formal 512 da ABA, emitida em julho de 2024, é a primeira orientação ética abrangente sobre IA generativa na prática jurídica. Ela trata de seis obrigações: competência, confidencialidade, comunicação, lealdade para com o tribunal, responsabilidades de supervisão e honorários.
Os requisitos práticos são específicos. Competência significa que os advogados precisam entender a capacidade e as limitações da IA, e atualizar esse entendimento periodicamente, não apenas assistir a uma única atualização profissional. Confidencialidade significa avaliar a exposição de dados antes de inserir informações de clientes em qualquer ferramenta de IA, o que a maioria dos escritórios não fez de forma sistemática para o Harvey, o Lexis ou ferramentas internas. Supervisão significa que os advogados em cargos de gestão precisam estabelecer políticas de IA para todo o escritório e garantir o treinamento, não apenas dos advogados, mas de todo o pessoal que toca em ferramentas de IA. Quanto aos honorários, os advogados não podem cobrar dos clientes pelo tempo gasto aprendendo ferramentas que usarão regularmente.
Conformidade não é um documento de política. Ela exige um sistema executável: fluxos de trabalho de aprovação de ferramentas que registram quais ferramentas estão autorizadas para quais áreas de atuação, monitoramento de uso que sinaliza quando ferramentas não aprovadas são usadas em casos de clientes (68% dos profissionais do direito já usaram ferramentas de IA não aprovadas ao menos uma vez), acompanhamento de treinamento com verificação de conclusão, e documentação que sobreviva a uma investigação de responsabilidade profissional.
O RAG vetorial padrão funciona por similaridade semântica. Ele encontra texto que se parece com a sua consulta. Um grafo de conhecimento jurídico funciona por relações estruturais. Ele sabe que o Caso A interpreta a Lei B, que o Caso C superou o Caso A, e que o Caso D do Second Circuit é vinculante enquanto o Caso E do Ninth Circuit é apenas persuasivo no Second Circuit.
A diferença importa para três modos de falha específicos. Primeiro, tratamento negativo: o RAG vetorial não consegue distinguir entre citar um caso e superá-lo. Um caso superado, mas amplamente discutido, pontua alto em similaridade semântica. Um grafo de conhecimento tem uma aresta explícita SUPERA (OVERRULES) que bloqueia a recuperação desse caso como autoridade vinculante. Segundo, raciocínio de múltiplos saltos: uma pergunta como "encontrar o caso mais recente do Second Circuit que aplica o padrão de plausibilidade Twombly" exige atravessar da lei à interpretação, ao circuito, à data. O RAG vetorial recupera fragmentos e torce para que o LLM os conecte. Um grafo atravessa o caminho de forma determinística. Terceiro, hierarquia jurisdicional: a busca vetorial trata a decisão de um tribunal estadual de primeira instância da mesma forma que uma decisão da Suprema Corte se o texto for similar. Um grafo de conhecimento codifica a hierarquia dos tribunais e retorna a autoridade vinculante primeiro.
Os benchmarks mostram que o GraphRAG supera o RAG vetorial em 14% na relevância de recuperação para consultas jurídicas. Construímos grafos de conhecimento específicos por área de atuação sobre o Neo4j, começando pela conformidade regulatória e pelo tributário, onde as redes de citações são mais densas.
As seguradoras de responsabilidade profissional estão incorporando ativamente o uso de IA nas decisões de subscrição em 2026. A exposição ao risco é específica e documentada. Se os advogados do escritório permitem que a IA tome julgamentos jurídicos críticos sem a supervisão de um advogado, as seguradoras podem classificar isso como exercício não autorizado da advocacia, o que normalmente é excluído da cobertura. A lógica: sem a supervisão de um advogado, nenhum serviço profissional foi prestado por um advogado, o que significa que a apólice de responsabilidade profissional não se aplica.
Isso cria uma lacuna de cobertura justamente onde o escritório está mais exposto. A IA paralela agrava o problema. Quando 68% dos profissionais do direito já usaram ferramentas não aprovadas, o escritório tem uso de IA não documentado em casos de clientes, sem trilha de auditoria. Se uma citação alucinada levar a sanções ou resultados adversos, a seguradora pergunta: qual era sua política de governança de IA, e você consegue provar que ela foi seguida?
Um sistema de governança de IA fornece a trilha de documentação: quais ferramentas foram aprovadas, quem foi treinado, quais etapas de verificação foram realizadas em cada caso. Não se trata de evitar a IA. Trata-se de criar o registro probatório que mantém sua cobertura intacta quando algo dá errado.
Nossa análise detalhada de arquiteturas com citações fiscalizadas para IA jurídica, incluindo o design técnico do GraphRAG, esquemas de grafo de conhecimento e plantas de implementação.
A Alucinação de US$ 5.000 e o Fim da Era dos Wrappers: GraphRAG com Citações Fiscalizadas para IA Jurídica EmpresarialAprofundamento técnico sobre decodificação restrita por grafo, design de esquema de grafo de conhecimento jurídico e a arquitetura de sistemas de verificação de citações.
O Sixth Circuit aplicou US$ 30.000 em sanções em março de 2026. Alguns casos já ultrapassaram US$ 100.000 em sanções e honorários advocatícios combinados.
Um pipeline de verificação de citações para sua área de atuação de maior risco leva semanas para ser construído e custa uma fração de um único evento de sanções. O sistema de governança que protege sua cobertura de responsabilidade profissional leva ainda menos. A pergunta não é se você pode arcar com a construção disso. É se você pode arcar em não fazê-lo.