Um protocolo de estudo clínico sendo traduzido de texto médico desorganizado para um grafo de conhecimento estruturado, representando o tema central do artigo de passar da sintaxe para a lógica na vinculação de pacientes.

Artificial IntelligenceHealthcareClinical Trials

O Erro de US$ 800 Mil por Dia: Como uma IA Que Confunde Cateteres Está Matando a Descoberta de Medicamentos

Ashutosh Singhal 4 de fevereiro de 202613 min

Era uma noite de terça-feira, e eu encarava uma planilha que não fazia sentido algum.

Estávamos conduzindo um piloto — testando o quão bem um grande modelo de linguagem conseguia triar prontuários de pacientes com base nos critérios de elegibilidade de um estudo de oncologia. O protocolo era direto, dentro do que se espera de protocolos de oncologia: um novo anticoagulante com uma lista de critérios de exclusão, um dos quais era "cateterismo cardíaco prévio." Cateterismo do coração. Um cateter conduzido até as câmaras do coração para avaliar a função coronariana. Um procedimento cardíaco sério e invasivo.

A IA havia sinalizado um paciente como inelegível. Motivo: cateterismo cardíaco. Puxei o prontuário do paciente. O procedimento documentado era uma punção venosa central — um acesso venoso central colocado na veia jugular para administração de medicação. É um procedimento de acesso vascular à beira do leito. Enfermeiros o fazem na UTI. Não é um procedimento cardíaco. Não chega nem perto disso.

Mas o modelo viu "cateter," viu "venoso," viu que a nota fora escrita numa unidade de cuidados cardíacos, e concluiu: é a mesma coisa. O paciente sumiu. Excluído. Nunca chegou ao coordenador do centro. E aqui está o que me assombrou — ninguém teria percebido. O sistema teria descartado silenciosamente um paciente elegível, o estudo teria ficado com uma pessoa a menos, e ninguém saberia por que o recrutamento estava atrasado.

Aquele foi o momento em que deixei de acreditar que prompts melhores resolveriam o recrutamento de estudos clínicos. O problema não é o vocabulário do modelo. O problema é que estamos usando uma máquina de probabilidade para fazer o trabalho da lógica.

Por Que 80% do Pipeline da Indústria Farmacêutica Fica Preso no Recrutamento?

A indústria farmacêutica tem um segredo sujo sobre o qual nenhuma teleconferência de resultados gosta de se deter: aproximadamente 80% dos estudos clínicos não cumprem seus prazos de recrutamento. Não porque a ciência esteja errada. Não porque os pacientes não existam. Mas porque o processo de encontrar pacientes elegíveis e vinculá-los aos estudos está quebrado em um nível fundamental.

Deixe-me colocar um valor em dólares nesse fracasso. Segundo o Tufts Center for the Study of Drug Development, um único dia de atraso no desenvolvimento de um medicamento custa hoje cerca de US$ 800.000 em vendas de prescrição perdidas para um ativo de alto desempenho. Em cardiologia e hematologia, esse número ultrapassa US$ 1,3 milhão por dia. Para um atraso de seis meses no recrutamento de um medicamento oncológico competitivo — o tipo de atraso que acontece rotineiramente — você está diante de um valor capaz de tornar uma terapia cientificamente superior comercialmente morta ao nascer.

O gargalo na descoberta de medicamentos não é mais a ciência. É a sintaxe.

E a realidade operacional é ainda mais sombria do que a financeira. 37% dos centros de pesquisa recrutam abaixo da meta, e 11% não conseguem recrutar um único paciente. Cada falha de triagem — um paciente que parece elegível no papel, mas não é — custa cerca de US$ 1.200. Quando sua ferramenta de IA gera 100 "correspondências" e apenas 5 são reais, você não automatizou o recrutamento. Você lançou um ataque de negação de serviço contra seus próprios centros clínicos.

Eu vi isso acontecer. Coordenadores de centro que haviam se empolgado com nossos primeiros protótipos começaram a ignorar completamente as listas de correspondências. "Sua ferramenta me dá lixo," me disse um deles numa ligação. Ela não estava errada. Ela voltou a escanear PDFs manualmente. Ctrl+F. O verdadeiro estado da arte da indústria.

O Cateter Que Quebrou Minha Fé nos LLMs

Deixe-me aprofundar aquele erro da noite de terça-feira, porque ele ilustra algo que a maioria dos discursos de venda de IA na saúde deixa passar.

Quando um grande modelo de linguagem processa texto, ele converte palavras em vetores — pontos em um espaço matemático de alta dimensão. Palavras que aparecem em contextos semelhantes acabam próximas umas das outras. "Cateterismo cardíaco" e "cateterismo venoso central" são, no espaço vetorial, praticamente vizinhos. Ambos envolvem cateteres. Ambos envolvem o sistema vascular. Ambos aparecem em notas clínicas cercados por jargão médico semelhante.

Mas são procedimentos completamente diferentes voltados para estruturas anatômicas diferentes, com perfis de risco diferentes e implicações clínicas diferentes. Um entra no coração. O outro entra em uma veia. O protocolo excluía o primeiro. O paciente tinha o segundo. E a IA não conseguiu distinguir a diferença porque não entende anatomia — ela entende proximidade de palavras.

Isso não é um caso isolado. Estudos que avaliam modelos de IA para vinculação de pacientes a estudos identificaram exatamente esse modo de falha: modelos concluindo incorretamente que o cateterismo cardíaco é o mesmo que uma punção venosa central, levando à exclusão indevida. É uma classe de erro, não um bug pontual.

Levei isso à minha equipe na manhã seguinte. Um dos nossos engenheiros — um cara brilhante, com formação em aprendizado profundo — sugeriu que poderíamos corrigir com um ajuste fino melhor. Mais dados de treinamento médico. Janelas de contexto maiores. Lembro-me da discussão que se seguiu, porque foi a discussão que moldou toda a nossa direção técnica. Minha posição era simples, e a expressei provavelmente de forma bruta demais: você não consegue resolver com ajuste fino a ausência de uma ontologia.

Um LLM não sabe que "cateterismo cardíaco" vive em um ramo diferente da árvore de procedimentos médicos em relação a "cateterismo venoso central." Ele não tem uma árvore. Ele tem uma névoa de associações estatísticas. E nenhuma quantidade de dados de treinamento lhe dará a compreensão rígida e hierárquica que uma ontologia médica proporciona — o conhecimento de que o Procedimento A é um subtipo de "Procedimento no coração," enquanto o Procedimento B é um subtipo de "Cateterismo de veia," e que estes são categoricamente distintos.

Aquela discussão terminou conosco reconstruindo nossa arquitetura do zero.

O Que É Fenotipagem Baseada em Ontologia, e Por Que Você Deveria Se Importar?

Um diagrama de árvore ramificada mostrando como a hierarquia Is-A do SNOMED CT separa "cateterismo cardíaco" e "cateterismo venoso central" em ramos completamente diferentes, tornando o erro central do artigo imediatamente óbvio visualmente.

Aqui está a ideia em linguagem simples: em vez de pedir a uma IA que leia prontuários médicos e adivinhe o que significam, forçamos a IA a traduzir cada conceito médico que encontra em um código padronizado do SNOMED CT — o sistema de terminologia clínica mais abrangente do mundo — antes de tomar qualquer decisão.

O SNOMED CT não é um dicionário. É um enorme grafo direcionado no qual conceitos médicos são conectados por relações lógicas. A mais importante é a relação Is-A. "Angiografia coronária" is-a "cateterismo cardíaco" is-a "procedimento no coração." "Cateterismo venoso central" is-a "cateterismo de veia" is-a "inserção de cateter vascular." Ramos diferentes. Pais diferentes. Significado diferente.

Então, quando nosso sistema encontra um protocolo que exclui "cateterismo cardíaco" e um prontuário de paciente que menciona a colocação de um acesso central, ele não compara strings ou vetores. Ele pergunta à ontologia: O procedimento deste paciente é um subtipo do procedimento excluído? O grafo responde não. O paciente permanece elegível. De forma determinística. Todas as vezes.

Deixamos de perguntar "essas palavras parecem semelhantes?" e começamos a perguntar "esses conceitos estão logicamente relacionados?" Essa única mudança mudou tudo.

Isso funciona mesmo quando os médicos escrevem em abreviações. "Cateterismo cardíaco," "angio," "CCE," "acesso central," "inserção de CVC" — o SNOMED CT mapeia todas essas variantes para IDs de conceito específicos. Uma vez que você opera com IDs de conceito em vez de strings, a ambiguidade desaparece. Você está vinculando significado a significado, não palavra a palavra.

Escrevi sobre a arquitetura técnica por trás disso — as hierarquias do SNOMED CT, a pós-coordenação para lateralidade e gravidade, a construção de fenótipos computacionais — na versão interativa da nossa pesquisa. Mas a percepção central é simples: a IA médica precisa de um mapa da medicina, não apenas de um modelo estatístico da linguagem médica.

Como Você Interpreta "A Menos Que"?

Uma comparação lado a lado mostrando como um comparador de palavras-chave exclui incorretamente um paciente com hipertensão controlada versus como um solucionador de lógica deôntica avalia corretamente a permissão condicional e determina a elegibilidade.

A ontologia lida com o quê — de quais conceitos médicos estamos falando? Mas os protocolos de estudos clínicos têm outra camada de complexidade que a IA genérica lida de forma terrível: a lógica da elegibilidade.

Aqui está um critério de exclusão real de um estudo de oncologia:

"Excluir pacientes com hipertensão, a menos que esteja bem controlada com medicação estável por pelo menos 3 meses."

Um comparador de palavras-chave vê "hipertensão" e exclui o paciente. Um filtro booleano vê hipertensão = VERDADEIRO e exclui. Ambas as abordagens descartam um paciente que tem hipertensão, mas é perfeitamente elegível porque sua pressão arterial está controlada e estável há meses.

Isso me deixou um pouco maluco quando o encontrei pela primeira vez em escala. Extraímos os critérios de elegibilidade de um lote de protocolos de oncologia de Fase II e III e descobrimos que a maioria continha exclusões condicionais — cláusulas de "a menos que," cláusulas de "exceto quando," dependências temporais como "dentro de 6 meses" ou "concluído há mais de 90 dias." Estes não são casos extremos. São a norma. E cada um deles é uma armadilha para sistemas que não conseguem raciocinar sobre condições, permissões e tempo.

Recorremos à lógica deôntica — um ramo da lógica formal que trata de obrigações, permissões e proibições. É a lógica das normas e regras, originalmente desenvolvida por filósofos, e ela se encaixa perfeitamente nos critérios de estudos clínicos. Ter hipertensão é proibido — a menos que você também satisfaça as condições de permissão de pressão arterial controlada e medicação estável pela duração exigida. O sistema modela isso como uma expressão lógica formal, verifica a linha do tempo do paciente e calcula a elegibilidade com precisão matemática.

Outro padrão que vemos constantemente:

"Os pacientes não devem ter recebido quimioterapia prévia, a menos que tenha sido terapia neoadjuvante concluída há mais de 6 meses."

A IA precisa verificar simultaneamente três coisas: O paciente recebeu quimioterapia? Sua intenção era neoadjuvante? E ela terminou há mais de seis meses antes da data de referência? Lidamos com isso usando o que a literatura chama de Lógica de Conjunto Temporal (Temporal Ensemble Logic) — o sistema constrói uma linha do tempo do histórico clínico do paciente e posiciona os eventos dentro de janelas de observação válidas.

Uma busca por palavras-chave vê "quimioterapia" no prontuário e entra em pânico. Nosso sistema vê a quimioterapia, verifica o atributo de intenção, mede o intervalo de tempo e determina corretamente a elegibilidade.

A Arquitetura Que Ninguém Pediu (Mas de Que Todos Precisam)

Um diagrama de arquitetura de três camadas mostrando os papéis distintos do LLM (percepção/extração), do grafo de conhecimento SNOMED CT (mapeamento/desambiguação) e do solucionador de lógica simbólica (raciocínio determinístico), com fluxo de dados claro entre eles.

Quando descrevo nossa abordagem a investidores e executivos da indústria farmacêutica, às vezes recebo um certo olhar — o olhar que diz "por que você está tornando isso tão complicado? É só usar o GPT."

Recebi esse olhar de um parceiro em potencial cerca de um ano após o início do nosso desenvolvimento. Ele era um cara inteligente, dirigia a equipe de inovação digital de uma CRO, e acreditava genuinamente que um wrapper bem-elaborado sobre o GPT-4 com um pouco de geração aumentada por recuperação acoplado resolveria o problema. "Os modelos estão ficando melhores a cada trimestre," ele me disse. "Você está superdimensionando isso."

Puxei os resultados dos nossos testes. Mesmo conjunto de dados, mesmos critérios de elegibilidade. O wrapper de GPT da equipe dele: precisão variável entre execuções — literalmente respostas diferentes para o mesmo paciente dependendo de quando você o executava. Sem trilha de auditoria. Sem forma de explicar por que um paciente foi incluído ou excluído. E uma precisão que atingia no máximo cerca de 63-87%, dependendo da complexidade dos critérios.

Nosso sistema neuro-simbólico: determinístico, reproduzível, com precisão >95%, e um rastro de raciocínio completo para cada decisão.

A FDA não aceita "a IA achou que sim" como justificativa. Ela precisa de uma prova lógica. Isso não é um bônus opcional — é a diferença entre uma ferramenta que amplia a pesquisa clínica e um brinquedo que impressiona plateias de demonstração.

Veja como a arquitetura realmente funciona, sem afogar você em detalhes de implementação:

O LLM lê. Ele ingere a realidade bagunçada e não estruturada dos prontuários médicos — PDFs escaneados, notas manuscritas, narrativas de médicos — e seu único trabalho é extrair entidades médicas e normalizá-las. Ele lê "pct queixa-se de dor no peito" e produz o conceito SNOMED para dor torácica. É isso. O LLM é a camada de percepção. Ele nunca toma uma decisão de elegibilidade.

O grafo de conhecimento mapeia. As entidades extraídas são mapeadas para IDs de conceito do SNOMED CT, desambiguadas pelo contexto. "Frio" o vírus versus "frio" a temperatura. A estrutura do grafo resolve a ambiguidade.

O solucionador de lógica raciocina. É aqui que a determinação real de elegibilidade acontece — um raciocinador simbólico determinístico que aplica regras de lógica deôntica sobre o fenótipo estruturado do paciente. Ele verifica relações Is-A, calcula durações temporais, avalia permissões condicionais. Dados os mesmos insumos, ele sempre produz o mesmo resultado.

Também usamos GraphRAG em vez da recuperação padrão baseada em vetores. O RAG padrão recupera trechos de documentos com base na similaridade de palavras. O GraphRAG percorre relações. Se um estudo exclui "qualquer medicamento que interaja com enzimas CYP3A4" e um paciente está tomando o Medicamento B, o RAG padrão pode perder a conexão se o prontuário do paciente nunca disser explicitamente "o Medicamento B é um inibidor de CYP3A4." O GraphRAG sabe, porque o grafo de conhecimento contém a relação: o Medicamento B inibe a CYP3A4. Raciocínio de múltiplos saltos. O tipo de conexão que um farmacêutico faz intuitivamente, mas que um sistema de correspondência de texto nunca faria.

Para o detalhamento técnico completo da arquitetura — a integração neuro-simbólica do Tipo 4, a decodificação ciente de conceitos, a camada de interoperabilidade FHIR/CDISC — veja nosso artigo de pesquisa detalhado.

"Mas os Modelos Não Vão Simplesmente Melhorar?"

As pessoas sempre contestam esse ponto, e eu entendo o porquê. A trajetória dos LLMs é genuinamente impressionante. A cada poucos meses, um novo modelo pontua mais alto em benchmarks médicos. Então por que não esperar?

Porque o problema não é a capacidade — é a arquitetura. Um LLM é um preditor probabilístico de tokens. Torná-lo maior e treiná-lo com mais texto médico o torna um melhor preditor probabilístico de tokens. Isso não o torna um motor de lógica. Não lhe dá determinismo. Não lhe dá uma trilha de auditoria. E em uma indústria regulada onde a FDA e a EMA precisam saber exatamente por que o Paciente nº 4.271 foi excluído do Estudo XYZ-003, "o modelo previu que essa era a resposta mais provável" não é aceitável.

Há também o problema de privacidade que não desaparece com a escala. Enviar prontuários de pacientes não estruturados para APIs de modelos baseados na nuvem — mesmo as corporativas — cria uma exposição à HIPAA e ao GDPR que nenhuma quantidade de acordos de BAA mitiga totalmente. Nossa arquitetura mantém os dados dos pacientes dentro de enclaves seguros. A camada de raciocínio simbólico e o grafo de conhecimento rodam localmente. A camada neural pode ser um modelo de código aberto local. As informações de saúde protegidas nunca deixam o firewall.

E há ainda a questão da reprodutibilidade, que considero a mais condenatória. Passe o mesmo prontuário de paciente por um LLM duas vezes com o mesmo prompt, e você pode obter respostas diferentes. Mude a configuração de temperatura, ajuste a janela de contexto, reformule ligeiramente a pergunta — resultado diferente. Estudos clínicos exigem decisões 100% reproduzíveis. O arcabouço regulatório exige isso. A ética exige isso.

Os Pacientes Que Estamos Perdendo

Passei a maior parte deste ensaio falando sobre arquitetura e economia, mas quero terminar em um lugar mais honesto.

Para pacientes com câncer metastático, ou LMA, ou um distúrbio genético raro, um atraso de seis meses no recrutamento não é uma linha em um modelo financeiro. É a diferença entre acessar uma terapia potencialmente curativa e não acessar. Quando nosso sistema exclui erroneamente um paciente elegível — porque confundiu dois procedimentos de cateter, ou porque não conseguiu interpretar uma cláusula de "a menos que" — esse paciente não recebe uma notificação dizendo "desculpe, a IA cometeu um erro." Ele simplesmente nunca fica sabendo do estudo. Seu oncologista nunca recebe o alerta. A vaga fica sem preenchimento, ou vai para outra pessoa, e o paciente continua no tratamento padrão, sem nunca saber que uma opção existia.

É nisso que penso quando alguém me diz para simplesmente usar uma API de wrapper.

Construímos a Veriprajna porque a lacuna entre o que a IA promete na saúde e o que ela realmente entrega não é um problema de marketing — é um problema de engenharia. A indústria escolheu a arquitetura fácil (jogar um LLM no problema) em vez da arquitetura certa (dar ao LLM uma ontologia e um solucionador de lógica e restringi-lo a fazer apenas aquilo em que é bom).

Não vamos chegar à medicina de precisão por meio de engenharia de prompts. Precisamos de sistemas que raciocinam, não de sistemas que adivinham com confiança.

A cura para a crise de recrutamento não são modelos de linguagem melhores. É o reconhecimento de que a elegibilidade é um problema de lógica vestido com uma fantasia de linguagem. Remova o texto não estruturado, mapeie-o para uma ontologia médica, aplique raciocínio formal, e de repente os 80% dos estudos que não cumprem os prazos de recrutamento começam a parecer um problema solucionável, e não uma inevitabilidade da indústria.

Pare de vincular palavras. Comece a vincular pacientes. A diferença é um grafo de conhecimento, um solucionador de lógica e a disposição de construir algo mais difícil do que um wrapper.

Related Research

IA para Recrutamento de Ensaios Clínicos | VeriprajnaSolution Page

Beyond Syntax: Neuro-Symbolic AI for Clinical Trial Recruitment | VeriprajnaInteractive Whitepaper

Neuro-Symbolic AI for Clinical Trial RecruitmentTechnical Deep-Dive

Also Published On

LinkedIn · Company LinkedIn · Founder YouTube Medium Instagram Facebook X