
O Erro de US$ 800 Mil por Dia: Como uma IA Que Confunde Cateteres Está Matando a Descoberta de Medicamentos
Era uma noite de terça-feira, e eu encarava uma planilha que não fazia sentido algum.
Estávamos conduzindo um piloto — testando o quão bem um grande modelo de linguagem conseguia triar prontuários de pacientes com base nos critérios de elegibilidade de um estudo de oncologia. O protocolo era direto, dentro do que se espera de protocolos de oncologia: um novo anticoagulante com uma lista de critérios de exclusão, um dos quais era "cateterismo cardíaco prévio." Cateterismo do coração. Um cateter conduzido até as câmaras do coração para avaliar a função coronariana. Um procedimento cardíaco sério e invasivo.
A IA havia sinalizado um paciente como inelegível. Motivo: cateterismo cardíaco. Puxei o prontuário do paciente. O procedimento documentado era uma punção venosa central — um acesso venoso central colocado na veia jugular para administração de medicação. É um procedimento de acesso vascular à beira do leito. Enfermeiros o fazem na UTI. Não é um procedimento cardíaco. Não chega nem perto disso.
Mas o modelo viu "cateter," viu "venoso," viu que a nota fora escrita numa unidade de cuidados cardíacos, e concluiu: é a mesma coisa. O paciente sumiu. Excluído. Nunca chegou ao coordenador do centro. E aqui está o que me assombrou — ninguém teria percebido. O sistema teria descartado silenciosamente um paciente elegível, o estudo teria ficado com uma pessoa a menos, e ninguém saberia por que o recrutamento estava atrasado.
Aquele foi o momento em que deixei de acreditar que prompts melhores resolveriam o recrutamento de estudos clínicos. O problema não é o vocabulário do modelo. O problema é que estamos usando uma máquina de probabilidade para fazer o trabalho da lógica.
Por Que 80% do Pipeline da Indústria Farmacêutica Fica Preso no Recrutamento?
A indústria farmacêutica tem um segredo sujo sobre o qual nenhuma teleconferência de resultados gosta de se deter: aproximadamente 80% dos estudos clínicos não cumprem seus prazos de recrutamento. Não porque a ciência esteja errada. Não porque os pacientes não existam. Mas porque o processo de encontrar pacientes elegíveis e vinculá-los aos estudos está quebrado em um nível fundamental.
Deixe-me colocar um valor em dólares nesse fracasso. Segundo o Tufts Center for the Study of Drug Development, um único dia de atraso no desenvolvimento de um medicamento custa hoje cerca de US$ 800.000 em vendas de prescrição perdidas para um ativo de alto desempenho. Em cardiologia e hematologia, esse número ultrapassa US$ 1,3 milhão por dia. Para um atraso de seis meses no recrutamento de um medicamento oncológico competitivo — o tipo de atraso que acontece rotineiramente — você está diante de um valor capaz de tornar uma terapia cientificamente superior comercialmente morta ao nascer.
O gargalo na descoberta de medicamentos não é mais a ciência. É a sintaxe.
E a realidade operacional é ainda mais sombria do que a financeira. 37% dos centros de pesquisa recrutam abaixo da meta, e 11% não conseguem recrutar um único paciente. Cada falha de triagem — um paciente que parece elegível no papel, mas não é — custa cerca de US$ 1.200. Quando sua ferramenta de IA gera 100 "correspondências" e apenas 5 são reais, você não automatizou o recrutamento. Você lançou um ataque de negação de serviço contra seus próprios centros clínicos.
Eu vi isso acontecer. Coordenadores de centro que haviam se empolgado com nossos primeiros protótipos começaram a ignorar completamente as listas de correspondências. "Sua ferramenta me dá lixo," me disse um deles numa ligação. Ela não estava errada. Ela voltou a escanear PDFs manualmente. Ctrl+F. O verdadeiro estado da arte da indústria.
O Cateter Que Quebrou Minha Fé nos LLMs
Deixe-me aprofundar aquele erro da noite de terça-feira, porque ele ilustra algo que a maioria dos discursos de venda de IA na saúde deixa passar.
Quando um grande modelo de linguagem processa texto, ele converte palavras em vetores — pontos em um espaço matemático de alta dimensão. Palavras que aparecem em contextos semelhantes acabam próximas umas das outras. "Cateterismo cardíaco" e "cateterismo venoso central" são, no espaço vetorial, praticamente vizinhos. Ambos envolvem cateteres. Ambos envolvem o sistema vascular. Ambos aparecem em notas clínicas cercados por jargão médico semelhante.
Mas são procedimentos completamente diferentes voltados para estruturas anatômicas diferentes, com perfis de risco diferentes e implicações clínicas diferentes. Um entra no coração. O outro entra em uma veia. O protocolo excluía o primeiro. O paciente tinha o segundo. E a IA não conseguiu distinguir a diferença porque não entende anatomia — ela entende proximidade de palavras.
Isso não é um caso isolado. Estudos que avaliam modelos de IA para vinculação de pacientes a estudos identificaram exatamente esse modo de falha: modelos concluindo incorretamente que o cateterismo cardíaco é o mesmo que uma punção venosa central, levando à exclusão indevida. É uma classe de erro, não um bug pontual.
Levei isso à minha equipe na manhã seguinte. Um dos nossos engenheiros — um cara brilhante, com formação em aprendizado profundo — sugeriu que poderíamos corrigir com um ajuste fino melhor. Mais dados de treinamento médico. Janelas de contexto maiores. Lembro-me da discussão que se seguiu, porque foi a discussão que moldou toda a nossa direção técnica. Minha posição era simples, e a expressei provavelmente de forma bruta demais: você não consegue resolver com ajuste fino a ausência de uma ontologia.
Um LLM não sabe que "cateterismo cardíaco" vive em um ramo diferente da árvore de procedimentos médicos em relação a "cateterismo venoso central." Ele não tem uma árvore. Ele tem uma névoa de associações estatísticas. E nenhuma quantidade de dados de treinamento lhe dará a compreensão rígida e hierárquica que uma ontologia médica proporciona — o conhecimento de que o Procedimento A é um subtipo de "Procedimento no coração," enquanto o Procedimento B é um subtipo de "Cateterismo de veia," e que estes são categoricamente distintos.
Aquela discussão terminou conosco reconstruindo nossa arquitetura do zero.
O Que É Fenotipagem Baseada em Ontologia, e Por Que Você Deveria Se Importar?

Aqui está a ideia em linguagem simples: em vez de pedir a uma IA que leia prontuários médicos e adivinhe o que significam, forçamos a IA a traduzir cada conceito médico que encontra em um código padronizado do SNOMED CT — o sistema de terminologia clínica mais abrangente do mundo — antes de tomar qualquer decisão.
O SNOMED CT não é um dicionário. É um enorme grafo direcionado no qual conceitos médicos são conectados por relações lógicas. A mais importante é a relação Is-A. "Angiografia coronária" is-a "cateterismo cardíaco" is-a "procedimento no coração." "Cateterismo venoso central" is-a "cateterismo de veia" is-a "inserção de cateter vascular." Ramos diferentes. Pais diferentes. Significado diferente.
Então, quando nosso sistema encontra um protocolo que exclui "cateterismo cardíaco" e um prontuário de paciente que menciona a colocação de um acesso central, ele não compara strings ou vetores. Ele pergunta à ontologia: O procedimento deste paciente é um subtipo do procedimento excluído? O grafo responde não. O paciente permanece elegível. De forma determinística. Todas as vezes.
Deixamos de perguntar "essas palavras parecem semelhantes?" e começamos a perguntar "esses conceitos estão logicamente relacionados?" Essa única mudança mudou tudo.
Isso funciona mesmo quando os médicos escrevem em abreviações. "Cateterismo cardíaco," "angio," "CCE," "acesso central," "inserção de CVC" — o SNOMED CT mapeia todas essas variantes para IDs de conceito específicos. Uma vez que você opera com IDs de conceito em vez de strings, a ambiguidade desaparece. Você está vinculando significado a significado, não palavra a palavra.
Escrevi sobre a arquitetura técnica por trás disso — as hierarquias do SNOMED CT, a pós-coordenação para lateralidade e gravidade, a construção de fenótipos computacionais — na versão interativa da nossa pesquisa. Mas a percepção central é simples: a IA médica precisa de um mapa da medicina, não apenas de um modelo estatístico da linguagem médica.
Como Você Interpreta "A Menos Que"?

A ontologia lida com o quê — de quais conceitos médicos estamos falando? Mas os protocolos de estudos clínicos têm outra camada de complexidade que a IA genérica lida de forma terrível: a lógica da elegibilidade.
Aqui está um critério de exclusão real de um estudo de oncologia:
"Excluir pacientes com hipertensão, a menos que esteja bem controlada com medicação estável por pelo menos 3 meses."
Um comparador de palavras-chave vê "hipertensão" e exclui o paciente. Um filtro booleano vê hipertensão = VERDADEIRO e exclui. Ambas as abordagens descartam um paciente que tem hipertensão, mas é perfeitamente elegível porque sua pressão arterial está controlada e estável há meses.
Isso me deixou um pouco maluco quando o encontrei pela primeira vez em escala. Extraímos os critérios de elegibilidade de um lote de protocolos de oncologia de Fase II e III e descobrimos que a maioria continha exclusões condicionais — cláusulas de "a menos que," cláusulas de "exceto quando," dependências temporais como "dentro de 6 meses" ou "concluído há mais de 90 dias." Estes não são casos extremos. São a norma. E cada um deles é uma armadilha para sistemas que não conseguem raciocinar sobre condições, permissões e tempo.
Recorremos à lógica deôntica — um ramo da lógica formal que trata de obrigações, permissões e proibições. É a lógica das normas e regras, originalmente desenvolvida por filósofos, e ela se encaixa perfeitamente nos critérios de estudos clínicos. Ter hipertensão é proibido — a menos que você também satisfaça as condições de permissão de pressão arterial controlada e medicação estável pela duração exigida. O sistema modela isso como uma expressão lógica formal, verifica a linha do tempo do paciente e calcula a elegibilidade com precisão matemática.
Outro padrão que vemos constantemente:
"Os pacientes não devem ter recebido quimioterapia prévia, a menos que tenha sido terapia neoadjuvante concluída há mais de 6 meses."
A IA precisa verificar simultaneamente três coisas: O paciente recebeu quimioterapia? Sua intenção era neoadjuvante? E ela terminou há mais de seis meses antes da data de referência? Lidamos com isso usando o que a literatura chama de Lógica de Conjunto Temporal (Temporal Ensemble Logic) — o sistema constrói uma linha do tempo do histórico clínico do paciente e posiciona os eventos dentro de janelas de observação válidas.
Uma busca por palavras-chave vê "quimioterapia" no prontuário e entra em pânico. Nosso sistema vê a quimioterapia, verifica o atributo de intenção, mede o intervalo de tempo e determina corretamente a elegibilidade.
A Arquitetura Que Ninguém Pediu (Mas de Que Todos Precisam)

Quando descrevo nossa abordagem a investidores e executivos da indústria farmacêutica, às vezes recebo um certo olhar — o olhar que diz "por que você está tornando isso tão complicado? É só usar o GPT."
Recebi esse olhar de um parceiro em potencial cerca de um ano após o início do nosso desenvolvimento. Ele era um cara inteligente, dirigia a equipe de inovação digital de uma CRO, e acreditava genuinamente que um wrapper bem-elaborado sobre o GPT-4 com um pouco de geração aumentada por recuperação acoplado resolveria o problema. "Os modelos estão ficando melhores a cada trimestre," ele me disse. "Você está superdimensionando isso."
Puxei os resultados dos nossos testes. Mesmo conjunto de dados, mesmos critérios de elegibilidade. O wrapper de GPT da equipe dele: precisão variável entre execuções — literalmente respostas diferentes para o mesmo paciente dependendo de quando você o executava. Sem trilha de auditoria. Sem forma de explicar por que um paciente foi incluído ou excluído. E uma precisão que atingia no máximo cerca de 63-87%, dependendo da complexidade dos critérios.
Nosso sistema neuro-simbólico: determinístico, reproduzível, com precisão >95%, e um rastro de raciocínio completo para cada decisão.
A FDA não aceita "a IA achou que sim" como justificativa. Ela precisa de uma prova lógica. Isso não é um bônus opcional — é a diferença entre uma ferramenta que amplia a pesquisa clínica e um brinquedo que impressiona plateias de demonstração.
Veja como a arquitetura realmente funciona, sem afogar você em detalhes de implementação:
O LLM lê. Ele ingere a realidade bagunçada e não estruturada dos prontuários médicos — PDFs escaneados, notas manuscritas, narrativas de médicos — e seu único trabalho é extrair entidades médicas e normalizá-las. Ele lê "pct queixa-se de dor no peito" e produz o conceito SNOMED para dor torácica. É isso. O LLM é a camada de percepção. Ele nunca toma uma decisão de elegibilidade.
O grafo de conhecimento mapeia. As entidades extraídas são mapeadas para IDs de conceito do SNOMED CT, desambiguadas pelo contexto. "Frio" o vírus versus "frio" a temperatura. A estrutura do grafo resolve a ambiguidade.
O solucionador de lógica raciocina. É aqui que a determinação real de elegibilidade acontece — um raciocinador simbólico determinístico que aplica regras de lógica deôntica sobre o fenótipo estruturado do paciente. Ele verifica relações Is-A, calcula durações temporais, avalia permissões condicionais. Dados os mesmos insumos, ele sempre produz o mesmo resultado.
Também usamos GraphRAG em vez da recuperação padrão baseada em vetores. O RAG padrão recupera trechos de documentos com base na similaridade de palavras. O GraphRAG percorre relações. Se um estudo exclui "qualquer medicamento que interaja com enzimas CYP3A4" e um paciente está tomando o Medicamento B, o RAG padrão pode perder a conexão se o prontuário do paciente nunca disser explicitamente "o Medicamento B é um inibidor de CYP3A4." O GraphRAG sabe, porque o grafo de conhecimento contém a relação: o Medicamento B inibe a CYP3A4. Raciocínio de múltiplos saltos. O tipo de conexão que um farmacêutico faz intuitivamente, mas que um sistema de correspondência de texto nunca faria.
Para o detalhamento técnico completo da arquitetura — a integração neuro-simbólica do Tipo 4, a decodificação ciente de conceitos, a camada de interoperabilidade FHIR/CDISC — veja nosso artigo de pesquisa detalhado.
"Mas os Modelos Não Vão Simplesmente Melhorar?"
As pessoas sempre contestam esse ponto, e eu entendo o porquê. A trajetória dos LLMs é genuinamente impressionante. A cada poucos meses, um novo modelo pontua mais alto em benchmarks médicos. Então por que não esperar?
Porque o problema não é a capacidade — é a arquitetura. Um LLM é um preditor probabilístico de tokens. Torná-lo maior e treiná-lo com mais texto médico o torna um melhor preditor probabilístico de tokens. Isso não o torna um motor de lógica. Não lhe dá determinismo. Não lhe dá uma trilha de auditoria. E em uma indústria regulada onde a FDA e a EMA precisam saber exatamente por que o Paciente nº 4.271 foi excluído do Estudo XYZ-003, "o modelo previu que essa era a resposta mais provável" não é aceitável.
Há também o problema de privacidade que não desaparece com a escala. Enviar prontuários de pacientes não estruturados para APIs de modelos baseados na nuvem — mesmo as corporativas — cria uma exposição à HIPAA e ao GDPR que nenhuma quantidade de acordos de BAA mitiga totalmente. Nossa arquitetura mantém os dados dos pacientes dentro de enclaves seguros. A camada de raciocínio simbólico e o grafo de conhecimento rodam localmente. A camada neural pode ser um modelo de código aberto local. As informações de saúde protegidas nunca deixam o firewall.
E há ainda a questão da reprodutibilidade, que considero a mais condenatória. Passe o mesmo prontuário de paciente por um LLM duas vezes com o mesmo prompt, e você pode obter respostas diferentes. Mude a configuração de temperatura, ajuste a janela de contexto, reformule ligeiramente a pergunta — resultado diferente. Estudos clínicos exigem decisões 100% reproduzíveis. O arcabouço regulatório exige isso. A ética exige isso.
Os Pacientes Que Estamos Perdendo
Passei a maior parte deste ensaio falando sobre arquitetura e economia, mas quero terminar em um lugar mais honesto.
Para pacientes com câncer metastático, ou LMA, ou um distúrbio genético raro, um atraso de seis meses no recrutamento não é uma linha em um modelo financeiro. É a diferença entre acessar uma terapia potencialmente curativa e não acessar. Quando nosso sistema exclui erroneamente um paciente elegível — porque confundiu dois procedimentos de cateter, ou porque não conseguiu interpretar uma cláusula de "a menos que" — esse paciente não recebe uma notificação dizendo "desculpe, a IA cometeu um erro." Ele simplesmente nunca fica sabendo do estudo. Seu oncologista nunca recebe o alerta. A vaga fica sem preenchimento, ou vai para outra pessoa, e o paciente continua no tratamento padrão, sem nunca saber que uma opção existia.
É nisso que penso quando alguém me diz para simplesmente usar uma API de wrapper.
Construímos a Veriprajna porque a lacuna entre o que a IA promete na saúde e o que ela realmente entrega não é um problema de marketing — é um problema de engenharia. A indústria escolheu a arquitetura fácil (jogar um LLM no problema) em vez da arquitetura certa (dar ao LLM uma ontologia e um solucionador de lógica e restringi-lo a fazer apenas aquilo em que é bom).
Não vamos chegar à medicina de precisão por meio de engenharia de prompts. Precisamos de sistemas que raciocinam, não de sistemas que adivinham com confiança.
A cura para a crise de recrutamento não são modelos de linguagem melhores. É o reconhecimento de que a elegibilidade é um problema de lógica vestido com uma fantasia de linguagem. Remova o texto não estruturado, mapeie-o para uma ontologia médica, aplique raciocínio formal, e de repente os 80% dos estudos que não cumprem os prazos de recrutamento começam a parecer um problema solucionável, e não uma inevitabilidade da indústria.
Pare de vincular palavras. Comece a vincular pacientes. A diferença é um grafo de conhecimento, um solucionador de lógica e a disposição de construir algo mais difícil do que um wrapper.