乱雑な医療テキストから構造化されたナレッジグラフへと変換されていく臨床試験プロトコル文書。患者マッチングにおいて構文から論理へと移行するという、本記事の中心テーマを表している。
Artificial IntelligenceHealthcareClinical Trials

1日80万ドルを溶かす「AIの誤読」——混同されたカテーテルが創薬をどう殺しているか

Ashutosh SinghalAshutosh Singhal2026年2月4日13 min

火曜日の夜だった。私は、まるで意味をなさないスプレッドシートをじっと見つめていた。

私たちはあるパイロット試験を進めていた——大規模言語モデルが、腫瘍学(がん)試験の適格性基準に照らして患者記録をどれだけうまくスクリーニングできるかを検証するものだ。プロトコルは、腫瘍学のプロトコルとしてはわかりやすいものだった。新規の抗凝固薬で、除外基準のリストがあり、その一つが「心臓カテーテル法の既往」だった。心臓カテーテル法。冠動脈機能を評価するために心臓の腔内へ通されるカテーテル。深刻で侵襲的な心臓の処置である。

AIはある患者を不適格としてフラグを立てていた。理由は心臓カテーテル法。私はその患者の記録を呼び出した。記録されていた処置は中心静脈穿刺——薬剤投与のために頸静脈に留置される中心ラインだった。ベッドサイドで行う血管アクセス処置である。ICUで看護師が行う。心臓の処置ではない。まったく近くもない。

しかしモデルは「カテーテル」を見て、「静脈の」を見て、そのメモが循環器ケアユニットで書かれたことを見て、こう結論づけた。同じものだ、と。その患者は消えた。除外された。試験実施施設のコーディネーターの目に触れることは決してなかった。そして私を悩ませたのはここだ——誰も気づかなかっただろう。システムは適格な患者をひそかに切り捨て、試験は一人分だけ足りなくなり、なぜ組み入れが遅れているのか誰も分からなかっただろう。

その瞬間、私はより良いプロンプトが臨床試験の被験者募集を解決するという考えを信じるのをやめた。問題はモデルの語彙ではない。問題は、私たちが論理の仕事を確率マシンにやらせていることだ。

なぜ製薬パイプラインの80%は被験者募集で行き詰まるのか?

製薬業界には、どの決算説明会も触れたがらない不都合な秘密がある。すなわち、およそ臨床試験の80%が組み入れのスケジュールを守れないということだ。科学が間違っているからではない。患者が存在しないからでもない。適格な患者を見つけ出し、試験にマッチングさせるプロセスが、根本的なレベルで壊れているからだ。

その機能不全に金額をつけてみよう。タフツ大学医薬品開発研究センター(Tufts Center for the Study of Drug Development)によれば、医薬品開発における1日の遅延は、いまや高収益な資産についておよそ処方薬売上の逸失で80万ドルのコストがかかる。循環器領域や血液学領域では、その数字は1日あたり130万ドルを超える。競争の激しい腫瘍薬で組み入れが6か月遅れる場合——日常的に起こるたぐいの遅延だ——科学的に優れた治療法を、商業的には登場した瞬間に死んだも同然にしてしまいかねない金額を目にすることになる。

創薬におけるボトルネックは、もはや科学ではない。構文(シンタックス)だ。

そして運用上の現実は、財務上のそれよりもさらに厳しい。研究実施施設の37%が組み入れ不足に陥り、11%は一人の患者も組み入れられない。スクリーニング不合格——書類上は適格に見えても実はそうでない患者——は、それぞれ約1,200ドルのコストがかかる。あなたのAIツールが100件の「マッチ」を生成しても、本物がわずか5件なら、あなたは被験者募集を自動化したのではない。自社の臨床試験施設に対してサービス拒否(DoS)攻撃を仕掛けたのだ。

私はそれが起こるのを目の当たりにした。私たちの初期プロトタイプに胸を躍らせていた施設コーディネーターたちは、マッチリストを完全に無視し始めた。「あなたのツールはゴミばかりよこす」と、ある人が電話越しに言った。彼女は間違っていなかった。彼女は手作業でPDFをスキャンする方法に戻った。Ctrl+F。それが業界の実際の最先端だ。

私のLLMへの信頼を打ち砕いたカテーテル

あの火曜日の夜のエラーをもっと深く掘り下げてみたい。それは、医療分野のAIに関するほとんどの売り込みが見過ごしている何かを示しているからだ。

大規模言語モデルがテキストを処理するとき、それは単語をベクトル——高次元の数学的空間内の点——に変換する。似た文脈に現れる単語どうしは、互いに近くに配置される。「心臓カテーテル法」と「中心静脈カテーテル法」は、ベクトル空間ではほとんど隣人だ。どちらもカテーテルを伴う。どちらも血管系を伴う。どちらも似たような医療専門用語に囲まれて臨床記録に現れる。

しかしそれらはまったく異なる処置であり、異なる解剖学的構造を対象とし、異なるリスクプロファイルと異なる臨床的意味合いを持つ。一方は心臓に入る。もう一方は静脈に入る。プロトコルが除外したのは前者だ。患者に行われたのは後者だ。そしてAIは違いを見分けられなかった。解剖学を理解していないからだ——理解しているのは単語の近さである。

これは特殊なケースではない。試験マッチングのAIモデルを評価した研究は、まさにこの故障モードを特定している。すなわち、モデルが心臓カテーテル法を中心静脈穿刺と同じものだと誤って結論づけ、誤った除外につながるというものだ。これは一度きりのバグではなく、一つの誤りのクラスである。

翌朝、私はこれをチームに持ち込んだ。うちのエンジニアの一人——優秀な男で、ディープラーニングの経歴を持つ——は、より良いファインチューニングで直せると提案した。もっと多くの医療訓練データ。より大きなコンテキストウィンドウ。そのあとに続いた議論を私は覚えている。それが私たちの技術的方向性のすべてを形づくった議論だったからだ。私の立場は単純で、おそらく率直すぎるほどはっきりと言った。オントロジーの欠如は、ファインチューニングでは抜け出せない。

LLMは、「心臓カテーテル法」が「中心静脈カテーテル法」とは医療処置ツリーの異なる枝に存在することを知らない。ツリーを持っていないのだ。持っているのは統計的な連想の霧である。そして、どれだけ訓練データを積み上げても、医療オントロジーが提供する厳格で階層的な理解——処置Aは「心臓に対する処置」のサブタイプであり、一方で処置Bは「静脈のカテーテル法」のサブタイプであって、これらはカテゴリー的に別物である、という知識——は得られない。

その議論は、私たちがアーキテクチャを一から作り直すことで決着した。

オントロジー駆動型フェノタイピングとは何か、そしてなぜ気にかけるべきか?

SNOMED CTのIs-A階層が「心臓カテーテル法」と「中心静脈カテーテル法」をまったく異なる枝へと分ける様子を示す枝分かれツリー図。この記事の中心的な誤りを、視覚的に一目で明らかにしている。

考え方を平易な言葉で言おう。AIに医療記録を読ませてその意味を推測させる代わりに、私たちはAIに、出会うすべての医療概念を、標準化されたコードへ変換することを強制する。そのコードとは、SNOMED CT——世界で最も包括的な臨床用語体系——であり、AIが何らかの判断を下す前にそれを行わせる。

SNOMED CTは辞書ではない。それは、医療概念が論理的関係で結びついた巨大な有向グラフだ。最も重要なのが、Is-A関係である。「冠動脈造影」はis-a「心臓カテーテル法」であり、それはis-a「心臓に対する処置」だ。「中心静脈カテーテル法」はis-a「静脈のカテーテル法」であり、それはis-a「血管カテーテルの挿入」だ。異なる枝。異なる親。異なる意味。

だから、私たちのシステムが「心臓カテーテル法」を除外するプロトコルと、中心ライン留置に言及した患者記録に出くわしても、文字列やベクトルを比較したりはしない。オントロジーにこう尋ねる。この患者の処置は、除外対象の処置のサブタイプか?グラフの答えはno(いいえ)だ。患者は適格のまま。決定論的に。毎回。

私たちは「これらの単語は似て見えるか?」と問うのをやめ、「これらの概念は論理的に関連しているか?」と問い始めた。そのたった一つの転換が、すべてを変えた。

これは、医師が略記で書いても機能する。「heart cath」「angio」「LHC」「central line」「CVC insertion」——SNOMED CTはこれらの表記ゆれをすべて、特定の概念IDにマッピングする。いったん文字列ではなく概念IDの上で処理するようになれば、曖昧さは消える。単語と単語ではなく、意味と意味をマッチングしているのだ。

この背後にある技術的アーキテクチャ——SNOMED CTの階層、左右差や重症度のためのポストコーディネーション、計算論的フェノタイプの構築——については、私たちの研究のインタラクティブ版に書いた。しかし核心的な洞察は単純だ。医療AIに必要なのは、医療言語の統計モデルだけではなく、医学の地図である。

「Unless(〜でない限り)」をどう解析するか?

キーワードマッチャーがコントロールされた高血圧の患者を誤って除外する様子と、義務論理ソルバーが条件付きの許可を正しく評価して適格性を判定する様子とを並べて比較した図。

オントロジーが扱うのは「何」だ——私たちはどの医療概念について語っているのか。しかし臨床試験プロトコルには、汎用AIがひどく苦手とするもう一つの複雑さの層がある。すなわち適格性の「論理」だ。

腫瘍学試験の実際の除外基準を挙げよう。

「高血圧のある患者を除外する。ただし、安定した薬物療法で少なくとも3か月間良好にコントロールされている場合を除く。」

キーワードマッチャーは「高血圧」を見て患者を除外する。ブール型フィルターはhypertension = TRUEを見て除外する。どちらの手法も、高血圧はあるものの、血圧が数か月にわたってコントロールされ安定しているために完全に適格な患者を捨ててしまう。

これに大規模に初めて直面したとき、私は少々おかしくなりそうだった。私たちは第II相および第III相の腫瘍学プロトコル一群から適格性基準を抽出し、その大半が条件付きの除外を含んでいることを発見した——「unless(〜でない限り)」節、「except when(〜の場合を除き)」節、「within 6 months(6か月以内)」や「completed more than 90 days prior(90日以上前に完了)」のような時間的依存関係だ。これらは例外的なケースではない。常態なのだ。そしてそのどれもが、条件・許可・時間について推論できないシステムにとっての罠である。

私たちが目を向けたのが、義務論理(deontic logic)だ——義務、許可、禁止を扱う形式論理の一分野である。規範と規則の論理であり、もともと哲学者たちによって発展させられ、臨床試験の基準に完璧に対応する。高血圧があることは禁止されている——ただし、許可の条件、すなわち血圧がコントロールされ、必要な期間にわたって安定した薬物療法を受けているという条件も満たす場合を除く。システムはこれを形式的な論理式としてモデル化し、患者のタイムラインを確認し、数学的な精度で適格性を計算する。

私たちが絶えず目にする、もう一つのパターンがある。

「患者は事前の化学療法を受けていてはならない。ただし、6か月以上前に完了した術前補助療法(ネオアジュバント療法)であった場合を除く。」

AIは同時に三つのことを検証しなければならない。患者は化学療法を受けたか? その意図は術前補助(ネオアジュバント)だったか? そしてそれは基準日より6か月以上前に終了したか? 私たちはこれを、文献でTemporal Ensemble Logic(時間的アンサンブル論理)と呼ばれる手法で扱う——システムは患者の臨床歴のタイムラインを構築し、イベントを有効な観察ウィンドウ内に配置する。

キーワード検索は記録の中に「化学療法」を見つけてパニックになる。私たちのシステムは化学療法を見て、意図の属性を確認し、時間差を測定し、適格性を正しく判定する。

誰も求めなかった(が、誰もが必要とする)アーキテクチャ

LLM(知覚/抽出)、SNOMED CTナレッジグラフ(マッピング/曖昧性解消)、そしてシンボリック論理ソルバー(決定論的推論)というそれぞれ異なる役割を、それらの間の明確なデータフローとともに示す三層アーキテクチャ図。

私が投資家や製薬企業の幹部に自分たちのアプローチを説明すると、ある特定の表情を返されることがある——こう言いたげな表情だ。「なぜそんなに複雑にするのか? GPTを使えばいいだけだ」

開発を始めて1年ほど経ったころ、ある見込みパートナーからその表情を向けられた。彼は頭の切れる男で、あるCRO(医薬品開発業務受託機関)のデジタルイノベーションチームを率いており、うまくプロンプトを与えたGPT-4のラッパーに、いくらかのretrieval-augmented generationを付け足せば問題は解決すると本気で信じていた。「モデルは四半期ごとに良くなっている」と彼は言った。「あなたは作り込みすぎだ」

私は私たちのテスト結果を呼び出した。同じデータセット、同じ適格性基準。彼のチームのGPTラッパーは、実行のたびに精度がばらついた——文字どおり、いつ実行するかによって同じ患者に異なる答えが出た。監査証跡はない。患者がなぜ組み入れられ、あるいは除外されたのか、その理由を説明する術もない。そして精度は、基準の複雑さに応じてせいぜい63〜87%どまりだった。

私たちのニューロシンボリック・システムは、決定論的で、再現可能、95%超の精度を持ち、あらゆる判断に完全な推論トレースを備えている。

FDAは「AIがそう考えた」を根拠として受け入れない。彼らが必要とするのは論理的な証明だ。これはあれば嬉しい程度のものではない——臨床研究を強化するツールと、デモの観客を感心させるだけのおもちゃとの違いなのだ。

実装の細部で読者を溺れさせることなく、このアーキテクチャが実際にどう機能するのかを説明しよう。

LLMが読む。LLMは、医療記録の乱雑で非構造的な現実——スキャンされたPDF、手書きのメモ、医師の記述——を取り込み、その唯一の仕事は医療エンティティを抽出して正規化することだ。「pt complains of chest pain(患者が胸痛を訴える)」を読み取り、胸痛に対応するSNOMED概念を出力する。それだけだ。LLMは知覚層である。適格性の判断は決して下さない。

ナレッジグラフがマッピングする。抽出されたエンティティはSNOMED CTの概念IDにマッピングされ、文脈によって曖昧さが解消される。ウイルスの「cold(風邪)」か、温度の「cold(冷たい)」か。グラフ構造がその曖昧さを解決する。

論理ソルバーが推論する。ここで実際の適格性判定が行われる——患者の構造化されたフェノタイプに対して義務論理のルールを適用する、決定論的なシンボリック推論器だ。Is-A関係を確認し、時間的な期間を計算し、条件付きの許可を評価する。同じ入力が与えられれば、常に同じ出力を生成する。

私たちはまた、GraphRAGを、標準的なベクトルベースの検索の代わりに用いている。標準的なRAGは単語の類似度に基づいて文書のチャンクを取得する。GraphRAGは関係をたどる。ある試験が「CYP3A4酵素と相互作用するあらゆる薬剤」を除外しており、患者が薬剤Bを服用している場合、患者の記録に「薬剤BはCYP3A4阻害薬である」と明示的に書かれていなければ、標準的なRAGはその関連を見落とすかもしれない。GraphRAGは知っている。ナレッジグラフがその関係——薬剤BはCYP3A4を阻害する——を含んでいるからだ。マルチホップ推論。薬剤師なら直感的に行うが、テキストマッチングのシステムには決してできないたぐいの関連付けである。

アーキテクチャの完全な技術的解説——Type 4のニューロシンボリック統合、概念認識デコーディング、FHIR/CDISCの相互運用性レイヤー——については、私たちの詳細な研究論文をご覧いただきたい。

「だが、モデルはただ良くなっていくのではないか?」

人々はいつもこの点で反論してくる。その理由は理解できる。LLMの軌跡は本当に目覚ましい。数か月ごとに、新しいモデルが医療ベンチマークでより高いスコアを出す。ならば、待てばいいではないか?

なぜなら、問題は能力ではない——アーキテクチャなのだ。LLMは確率的なトークン予測器である。より大きくし、より多くの医療テキストで訓練すれば、それはより優れた確率的なトークン予測器になる。しかしそれを論理エンジンにはしない。決定論を与えはしない。監査証跡を与えはしない。そしてFDAやEMAが、患者#4,271がなぜ試験XYZ-003から除外されたのかを正確に知る必要のある規制産業において、「モデルがこれを最も可能性の高い答えと予測した」は受け入れられない。

さらに、規模を大きくしても消えないプライバシーの問題がある。非構造化の患者記録をクラウドベースのモデルAPI——たとえエンタープライズ向けのものであっても——に送信すれば、どれだけBAA(事業提携者契約)を結んでも完全には緩和できないHIPAAおよびGDPRのリスクが生じる。私たちのアーキテクチャは、患者データをセキュアなエンクレーブ内に保持する。シンボリック推論層とナレッジグラフはローカルで動作する。ニューラル層はローカルのオープンソースモデルでよい。保護対象保健情報がファイアウォールの外に出ることは決してない。

そして、私が最も致命的だと思う再現性の問題がある。同じ患者記録を同じプロンプトでLLMに2回通せば、異なる答えが返ってくることがある。温度設定を変え、コンテキストウィンドウを調整し、質問をわずかに言い換えれば——結果は変わる。臨床試験は100%再現可能な判断を必要とする。規制の枠組みがそれを要求する。倫理がそれを要求する。

私たちが失っている患者たち

このエッセイのほとんどを、私はアーキテクチャと経済の話に費やしてきた。だが、もっと正直な場所で締めくくりたい。

転移性のがん、あるいはAML(急性骨髄性白血病)、あるいは稀な遺伝性疾患を抱える患者にとって、6か月の組み入れ遅延は財務モデル上の一項目ではない。それは、治癒の可能性がある治療法にアクセスできるか否かの違いなのだ。私たちのシステムが適格な患者を誤って除外するとき——二つのカテーテル処置を混同したから、あるいは「unless」節を解析できなかったから——その患者は「申し訳ありません、AIが誤りを犯しました」という通知を受け取ることはない。彼らはただ、その試験について永遠に耳にしないだけだ。彼らの腫瘍内科医にアラートが届くことはない。その枠は埋まらないまま、あるいは別の誰かのものになり、患者は標準治療を続け、選択肢が存在したことを知ることは決してない。

誰かが私に、ただラッパーAPIを使えばいいと言うとき、私が考えるのはそのことだ。

私たちがVeriprajnaを立ち上げたのは、AIが医療で約束することと、それが実際に提供するものとの間の隔たりが、マーケティングの問題ではなく——エンジニアリングの問題だからだ。業界は、正しいアーキテクチャ(LLMにオントロジーと論理ソルバーを与え、得意なことだけをするように制約する)ではなく、安易なアーキテクチャ(LLMを投げつける)を選んだ。

私たちは、プロンプトエンジニアリングで精密医療にたどり着くことはできない。必要なのは、自信たっぷりに推測するシステムではなく、推論するシステムだ。

被験者募集の危機を治す薬は、より優れた言語モデルではない。それは、適格性とは言語の衣装をまとった論理の問題である、という認識だ。非構造化テキストを剥ぎ取り、それを医療オントロジーにマッピングし、形式的推論を適用すれば、突如として、組み入れスケジュールを守れない試験の80%は、業界の不可避な宿命ではなく、解決可能な問題に見えてくる。

単語をマッチングするのをやめよう。患者をマッチングし始めよう。その違いをもたらすのは、ナレッジグラフ、論理ソルバー、そしてラッパーよりも難しいものを構築しようとする意志である。

Related Research

Also Published On