臨床試驗招募
80% 的臨床試驗無法達成收案時程。瓶頸不在於病患來源,而在於匹配精確度。一般 AI 只讀字面;以本體論驅動的系統則對醫學概念進行推理、解析例外條款,並產出能通過法規審查的稽核軌跡。
每日 $800K
試驗每延遲一天損失的銷售額
Tufts CSDD,2024
80%
未達收案時程的試驗比例
業界共識,2025
$1,200
每次篩檢失敗的平均成本
Antidote.me,2025
我們打造客製化匹配系統,運用 SNOMED-CT 本體論圖譜與確定性邏輯對適格性進行推理。專為執行複雜試驗的製藥贊助商、CRO 與學術醫學中心而設,這些試驗的篩檢失敗率與收案延遲動輒以數百萬美元計。
過去五年,業界忙著用 LLM 取代關鍵字搜尋。這解決了簡單的情況,卻沒能解決真正重要的情況。
某項第三期抗凝血劑試驗排除曾接受 「心導管術」 的病患。某位病患的 EHR 中有一則註記,描述了一次 「中心靜脈導管置放」 於加護病房內進行,用於靜脈給藥。
一般 AI 的做法:
看到「導管」+「靜脈」+與心血管術語的鄰近度。向量相似度分數很高。病患被標記為 不適格。一位適格病患就此流失。
本體論驅動匹配的做法:
將兩者皆對應到 SNOMED-CT 概念 ID。心導管術(SCTID: 41976001)歸屬於「心臟手術」之下。中心靜脈導管術(SCTID: 392230005)歸屬於「靜脈導管術」之下。屬於不同分支。病患為 適格。
這並非邊緣案例。它代表一整類錯誤:手術、病症或藥物共用詞彙卻在醫學上有所不同。已發表的評估證實,AI 模型確實會犯下這個「心導管術等於中心靜脈穿刺」的錯誤(Fierce Biotech,2025)。乘以數十項試驗中的數百條標準,你就有了一道任何提示詞工程都無法修補的系統性適格性漏洞。
本體論盲區
LLM 以詞元鄰近度處理文字,而非以醫學階層。「冠狀動脈血管攝影」與「周邊血管攝影」分數相近,因為它們共用「血管攝影」一詞。SNOMED-CT 卻知道前者是心臟手術,後者是血管通路手術。
例外條款的脆弱性
「排除患有高血壓的病患, 除非 已以穩定藥物良好控制達 3 個月以上。」LLM 看到「高血壓」後,要不就排除(流失一位適格病患),要不就納入(漏掉時間性檢查)。如今的試驗計畫平均有 27 條以上的標準,許多帶有巢狀條件式(IQVIA,2026)。
非確定性輸出
用稍有差異的上下文視窗,讓同一位病患通過某個以 LLM 為基礎的匹配器跑兩次。你可能會得到不同的結果。臨床試驗要求 100% 可重現的稽核軌跡。法規機構需要確切知道 為何 每位病患被納入或排除。
在下一次廠商評估會議上把這份拿出來看。每個平台都有其強項。問題在於哪些缺口對你的試驗計畫複雜度而言至關重要。
| 平台 | 他們實際做的事 | 資料存取 | 在哪裡失靈 |
|---|---|---|---|
| Tempus(含 Deep 6 AI) | 以 LLM 為基礎的 Patient Query 代理讀取非結構化註記,並依標準評分。在受評查詢上達 94% 準確度。併購 Deep 6 後擁有 750 個以上的醫療機構據點。 | 專有基因體 + 臨床資料。Tempus 網路據點。 | 缺乏本體論基礎的機率性匹配。資料存取受限於 Tempus 網路。沒有可供法規稽核的正式推理軌跡。 |
| IQVIA(IQVIA.ai) | 與 NVIDIA 合作推出的統一代理型 AI 平台(2026 年 3 月)。全球規模最大的醫療資料集。從可行性評估到收案的端到端涵蓋。 | 2.5 億以上病患紀錄。橫跨數十年的製藥合作關係。 | 匹配廣泛但偏一般化。平台優先的取向可能無法處理你特定試驗計畫的細微之處。客製化工作流程需要繁重的整合作業。 |
| Medidata(Dassault) | 為 Rave EDC 提供的 AI Study Build。CTMS 領導者。500 個以上由 AI 支援的研究。強大的 EDC 至匹配流程。 | 來自 Rave 平台的試驗資料。直接存取 EHR 的能力有限。 | 匹配只是更大型 CTMS 中的一項功能,並非核心重點。Rave API 的限制使多數團隊改採批次 ETL,而非即時匹配。 |
| TriNetX | 用於可行性評估與世代辨識的真實世界資料網路。橫跨各醫療系統的 2.5 億以上病患紀錄。 | 聯邦式網路模型。聚焦結構化資料。 | 在可行性評估上表現強勁,在非結構化註記解析上較弱。資料存取需要網路會員身分。 |
| ConcertAI(ACT) | 於 2026 年 2 月推出的代理型 AI 平台。宣稱可縮短 10 至 20 個月時程。聚焦腫瘤學的真實世界資料。 | 專有腫瘤學資料集。與 Roche 相鄰的生態系。 | 新平台,量產實績有限。以腫瘤學為中心;在其他治療領域的深度較不足。 |
| 四大會計師事務所/大型系統整合商 | 導入並整合平台。設定 Medidata、Veeva、Oracle Clinical One。專案管理與變革管理。 | 透過合作案取得客戶資料。 | 他們導入平台,而非打造智能。沒有本體論工程或客製化匹配能力。合作案金額落在 $500K 至 $5M 以上,光是整合就需要 6 至 12 個月時程。 |
| 內部自建 | 臨床資訊團隊建立匹配規則,或針對特定試驗計畫微調模型。 | 完整 EHR 存取權。無資料共享疑慮。 | 臨床資訊專家稀缺且昂貴。本體論維護(SNOMED 每半年更新、MedDRA 每季更新)需要專責人力。多數內部自建止步於關鍵字匹配加上一些 NLP。 |
上述每個平台都使用某種形式的 NLP 或 LLM 匹配。沒有一個公開實作以 SNOMED-CT 本體論圖譜進行確定性適格性評估的神經符號推理。臨床精確度正存在於那道缺口之中。
每項能力都針對當前匹配系統中的一種特定失敗模式。這些不是產品功能,而是依你的試驗計畫組合、EHR 環境與法規要求量身打造的客製化元件。
我們打造的匹配系統,其適格性決策是被計算出來的,而非被預測出來的。LLM 萃取層運用強制輸出 SCTID 的受約束解碼,將臨床註記轉換為 SNOMED-CT 概念 ID。知識圖譜(Neo4j)儲存 350,000 個以上的醫學概念及其階層關係。符號推理器透過遍歷圖譜來評估適格性:病患的手術是否為被排除手術的子類型?答案是確定性的。
當臨床註記雜亂時(加護病房註記、手寫謄錄),我們會採用 SAKT 式受約束解碼,因為強制模型在生成時輸出有效的 SCTID,能在虛構的醫學實體進入推理流程之前就攔截它們。對於結構良好的 EHR 資料(具編碼欄位的 FHIR 資源),我們完全略過 LLM,直接對應到本體論。
試驗計畫並非布林檢查清單。它們是帶有義務、許可與禁止的規範性陳述,並透過例外條款與時間性約束彼此交互作用。我們將試驗計畫解析為正式的義務邏輯,把「排除 X,除非在 Z 時間範圍內 Y」分解為可計算的運算。
此解析器可處理用於期間計算的時間集合邏輯(「12 個月內無 PCI」)、透過在知識圖譜中遍歷 CYP 酶途徑的藥物交互作用鏈(「任何與 CYP3A4 交互作用的藥物」),以及標準 NLP 流程會壓平成錯誤答案的巢狀條件邏輯。每條解析後的標準都會產出一份正式邏輯規格,供推理器對病患表型執行。
病患資料留在你的防火牆內。神經萃取層以本地部署的臨床語言模型運行(針對你機構的註記模式微調)。知識圖譜與符號推理器在本地端運行。FHIR R4 輸入轉接器可連接 Epic(透過 App Orchard 端點)、Oracle Health(Millennium FHIR API)或其他經認證的 EHR 系統。
我們從第一天起就為 HIPAA BAA 合規而設計架構:對每一次病患資料存取進行稽核記錄、最小必要存取控制、與你的 IRB 試驗計畫一致的角色式權限,以及對任何需要在系統間移動的彙總資料的去識別化能力。受保護的健康資訊絕不接觸外部 API。
存在於另一個獨立系統中的匹配輸出,就是會被忽略的匹配輸出。我們打造連接器,將排序後的病患與試驗匹配結果直接推送至 Medidata Rave、Veeva Vault CTMS 或 Oracle Clinical One。據點協調員在他們既有的工具中看到結果,而不必再去查另一個儀表板。
輸出對應到 CDISC SDTM IE(納入/排除)領域格式,因此招募資料從第一天起就已為法規送件而結構化。無需下游資料清理或對帳。此流程也處理本地檢驗代碼正規化(LOINC 對應),以將各據點特定的參考範圍與試驗計畫所定義的閾值對帳。
SNOMED-CT 提供基礎。我們在其上建構治療深度。以腫瘤學為例:對應到特定檢測閾值的 PD-L1 表現量(22C3 對 SP263 對 SP142)、BRCA1/2 變異分類(依 ACMG 指引區分致病性、VUS 與良性)、EGFR 突變亞型(exon 19 缺失對 L858R 對 T790M)、ALK 重排狀態、結合 AJCC 第 8 版對應的 TNM 分期,以及帶有療程線數歸因的先前治療方案史。
每套本體論在上線前都會針對你試驗計畫組合中的 10 至 15 項真實試驗計畫進行驗證。驗證意指讓系統對已知收案結果的已完成試驗進行運行,並衡量其與人工黃金標準的一致性。我們持續維護本體論,配合 SNOMED-CT 每半年更新與 MedDRA 每季更新,使概念對應保持最新。
讓我們逐步走過某項第三期腫瘤學試驗的單一病患評估。這是針對每一組病患與標準配對所執行的流程。
本地部署的臨床 LLM 讀取病患的非結構化註記。某位醫師寫道: 「病患完成 4 個療程的 carboplatin/pemetrexed,最後一次輸注為 03/2025。PD-L1 TPS 45%(22C3)。ECOG 1。」 模型運用強制輸出有效 SNOMED-CT 與 LOINC 的受約束解碼來萃取實體: MedicationAdministration:carboplatin(SCTID: 386905003)、pemetrexed(SCTID: 409342003)。Finding:PD-L1 45%(LOINC: 85146-3)。Finding:ECOG PS 1。
萃取出的實體被對應到知識圖譜。「Carboplatin」解析至鉑類抗腫瘤藥物分支。圖譜得知 carboplatin is-a(是一種) 烷化劑、 is-a(是一種) 鉑化合物、 interacts-with(交互作用於) CYP2C8。若試驗計畫排除「先前鉑類治療」,圖譜遍歷確認 carboplatin 符合。若它排除「先前免疫治療」,圖譜確認 carboplatin 不符合。毫無歧義。
試驗計畫標準: 「無針對晚期疾病的先前全身性治療,除非輔助/新輔助治療於隨機分組前完成 > 12 個月。」 解析器分解為:Prohibition(先前全身性治療) EXCEPT Permission(輔助 OR 新輔助) AND Temporal(完成日期 + 12 個月 < 隨機分組日期)。推理器檢查:曾給予 carboplatin/pemetrexed。它是輔助治療嗎?圖譜檢查治療當時的疾病分期。間隔是否足夠?最後一次輸注為 2025 年 3 月,隨機分組為 2026 年 4 月 = 13 個月。結果: 適格(例外條款已滿足,時間性約束已達成)。
系統輸出一項綜合分數。確定性標準(本體論匹配、時間性計算)取得二元信心。模糊標準(不清楚的註記措辭、缺漏資料)則取得標示出特定模糊處的機率分數。每條標準的推理軌跡都會被儲存:匹配到哪個 SCTID、執行了哪次圖譜遍歷、哪項邏輯運算產出了結果。此軌跡直接進入 CDISC SDTM IE 領域格式,並進入協調員的 CTMS 檢視畫面。
與平台 AI 的關鍵區別:
系統在任何時候都不會去問 LLM「這位病患適格嗎?」。LLM 讀取文字。本體論解析意義。邏輯引擎計算適格性。每一層都有明確的職責與可驗證的輸出。當協調員看到「適格」或「排除」時,他們能確切追溯原因,一路追到決定該結果的 SNOMED 概念 ID 與圖譜關係。
三個階段,總計 14 至 20 週。每個階段都有明確的交付成果,並在進入下一階段前設有決策點。
第 1 階段:第 1 至 4 週
決策點:進入建構、調整範疇,或判定平台才是更適合的選擇。若是如此,我們會直接告訴你。
第 2 階段:第 5 至 16 週
第 3 階段:第 17 至 20 週
持續性事項:SNOMED-CT 每半年更新、MedDRA 每季更新。我們提供維護,或附帶文件進行交接。
回答六個關於你當前招募作業的問題。此評估會找出你的匹配流程在哪裡漏掉了適格病患,以及哪些改進對你的具體情況能帶來最高的 ROI。
1. 你在進行中的試驗裡,目前的篩檢失敗率是多少?
Tempus Patient Query 與 IQVIA 的匹配工具運用大型語言模型讀取臨床註記,並依試驗標準對相關性評分。這對直截了當的標準效果良好,卻在本體論區別上失靈。當試驗計畫排除「心導管術」而某份病患紀錄提到「中心靜脈導管置放」時,依向量相似度運作的 LLM 會看到兩項涉及心血管系統的導管手術,並標記為匹配。以 SNOMED-CT 為基礎的系統則辨識出兩者落在手術階層的全然不同分支上(SCTID 41976001 對 392230005),並正確判定該病患為適格。
實務上的差異顯現在篩檢失敗率上。以 LLM 為基礎的匹配在結構良好的標準上通常達 85 至 94% 準確度,但在帶有複雜本體論區別、時間性邏輯或例外條款的試驗計畫上會降至 70 至 80%。本體論驅動的匹配在所有標準類型上都維持 95% 以上的準確度,因為適格性決策是由符號推理器計算出來的,而非由語言模型預測出來的。
另一項結構性差異是可稽核性。LLM 產出一項相關性分數。我們的系統則產出一條推理軌跡:病患具有 SCTID X,標準要求非 SCTID Y,依 SNOMED 階層 X 並非 Y 的子類型,因此適格。那條軌跡正是法規事務團隊在 FDA 送件文件中所需要的。
可以,而且這是核心的架構原則,並非事後補強。神經符號架構將神經層(用於實體萃取的 LLM)與符號層(知識圖譜與邏輯求解器)分開。兩者皆可完全在你的防火牆內運行。
LLM 萃取層以本地模型部署,通常是在你的基礎設施或安全私有雲執行個體上運行、經微調的臨床語言模型。它絕不將原始病患文字送往外部 API。知識圖譜(Neo4j 或同等物)與 SNOMED-CT 本體論則置於本地端。FHIR R4 為輸入標準。對於 Epic 環境,我們針對透過 App Orchard 提供的 FHIR R4 端點進行建構,擷取 Patient、Condition、Procedure 與 MedicationAdministration 資源。對於 Oracle Health(Cerner),整合則使用其 Millennium FHIR API。
萃取層在本地處理臨床註記、將實體對應至 SCTID,符號推理器則依試驗計畫標準評估適格性。受保護的健康資訊絕不離開你的安全環境。我們從第一天起就為 HIPAA BAA 合規而設計架構,包括稽核記錄、最小必要存取控制,以及對任何確實需要在系統間移動的資料的去識別化能力。
此架構適用於任何治療領域,因為 SNOMED-CT 涵蓋 350,000 個以上的醫學概念。變數在於本體論深度,亦即為你的特定試驗計畫預先設定了多少領域專屬的對應、同義詞與階層關係。
腫瘤學是我們多數合作案的起點,因為其標準最為複雜:生物標記要求(PD-L1 表現量、BRCA1/2 突變狀態、EGFR 變異)、分期系統(TNM、AJCC 第 8 版)、帶時間性約束的先前治療方案史,以及體能狀態分數。一套涵蓋前 50 大生物標記、200 個以上治療方案與標準分期系統、可量產的腫瘤學本體論,需要 6 至 8 週來建構與驗證。
心血管與中樞神經系統是其次最常見的。心血管本體論聚焦於手術階層(心導管術的區別只是數十項中的一項)、透過 CYP 酶途徑的藥物交互作用鏈,以及帶有各據點特定參考調整的檢驗值範圍。中樞神經系統則加入主觀終點處理與認知評估分數對應。
罕見疾病在技術上最具挑戰性,因為 SNOMED 對超罕見病症的涵蓋可能薄弱。我們以 Orphanet 本體論對應加以補充,並建構回饋至圖譜的客製化概念擴充。罕見疾病治療領域的建置需要 8 至 12 週。每套本體論在上線前都會針對你試驗計畫組合中的真實試驗計畫標準進行驗證。
這正是確定性邏輯最清楚地勝過機率性語言模型之處。標準 NLP 將適格性標準視為待詮釋的文字。我們則將它們視為待計算的正式邏輯。
拿一條真實標準來說:「排除患有高血壓的病患,除非已以穩定藥物良好控制至少 3 個月。」LLM 看到「高血壓」一詞後,必須從上下文判斷是否排除。它在多數情況下會判斷正確,但「多數情況下」意味著在每一項試驗中流失適格病患。
我們的解析器將其分解為義務算子。Prohibition:存在高血壓。Permission 條件:高血壓 AND 已受控制(依試驗計畫定義 BP 低於 140/90)AND 穩定藥物(相同的降血壓治療方案)AND 時間性約束(持續 3 個月以上)。系統接著從知識圖譜查詢病患的用藥史、辨識出降血壓藥物、檢查處方起始日期、計算相對於篩檢日期的期間差,並驗證觀察視窗內的血壓讀數。每一步都產出可驗證的輸出。
同樣的邏輯也能處理像「無先前化療,除非新輔助治療於 6 個月以前完成」這類鏈條,方法是檢查治療意圖屬性(新輔助對輔助對緩和)、結束日期與時間性差距。這些並非邊緣案例。IQVIA 資料顯示,如今試驗計畫平均有 27 條以上的適格性標準,許多帶有巢狀條件式。每項試驗計畫中一條被錯誤處理的例外條款,在數百位被篩檢的病患身上累加起來,便釀成數十件流失的收案。
典型的合作案分三個階段,歷時 14 至 20 週。第 1 階段(3 至 4 週)是招募作業稽核:我們分析你當前的篩檢失敗率、繪製你的 EHR 資料樣貌、檢閱你試驗計畫組合中 10 至 15 項具代表性的試驗計畫,並辨識出造成最多偽陽性與漏配的特定標準類型。此階段交付一份技術架構文件,以及一份基於你實際資料的 ROI 模型。
第 2 階段(8 至 12 週)是建構:為你的優先治療領域進行本體論開發、針對你的臨床註記模式進行 LLM 微調、知識圖譜建構、符號推理器設定,以及與你 EHR 環境的 FHIR 整合。第 3 階段(3 至 4 週)是驗證:針對已知收案結果的已完成試驗進行回溯性測試、準確度基準測試,以及協調員工作流程整合。
成本取決於範疇。單一治療領域、含一項 EHR 整合的建構,通常落在 $180K 至 $350K。多治療領域或多據點部署則隨本體論廣度與整合複雜度而擴增。相較之下,Tempus 與 IQVIA 的平台授權每年要價 $200K 至 $500K 以上,並另加每位病患或每項試驗的費用。
根本的經濟差異在於所有權。平台授權是帶有廠商鎖定的經常性支出。客製化建構則是你擁有、維護並擴充的資產。對於每年執行 20 項以上試驗的組織而言,客製化建構通常在 18 個月內就能與平台授權達到損益兩平,並具備匹配準確度可針對你特定試驗計畫複雜度調校的額外優勢。
FDA 於 2026 年 1 月更新的臨床決策支援指引是此處的相關框架。關鍵問題在於該系統是做出自主臨床決策,還是支援人類決策。
我們的架構是為《21 世紀醫療法案》第 3060 條下的 CDS 豁免而設計。該系統符合全部四項豁免標準:它無意取得、處理或分析醫學影像或訊號;它顯示建議的依據(完整的推理軌跡);它意在供具備獨立審查能力的醫療專業人員使用;且它在做出適格性判定時不取代臨床判斷。
實務上,這意味著系統輸出帶有信心分數與推理軌跡的排序病患與試驗匹配結果。在與任何病患接觸之前,據點協調員或臨床研究員會審查每一項匹配。該系統絕不自動收案。
話雖如此,FDA 對 CDS 範疇的詮釋仍持續變動。若你的組織計畫使用匹配輸出在無人類審查下自動排除病患,該系統可能跨入需要 510(k) 核准或 De Novo 分類的醫療器材範疇。我們建議在設計階段早期就與 FDA 的數位健康卓越中心接洽。我們將法規文件——包括 CDS 豁免理由、預期用途聲明與臨床評估報告——作為第 1 階段的標準交付成果來打造。
本解決方案頁面背後的研究。如需完整的技術架構、本體論設計理據與臨床驗證方法。
對神經符號架構、SNOMED-CT 整合、義務邏輯框架,以及用於臨床試驗病患匹配的 GraphRAG 實作的完整技術分析。
10 項試驗中 40% 的篩檢失敗率,意味著每年約 $480K 浪費在篩檢成本上,這還沒算進收案延遲。
我們從一場 3 至 4 週的招募作業稽核開始。你會得到一份架構文件、一份建立在你實際篩檢失敗資料上的 ROI 模型,以及一個關於客製化建構是否適合你試驗計畫組合的明確答案。