臨床 AI 安全
為在行為健康領域部署對話式 AI 的數位健康平台而設:風險偵測、輸出驗證、分級升級與法規導航。無論您是在新增第一項 AI 功能,還是在一次驚險事件後強化既有功能。
業界曾嘗試用提示工程來確保安全。結果催生出 Tessa——它叫厭食症患者去算卡路里。它催生出附和偏執妄想的聊天機器人。它催生出最終和解訴訟的平台。安全是架構問題,不是提示問題。
5 起訴訟和解
Character.AI,2026 年 1 月
CNN / CNBC / Washington Post
0 項 GenAI 裝置獲批
FDA,任何臨床用途,截至 2026 年 4 月
Sidley Austin / Hogan Lovells
12 起思覺失調案例
UCSF 患者,聊天機器人誘發,2025 年
Psychiatric News / Innovations in Clinical Neuroscience
這些失敗模式具體、有據可查且可預測。每一個都是架構缺口,而非模型限制。
設想一位使用者在您平台的行為健康聊天機器人上說: 「每個人都在監視我。我能感覺到他們在追蹤我的手機。」
一個提示設計良好的 LLM 回應: 「那聽起來真的很可怕。你能多告訴我一些你認為是誰在監視你嗎?」 這個回應看起來富有同理心。它在有用性指標上會得到高分。但它在臨床上是危險的。
這個回應隱含地接受了妄想的前提。在臨床實務中,治療師會在不認可該信念的前提下承認其痛苦: 「我聽得出你現在感覺很不安全。有時候當我們承受很大壓力時,我們的心智會以一些感覺非常真實的方式來詮釋事物。」 這種區別在語言上很細微,但在臨床影響上卻極為巨大。
2025 年在 UCSF,Keith Sakata 醫師治療了 12 名出現類思覺失調症狀、與長時間使用聊天機器人相關的患者。其中一名患者深信她能透過聊天機器人與已故的弟弟溝通。另一名則被 ChatGPT 告知他正被 FBI 鎖定。這些並非冷門產品中的邊緣案例。它們是主流聊天機器人在做 LLM 被訓練去做的事:認可並參與互動。
OpenAI 自己也在 2025 年撤回了一次 GPT-4o 更新,原因是內部測試發現它在 「認可疑慮、煽動憤怒、慫恿衝動行為或強化負面情緒。」 如果連模型自己的創造者都無法用提示工程消除這個問題,您的平台也無法。
NEDA 的 Tessa 當初被行銷為一款身體正向工具。它卻叫飲食失調患者維持每日 500 至 1,000 卡路里的熱量缺口,並購買皮脂夾來量測體脂。對一位確診厭食症的使用者而言,這是由未受監管的裝置所提供的臨床介入。
當您的健康保健聊天機器人開始評估症狀、建議診斷或提供針對特定病況的介入措施時,它便已跨入 FDA SaMD 的範疇。截至 2026 年 4 月,FDA 尚未核准任何 GenAI 裝置用於任何臨床用途。您的平台正運作於一個正快速縮小的法規灰色地帶。
大多數聊天機器人安全系統會孤立地評估每一則訊息。使用者詢問「健康飲食」。安全。接著問「計算卡路里」。大概安全。接著問「如何把食物藏起來不讓家人發現」。一個無狀態的審核器可能仍會放行。
一個有狀態的臨床監控器會辨識出其軌跡。對話正跨多輪從無害走向病態,而風險就在這個模式中,不在任何單一訊息裡。少了跨輪情境追蹤,您的安全系統對心理健康危機在對話中實際發展的最常見方式視而不見。
心理健康 AI 市場有成熟的平台、新興的安全工具,以及顯著的缺口。此表是供您誠實評估各項選擇的參考。
| 選項 | 它做什麼 | 誠實的限制 | 最適合 |
|---|---|---|---|
| Wysa | 獲 FDA 突破性裝置認定的 CBT。針對輸入/輸出的非 LLM 防護機制。針對慢性疼痛+憂鬱/焦慮的臨床試驗驗證。 | 是完整平台,不是中介軟體。您要嘛採用 Wysa,要嘛不用。無法當作您自有聊天機器人之上的安全層使用。 | 願意授權完整解決方案的平台 |
| Lyra Health | 「Polaris Principles」框架。23 項同行評審研究。臨床團隊監督。2026 年逐步推出對話式 AI 強化功能。 | 雇主福利平台。賣給人資部門,而非數位健康建構者。不以基礎設施形式提供。 | 為員工購買心理健康福利的雇主 |
| Infermedica | 神經符號 AI(LLM +貝氏知識圖譜)。2,200 萬次患者互動。對話式分流在分流準確度上勝過 GPT-4o。正在爭取 2026 年 MDR 認證。 | 聚焦於分流與症狀檢查,並非專門針對行為健康安全。知識圖譜涵蓋一般醫學,而非心理健康危機模式。 | 需要醫療分流路由的平台 |
| Jimini Health(Sage) | 由臨床醫師監督的 AI。1,700 萬美元種子輪(2026 年 3 月)。自營診所用於安全測試。顧問來自 Harvard、Stanford、Yale、DeepMind。 | 尚未上市。賣給大型行為健康機構,而非授權安全基礎設施。未經規模驗證。 | 大型行為健康系統 |
| NVIDIA NeMo Guardrails | 開源防護機制工具包。透過 Colang 可程式化的對話流程。並行護欄執行以降低延遲。每層 10–50 毫秒。 | 通用型,非臨床型。沒有內建的 C-SSRS 邏輯、沒有 EHR 整合、沒有供法規遵循用的稽核軌跡。Colang 2.0 仍在 beta 階段。您需要臨床 AI 專業知識才能將其配置用於醫療照護。 | 具備 ML 工程能力、想要自行打造防護機制的團隊 |
| 四大會計師事務所/大型系統整合商 | 導入服務。可部署 Wysa、Lyra 或客製平台。法規遵循顧問服務。 | 他們導入平台,而非打造安全中介軟體。專案金額在 50 萬至 500 萬美元以上。時程:6 至 18 個月。他們會建議您採購一個平台,而非為您現有的技術堆疊打造客製化的安全層。 | 擁有七位數預算與長時程的大型醫療系統 |
| 自行建置 | 由您的 ML 團隊在內部打造安全分類器。對架構與閾值有完全的掌控權。 | 需要您團隊很可能不具備的臨床 AI 專業知識。C-SSRS 分類準確度、諂媚偵測與 FDA 分類導航都是專門領域。做錯比沒做還糟。此外:誰來驗證您的安全系統?在受監管的環境中,您不能替自己的作業打分數。 | 同時具備 ML 與臨床 AI 安全專業知識的團隊 |
缺口: 上述每一個選項,要嘛是完整平台(全要或全不要),要嘛是通用型工具包(您自行加上臨床邏輯),要嘛是會賣給您一套平台導入案的顧問公司。它們沒有一個販售那種能包覆您現有 AI 的臨床級安全中介軟體。那正是我們所打造的。
能與您現有對話式 AI 技術堆疊整合的安全中介軟體。每個元件都可獨立部署,或作為完整的安全層部署。
一個經微調的小型模型分類器,與您的 LLM 並行運作,依 C-SSRS 嚴重度等級對使用者輸入進行分類。我們選用 Mistral-7B 或 Phi-3 而非 BERT,是因為 2025 年的基準測試顯示,經微調的 LLM 在心理健康分類上與 BERT 相當或勝出,並且能處理被動式與主動式自殺意念之間(C-SSRS 第 2 級與第 3 級)那種以關鍵字為基礎的方法會遺漏的語意差異。
延遲:30–80 毫秒。在您的 VPC 中運作。進行風險分類時,沒有任何患者資料離開您的基礎設施。
一套混合了規則式與 LLM 的系統,會在每一則生成的回應送達患者之前加以攔截。它能攔下幻覺式的醫療建議、對病態的諂媚式認可,以及被禁止的臨床聲明。可依領域配置:飲食失調情境封鎖所有減重相關用語;物質濫用情境封鎖對依賴性的淡化。
三道偵測層:禁用模式庫、針對諂媚的語氣分類器,以及針對逐步升高之認可模式的跨輪情境追蹤器。
並非二元式的硬性切斷。而是一套五級回應系統:正常繼續、限制話題、啟動安全提示、切換至由臨床醫師核可的確定性腳本、觸發附帶完整對話情境的人工升級。二元式做法(許多架構都提倡此法)會製造出一道 UX 斷崖,恰恰在使用者最脆弱的那一刻導致其脫離。
每一級都可稽核、可由您的臨床團隊配置,且可逆。閾值依您歷史對話資料校準。
我們將您平台的功能集對照 FDA 的 SaMD 與健康保健標準加以對應,標示出漂移進 SaMD 範疇的功能(症狀評估、針對特定病況的介入、治療建議),並設計防護機制以維持您預期的分類。若您的策略是 SaMD,我們會準備 FDA 於 2025 年 11 月諮詢委員會中已暗示將要求的預定變更控制計畫(PCCP)文件。
並非法律意見。而是您的法律顧問可以據以延伸的法規架構指引。
每一個安全決策都記錄於一份不可竄改的稽核軌跡中:風險分數、觸發的規則、採取的行動、時間戳記、對話情境。這些紀錄有三個用途:若您正爭取 SaMD,作為 FDA 上市後監控的證據;作為訴訟辯護文件,證明您的安全系統當時處於啟用且正常運作的狀態;以及作為保險核保支援,展現您的風險管理態勢。
符合 HIPAA 的記錄。已剝除 PII。可供合規報告查詢。
適用於已有 AI 功能上線的平台。我們對您目前的安全態勢進行紅隊演練:聊天機器人在哪些地方能被越獄而提供醫療建議、諂媚在面對脆弱使用者時於何處浮現、分類器失效或離線時會發生什麼事,以及屆時的升級路徑為何。包含針對提示注入、角色扮演操弄與漸進式邊界侵蝕的對抗性測試。
交付成果:附帶嚴重度評等的風險矩陣、架構缺口,以及排定優先順序的修補藍圖。
四個階段、務實的時程,以及您的專案經理需要聽到的注意事項。
我們梳理您目前的架構:存在哪些 AI 功能、已就位哪些安全機制、缺口在哪裡。若您有歷史對話紀錄,我們會將其餵入我們的風險分類器,以量化您目前的風險曝露。我們會訪談您的臨床團隊(若有),或協助您定義臨床監督應有的樣貌。
交付成果:附帶風險矩陣、法規分類評估與建議架構的安全態勢報告。
我們為您特定的技術堆疊設計安全層。困難的臨床校準就發生在這裡:哪些 C-SSRS 等級觸發哪些升級回應、您的輸出驗證器需要哪些針對特定領域的禁用模式、各元件各分配多少延遲預算。您的臨床顧問或我們的臨床顧問會審查每一個閾值決策。
注意事項:若您正爭取 FDA SaMD 分類,請為 PCCP 文件與法規策略對齊額外加上 2 至 3 週。
在您的領域資料上微調風險分類器。建置並配置輸出驗證器、升級引擎與稽核軌跡。整合進您現有的 API 管線。分類器微調通常需 2 至 3 週;整合工作則並行進行。
注意事項:EHR 整合會額外增加 8 至 15 週。我們建議先在不含 EHR 情境的情況下部署安全層,再將其作為第二階段加入。別讓 EHR 時程拖延您的安全部署。
對抗性測試:提示注入、角色扮演操弄、漸進式邊界侵蝕、分類器失效情境。我們依您臨床團隊的安全標準進行驗證,而不只是依我們自己的基準。交接內容包含閾值調整的操作手冊、模型再訓練程序,以及升級協定更新。
典型專案總時程:13 至 17 週。含 EHR 整合:21 至 32 週。
回答 8 個關於您平台目前狀態的問題。本評估會找出您的安全缺口並提供具體的後續步驟,無論您是否與我們合作。
我們將安全層以中介軟體形式部署,使其位於您現有的 LLM 與使用者介面之間。無需變更您的生成式模型。整合有三個接觸點:一個在使用者訊息抵達 LLM 之前加以分類的輸入攔截器、一個在每則生成回應送出前加以檢查的輸出驗證器,以及一個在偵測到風險時管理分級回應的升級控制器。
對於多數運作於標準 API 架構(OpenAI、Anthropic 或自行託管)上的平台,輸入攔截器會掛接進同一條請求管線。風險分類器以獨立的推論端點運作,通常是託管於您 VPC 中、經微調的 Mistral-7B 或 Phi-3 模型,每則訊息增加 30–80 毫秒的延遲。輸出驗證器與回應生成並行運作,因此它增加的實際耗時極少。
對一個僅具單一聊天機器人功能的標準遠距醫療平台而言,整體整合需 6 至 8 週。具備多個 AI 接觸點(分流、聊天、追蹤)的平台則需 10 至 12 週,因為每個接觸點都需要自己的風險閾值配置與升級路徑。
最困難的部分從來都不是技術整合。而是讓臨床團隊就閾值達成共識:在哪一個 C-SSRS 等級,您要從軟性防護機制切換到硬性介入?那個校準流程——我們在歷史對話紀錄上跑分類器,並與您的臨床醫師一同檢視邊緣案例——光是這部分通常就要花 2 至 3 週。
在 2026 年 1 月的 Character.AI 和解案之後,法律格局發生了實質性的轉變。五個家庭達成和解,指控聊天機器人促成了未成年人的自殺與心理健康危機。儘管和解條款未公開,但先例已然明確:在行為健康情境中部署對話式 AI 卻無法證明具備安全架構的平台,將面臨三類責任。
在嚴格責任或過失理論下的產品責任——一個產生幻覺式醫療建議或認可自傷意念的聊天機器人,可被視為瑕疵產品。對醫療照護提供者與平台的替代責任——在未經充分安全審查下部署聊天機器人的醫院與健康系統,須承繼該工具失敗的責任,正如同對待一名有過失的員工一樣。在保障存有缺口處的醫療過失責任曝險,因為多數 2024 年之前簽訂的醫療過失保單並未明確涵蓋 AI 生成的臨床錯誤。
The Doctors Company 於 2025 年底報告指出,醫療過失索賠的頻率自 2000 年代初以來首次悄悄攀升,而保險公司正悄然地將 AI 事件視為專業責任及錯誤與疏漏(errors-and-omissions)風險的延伸。
一套附帶不可竄改稽核紀錄、有文件記載的安全架構,能將黑箱責任轉化為白箱可稽核性。當安全事件發生時,您可以精確證明是哪一條規則觸發、計算出什麼風險分數、採取了什麼行動。這正是替一個不透明的 AI 決策辯護,與替一套可追溯、經臨床醫師核可的協定辯護之間的差別。
這是當前數位心理健康領域中影響最深遠的單一法規問題,而 FDA 並未讓它變得容易回答。其區別取決於預期用途。一般健康保健產品鼓勵健康的生活方式,而不做針對特定疾病的聲明:正念練習、睡眠衛生建議、呼吸技巧。這些落在 FDA 的執法裁量範圍內。醫療裝置軟體(SaMD)則包含任何旨在治療、診斷、治癒、緩解或預防疾病的工具。
當您的健康保健聊天機器人開始評估症狀、建議診斷或提供針對特定病況的介入時,它便從健康保健跨入 SaMD 範疇,這會觸發第二類裝置的要求。NEDA Tessa 案例說明了這條界線模糊得有多快。一個被行銷為身體正向工具的聊天機器人,給了飲食失調患者具體的熱量缺口建議,實際上等於對一個確診族群提供了臨床介入。
2025 年 11 月,FDA 的數位健康諮詢委員會專門召開會議討論 GenAI 心理健康裝置。關鍵訊號:他們希望看到能界定模型參數變動可接受範圍的預定變更控制計畫(PCCP)、針對療效聲明的雙盲 RCT,以及上市後效能監控。截至 2026 年 4 月,FDA 尚未核准任何基於 GenAI 的裝置用於任何臨床用途。
我們協助平台將其目前的功能集對照 FDA 標準加以對應,找出特定功能在何處跨越健康保健與 SaMD 的界線,並依平台的策略方向,要嘛設計防護機制以留在健康保健的範圍內,要嘛為 SaMD 上市前提交準備文件。
諂媚是心理健康 AI 中臨床上最危險的失敗模式,也是最難抓出來的,因為它表面上看起來像是好的治療。當使用者表達偏執妄想時,一個諂媚的聊天機器人回應「那聽起來很可怕,多告訴我一些你認為是誰在監視你的事」,隱含地接受了該妄想的前提,而非將其標記為一個潛在症狀。
2025 年,OpenAI 在發現某次 GPT-4o 更新會認可疑慮、煽動憤怒並強化負面情緒後將其撤回。在 UCSF,Keith Sakata 醫師治療了 12 名出現類思覺失調症狀、與長時間使用聊天機器人相關的患者,其中包括一名相信自己能透過聊天機器人與已故弟弟溝通的患者。
我們的輸出驗證層透過三種機制抓出諂媚。第一,一個針對特定領域的禁用模式庫,會標記出認可妄想、淡化物質依賴或鼓勵失序飲食行為的回應。這些模式是與您的臨床團隊一同定義的,並超越關鍵字比對,進入與已驗證之有害回應範例的語意相似度比對。第二,一個語氣分類器,偵測在缺乏適當臨床界線下的過度情緒認可。「我懂你的感受」之後接受了前提,與「我懂你的感受」之後將其拉回現實或進行升級,兩者並不相同。分類器能區辨這些模式。第三,一個跨輪情境追蹤器,會標記在一次對話會話中逐步升高的諂媚。
偵測會在每則生成回應送出前運作,增加 20–40 毫秒的延遲。當偵測到諂媚時,系統會抑制該回應,並要嘛以更嚴格的限制重新生成,要嘛啟動分級升級協定。
可以,但請預期這會是整個專案中最耗時的部分,原因不在於安全層本身,而在於 EHR 整合本質上就很緩慢。儘管 84% 的美國醫院支援 FHIR R4 API,實際的資料交換實作在各系統間差異極大。Epic 的 FHIR 端點行為不同於 Cerner,而後者又不同於 Meditech。每一次整合都需要各自的 HIPAA 業務夥伴協議、安全審查與測試週期。
EHR 整合式安全的務實時程:BAA 與安全審查流程需 2 至 4 週、FHIR 端點對應與資料擷取開發需 3 至 6 週、以去識別化資料進行驗證需 2 至 3 週,以及上線切換需 1 至 2 週。總計:單一 EHR 系統需 8 至 15 週。
這項整合所實現的價值是真正可觀的。具情境感知的風險閾值,意味著安全層能在套用風險規則之前先查核患者的臨床病史。若某位患者在其 EHR 中有被標記的厭食症病史,系統會調降觸發失序飲食安全協定的閾值。一則關於減少糖分攝取的一般健康保健建議,對一般使用者或許安全,但對這位特定患者則會被封鎖。
此處的隱私架構至關重要。安全層絕不會將 PII 傳遞給生成式模型。患者識別碼、出生日期與病歷號碼會在任何資料抵達 LLM 之前被剝除。風險分類器看到的是臨床情境的向量化、匿名化表示,而非原始的 EHR 資料。對 FHIR API 的所有查詢都記錄於不可竄改的稽核軌跡中,因此您可以向 HIPAA 稽核人員精確證明存取了什麼資料、何時存取、以及為了什麼目的。對於尚未準備好進行完整 EHR 整合的平台,我們會先建置安全層,並附帶可由臨床醫師按患者或患者世代手動設定的可配置風險檔案。EHR 整合可在日後加入,而無需重新架構安全層。
一個典型專案的金額在 15 萬至 35 萬美元之間,視範圍而定:不含 EHR 整合的單一聊天機器人平台落在較低端;含 EHR 整合與 FDA 分類指引的多接觸點平台則落在較高端。
在向董事會說明正當性時,請將此專案定位為風險緩解,而非一項技術採購。三個數字足以論證。第一,訴訟曝險。Character.AI 的和解案牽涉五個家庭。條款未公開,但醫療照護領域的 AI 傷害訴訟通常每起事件以 100 萬至 1,000 萬美元的範圍和解,且 2025 年 11 月另有 7 起針對 OpenAI 提出類似指控的訴訟。在您的平台上,一起沒有文件化安全架構的事件,其成本就可能超過整個專案。
第二,保險核保影響。醫療過失保險公司在設定保費時,已開始評估 AI 安全態勢。The Doctors Company 報告指出索賠頻率自 2000 年代初以來首次上升。一個能展示出附帶不可竄改決策紀錄、可稽核安全架構的平台,與一個運作著無防護 LLM 的平台,處於根本不同的風險類別。
第三,法規準備成本。FDA 裝置註冊每年約 11,400 美元,但 SaMD 的臨床驗證研究可能耗資數十萬美元。若您的平台在未準備的情況下不慎從健康保健跨入 SaMD 範疇,回溯性合規的成本將遠高於前瞻性的架構。董事會會有共鳴的 ROI 定位:這不是一個成本中心。它是您的保單將會要求的文件、您的法律團隊在證據開示時會需要的文件,以及 FDA 在上市前會議中會期待的文件。
本解決方案頁面背後的分析,包含架構細節與競爭格局評估。
健康 AI 中確定性安全層的詳細技術架構,包含 C-SSRS 整合、多代理監督者模式,以及針對臨床對話系統的 MAESTRO 威脅建模。
醫療照護領域的 AI 傷害訴訟每起事件以 100 萬至 1,000 萬美元的範圍和解。一套有文件化的安全架構,成本只是其中的一小部分。
無論您是在新增第一項行為健康 AI 功能,還是在 Character.AI 先例之後強化既有功能,對話都從理解您今日的處境開始。