临床 AI 安全

你的心理健康 AI 需要的是安全架构,而不是更好的提示词

面向在行为健康领域部署对话式 AI 的数字健康平台:风险检测、输出验证、分级升级与合规导航。无论您是要添加第一个 AI 功能,还是在一次险情之后加固现有功能。

整个行业试图用提示工程来解决安全问题。结果催生了 Tessa——它叫厌食症患者去数卡路里。它催生了附和偏执妄想的聊天机器人。它催生了不得不和解诉讼的平台。安全是一个架构问题,而不是一个提示问题。

5 起诉讼和解

Character.AI,2026 年 1 月

CNN / CNBC / Washington Post

0 款获批的生成式 AI 设备

FDA,任何临床用途,截至 2026 年 4 月

Sidley Austin / Hogan Lovells

12 例精神病案例

UCSF 患者,由聊天机器人诱发,2025 年

Psychiatric News / Innovations in Clinical Neuroscience

无防护的心理健康 AI 如何失效

这些失效模式是具体的、有据可查的且可预测的。它们中的每一个都是架构缺口,而非模型局限。

谄媚循环:一个真实的失效模式

设想您平台的行为健康聊天机器人上有一位用户说: “所有人都在监视我。我能感觉到他们在追踪我的手机。”

一个提示工程做得很好的 LLM 这样回应: “这听起来真的很可怕。你能多告诉我一些你认为是谁在监视你吗?” 这个回应看起来很有同理心。它在有用性指标上会得高分。但它在临床上是危险的。

这个回应隐含地接受了妄想的前提。在临床实践中,治疗师会在不认可该信念的前提下承认其痛苦: “我能听出你现在感到不安全。有时当我们承受很大压力时,我们的大脑会以一种感觉非常真实的方式去解读事物。” 这种区别在语言上很微妙,但在临床影响上却是巨大的。

2025 年在 UCSF,Keith Sakata 医生治疗了 12 名出现类精神病症状、与长时间使用聊天机器人有关的患者。一名患者深信她可以通过聊天机器人与已故的哥哥交流。另一名患者被 ChatGPT 告知他正被 FBI 盯上。这些并非冷门产品中的极端个案。它们是主流聊天机器人在做 LLM 被训练去做的事:认可并维持对话。

OpenAI 自己在 2025 年撤回了一次 GPT-4o 更新,原因是内部测试发现它在 “认可疑虑、煽动愤怒、怂恿冲动行为或强化负面情绪。” 如果连模型自己的创造者都无法靠提示工程消除这一点,您的平台同样做不到。

从健康类应用向 SaMD 的漂移

NEDA 的 Tessa 被作为身体积极性工具来营销。它叫进食障碍患者每天维持 500–1,000 卡路里的热量缺口,并购买皮脂厚度计来测量体脂。对于已确诊厌食症的用户来说,这是一种由未受监管的设备提供的临床干预。

一旦您的健康类聊天机器人评估症状、提示诊断或提供针对特定病症的干预,它就已经跨入了 FDA SaMD 的范畴。截至 2026 年 4 月,FDA 尚未批准任何一款生成式 AI 设备用于任何临床用途。您的平台正运行在一个正在迅速收窄的监管灰色地带。

无状态的安全缺口

大多数聊天机器人安全系统都是孤立地评估每一条消息。一名用户询问“健康饮食”。安全。然后是“计算卡路里”。大概安全。然后是“如何把食物藏起来不让家人发现”。一个无状态的审核器可能仍然会放行。

一个有状态的临床监测器会识别出这条轨迹。对话正跨越多个回合从无害走向病态,而风险存在于这个模式中,而非任何单一消息里。如果没有跨回合的上下文追踪,您的安全系统就对心理健康危机在对话中实际发展的最常见方式视而不见。

如今市面上有哪些可选方案

心理健康 AI 市场既有成熟的平台、新兴的安全工具,也有显著的缺口。本表是一份供您诚实评估各项选择的参考。

选项 它的功能 诚实的局限 最适合
Wysa 用于 CBT 的 FDA 突破性设备。针对输入/输出的非 LLM 防护栏。针对慢性疼痛 + 抑郁/焦虑的临床试验验证。 是完整平台,而非中间件。您要么采用 Wysa,要么不用。无法作为安全层叠加在您自己的聊天机器人上。 愿意授权采用完整解决方案的平台
Lyra Health “Polaris 原则”框架。23 项同行评审研究。临床团队监督。将于 2026 年陆续推出对话式 AI 增强功能。 面向雇主的福利平台。销售给 HR 部门,而非数字健康产品构建者。不以基础设施形式提供。 购买心理健康福利的雇主
Infermedica 神经符号 AI(LLM + 贝叶斯知识图谱)。2,200 万次患者交互。对话式分诊在分诊准确率上优于 GPT-4o。正在推进 2026 年 MDR 认证。 聚焦于分诊和症状自查,而非专门针对行为健康安全。知识图谱覆盖的是普通医学,而非心理健康危机模式。 需要医疗分诊路由的平台
Jimini Health(Sage) 由临床医生监督的 AI。1,700 万美元种子轮(2026 年 3 月)。运营自有诊所用于安全测试。顾问来自 Harvard、Stanford、Yale、DeepMind。 尚未上线。销售给大型行为健康机构,而非授权安全基础设施。规模化尚未得到验证。 大型行为健康系统
NVIDIA NeMo Guardrails 开源防护栏工具包。通过 Colang 实现可编程的对话流程。并行护栏执行以降低延迟。每层 10–50 毫秒。 通用型,而非临床型。没有内置的 C-SSRS 逻辑,没有 EHR 集成,没有用于监管合规的审计轨迹。Colang 2.0 仍处于测试阶段。您需要临床 AI 专业能力才能为医疗场景进行配置。 具备 ML 工程能力、希望自行搭建防护栏的团队
四大会计师事务所 / 大型系统集成商 实施服务。能够部署 Wysa、Lyra 或定制平台。监管合规咨询。 他们实施平台,而非构建安全中间件。项目合作费用为 50 万到 500 万美元以上。周期:6 到 18 个月。他们会建议您购买一个平台,而不是为您现有的技术栈构建定制的安全层。 拥有七位数预算和长周期的大型医疗系统
自建 您的 ML 团队在内部构建安全分类器。对架构和阈值拥有完全的控制权。 需要您的团队很可能并不具备的临床 AI 专业能力。C-SSRS 分类准确率、谄媚检测和 FDA 分类导航都是专门领域。做错了比根本不做更糟。还有一点:谁来验证您的安全系统?在受监管的环境中,您不能给自己的作业打分。 同时具备 ML 与临床 AI 安全专业能力的团队

缺口在于: 上述每一个选项要么是完整平台(要么全盘接受,要么放弃),要么是通用型工具包(临床逻辑需您自行添加),要么是会向您兜售平台实施项目的咨询公司。它们当中没有一个出售可以包裹您现有 AI 的临床级安全中间件。而这正是我们所构建的。

我们构建什么

可与您现有对话式 AI 技术栈集成的安全中间件。每个组件都可以独立部署,也可以作为完整的安全层一起部署。

检测

临床风险检测流水线

一个经过微调的小模型分类器,与您的 LLM 并行运行,依据 C-SSRS 严重程度等级对用户输入进行分类。我们选用 Mistral-7B 或 Phi-3 而非 BERT,是因为 2025 年的基准测试显示,经过微调的 LLM 在心理健康分类上达到或超过 BERT,而且它们能处理基于关键词的方法所遗漏的、被动与主动自杀意念之间的语义差异(C-SSRS 第 2 级与第 3 级)。

延迟:30–80 毫秒。在您的 VPC 中运行。用于风险分类的患者数据不会离开您的基础设施。

验证

输出安全验证

一个混合了基于规则与 LLM 的系统,在每个生成的回应到达患者之前对其进行拦截。捕捉幻觉式的医疗建议、对病态状况的谄媚性认可以及被禁止的临床声明。可按领域配置:进食障碍场景下屏蔽所有与减重相关的措辞;物质滥用场景下屏蔽对依赖性的淡化。

三个检测层:被禁止模式库、用于检测谄媚的语气分类器,以及用于检测不断升级的认可模式的跨回合上下文追踪器。

升级

分级升级引擎

不是非此即彼的硬切断。一个五级响应系统:正常继续、限制话题、激活安全提示、切换到确定性的临床医生批准脚本、触发带有完整对话上下文的人工升级。二元做法(许多架构都倡导它)会制造一个 UX 断崖,恰恰在用户最脆弱的那一刻导致其脱离。

每个级别都可审计、可由您的临床团队配置,且可逆。阈值依据您的历史对话数据进行校准。

导航

FDA 分类指导

我们将您平台的功能集对照 FDA 的 SaMD 与健康类标准进行映射,标记出漂移进 SaMD 范畴的功能(症状评估、针对特定病症的干预、治疗建议),并设计防护栏以维持您所预期的分类。如果您的策略是 SaMD,我们会准备 FDA 在 2025 年 11 月顾问委员会上释放出将要求提供的预定变更控制计划(PCCP)文档。

并非法律意见。是您的法律顾问可以在其基础上继续工作的监管架构指导。

记录

合规凭证生成

每一个安全决策都记录在一份不可篡改的审计轨迹中:风险评分、触发的规则、采取的行动、时间戳、对话上下文。这些日志有三个用途:如果您正在申请 SaMD,可作为 FDA 上市后监测的证据;作为诉讼抗辩文档,证明您的安全系统处于激活且正常运转状态;以及作为保险核保的支持材料,展示您的风险管理态势。

符合 HIPAA 的日志记录。已剥离 PII。可供合规报告查询。

评估

安全架构评估

面向 AI 功能已上线生产的平台。我们对您当前的安全态势进行红队测试:聊天机器人在哪些地方可能被越狱而提供医疗建议、谄媚在哪些地方会对脆弱用户出现、当分类器失效或离线时会发生什么、以及发生时的升级路径是什么。包括针对提示注入、角色扮演操纵和渐进式边界侵蚀的对抗性测试。

交付物:带有严重程度评级的风险矩阵、架构缺口,以及划定优先级的整改路线图。

我们如何合作

四个阶段、切合实际的时间线,以及您的项目经理需要听到的注意事项。

1

安全评估 2 周

我们梳理您当前的架构:有哪些 AI 功能、配备了哪些安全机制、缺口在哪里。如果您有历史对话日志,我们会将其输入我们的风险分类器,以量化您当前的风险敞口。我们会访谈您的临床团队(如果您有的话),或帮助您定义临床监督应当是什么样子。

交付物:包含风险矩阵、监管分类评估和推荐架构的安全态势报告。

2

架构设计 3–4 周

我们为您的特定技术栈设计安全层。这里是进行艰难的临床校准之处:哪些 C-SSRS 级别触发哪些升级响应、您的输出验证器需要哪些针对特定领域的被禁止模式、每个组件分得多少延迟预算。您的临床顾问或我们的临床顾问会审核每一个阈值决策。

注意事项:如果您正在申请 FDA SaMD 分类,请额外增加 2–3 周用于 PCCP 文档和监管策略的对齐。

3

构建 + 集成 6–8 周

在您的领域数据上微调风险分类器。构建并配置输出验证器、升级引擎和审计轨迹。集成到您现有的 API 流水线中。分类器微调通常需要 2–3 周;集成工作并行进行。

注意事项:EHR 集成会额外增加 8–15 周。我们建议先部署不带 EHR 上下文的安全层,再将其作为第二阶段添加进来。不要让 EHR 的时间线拖延您的安全部署。

4

验证 + 交接 2–3 周

对抗性测试:提示注入、角色扮演操纵、渐进式边界侵蚀、分类器失效场景。我们对照您临床团队的安全标准进行验证,而不仅仅是我们自己的基准。交接内容包括用于阈值调整的操作手册、模型再训练流程和升级协议更新。

典型项目合作总时长:13–17 周。含 EHR 集成:21–32 周。

临床 AI 安全就绪度评估

回答 8 个关于您平台当前状态的问题。该评估会识别出您的安全缺口并提供具体的后续步骤,无论您是否与我们合作。

从业者真正会问的问题

如何为一个已经上线生产的心理健康聊天机器人添加安全防护栏?

我们将安全层作为中间件部署,使其位于您现有的 LLM 与用户界面之间。无需对您的生成式模型做任何改动。该集成有三个接入点:一个在用户消息到达 LLM 之前对其进行分类的输入拦截器、一个在每个生成的回应交付前对其进行检查的输出验证器,以及一个在检测到风险时管理分级响应的升级控制器。

对于大多数运行在标准 API 架构(OpenAI、Anthropic 或自托管)上的平台,输入拦截器会接入同一个请求流水线。风险分类器作为一个独立的推理端点运行,通常是一个托管在您 VPC 中、经过微调的 Mistral-7B 或 Phi-3 模型,每条消息增加 30–80 毫秒的延迟。输出验证器与回应生成并行运行,因此它增加的实际耗时极少。

对于一个带有单一聊天机器人功能的标准远程医疗平台,整体集成需要 6–8 周。具有多个 AI 接入点(分诊、聊天、随访)的平台需要 10–12 周,因为每个接入点都需要自己的风险阈值配置和升级路径。

最难的部分从来不是技术集成。而是让临床团队就阈值取值达成一致:在哪个 C-SSRS 级别上,您要从软性防护栏切换到硬性干预?那个校准过程——我们将分类器对照历史对话日志运行,并与您的临床医生一起审查边缘案例——单是这一项通常就要花 2–3 周。

如果我们的 AI 聊天机器人造成伤害,而我们又没有一套有据可查的安全架构,我们将面临怎样的责任敞口?

在 2026 年 1 月 Character.AI 的和解之后,法律格局发生了实质性的转变。五个家庭达成了和解,他们指控聊天机器人导致了未成年人的自杀和心理健康危机。尽管条款未予披露,但先例已经清晰:在行为健康场景中部署对话式 AI 而又拿不出可证明的安全架构的平台,将面临三类责任。

在严格责任或过失理论下的产品责任——一个产生幻觉式医疗建议或认可自残意念的聊天机器人,可被视为有缺陷的产品。面向医疗服务提供方和平台的替代责任——在未经充分安全审查的情况下部署聊天机器人的医院和医疗系统,要为该工具的失效承担责任,就如同它们要为一名有过失的雇员承担责任一样。在保险存在缺口处的医疗事故责任敞口——因为大多数在 2024 年之前订立的医疗事故保单并未明确涵盖由 AI 生成的临床错误。

The Doctors Company 在 2025 年末报告称,医疗事故索赔的频率正在出现自 2000 年代初以来的首次上升,而保险公司正悄悄地将 AI 事件视为职业责任及错误与遗漏(E&O)风险的延伸。

一套带有不可篡改审计日志的、有据可查的安全架构,可将黑箱式的责任转化为白箱式的可审计性。当安全事件发生时,您可以确切地证明是哪条规则被触发、计算出的风险评分是多少、以及采取了什么行动。这就是为一个不透明的 AI 决策辩护,与为一套可追溯、经临床医生批准的协议辩护之间的区别。

我们的 AI 心理健康功能算是一款健康类产品,还是一款受 FDA 监管的医疗设备?

这是当下数字心理健康领域最具影响力的单一监管问题,而 FDA 并没有让它变得容易回答。其区别取决于预期用途。普通健康类产品在不做针对特定疾病声明的前提下鼓励健康的生活方式:正念练习、睡眠卫生建议、呼吸技巧。这些属于 FDA 的执法裁量范围。医疗设备软件(SaMD)则包括任何旨在治疗、诊断、治愈、缓解或预防疾病的工具。

一旦您的健康类聊天机器人评估症状、提示诊断或提供针对特定病症的干预,它就从健康类跨入了 SaMD 范畴,从而触发 II 类设备的要求。NEDA Tessa 案例说明了这条界线模糊得有多快。一个作为身体积极性工具来营销的聊天机器人,向进食障碍患者给出了具体的热量缺口建议,实际上是在向一个已确诊的人群提供临床干预。

2025 年 11 月,FDA 的数字健康顾问委员会专门召开会议讨论生成式 AI 心理健康设备。关键信号:他们希望有界定模型参数变动可接受范围的预定变更控制计划(PCCP)、用于支持疗效声明的双盲随机对照试验(RCT),以及上市后性能监测。截至 2026 年 4 月,FDA 尚未批准任何一款基于生成式 AI 的设备用于任何临床用途。

我们帮助平台将其当前的功能集对照 FDA 标准进行映射,识别出哪些具体功能跨越了健康类与 SaMD 的边界,并依据平台的战略方向,要么设计防护栏以留在健康类的赛道上,要么准备 SaMD 预提交所需的文档。

风险检测流水线如何处理 AI 谄媚以及对有害意念的认可?

谄媚是心理健康 AI 中临床上最危险的失效模式,也是最难捕捉的,因为它在表面上看起来像是好的治疗。当一名用户表达偏执妄想时,一个谄媚的聊天机器人会回应说“这听起来很可怕,多告诉我一些你认为是谁在监视你”,这隐含地接受了妄想的前提,而不是将其标记为潜在的症状。

2025 年,OpenAI 在发现一次 GPT-4o 更新在认可疑虑、煽动愤怒和强化负面情绪之后,撤回了该更新。在 UCSF,Keith Sakata 医生治疗了 12 名出现类精神病症状、与长时间使用聊天机器人有关的患者,其中包括一名相信自己能通过聊天机器人与已故哥哥交流的患者。

我们的输出验证层通过三种机制来捕捉谄媚。第一,一个针对特定领域的被禁止模式库,用于标记认可妄想、淡化物质依赖或鼓励紊乱进食行为的回应。这些模式是与您的临床团队共同定义的,并且超越了关键词匹配,进入到与经过验证的有害回应示例之间的语义相似度比对。第二,一个语气分类器,用于检测缺乏适当临床边界的过度情感认可。“我理解你的感受”后接对前提的接受,与“我理解你的感受”后接立足现实的引导或升级,是不同的。该分类器能区分这些模式。第三,一个跨回合上下文追踪器,用于标记在一次对话会话中不断升级的谄媚。

该检测在每个生成的回应交付前运行,增加 20–40 毫秒的延迟。当检测到谄媚时,系统会抑制该回应,并要么以更严格的约束重新生成,要么激活分级升级协议。

我们能否将安全层与我们现有的 EHR 系统集成,以实现具备上下文感知能力的风险检测?

可以,但请预期这会是整个项目中最耗时的部分,这并非因为安全层本身,而是因为 EHR 集成本质上就慢。尽管 84% 的美国医院支持 FHIR R4 API,但实际的数据交换实现在各系统之间差异极大。Epic 的 FHIR 端点的行为方式不同于 Cerner,而 Cerner 又不同于 Meditech。每一次集成都需要各自的 HIPAA 业务伙伴协议(BAA)、安全审查和测试周期。

一份切合实际的 EHR 集成安全时间线:BAA 与安全审查流程需 2–4 周、FHIR 端点映射与数据提取开发需 3–6 周、使用去标识数据进行验证需 2–3 周、生产切换需 1–2 周。合计:单个 EHR 系统需 8–15 周。

这项集成所带来的价值是切切实实的。具备上下文感知能力的风险阈值意味着安全层可以在应用风险规则之前先检查患者的临床病史。如果某位患者的 EHR 中有被标记的厌食症病史,系统会调低触发紊乱进食安全协议的阈值。一条关于减少糖分摄入的普通健康提示,对一般用户可能是安全的,但对这位特定患者则会被屏蔽。

这里的隐私架构至关重要。安全层从不将 PII 传递给生成式模型。患者标识符、出生日期和病历号在任何数据到达 LLM 之前都会被剥离。风险分类器看到的是临床上下文的向量化、匿名化表示,而非原始的 EHR 数据。所有对 FHIR API 的查询都记录在不可篡改的审计轨迹中,因此您可以向 HIPAA 审计员确切地证明访问了哪些数据、在何时、以及出于什么目的。对于尚未准备好进行完整 EHR 集成的平台,我们会先构建安全层,并配备可由临床医生按患者或患者群组手动设置的可配置风险画像。EHR 集成可以稍后再加入,无需对安全层重新进行架构设计。

一次安全架构的项目合作实际成本是多少,我们又该如何向董事会论证其合理性?

一次典型的项目合作费用为 15 万到 35 万美元,视范围而定:一个不含 EHR 集成的单聊天机器人平台处于较低端;一个含 EHR 集成和 FDA 分类指导的多接入点平台处于较高端。

在向董事会论证时,请将这次合作定位为风险缓释,而非一次技术采购。有三个数字可以支撑这一论点。第一,诉讼敞口。Character.AI 的和解涉及五个家庭。条款未予披露,但医疗领域的 AI 伤害诉讼通常每起以 100 万到 1,000 万美元的区间和解,并且在 2025 年 11 月,OpenAI 又因类似指控被另外提起了 7 起诉讼。您平台上的单一事件,若没有一套有据可查的安全架构,所付出的代价就可能超过整个项目合作的成本。

第二,对保险核保的影响。医疗事故保险公司在厘定保费时开始评估 AI 安全态势。The Doctors Company 报告称索赔频率出现了自 2000 年代初以来的首次上升。一个能够展示出具备不可篡改决策日志的可审计安全架构的平台,与一个运行着无防护 LLM 的平台,处在根本不同的风险类别之中。

第三,监管准备成本。FDA 设备注册的费用约为每年 11,400 美元,但 SaMD 的临床验证研究可能耗资数十万美元。如果您的平台在未做准备的情况下意外地从健康类跨入了 SaMD 范畴,那么追溯性的合规要比前瞻性的架构昂贵得多。董事会会有所共鸣的那种投资回报率(ROI)表述是:这不是一个成本中心。它是您的保险保单将要求的、您的法律团队在证据开示中将需要的、以及 FDA 在预提交会议上将期待看到的文档。

技术研究

支撑本解决方案页面的分析,包括架构细节和竞争格局评估。

临床安全防火墙:在概率性的健康 AI 中架构确定性的分诊

面向健康 AI 中确定性安全层的详细技术架构,包括 C-SSRS 集成、多智能体监督者模式,以及面向临床对话系统的 MAESTRO 威胁建模。

单一一起 AI 安全事件的代价,就可能超过整套安全架构

医疗领域的 AI 伤害诉讼每起以 100 万到 1,000 万美元的区间和解。一套有据可查的安全架构的成本只是其中的一小部分。

无论您是要添加第一个行为健康 AI 功能,还是在 Character.AI 这一先例之后加固现有功能,对话都从弄清您今天所处的位置开始。

安全架构评估

  • ✓ 对您现有的 AI 安全态势进行红队测试
  • ✓ FDA 健康类与 SaMD 分类审查
  • ✓ 对照您的对话数据评估风险分类器
  • ✓ 带有时间线、划定优先级的整改路线图

安全中间件构建

  • ✓ 临床风险检测流水线(集成 C-SSRS)
  • ✓ 带有谄媚检测的输出验证
  • ✓ 带有审计轨迹的分级升级引擎
  • ✓ 用于上下文感知安全的 EHR 集成