抱歉了GPT-5，这次是中国AI「上岸」了

发布时间：2026-04-11 02:41:57 作者：玩站小弟

我要评论

近日俄罗斯科技频道Рома, Просто Рома的一项实。

新智元报道

编辑：KingHZ

【新智元导读】基层医生的AI好助手来了！国产AI，更懂中国医生。

从去年开始，「医疗AI（medical AI）」与「健康AI（AI for healthcare）」从星星之火，迅速燎原。

在Google趋势里，这类关键词在最近几个月都呈现明显抬升：

但对大多数中国医生——尤其是基层医生——这些热闹始终显得有些遥远。

仅糖尿病患者，中国就有2.33亿人，远超现有医疗资源的承载能力。

更别说基层医生每天面对的是混杂的真实世界：心血管、呼吸、消化等各种疾病交织出现；一旦遇上少见症状或复杂共病，往往会感到吃力，甚至陷入“想得不全、顾得不够”的困境。

因此真正的问题，从来不是「AI看起来有多厉害」——而是能不能安全有效地在临床落地？能不能真正提升医生的判断力和决策力？

AI+医疗，被放在了国家文件的「C位」

11月4日，国家卫健委正式发布《关于促进和规范人工智能+医疗卫生应用发展的实施意见》，其中重点提到：

「建立基层医生智能辅助诊疗应用」

「加强居民慢性病规范管理服务」

这意味着什么？

「AI+医疗」已不再是AI产业界的技术炫技，而是提升到了国家层面的卫生健康行业发展高度。而「AI+医疗」的落地重点，在基层。

谁能抓住这波医疗AI版的「农村包围城市」，谁就能在下一波AI浪潮中笑到最后。

多位长期深耕基层培训教育的主委们很快达成共识：能真正帮到中国基层医生的AI，关键在2件事：

1）诊中：辅助临床决策，要安全、有效；

2）诊后：支撑患者随访，要规范、可持续。

而，这也是「未来医生AI工作室」的初心。

中国AI vs 美国AI

只有它是「安全+有效」的双料冠军

AI能写会画，甚至拿下奥数金牌，但「术业有专攻」——通用的AI难以救死扶伤。

解放军总医院第六医学中心（海军总医院）内分泌科主任医师、全科教研室主任郭启煜，就曾遇到:

一些患者自行使用AI查找大量信息后，提供给医生，但这些信息往往互相矛盾，甚至与最新的医疗指南和共识相悖。

他认为，AI落地医疗有2大关键：有效性和安全性。

有效性，指的是真能帮上忙，能提供有用的建议和信息。

安全性，则是必须坚守的底线，AI医疗产品提供的建议必须基于权威资料。

但要测试医疗AI的「安全性」和「有效性」，并不简单。

好在今年7月，来自26个科室的32位一线专家们联手，来了场全球顶尖大模型的「擂台赛」。这项测评已于7月正式公开发布，并接受学术同行评议。

arxiv链接：https://arxiv.org/abs/2507.23486

他们从真实病历中抽丝剥茧，整理出2069道开放式问题，围绕「安全性/有效性」，模拟真实场景，搭建了一套系统性的临床评估标准。

在此标准上，测评了当时最前沿的6个大模型：OpenAI-o3、DeepSeek-R1、Gemini-2.5-Pro、Claude-3.7-Sonnet、Qwen3-235B以及「未来医生AI工作室」背后的医学大模型MedGPT。

结果呢？

六个大语言模型的基准测试显示总体表现不错（总分均值57.2%，安全性54.7%，有效性62.3%）。但在医疗最看重的「安全」上，却拉开了明显差距：

当涉及危重症识别、药物冲突等复杂问题时，多款通用大模型的得分明显下滑

当涉及婴儿、儿童、免疫低下等特殊人群时，有的模型表现很不稳定，有时很好，有时很危险

而在同一套标准下，专业医疗大模型MedGPT则表现出显著特征：「安全性」、「有效性」双高！得分分别达到0.912、0.861，拿下双冠军，总分更是领先第二名15.3%。

总体得分、安全性、有效性，MedGPT（绿色）均领先

此外，在这场比拼中，MedGPT还表现出几个突出特征：

安全性得分，比模型平均值高出近70%（0.912 vs 0.547）；

在复杂人群中，表现依然稳健，没有「翻车」；

测评中，唯一一款做到了「既稳定安全，又稳定有效」的AI。

复盘时，北京大学第三医院运动医学科江东教授表示

临床不只是看答对多少，更要看答错多少。

从那一刻起，这个以MedGPT为底座的「未来医生AI工作室」，底层基因已经注定：不是做看起来「样样通的AI」，而是做临床上「最安全、最可靠的AI伙伴」。

当技术回归临床，谁更像专家？

答案已经揭晓。

就在最近，中⼭⼤学附属第⼀医院泌尿男科主任邓春华教授联合国内多位权威专家，设计并开展了一场高度模拟真实临床流程的实战盲测。

评测方法核心直接、客观：

1、选题：从真实临床工作中，抽取出一批复杂、存在争议且信息不完全的典型病例。

2、答题：同一道题，分别交由三位「参赛者」独立作答：

GPT-5

OpenEvidence

未来医生AI工作室·临床决策AI助手

3、测评：由临床专家团盲审三份AI生成的答案，并严格依据以下8个核心维度进行打分：

多病共存与药物序贯优化

时间窗决策与风险取舍

不确定性推理与检查价值

用药相互作用与复合毒性

围术期协同决策

ICU多目标优化

检验与影像闭环

连续照护与复发预防

结果中国AI——全线完胜：

图源：https://ai.doctorwork.com/comparison

这场评测的意义，远不止于一次分数的比拼。

结果所呈现的，已经不再是模型的纸面能力，而是——是否能在真实医疗环境中做出可靠的临床决策。

这背后，正是「未来医生AI工作室·临床决策AI助手」的差异化技术路线：

通用大模型的强项在于文本生成，本质是模式匹配与记忆；

而临床决策AI助手，则是先构建系统性的医学认知框架，再在其上强化「临床推理+安全控制」，最终再落到产品层应用。

这也解释了，为什么在临床诊断这种高风险、强推理的场景里，中国的医疗AI能够取得领先——

关键不在简单看谁的参数更大，而在于谁更接近医生真实的思考方式和工作方式。

临床智能参谋

帮医生想得全，判得准

面对复杂病例，医生最担心的从来不只是「已知风险」，更是那些隐藏在信息缺口、经验不足和病例多样性背后的知识盲区与思维局限。

缺信息、缺经验、病例杂——几乎是所有基层医生的共同现实。

「未来医生AI工作室·临床决策AI助手」想解决的，正是这一临床痛点。

它不是一个更大的「知识库」，而是为每位医生打造的「医疗版贾维斯」：不仅能调动高等级循证证据，更能以专业方式协同思考——核心是一套由安全与循证驱动的临床决策引擎。

邓春华教授在使用未来医生AI工作室·临床决策AI助手进行决策辅助

(图片已获得教授本人授权）

在日常诊疗里，医生可以用口语化的方式输入病情，系统不会急于下结论，而是先完成三件更重要的事：

提取证据：从高等级循证证据中抓出关键点；

预警风险：提示药物相互作用、特殊人群禁忌等潜在风险；

标识缺口：指出病史、体检或检查的缺失环节，并附带安全提示。

当然，最终的所有决策权，始终牢牢掌握在医生手中。

医生依然是做决定的那个人，只是不再需要一个人扛下所有不确定性。能看得更全、想得更深，不至于错过任何「可能改变结局」的疑点。

多位一线医生的反馈也印证了这一点：

「好用、循证清晰。」

「像有个随时在旁边可以讨论的专家。」

上下滑动，查看更多真实评价

可以上下滚动的图片

而这一切的背后，是「未来医生AI工作室·临床决策AI助手」提供的确定性支持——让每位基层医生在面对复杂病情时，都能更有把握地做出判断。

跨越诊室围墙

把医院级照护延伸到日常

挂号、看病、诊断、开药，只是医疗的起点。

真正决定疗效的「大考」，往往发生在患者走出诊室之后。

随访一旦缺位，不只是管理脱节，更会造成疗效递减与医患信任的损耗：患者联系不上、该复查没复查，甚至出现「危险信号」，也没人第一时间看到。

那么，如何为院外治疗装上一道「安全而有效的护栏」？

郭启煜在使用未来医生AI工作室·患者随访AI助手管理患者

(图片已获得教授本人授权）

这正是未来医生AI工作室「患者随访AI助手」的价值所在——

把原本孤立的诊疗节点，延展为一个可持续的管理闭环。通过人机协同，它正在重塑院外关怀的范式，补齐门诊“最后一公里”的三大核心短板：

管理可达性：通过数字化随访，突破时空限制，将专业照护延伸到患者的真实日常。

治疗依从性：借助个性化提醒与互动指导，提高患者执行度，让方案落到实处。

干预精准性：基于临床指南与个体数据，为不同患者匹配差异化的管理路径。

向左滑动，看看他能为医生做什么

<< 滑动查看下一张图片 >>

值得强调的是，「未来医生AI工作室·患者随访AI助手」从架构设计起，就坚持一个原则——

AI辅助，医生决策。

无论系统多智能、响应多及时，所有涉及医疗行为的最终裁定权，始终在医生手中。

一旦触及药物调整、严重症状等关键节点，AI不会越界「替你决定」，而是立即发出明确预警，把关键决策点完整呈交给医生，由医生最终判断。

为什么主委们说

这是「基层+AI」的最佳实践？

把以上几个关键拼图拼起来，就会发现一条非常清晰的逻辑链：

政策明确方向：国家已将「AI+基层医疗」列为重点任务，既要求提升基层医生的诊疗能力，也强调对居民慢病的规范化管理。

专家形成共识：多位专家态度一致——真正能落到临床的AI，必须同时做到安全有效，并保持人机协同的工作方式。

技术经受验证：多模型、多专科的大规模评测显示，MedGPT在「安全性」和「有效性」两项核心指标上均领先国际主流大模型；在真实病历的同题测试中，「未来医生AI工作室」也较GPT-5、OpenEvidence更符合临床实际需求。

产品真正落地：「未来医生AI工作室」落在了基层最缺的2大场景——诊中决策辅助与诊后随访管理，并收到了一线医生的持续积极反馈。

正因如此，多位主委给出了高度一致的评价：这是目前最接近「基层+AI」最佳实践的路径。

邓春华教授的总结很形象：「通过『未来医生AI工作室』，基层医生能真正站在巨人的肩膀上，加速成长。」

这或许就是技术最好的落地方式——不是替代，而是赋能。

AI+医疗的终局：医生主导，AI赋能

每次聊到AI，总有人问：「医生会被替代吗？」

在临床一线，这个问题本身就是个误解。

一位三甲主任说得很透：「AI再强，也开不出带着温度的处方。」

医生的价值，在于判断、取舍、沟通与责任；

AI的价值，在于不疲倦、可追溯、能持续学习、能迅速覆盖最新指南。

所以未来不是替代，而是协同。

真正需要追问的是：什么样的医疗AI，才配进入临床？

答案有3点：

1、安全、有效。这是所有临床应用必须先跨过的底线，也是医生愿意信任的前提。

2、临床实战，是唯一的检验标准。

在真实病例的对决中，一款中国团队打造的产品——未来医生AI工作室，在关键指标上优于GPT-5和OpenEvidence。它专注做三件事：

让医生把病例看得更全；

把风险提前亮出来；

让患者的管理不中断、更长期。

3、技术的尽头，是回到人的需求。

即便未来AI能提供更全面的解决方案，它依然无法替代“温度”——那份对病情的揣摩，对患者的理解，对风险的承担。

医疗的答案，从未改变：医生负责判断与关怀，AI负责效率与知识。当二者真正协同，优质医疗才会变得更可及、更可靠、更可持续。

真正有价值的医疗AI，从来不是取代医生的力量，而是托举医生的力量。

参考文献：

【1】Shirui Wang, Zhihui Tang.A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains.

https://doi.org/10.48550/arXiv.2507.23486

【2】未来医生AI工作室与美国OpenEvidence、GPT5临床决策辅助场景评测对比. https://ai.doctorwork.com/comparison

安全 · 有效 · 专家共研

立即点击，进入超级医生个体时代

Tag： {loop type="keywords" row='10' } {$vo.title}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

抱歉了GPT-5，这次是中国AI「上岸」了