上海人工智能实验室发布新版中文医疗大模型权威评测平台

近日，上海市人工智能实验室发布了中文医疗大模型权威评测平台MedBench 4.0，这是国内首个面向垂直大模型、专用大模型和应用场景的医疗大模型评测与验证体系。业内人士介绍，MedBench 4.0为衡量医学AI产品性能与可靠性提供了科学标尺，保障了医疗人工智能产品质量的提升与行业良性竞争。

据了解，中文医疗大模型权威评测平台MedBench首发于2023年年中，目前已更新至第四版。上海人工智能实验室医疗和评测中心负责人徐捷介绍，此次升级包含大语言模型、多模态大模型及智能体三大技术范式，深度对齐国家《卫生健康行业人工智能应用场景参考指引》，覆盖60个全自主构建的评测集，共计70万余专业评测题。

记者从上海市人工智能实验室了解到，针对大语言模型评测，平台围绕医学知识问答、语言理解、生成、复杂推理及安全伦理等维度构建了评测集，并创新引入科学指标体系，以缓解模型信息遗漏或幻觉生成等问题对评测结果的影响。

针对多模态大模型评测，平台聚焦医疗影像、检测报告等临床核心场景，可覆盖目标检测、图像分类、多模态报告质控、序列影像理解、病程动态追踪等10项细分任务，填补了中文医疗多模态评测领域的技术缺口。

在智能体评测方面，平台重点解决智能体执行断层的问题，推动医疗智能体从“能对话”向“能执行、能协作”演进。

对于医疗大模型评测的意义，徐捷表示，评测首先可以验证医疗大模型的合规性，其次是验证其专业性，例如能否避免误诊、漏诊或开错药，最终帮助市场更好地训练出优质的医疗大模型。

记者注意到，目前不少通用大模型如深度求索、千问等已能够分析体检报告和检查报告。那么，医疗大模型的价值又体现在何处？

对此，徐捷解释称，主流通用大模型能够满足日常健康咨询需求。评测显示，国内头部通用大模型的医学能力已超过国外同类产品。但在需要给出专业判断的医疗场景中，例如确定需做哪些检查、如何解读报告、应开具哪些药物或中医方剂等方面，大模型仍需整合大量医学数据、专家医案和临床经验等语料。

医疗大模型能够高效处理海量信息，提供循证参考，这不仅有助于提升医生诊疗水平，也能补足基层医疗短板，进而实现医学普惠。

除了推出权威评测平台，上海人工智能实验室还联合专业医疗机构和相关企业，推出了儿童眼病智能筛查与精准干预系统、胃肠多模态辅助诊疗大模型等多项医疗人工智能应用。

https://finance.sina.com.cn/tech/roll/2025-12-03/doc-infznqyk1461294.shtml

头条

上海人工智能实验室发布新版中文医疗大模型权威评测平台

更多推荐

由 admin

发表回复取消回复

Lois Lane

您错过了

养育多动症儿童是一场“修行”，这本书提供“养育指南”

人生重来7选项引热议，不结婚、父母健康等成焦点

湖北融和房地产（鄂ICP备19010828号）被列入湖北通信管理局空壳网站名单

Mac好搭子苹果推出新款Studio Display及Studio Display XDR专业显示器

关于我们

标签

最新文章

分类

Archives

Categories

上海人工智能实验室发布新版中文医疗大模型权威评测平台

更多推荐

由 admin

相关文章

湖北融和房地产（鄂ICP备19010828号）被列入湖北通信管理局空壳网站名单

多地优化政策 马年楼市平稳开局

快讯：恒指低开1.22% 科指跌1.78% 科网股、AI应用股普跌 黄金股活跃 石油股大涨 Minimax跌超7%

发表回复 取消回复

您错过了

养育多动症儿童是一场“修行”，这本书提供“养育指南”

人生重来7选项引热议，不结婚、父母健康等成焦点

湖北融和房地产（鄂ICP备19010828号）被列入湖北通信管理局空壳网站名单

Mac好搭子 苹果推出新款Studio Display及Studio Display XDR专业显示器

关于我们

标签

多地优化政策马年楼市平稳开局

快讯：恒指低开1.22% 科指跌1.78% 科网股、AI应用股普跌黄金股活跃石油股大涨 Minimax跌超7%

发表回复取消回复

Mac好搭子苹果推出新款Studio Display及Studio Display XDR专业显示器