迈向多语言医疗大模型：大规模预训练语料，开源模型与全面基准测试_国内动态_健康资讯

迈向多语言医疗大模型：大规模预训练语料，开源模型与全面基准测试

2024-09-29 机器之心Pro650

导读

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的主要作者来自上海交通大学和上海人工智能实验室智慧医疗联合团队，共同第一作者为上海交通大学博士生邱芃铖和吴超逸，共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授，这是该团队在继 PMC-LLaMA 后，在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。

在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型，并受制于缺乏多语言医疗专业数据的限制，导致当前的医疗大模型在处理非英语问题时效果不佳。

为了克服这一挑战，近期一篇发表在《nature communications》的论文全面地从数据、测评、模型多个角度考虑了多语言医学大语言模型的构建，做出了三项贡献：

1. 创建了一个包含 25.5 Billion tokens 的多语言医疗语料库 MMedC。

2. 开发了一个全新的多语言医疗问答评测标准 MMedBench, 覆盖了 6 种语言，21 种医学子课题。

3. 推出了一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。

所有数据和代码、模型均已开源。

论文标题：Towards building multilingual language model for medicine
论文地址：https://www.nature.com/articles/s41467-024-52417-z
项目地址：https://github.com/MAGIC-AI4Med/MMedLM
Leaderboard: https://henrychur.github.io/MultilingualMedQA/

(文/小编)

• 医渡科技2024年12月通讯：业务再创佳绩，屡获行	• 美股医疗健康板块承压，2025年有望扳回一局？
• 陕西省铜川市开展医疗美容行业突出问题“回头看	• 预见2025｜树兰医疗创始人郑杰：践行“计算医学
• 融媒会客厅｜政协委员戴红梅：推动康复医疗行业	• 永州市三医院黄立志：坚守医疗一线护健康
• 港股雍禾医疗一度涨超12%	• 突破5万台！东软医疗全球装机量再创新高
• 突破5万台！东软医疗全球装机量再创新高	• 医疗健康领域投融资日报（1月8日）：血霁生物获

永州市三医院黄立志：	医疗健康领域投融资日
磨憨铁路口岸首票进口	长白山珍年货暨道地药

VIP

推广服务

迈向多语言医疗大模型：大规模预训练语料，开源模型与全面基准测试