港科大 RxEval:医疗大模型处方级 Benchmark
Type: article
Author: 今日头条转载
Primary Topic: 医疗健康
Ingested: 2026-05-31
Summary
港科大提出 RxEval 医疗大模型评测基准,将传统住院用药预测从粗粒度整次住院级别细化为每个开药时间点的独立决策,要求模型输出具体的药物-剂量-给药途径三元组。数据集包含1547道题、584名患者,错误选项专门设计为忽略过敏史或误读肾功能等临床推理陷阱。最强模型 Gemini-3.1-Pro 的 Exact Match 仅为46.10%,揭示了当前医疗 AI 在真实临床决策能力上的显著短板。
Key Concepts
- 处方级评测
- 临床推理
- 药物-剂量-给药途径三元组
- 动态决策
- 医疗大模型基准
- 推理链扰动
Entities
- 港科大
- RxEval
- Gemini-3.1-Pro
- 香港科技大学
Source
Relations
- (none)
Auto-generated on 2026-05-31