港科大 RxEval：医疗大模型处方级 Benchmark

Type: article
Author: 今日头条转载
Primary Topic: 医疗健康
Ingested: 2026-05-31

Summary

港科大提出 RxEval 医疗大模型评测基准，将传统住院用药预测从粗粒度整次住院级别细化为每个开药时间点的独立决策，要求模型输出具体的药物-剂量-给药途径三元组。数据集包含1547道题、584名患者，错误选项专门设计为忽略过敏史或误读肾功能等临床推理陷阱。最强模型 Gemini-3.1-Pro 的 Exact Match 仅为46.10%，揭示了当前医疗 AI 在真实临床决策能力上的显著短板。

Key Concepts

处方级评测
临床推理
药物-剂量-给药途径三元组
动态决策
医疗大模型基准
推理链扰动

Entities

港科大
RxEval
Gemini-3.1-Pro
香港科技大学

Source

Raw: rxeval-medical-llm-prescription-benchmark.md

Relations

(none)

Auto-generated on 2026-05-31