腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

Type: article
Author: 机器之心
Primary Topic: AI评测基准
Ingested: 2026-05-02

Summary

腾讯混元发布CL-Bench Life评测基准,包含405个真实任务,测试大模型在日常生活场景中的上下文学习能力。评测结果显示,12个模型平均只能解决14.5%的任务,最佳模型GPT-5.5也仅达到22.2%。主要失败原因是context misuse,模型难以处理碎片化、高噪声的日常生活信息。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-02