腾讯混元CL-bench续作发布,让大模型读懂你的日常生活
Type: article
Author: 机器之心
Primary Topic: AI评测基准
Ingested: 2026-05-02
Summary
腾讯混元发布CL-Bench Life评测基准,包含405个真实任务,测试大模型在日常生活场景中的上下文学习能力。评测结果显示,12个模型平均只能解决14.5%的任务,最佳模型GPT-5.5也仅达到22.2%。主要失败原因是context misuse,模型难以处理碎片化、高噪声的日常生活信息。
Key Concepts
- context learning
- 碎片化信息
- 社交互动
- 行为记录
- context misuse
Entities
- 腾讯混元
- CL-Bench Life
- GPT-5.5
Source
Relations
- (none)
Auto-generated on 2026-05-02