腾讯混元CL-bench续作发布，让大模型读懂你的日常生活

Type: article
Author: 机器之心
Primary Topic: AI评测基准
Ingested: 2026-05-02

Summary

腾讯混元发布CL-Bench Life评测基准，包含405个真实任务，测试大模型在日常生活场景中的上下文学习能力。评测结果显示，12个模型平均只能解决14.5%的任务，最佳模型GPT-5.5也仅达到22.2%。主要失败原因是context misuse，模型难以处理碎片化、高噪声的日常生活信息。

Key Concepts

context learning
碎片化信息
社交互动
行为记录
context misuse

Entities

腾讯混元
CL-Bench Life
GPT-5.5

Source

Raw: tencent-hunyuan-cl-bench-life.md

Relations

(none)

Auto-generated on 2026-05-02