Frontier-Eng Bench:Auto Research 工程闭环里的生成式优化
Type: paper
Author: Einsia AI / Navers Lab
Primary Topic: AI Agent
Ingested: 2026-05-12
Summary
Frontier-Eng 是一个面向真实工程任务的新型基准测试,评测AI Agent在固定预算内通过「提方案→运行→获取反馈→迭代修改」闭环持续优化的能力。研究涵盖47个跨领域工程任务,发现改进遵循双重幂律衰减规律,且深度迭代优于并行宽度探索。当前最强模型GPT-5.4表现最稳健,但距离资深工程师水平仍有较大差距。
Key Concepts
- 生成式优化
- 自进化Agent
- 工程闭环
- Benchmark评测
- 双重幂律衰减
- 深度优于宽度
- Auto Research
Entities
- Einsia AI
- Navers Lab
- 机器之心
- GPT-5.4
- Frontier-Eng
- OpenClaw
- Evolver
Source
Relations
- (none)
Auto-generated on 2026-05-12