Frontier-Eng Bench：Auto Research 工程闭环里的生成式优化

Type: paper
Author: Einsia AI / Navers Lab
Primary Topic: AI Agent
Ingested: 2026-05-12

Summary

Frontier-Eng 是一个面向真实工程任务的新型基准测试，评测AI Agent在固定预算内通过「提方案→运行→获取反馈→迭代修改」闭环持续优化的能力。研究涵盖47个跨领域工程任务，发现改进遵循双重幂律衰减规律，且深度迭代优于并行宽度探索。当前最强模型GPT-5.4表现最稳健，但距离资深工程师水平仍有较大差距。

Key Concepts

生成式优化
自进化Agent
工程闭环
Benchmark评测
双重幂律衰减
深度优于宽度
Auto Research

Entities

Einsia AI
Navers Lab
机器之心
GPT-5.4
Frontier-Eng
OpenClaw
Evolver

Source

Raw: frontier-eng-bench-generative-optimization.md

Relations

(none)

Auto-generated on 2026-05-12