Frontier-Eng Bench:Auto Research 工程闭环里的生成式优化

Type: paper
Author: Einsia AI / Navers Lab
Primary Topic: AI Agent
Ingested: 2026-05-12

Summary

Frontier-Eng 是一个面向真实工程任务的新型基准测试,评测AI Agent在固定预算内通过「提方案→运行→获取反馈→迭代修改」闭环持续优化的能力。研究涵盖47个跨领域工程任务,发现改进遵循双重幂律衰减规律,且深度迭代优于并行宽度探索。当前最强模型GPT-5.4表现最稳健,但距离资深工程师水平仍有较大差距。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-12