Late:5GB VRAM 跑 35B 模型的本地编码 Agent
来源: 今日头条 (2026-04-19)
原文链接: https://m.toutiao.com/article/7630108975584920064/
GitHub: github.com/mlhher/late
许可证: BSL 1.1(2030年转 GPLv2)
定位
Lightweight AI Terminal Environment — 确定性编码 agent 编排器,让 solo 开发者拥有整个工程团队的执行效率。本地优先,5GB VRAM 即可流畅运行 Qwen3.5-35B-A3B。
核心架构:主编排器 + 临时子 Agent
解决传统编码 agent 上下文臃肿问题:
- 主编排器(~1000 token 系统提示):读取代码库、分析结构、制定计划,不直接改代码
- 临时子 agent:按需 spawn,每个只负责一个任务,独立上下文,完成即终止
- 效果:上下文始终干净,token 消耗可控,25-30 tok/s,可同时开两个 agent
关键特性
- exact-match 编辑:精确匹配替换,匹配失败主动报错 + 自我修复循环,零沉默错误
- 安全防护:禁止 cd、禁止 shell 写入、锁定项目目录、非白名单命令需确认
- Git Worktree:多分支隔离开发
- MCP 集成:外部服务映射到工具界面
- 会话持久化:关闭后可恢复任务进度
安装
# 二进制安装(推荐)
chmod +x late-linux-amd64
mv late-linux-amd64 ~/.local/bin/late
# 源码构建
git clone https://github.com/mlhher/late.git
cd late && make build && make install
# 配置本地模型
llama-server -m /models/qwen3.5-35b-a3b-q4.gguf --port 8080
export OPENAI_BASE_URL="http://localhost:8080"
late
技术细节
- Go 语言开发,零依赖单二进制
- 支持 Linux / macOS(暂不支持 Windows)
- 兼容任何 OpenAI 兼容端点(本地或云端)
- 推荐模型:Qwen3.5-35B-A3B(阿里开源,MoE 架构,激活参数 3B)
与 Claude Code 对比
| 维度 | Late | Claude Code |
|---|---|---|
| 运行方式 | 本地 | 云端 |
| 成本 | 免费 | 按 token 付费 |
| 隐私 | 代码不出本机 | 上传云端 |
| 硬件要求 | 5GB VRAM | 无(云端) |
| 上下文管理 | 主+子 agent 隔离 | 单一上下文 |
| 网络依赖 | 无 | 必须 |
局限
- 仅 Linux/macOS
- 依赖本地模型后端(llama.cpp 等)
- BSL 1.1 禁止 monetize 和企业内部部署
- 功能专注编码,无调试/语法检查集成
- 需要开发者能清晰描述任务
标签: #本地LLM #编码Agent #开源 #低显存 #Qwen #Late