Late：5GB VRAM 跑 35B 模型的本地编码 Agent

来源: 今日头条 (2026-04-19)
原文链接: https://m.toutiao.com/article/7630108975584920064/
GitHub: github.com/mlhher/late
许可证: BSL 1.1（2030年转 GPLv2）

定位

Lightweight AI Terminal Environment — 确定性编码 agent 编排器，让 solo 开发者拥有整个工程团队的执行效率。本地优先，5GB VRAM 即可流畅运行 Qwen3.5-35B-A3B。

核心架构：主编排器 + 临时子 Agent

解决传统编码 agent 上下文臃肿问题：

主编排器（~1000 token 系统提示）：读取代码库、分析结构、制定计划，不直接改代码
临时子 agent：按需 spawn，每个只负责一个任务，独立上下文，完成即终止
效果：上下文始终干净，token 消耗可控，25-30 tok/s，可同时开两个 agent

关键特性

exact-match 编辑：精确匹配替换，匹配失败主动报错 + 自我修复循环，零沉默错误
安全防护：禁止 cd、禁止 shell 写入、锁定项目目录、非白名单命令需确认
Git Worktree：多分支隔离开发
MCP 集成：外部服务映射到工具界面
会话持久化：关闭后可恢复任务进度

安装

# 二进制安装（推荐）
chmod +x late-linux-amd64
mv late-linux-amd64 ~/.local/bin/late

# 源码构建
git clone https://github.com/mlhher/late.git
cd late && make build && make install

# 配置本地模型
llama-server -m /models/qwen3.5-35b-a3b-q4.gguf --port 8080
export OPENAI_BASE_URL="http://localhost:8080"
late

技术细节

Go 语言开发，零依赖单二进制
支持 Linux / macOS（暂不支持 Windows）
兼容任何 OpenAI 兼容端点（本地或云端）
推荐模型：Qwen3.5-35B-A3B（阿里开源，MoE 架构，激活参数 3B）

与 Claude Code 对比

维度	Late	Claude Code
运行方式	本地	云端
成本	免费	按 token 付费
隐私	代码不出本机	上传云端
硬件要求	5GB VRAM	无（云端）
上下文管理	主+子 agent 隔离	单一上下文
网络依赖	无	必须

局限

仅 Linux/macOS
依赖本地模型后端（llama.cpp 等）
BSL 1.1 禁止 monetize 和企业内部部署
功能专注编码，无调试/语法检查集成
需要开发者能清晰描述任务

标签: #本地LLM #编码Agent #开源 #低显存 #Qwen #Late