Late:5GB VRAM 跑 35B 模型的本地编码 Agent

来源: 今日头条 (2026-04-19)
原文链接: https://m.toutiao.com/article/7630108975584920064/
GitHub: github.com/mlhher/late
许可证: BSL 1.1(2030年转 GPLv2)


定位

Lightweight AI Terminal Environment — 确定性编码 agent 编排器,让 solo 开发者拥有整个工程团队的执行效率。本地优先,5GB VRAM 即可流畅运行 Qwen3.5-35B-A3B。

核心架构:主编排器 + 临时子 Agent

解决传统编码 agent 上下文臃肿问题:

关键特性

安装

# 二进制安装(推荐)
chmod +x late-linux-amd64
mv late-linux-amd64 ~/.local/bin/late

# 源码构建
git clone https://github.com/mlhher/late.git
cd late && make build && make install

# 配置本地模型
llama-server -m /models/qwen3.5-35b-a3b-q4.gguf --port 8080
export OPENAI_BASE_URL="http://localhost:8080"
late

技术细节

与 Claude Code 对比

维度 Late Claude Code
运行方式 本地 云端
成本 免费 按 token 付费
隐私 代码不出本机 上传云端
硬件要求 5GB VRAM 无(云端)
上下文管理 主+子 agent 隔离 单一上下文
网络依赖 必须

局限


标签: #本地LLM #编码Agent #开源 #低显存 #Qwen #Late