Knowledge Base Index
Last updated: 2026-04-07
Concepts
Topics
Entities
Queries
Source Summaries
- [[source-summaries/2026-06-15-nat-p2p-nas.md|使用NAT打洞手动开启P2P,无公网远程访问飞牛NAS]] — 本文介绍在没有公网IP的情况下,利用开源工具Natter实现NAT打洞,临时获得可访问飞牛NAS的公网入口。方案无需第三方穿透服务,速度接近满速,但每次端口随机且仅适合临时应急使用。文章还对比了直接端口映射、Tailscale、FRP等多种远程访问方案的优劣。
- [[source-summaries/2026-06-15-joyai-echo.md|JoyAI-Echo:京东解决长视频生成失忆问题]] — 京东Joy Future Academy联合北大、清华、中科大等机构发布JoyAI-Echo,针对长视频生成中的失忆、慢、糙、难用四大痛点提出解决方案。核心创新包括跨模态音视觉记忆库、三阶段后训练管线、Director Agent智能导演和音视觉联合超分模块,实现了7.5倍推理加速。评测结果显示在视觉一致性、身份一致性、语音一致性等多项指标上达到最优水平,代码和权重已开源。
- [[source-summaries/2026-06-15-token-claude-code-skill.md|一万行代码,零Token消耗:Claude Code的Skill设计比想的精妙得多]] — 本文深入解析了Claude Code的Skill三层渐进式加载机制:元数据层始终加载、指令层按需加载、资源层条件触发,从而实现零Token消耗运行复杂业务逻辑。文章还对比了Skill与MCP的互补关系,MCP负责数据接口,Skill负责操作策略。核心设计哲学是:未使用的能力完全不占资源。
- [[source-summaries/2026-06-15-mimo-code-claude-code.md|小米 MiMo Code:“记忆革命“架构反超 Claude Code]] — 小米MiMo团队于2026年6月开源终端原生AI编程助手MiMo Code V0.1.0,内置三大持久记忆机制(项目记忆、会话检查点、任务进度日志),在基准测试中性能超越Claude Code。文章分析了架构创新对性能提升约5个百分点的量化贡献,并阐述了小米AI实验室负责人罗福莉“重Agent架构与系统工程“的核心方法论。同时介绍了小米100万亿Token免费计划的生态战略意图。
- [[source-summaries/2026-06-15-cde-3.md|CDE官宣3大医学突破:癌王、帕金森、罕见病迎翻盘]] — 2026年6月,中国在三大难治疾病领域取得重要进展:国产现货型异体干细胞UX-DA003获批帕金森临床试验,复旦与诺奖团队分别在胰腺癌耐药机制和p53靶向药上发表突破性研究,北大团队原创RNA编辑技术使DMD患儿肌肉功能得到实质改善。三项突破均发布于2026年6月上旬,目前仍处于临床研究阶段,尚未商业化普及。
- [[source-summaries/2026-06-15-anthropic-claude-code.md|Anthropic工程师日常使用Claude Code的工作流]] — 本文由Claude Code创建者Boris Cherny分享其生产级工作流,涵盖CLAUDE.md最佳实践、并行会话管理和Plan Mode使用策略。核心方法论包括:用subagent保持主上下文干净、每次修正后更新lessons.md形成自我改进循环、同时运行10-15个Claude会话提升生产力。文章提供了13条具体技巧,帮助开发者在30天内交付259个PR的高效工程实践。
- [[source-summaries/2026-06-15-llama-cpp-b9553-iq4-xxs.md|llama.cpp b9553 性能实测:自适应混合推理引擎与IQ4_XXS量化突破]] — 本文对llama.cpp b9553版本进行实测,重点评估两项核心升级:自适应混合推理引擎和IQ4_XXS量化格式。实测数据显示,在M4 Pro MacBook上运行Gemma-4-12B,自适应混合模式相比旧版CPU模式生成速度提升34%,首token延迟降低33%;IQ4_XXS格式在Ryzen 9平台上相比Q4_0提速34%且质量损失可忽略。文章同时提供了升级指南、已知问题及与vLLM多卡部署的定位对比。
- [[source-summaries/2026-06-15-sensenova-skills-ai.md|SenseNova-Skills:商汤开源模块化AI办公技能库]] — SenseNova-Skills 是商汤开源的模块化AI办公技能库,专为Agent运行时设计,涵盖图片可视化、PPT生成、数据分析、深度研究四大领域共20余项技能。技能库采用分层架构并引入VLM质检机制,与OpenClaw框架直接兼容,支持中文社交平台原生搜索,适合构建端到端办公自动化工作流。
- [[source-summaries/2026-06-14-seedance-2-0-6.md|Seedance 2.0 免费使用入口汇总:6个渠道各有优缺点]] — 本文介绍了字节跳动SEED Lab发布的Seedance 2.0视频生成模型的6个使用入口,包括Dreamina、即梦、CapCut、豆包、Atlas Cloud API和ByteDance官方API。文章对比了各入口的免费额度、访问限制和适用场景,并介绍了模型的核心能力升级,如多模态联合生成、原生音频合成和角色一致性。国内用户推荐使用即梦,全球用户推荐Dreamina,开发者则可选择Atlas Cloud API按量付费。
- [[source-summaries/2026-06-14-flashmemory-deepseek-v4-13-5-kv-500k-90.md|FlashMemory-DeepSeek-V4:13.5% KV缓存占用,500K超长上下文开销下降90%]] — FlashMemory是一种基于预测性稀疏注意力的KV缓存压缩方案,通过神经记忆索引器提前预测哪些KV块会被当前查询用到,从而只保留关键上下文。在DeepSeek-V4上验证,平均物理KV缓存占用仅为全量基线的13.5%,500K超长上下文下显存开销降低超90%。得益于注意力去噪效果,下游任务准确率平均反而提升0.6%。
- [[source-summaries/2026-06-14-agent-cpu-l1-l2-l3.md|好Agent的本质是上下文压缩:从CPU缓存到L1/L2/L3分层设计]] — 本文由Shortcut AI联合创始人Peter Wang撰写,提出“好的Agent是其任务分布的忠实压缩“这一核心原则。文章借鉴CPU缓存的L1/L2/L3分层架构,设计了一套Agent上下文管理策略:L1常驻system prompt覆盖80%高频任务,L2按需加载策划规范覆盖15%中频任务,L3通过grep搜索原始API应对5%长尾任务。这套方法在实际电子表格Agent中实现了接近99%的准确率,被顶级对冲基金采用。
- [[source-summaries/2026-06-14-cohere-north-mini-code-128-8-agent-moe.md|Cohere North Mini Code:128专家激活8个,专为Agent编码训练的开源MoE模型]] — North Mini Code是Cohere发布的30B参数MoE编码模型,采用128专家激活8个的架构,实际激活参数仅3B,支持256K上下文。该模型专为Agent编码工作流训练,使用多脚手架训练方式,在相同硬件下输出吞吐量比Devstral Small 2高2.8倍。基于Apache 2.0开源协议,支持本地部署,适合对数据隐私有要求的企业团队。
- [[source-summaries/2026-06-14-olmo-eval-checkpoint.md|olmo-eval:模型开发者的“体检仪“,按题对比两个checkpoint]] — olmo-eval 是 AllenAI 开源的评测工作台,专为大模型日常开发循环设计,基于 OLMES 标准构建。其核心功能是对两个 checkpoint 进行逐题对比,并附带统计显著性分析,帮助开发者判断分数变化是真实提升还是随机波动。相比面向公开排行榜的 Harbor,olmo-eval 更轻量、更适合快速迭代场景,支持 agentic 评测和模块化替换。
- [[source-summaries/2026-06-14-deepseek-v4-flash-thinkstation-pgx-gb10.md|DeepSeek V4 Flash 双机部署指南(ThinkStation PGX / GB10)]] — 本文详细介绍了在两台Lenovo ThinkStation PGX(配备NVIDIA GB10 Grace Blackwell芯片,各128GB统一内存)上部署DeepSeek-V4-Flash(284B参数)的完整流程。由于模型FP8权重约149GB超出单机内存上限,必须采用双机TP=2张量并行方案,并使用社区fork版vLLM以支持GB10的sm_121架构及Triton MLA稀疏kernel。文章涵盖镜像构建、torch修复、权重下载、swap关闭及启动参数配置等关键步骤。
- [[source-summaries/2026-06-13-ai-agent-agent-12.md|AI Agent 这波红利——Agent框架最值得接入的12个集成]] — 本文盘点了Agent框架最值得接入的12个核心集成,涵盖Obsidian知识库、GitHub代码仓库、Firecrawl网页搜索、Graphiti知识图谱等工具。文章核心观点是Agent能力的上限取决于所接入的工具质量,并对比了现有系统的集成现状。每个集成均附有场景说明和实际价值分析,适合作为Agent工具链选型参考。
- [[source-summaries/2026-06-13-untitled.md|镜头里的科研日常:一群“实验室博主“用短视频打开硬核知识的另一面]] — 抖音平台上兴起LabTour(实验室漫游)短视频形式,年轻硕博生以第一视角记录科研日常,将枯燥的学术内容变得真实可感。文章通过蔡佳灵、唐豆豆、包天强三位案例,展示短视频如何重塑科研传播方式,促成跨机构协作,并改变研究生的职业规划。核心洞察是“过程透明化“与个人叙事的结合,是硬核知识高传播的关键。
- [[source-summaries/2026-06-12-codex-ai.md|用 Codex + AI 全流程制作中国风文字冒险游戏]] — 本文介绍了使用多种AI工具在20分钟内完成南宋题材文字冒险游戏Demo的完整流程,涵盖文案、立绘、场景、音乐和代码五个环节。工具链包括DeepSeek生成脚本、GPT-image-2生成美术素材、音潮V3.0生成背景音乐、Codex结合Ren'Py引擎生成可运行代码。全程无需人工编写代码或绘制素材,最终输出可执行的.exe游戏文件。
- [[source-summaries/2026-06-12-lovart-ai.md|Lovart(星流)AI设计智能体入门教程]] — 本文介绍了Lovart(国内版星流)这款AI设计智能体的核心功能与使用方法,定位区别于Photoshop、Midjourney等传统工具,能完成从Logo到视频的完整设计项目。教程涵盖五要素提示法、扩图、标记修改、Mockup、Skills等特色功能,并提供了品牌视觉三件套的进阶建议。
- [[source-summaries/2026-06-12-codex-figma.md|用Codex精准还原Figma设计稿——工作流笔记]] — 本文介绍了使用Codex配合Figma MCP插件将设计稿转化为可交互页面的完整工作流,核心策略是「先静态底稿→批注圈改→再补交互」,避免一步到位。文章详细说明了单画板静态还原、批注修补和多画板交互还原的操作步骤及常见注意事项。
- [[source-summaries/2026-06-12-llm-agent-0-96-token.md|LLM Agent 缓存命中率优化:从0到96%,每月省下几十万 token]] — 本文介绍了将LLM Agent缓存命中率优化至96.55%的五种方法,包括构建稳定大前缀、保护前缀不被压缩、辅助任务分流、利用定时任务和控制推理强度。以DeepSeek V4 Flash为例,通过这些优化手段可将月均成本从96元降至6.6元,节省约93%的费用。
- [[source-summaries/2026-06-12-pid-4k-decoder.md|英伟达 PiD:潜在表征直达4K,生成式Decoder重写文生图最后一步]] — 英伟达提出 PiD(Pixel Diffusion Decoder),将 VAE 解码步骤改造为条件像素扩散过程,使文生图流水线能够直接从低分辨率 latent 生成 2K/4K 高质量图像。相比传统「解码+超分」级联管线,PiD 在 GB200 上实现 211ms 的 2K 解码速度,比同类扩散超分方案快 3~6 倍,4K 解码峰值显存仅约 22.5GB。该技术已验证适配 FLUX、SDXL、SD3 等多种主流模型,有望重写高分辨率图像生成的技术范式。
- [[source-summaries/2026-06-12-network-error-reporter-chrome.md|前后端沟通的世纪难题:Network Error Reporter Chrome扩展]] — Network Error Reporter 是一款 Chrome DevTools 扩展,旨在解决前后端排查网络请求报错时沟通效率低下的问题。安装后可在 DevTools 中新增 Error Report 面板,自动监听失败的 Fetch/XHR 请求并一键生成结构化 Markdown 报告,支持导出图片版本,将原本需要 15 分钟的沟通流程压缩至 30 秒。该项目由工程师痛点驱动开发,完全开源免费。
- [[source-summaries/2026-06-11-swarmflow-openjiuwen.md|SwarmFlow来了!openJiuwen开创蜂群可控协同新范式]] — openJiuwen(华为支持)发布SwarmFlow,一个面向多智能体团队的可控工作流编排系统,核心理念是将“编排“与“智能“分离,由系统负责稳定执行编排逻辑,由Agent负责子任务推理。系统提供parallel、pipeline、agents_session、human、budget等算子积木,支持自然语言生成工作流并可视化监控执行状态。该方案解决了传统Leader Agent调度模式下的瓶颈、不稳定和不可靠三大痛点。
- [[source-summaries/2026-06-11-2026-06-10-github-ai.md|2026-06-10 GitHub趋势:AI全面接管打工人工作]] — 2026年6月10日GitHub趋势榜以AI工具为主,覆盖白领工作场景,包括跨平台深度调研、向量搜索重写和求职自动化工具。技能文件驱动范式成为AI工具的通用接口,向量搜索架构也在向REST接口层演进。整体趋势显示AI工具正从技术工作向白领通用工作场景快速蔓延。
- [[source-summaries/2026-06-10-skill-claude-code.md|别再死磕提示词了:这六个Skill,才是用好Claude Code的关键]] — 本文介绍了六个提升Claude Code使用效率的核心Skill,包括需求澄清、方案规划、代码测试、代码清理和视觉验证等工作模式。作者认为Skill比提示词更重要,因为Skill定义了可复用的工作流程,而非一次性指令。文章还对比了这六个Skill与OpenClaw现有能力的对应关系,为工程化AI编程提供了实践指南。
- [[source-summaries/2026-06-10-hermes.md|Hermes 灵魂插件:它正在长出技能市场、知识图谱和企业级记忆后端]] — Hermes Agent正在从单一执行工具演进为完整生态系统,通过5个核心插件(Skill Registry技能市场、Graphiti知识图谱、Mnemosyne记忆Dashboard、YantrikDB企业级后端及其运维面板)补齐Agent长期运行所需的底层能力。文章详细对比了Hermes生态与OpenClaw现状,指出技能共享、知识图谱、记忆可视化、企业级后端和生产运维是下一代Agent操作系统的核心骨架。
- [[source-summaries/2026-06-10-agent-checkpoint.md|Agent的Checkpoint机制:完整状态快照、人机协同与时间旅行调试]] — 本文系统介绍了AI Agent的Checkpoint机制,涵盖状态快照的数据结构、全量/增量/混合三种存储策略及后端选型。重点阐述了Human-in-the-Loop的三种协同模式(审批、纠错回滚、分支探索)以及时间旅行调试的生产价值。文末给出10条生产级设计清单,并分析了该机制在OpenClaw体系中的引入路径。
- [[source-summaries/2026-06-10-claude-code.md|高效解决Claude Code上下文溢出问题:三层治理体系]] — 本文系统介绍了Claude Code使用过程中三类上下文溢出问题(硬溢出、软溢出、性能崩溃)的成因与应对策略。应急手段包括/rewind回退、/compact智能压缩和/clear清空;长期防御则依赖.claudeignore过滤、CLAUDE.md持久化记忆、任务拆分多窗口及Subagent隔离脏活。文章还介绍了gstack、OpenSpec、Superpowers等工具构成的“黄金三角“防御体系,强调让AI始终工作在高信息密度模式。
- [[source-summaries/2026-06-10-mai-image-2-5-arena.md|微软mai-image-2.5:文生图Arena世界第二,完全免费]] — 微软发布免费文生图模型mai-image-2.5,在Arena排行榜中位列第二,仅次于GPT-Image 2。该模型在中文长提示词理解、3D等距渲染和复杂透视场景方面表现优异,但中文字符精确度略逊于GPT-Image 2。文章还探讨了其作为课件配图生成工具的应用潜力。
- [[source-summaries/2026-06-10-memori-sql-native-agent.md|Memori:SQL-native 的 Agent 长期记忆基础设施]] — Memori 是一个将 Agent 记忆作为独立基础设施层的开源项目,通过 SQL-native 存储和 LLM 自动分类,将对话数据结构化为 Facts、Preferences、Rules、Summaries 四类。相比主流框架将 memory 作为附加功能,Memori 支持精确查询、TTL 过期、attribution 溯源,可插入任意 LLM 客户端和框架。该项目为需要跨会话记忆的企业级 Agent 应用提供了工程级解决方案。
- [[source-summaries/2026-06-10-agent-5.md|搞Agent最该学的5个关键能力(没人系统教的部分)]] — 本文总结了构建生产级AI Agent的5个关键工程能力:Eval体系、Tool设计、Context Engineering、Trace调试和正确的模型协作心智模型。作者指出这些能力往往被忽视,却是决定Agent能否上线的核心因素。文章还将这5个能力映射到OpenClaw项目的现状,指出各方面的完成度和差距。
- [[source-summaries/2026-06-10-affordancevla-vla.md|AffordanceVLA:用可供性做中间表征,解决VLA「看见了却动不准」问题]] — AffordanceVLA论文提出用「可供性」作为VLA模型的中间表征层,解决视觉语言模型语义空间与动作控制空间之间的对齐鸿沟。架构采用三阶段Mixture-of-Transformer流水线,包含Which2Act、Where2Act、How2Act三个专家模块,分别负责目标定位、2D可供性图生成和3D几何推理。该方案提升了机器人动作的可解释性,并对边缘硬件部署友好。
- [[source-summaries/2026-06-10-skills.md|Skills自我进化已经在跑了:六篇论文摞起来是一条真路径]] — 本文梳理了从2023年至2025年六篇关键论文,阐述AI Skills自我进化的完整科学路径,涵盖进化算法三要素、Self-Rewarding、AlphaEvolve工业级验证及GEPA反思式进化。文章同时指出进化机制的三个反直觉局限(偏好简洁、自我偏置、奖励过拟合),并提出Cascade Evaluation、Pareto Frontier、Progressive Disclosure三套工程解法。最终对Skill商店的基因库形态和产品演进方向作出预判。
- [[source-summaries/2026-06-10-langchain-vs-langgraph.md|LangChain vs LangGraph:不是选谁,而是在什么阶段用谁]] — 本文深度对比LangChain与LangGraph的定位与适用场景:LangChain侧重高层应用拼装与快速原型,LangGraph则面向复杂状态机编排与生产级多Agent系统。两者并非竞争关系,而是分层协作——LangChain负责应用层抽象,LangGraph作为底层执行引擎处理循环、分支、持久化等复杂流程控制。文章提供了清晰的选型信号与演进路径,适合构建生产级Agent系统的工程师参考。
- [[source-summaries/2026-06-10-pm-ai-phuryn-pm-skills-ai.md|PM专属AI技能集:phuryn/pm-skills让AI帮你做项目管理]] — pm-skills是一个专为Claude Code设计的开源产品经理AI技能库,包含68个PM技能和42个链式工作流,分布在9个覆盖产品发现、战略、执行等全流程的插件中。每个技能背后是结合Teresa Torres、Marty Cagan等方法论的预调优Prompt模板,将PM领域隐性知识编码为AI可调用能力。该项目代表AI垂直化趋势,技能文件格式兼容Gemini CLI、Cursor、Kiro等多种AI编程工具。
- [[source-summaries/2026-06-10-gsd-vs-openspec-vs-superpowers-claude-code.md|GSD vs OpenSpec vs Superpowers:Claude Code 大型项目三大框架对比]] — 本文对比了三个用于Claude Code大型项目开发的框架:GSD通过33个专用Agent和波次并行执行解决上下文腐烂问题;OpenSpec聚焦规范层,用增量规范和行为契约明确需求;Superpowers通过自动触发的技能链串联工作流并强制TDD。三者分别管理“怎么做完“、“要做什么“和“怎么协作“三个不同维度。
- [[source-summaries/2026-06-10-higgs-audio-v3-tts-boson-ai-4b.md|Higgs Audio v3 TTS:Boson AI 开源 4B 语音生成模型]] — Higgs Audio v3 是 Boson AI 开源的 4B 参数自回归语音生成模型,支持 100+ 语言的高质量文本转语音。模型最大亮点是通过内联控制标签实现情绪、语速、音高等细粒度表现力控制,同时支持零样本声音克隆和实时流式输出。提供 OpenAI 兼容 API 和基于 SGLang-Omni 的本地自托管两种使用方式。
- [[source-summaries/2026-06-10-prompt.md|别再写Prompt了,去写循环]] — Claude Code创造者Boris Cherny与OpenAI的Peter Steinberger同时提出编程范式转变:从写提示词进化到设计带反馈闭环的循环机制。Claude Code原生支持Loops和Routines功能,让Agent在持续会话中运行并保留上下文。文章深入探讨了循环工程的挑战,包括上下文腐烂、规划能力和自我评估陷阱,以及Anthropic采用生成器—评估器对抗架构的解决思路。
- [[source-summaries/2026-06-10-supervision-ai.md|Supervision-AI:视觉模型和业务之间的通用接口层]] — Supervision是Roboflow出品的开源视觉工程中间层,核心价值是将各类视觉模型输出统一为可复用的sv.Detections对象,解决多框架适配难题。它提供可视化标注、多目标跟踪、区域计数、数据集格式转换等能力,让团队能复用同一套工程积木快速上线业务。最新版本引入CompactMask技术,实现约230倍的mask压缩比,大幅降低生产存储开销。
- [[source-summaries/2026-06-10-agent.md|记忆的分类体系:从认知科学到Agent工程的五层模型]] — 本文将认知科学的记忆分类体系映射到AI Agent工程,提出L0至L4的五层记忆模型,涵盖感觉层、工作层、情节层、语义层和过程层。文章重点阐述各层的存储形式、生命周期与适用场景,并指出情节层与语义层的边界是最容易混淆的设计难点。层间信息流的“提炼“操作被视为核心工程实践,决定Agent记忆系统的有效性。
- [[source-summaries/2026-06-10-loop-harness-fde-agentic-engineering.md|一文搞懂Loop工程、Harness工程、FDE——Agentic Engineering的三个层次]] — 本文系统介绍了Agentic Engineering的三个核心层次:Loop工程(Agent的推理行动循环)、Harness工程(循环的运行控制底座)和FDE(前置部署工程师)。文章以AutoResearch项目为例,说明Harness设计对Agent性能的决定性影响,并指出停止条件、上下文管理和评估机制是生产级Agent落地的关键工程问题。三层关系总结为:Loop是Agent心脏,Harness是骨架,FDE是将Agent嵌入真实业务的角色。
- [[source-summaries/2026-06-10-vimax-agent.md|ViMax:多Agent协同的端到端视频生成框架]] — ViMax是香港大学出品的开源多Agent视频生成框架,通过Director、Screenwriter、Producer等专职Agent协同模拟真实影视制作流程。支持Idea2Video、Script2Video、Novel2Video三种输入模式,解决了现有AI视频工具短片限制、一致性崩溃和缺乏叙事结构三大核心问题。该项目已获9.4k GitHub Stars,被HuggingFace官方推荐,代表了AI视频领域从片段生成到全流程Agent化的范式转变。
- [[source-summaries/2026-06-10-cvpr-2026.md|CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界]] — 本文盘点了CVPR 2026中四篇关于模型适应性的代表性论文,涵盖类增量学习(QKD)、大规模3D数字人预训练(LCA)、联邦持续学习(FEAT)和统一大视觉模型(PolyV)。研究趋势显示,AI模型正从“能力扩张“转向“能力管理“,核心挑战在于如何在动态变化的真实环境中保持稳定性与泛化能力。四项工作分别在各自基准上取得了显著性能提升。
- [[source-summaries/2026-06-10-google-gemini-3-5-live-translate-70.md|Google 发布 Gemini 3.5 Live Translate:支持 70 余种语言的实时语音翻译新模型]] — Google 推出 Gemini 3.5 Live Translate,一款支持 70 余种语言的接近实时语音同传模型,具备自动语言识别、语调还原和嘈杂环境稳定性等核心能力。该模型已通过 Gemini Live API 和 Google AI Studio 对开发者开放预览,并将逐步集成至 Google Meet、Google 翻译等产品。所有生成音频内容采用 SynthID 技术进行数字水印处理,以防范信息滥用风险。
- [[source-summaries/2026-06-10-mind-lab-ntu-mem-8-8-transformer.md|Mind Lab 联合 NTU、复旦推出 δ-mem:8×8 矩阵让冻结 Transformer 拥有长期记忆]] — δ-mem 是由南洋理工、复旦、Mind Lab 等机构联合提出的轻量级长期记忆方案,通过一个固定大小的 8×8 在线状态矩阵,在不扩展上下文窗口、不修改骨干架构的前提下,为冻结的 Transformer 赋予持续累积和复用历史信息的能力。其核心机制包括基于 Delta-rule 的记忆写入、低秩注意力修正引导,以及逐 token、段级、多状态并行三种写入粒度。实验显示在 MemoryAgentBench、LoCoMo、HotpotQA 等基准上均有显著提升,且参数开销极低(仅占原模型约 0.1%)。
- [[source-summaries/2026-06-09-mind-lab-ntu-mem-0-12.md|Mind Lab联合NTU、复旦推出δ-mem,参数仅0.12%]] — Mind Lab联合多所高校推出δ-mem方法,通过8×8在线状态矩阵为冻结的Transformer提供长期记忆能力,仅需0.12%额外参数。该方法采用Delta-rule选择性写入和低秩修正引导注意力,在多个基准测试中相比基线提升1.15-1.31倍,为Agent系统提供了轻量级长期记忆解决方案。
- [[source-summaries/2026-06-09-odysseus-ai.md|Odysseus:一款可部署在自己机器上的AI工作台]] — Odysseus是由PewDiePie发起的开源自托管AI工作平台,支持vLLM、llama.cpp、Ollama等本地模型后端,集成了聊天、Agent智能体、深度研究、笔记和任务管理等十余项功能。所有数据完全本地化存储,保障用户隐私,并支持Linux、macOS和Windows部署。该项目旨在让用户完全掌控自己的数据和AI工具链,实现真正的本地AI工作空间。
- [[source-summaries/2026-06-09-goose-rust-ai-agent-claude-code.md|goose:本地运行的Rust原生AI Agent,开源Claude Code挑战者]] — Goose是一个基于Rust开发的本地运行AI Agent,支持research、writing、automation、coding全流程,已获45k+ GitHub stars,采用Apache 2.0开源协议。其核心亮点包括企业级Hooks系统(可在tool执行前后注入自定义逻辑)、ACP多Agent协作协议以及MCP生态互联能力。相比Claude Code和Cursor等云端优先方案,Goose主打本地推理、数据安全与可组合的tool生态。
- [[source-summaries/2026-06-08-last30days-skill-ai-agent.md|last30days-skill:让AI Agent自动调研全网]] — last30days-skill 是一个开源 AI Agent 技能插件,能自动跨平台扫描 Reddit、X、YouTube、Hacker News 等平台的热点趋势,采用两阶段搜索架构并由 AI judge 综合评分生成简报。中文版 Jesseovo/last30days-skill-cn 支持微博、小红书、B站等8个国内主流平台,集成 MediaCrawler 爬虫引擎,实现三级自动降级策略。该工具可通过 Claude Code 插件市场或 npx 命令快速安装部署。
- [[source-summaries/2026-06-08-agentic-skill-router-ai.md|Agentic Skill Router:AI 智能体的调度中枢]] — 本文介绍了 Agentic Skill Router 的核心概念与四代演进路径,从关键词匹配到 LLM-as-Router,重点阐述了三层架构(编排层、描述层、执行层)的设计思路。文章还探讨了 Skill 重叠冲突、多 Skill 组合编排、延迟与成本平衡三大实战难题的解决方案,并结合阿里达摩院研究指出 Skill 代码实现比描述更重要。
- [[source-summaries/2026-06-08-open-envelope-json-schema-agent.md|Open Envelope:用JSON Schema标准化多Agent团队定义]] — Open Envelope是一个开源项目,通过一份.envelope.json文件描述多Agent团队,实现定义与运行框架的解耦,类似Dockerfile之于容器。其核心特性包括Agent定义、网络层访问策略、层级Handoff控制权传递以及Human in the Loop审批机制。该项目旨在成为跨框架(AutoGen/CrewAI/LangGraph等)的多Agent团队标准化描述格式。
- [[source-summaries/2026-06-08-harness-harness.md|Harness 壁垒崩塌,人人创建 Harness 的时代来了]] — 本文介绍 Claude Code 2.1.154 引入的 Dynamic Workflows 功能,该功能让 Agent 能自动生成调度脚本(Harness),大幅降低了多 Agent 编排的技术门槛。文章对比了 Subagent、Skill、Workflow 三种方式的适用场景,并指出编排壁垒从“会不会写 Harness“迁移到了“会不会定义可执行、可控、可验收的目标“。最终结论是:人人可创建 Harness 之后,稀缺能力变成了如何有效派活、验收 Agent 队伍的输出。
- [[source-summaries/2026-06-08-slidev-4-6-star-markdown-ppt.md|slidev:4.6万Star的开源幻灯片工具,让Markdown变成PPT]] — slidev是一款基于Markdown的开源PPT制作工具,GitHub已获4.6万+Star。用户可通过编写Markdown文档直接生成演示幻灯片,支持主题定制、PDF导出、代码高亮和数学公式等功能。适合职场工作者、培训讲师和技术团队,与Markdown+Git工作流天然兼容。
- [[source-summaries/2026-06-07-200-ai-20-100-harness-engineering.md|200行配置让AI编程成功率从20%飙升到100%:Harness Engineering方法论]] — 本文介绍了Harness Engineering方法论,通过约200行配置文件将AI编程任务成功率从20%提升至100%。Harness由指令层、工具层、环境层、状态层和反馈层五大子系统构成,分别解决AI编程中的规范遵循、权限控制、环境一致性、跨会话记忆和完成验证问题。核心观点是AI编程失败的根源不在模型能力,而在于缺乏完善的Harness配置体系。
- [[source-summaries/2026-06-07-fusionroute-token-level-llm.md|FusionRoute:Token-Level 多LLM协作的新范式]] — FusionRoute提出了一种基于token级别路由的多LLM协作新范式,通过可训练的轻量级router模块在每一步生成时动态选择专家模型并补充生成。论文从理论上证明了纯粹依赖专家选择的token级协作存在本质不可识别性,而FusionRoute通过两阶段训练(SFT+CDPO)突破了这一限制。实验显示该方法在数学、代码、指令跟随等多个基准上均优于sequence-level协作和传统token-level协作方法。
- [[source-summaries/2026-06-07-ai.md|AI漫剧分镜提示词大全 新手直接套用不踩坑]] — 本文系统介绍了AI漫画分镜提示词的6大核心元素(镜头类型、运镜方式、画面环境、情绪氛围、画面细节、技术参数)及5步写作方法。文章提供九大类54个万能模板,涵盖角色出场、情绪表达、战斗动作、悬疑氛围等场景。同时总结了新手常见的5种错误及提升技巧,帮助创作者高效生成高质量AI分镜内容。
- [[source-summaries/2026-06-07-ai-videoclaw.md|哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw]] — 哈工大张民教授团队联合阿里巴巴推出VideoClaw,一套基于多智能体协作的长视频生成框架,通过“场记状态库“显式管理角色、场景和叙事状态,解决了AI长视频跨片段不一致的核心痛点。系统采用LLM驱动的数字化剧组自动完成从剧本到后期的全流程,并内嵌VLM闭环质检机制确保生成质量。该项目已在SIGGRAPH Asia、ACL等顶会发表多篇论文,验证了智能体驱动影视创作的完整落地路径。
- [[source-summaries/2026-06-07-ai-rsi-google-deepseek.md|让AI自我构建的RSI火了,Google泼冷水,DeepSeek们摸到了边]] — RSI(递归式自我改进)成为AI圈新热词,核心理念是让AI自己训练自己、无需人类介入。Karpathy推进开源Auto-Research项目、Adaption商业化AutoScientist是两条主要路线,Google CEO对短期量级加速持保守态度。当前模型在“自我驱动“能力上仍是最大瓶颈,递归特性使未来走向极难预测。
- [[source-summaries/2026-06-07-850.md|仅850个单词就能表达一切?百年经典英语学习法,颠覆传统背词]] — 本文介绍了英国语言学家C.K.奥格登提出的“Basic English“理论,即用850个核心词汇表达人类一切思想。奥格登通过“可替代则删除“的原则筛选出这850个词,并按操作词、名词、形容词三层功能结构组织,验证其曾用这850词重写了《圣经》。文章对比传统词汇学习法,探讨了以“核心词+组合表达“替代大词的学习逻辑。
- [[source-summaries/2026-06-07-agent-ai.md|周津用Agent替自己开会!员工竟未察觉,AI转型已悄然颠覆工作流]] — ThinkingAI联合创始人周津分享了公司全面转型AI的实践,包括用Agent代替本人参加会议、用自然语言搭建团队知识库等案例。文章强调AI转型需一号位亲自推动,知识库是用好Agent的核心,团队应聚焦于Taste培养而非基础整理工作。
- [[source-summaries/2026-06-07-gemma-4-qat-26b-15gb.md|谷歌放出Gemma 4 QAT量化版!26B模型仅需15GB内存,精度几乎无损]] — Google DeepMind发布了Gemma 4全系列QAT量化版本,将26B MoE模型的显存需求从50GB压缩至15GB,降幅达72%且精度接近BF16原版。Unsloth团队进一步推出动态量化GGUF版本,采用UD-Q4_K_XL方案使26B模型Top-1准确率达85.6%,比普通Q4_0方案高出15.6%。此次更新大幅降低了本地运行大模型的硬件门槛,16GB显存的消费级显卡即可运行26B级别模型。
- [[source-summaries/2026-06-07-2026-ai-api.md|2026年最全“白嫖“指南:国内外免费AI大模型API一网打尽]] — 本文系统整理了2026年国内外主流AI大模型平台的免费API套餐,涵盖字节火山方舟、智谱AI、百度千帆、阿里云百炼、讯飞星火、腾讯混元、硅基流动、DeepSeek等国内平台,以及Google Gemini、Groq、OpenRouter等海外平台。文章详细介绍了各平台的免费额度、关键限制、适用场景和接入要点,帮助开发者低成本或零成本接入AI能力。
- [[source-summaries/2026-06-07-1-ai-twitter-reddit.md|花1块钱给AI开网络眼睛,Twitter Reddit小红书全刷]] — Agent-Reach是一个Python开源项目,通过MCP协议为AI Agent提供访问Twitter、Reddit、B站、小红书等主流平台的能力,弥补大模型无法获取实时信息的缺陷。项目2026年2月上线,已获22000颗星,支持Claude Code、Cursor等主流AI编程工具。绝大部分功能完全免费,仅在云服务器访问B站时需约1美元/月的代理费用。
- [[source-summaries/2026-06-07-ai-cuda-nvidia.md|字节AI学会了写CUDA,NVIDIA护城河裂了]] — 字节跳动训练了一个AI Agent,能够自动为PyTorch模型生成高度优化的CUDA内核,通过编译、profiling、分析瓶颈、重写的循环迭代,在KernelBench测试上100%击败PyTorch自带编译器。该Agent依托自研合成数据集CUDA-Agent-Ops-6K和强化学习训练,掌握了代数化简、算子融合、硬件感知优化等技巧,最高实现73倍加速。此成果被认为动摇了NVIDIA以CUDA生态构建的竞争护城河。
- [[source-summaries/2026-06-07-10-ceo-token.md|公司想要10倍增长,CEO先问问自己消耗了多少token]] — 本文以积加科技CTO陈敬敏的实践为核心,探讨企业如何通过AI编程工具(Cursor、Claude Code等)实现从「人主导AI补全」到「AI主写人Review」的工作方式转型。文章提出企业AI化需跨越思维习惯、工具接口化、组织结构三道鸿沟,并给出「企业AI化程度=技术闭环×工具接口化×人才适配度×组织适配度」的核心公式。核心论点是:追求10倍增长比2倍增长更可行,关键在于用AI彻底剥离80%的平庸任务,专注放大独特能力。
- [[source-summaries/2026-06-07-agent-jiuwenswarm.md|拒绝内卷!华为不做单体Agent,蜂群智能体JiuwenSwarm才是王炸!]] — 文章介绍华为放弃跟风单体Agent热潮,转而研发蜂群智能体JiuwenSwarm的战略选择。文章指出单体Agent存在上下文丢失、角色混乱等根本性瓶颈,无法胜任复杂任务。华为通过多Agent协作的蜂群架构来突破这些限制,被作者认为是“难而正确的事“。
- [[source-summaries/2026-06-07-5.md|清华大学推荐的这5本书,悄悄把你的格局打开!]] — 本文推荐了清华大学推荐的5本书籍,涵盖文明史、生物学史和哲学等领域。文章通过介绍许倬云的历史视野、卡罗尔的生命科学探索以及周国平的哲学思考,旨在帮助读者拓宽眼界、提升格局。这些书籍被描述为能够让人从日常焦虑中抽离,以更宏观的视角审视人生与世界。
- [[source-summaries/2026-06-07-untitled.md|测试文章:入库链路诊断]] — 这是一篇用于诊断知识库入库流程的测试文章。文章描述了从抓取文章内容、LLM自动分类、写入kb-manager、同步Obsidian Vault到推送GitHub的完整链路。技术栈包括claude-sonnet分类器、SearXNG本地搜索引擎和Jina Reader网页抓取工具。
- [[source-summaries/2026-06-06-ai-openclaw.md|全模态AI免费时代来了:文字、图片、视频全搞定,OpenClaw可调用]] — 本文介绍了开源AI Agent框架OpenClaw的最新功能,包括全模态生成、仿人类记忆的Dreaming系统、以及对GPT-5.5和国内大模型的集成支持。文章同时提供了三种部署方案对比,并重点警示了中国工信部发布的安全预警——OpenClaw因默认获取高系统权限且缺乏沙箱隔离,存在严重远程接管漏洞。
- [[source-summaries/2026-06-06-grill-me-goal-ai.md|从对齐到执行:grill-me + /goal,AI 编码的完整工作流]] — 本文介绍了将 grill-me skill 与 /goal 命令结合的 AI 编码完整工作流。grill-me 负责对齐阶段,通过追问将模糊需求变成明确决策;/goal 命令(Codex CLI 0.128.0 和 Claude Code 2.1.139 同时推出)负责执行阶段,让 agent 自主循环直到目标达成。两者组合解决了 AI 编码中“对齐不足“和“需要频繁推动执行“两大痛点。
- [[source-summaries/2026-06-06-agent.md|互联网变天:机器人流量首次反超人类,Agent时代拉开大幕]] — Cloudflare Radar数据显示,全球HTML网页请求中Bot流量已占57.5%,首次超过人类流量,AI Agent和agentic browsers流量同比暴涨7851%。文章分析了从传统爬虫到AI Agent的本质转变,指出网站内容正从“供人阅读“转向“供机器执行“。这一趋势带来流量变现逻辑、搜索入口权等深层变化,Cloudflare为此推出按爬取付费机制应对新格局。
- [[source-summaries/2026-06-05-2026-coding-10-claude-code-codex-github.md|2026年真正能让你coding效率起飞的10个Claude Code/Codex高星GitHub仓库]] — 本文盘点了2026年10个与Claude Code和Codex相关的高星GitHub仓库,涵盖Agent Harness、结构化开发方法论、技能库、外部工具集成等多种类型。文章重点介绍了每个仓库的核心价值与适用场景,并推荐了“ECC+Superpowers+Composio“的起步组合来覆盖日常80%的开发需求。同时给出了避坑指南,提示不要一次性全装过多skills,以免影响响应速度。
- [[source-summaries/2026-06-05-html-video-ai-html-open-design.md|html-video:AI 视频的 HTML 路线,Open Design 作者新项目]] — html-video 是一个由 Open Design 作者 Tom Huang 发起的早期项目,采用「Agent 生成分镜→每帧写成 HTML 动画→浏览器逐帧渲染→ffmpeg 合成 MP4」的工作流,将文章、代码、数据等结构化内容转化为可编辑视频。该项目代表 AI 视频生成的第二条路线:不追求电影级真实影像,而是让 Agent 直接交付可控的结构化视频文件。适用于产品宣传、知识解释、数据动效等场景,依赖 Node、pnpm 和 ffmpeg 环境,支持多种 Agent 后端。
- [[source-summaries/2026-06-05-github-spec-kit-ai.md|GitHub spec-kit:规格驱动开发,让AI写代码不再跑偏]] — spec-kit是GitHub发布的规格驱动开发工具,通过强制完成需求规格、技术方案、任务拆解等流程,解决AI编程时因需求不清导致反复返工的问题。工具与Claude Code深度集成,提供constitution、specify、plan、tasks、implement五个核心命令,形成完整的开发工作流。团队可将配置文件提交至git共享,队友无需额外安装CLI即可使用。
- [[source-summaries/2026-06-05-untitled.md|小学奥数完整学习规划指南]] — 本文系统介绍了小学奥数的学习规划,涵盖各年级的学习重点与目标,以及参加竞赛的价值。文章指出三年级(9岁)是学习奥数的黄金起步时间,并依据儿童认知发展研究提供了从一年级到六年级的分阶段学习路径。适合希望通过奥数提升思维能力、备战小升初的家长和学生参考。
- [[source-summaries/2026-06-05-world-labs.md|世界模型功能分类学——李飞飞×World Labs]] — 李飞飞基于POMDP框架将“世界模型“划分为渲染器、模拟器、规划器三类,分别对应像素输出、物理状态输出和行动输出。她指出模拟器是三类中最重要却最被忽视的,是连接渲染与规划的核心枢纽,英伟达Omniverse已瞄准万亿美元市场。World Labs的Marble产品尝试用单一模型同时跨越渲染器和模拟器边界,终局方向是统一世界基础模型。
- [[source-summaries/2026-06-05-5-1500.md|和5岁儿子共读1500本英文分级:三阶段进阶自主阅读经验帖]] — 作者分享了与5岁儿子从3岁半开始英语启蒙、历时一年半共读约1500本英文分级书的完整经验。文章详细介绍了三个阶段的核心策略,包括听力先行、Fiction与Non-fiction各50%的搭配,以及具体书单推荐。最终孩子达到RAZ I阶自主阅读水平。
- [[source-summaries/2026-06-05-agnes-ai-api.md|Agnes AI 免费视频生成 API + 自动化流水线实战]] — 本文介绍如何利用 Agnes AI 平台的免费 API 搭建一条从主题输入到成品视频的全自动生产线,涵盖文生图、图生视频三个 Python 脚本的分工设计。作者详细记录了 Cloudflare 拦截、LLM JSON 格式不稳定、视频 API 异步超时三个实战踩坑及对应修复方案。整套流水线可在半小时内完成 10 余个分镜的视频全自动生成,大幅压缩创意到成品的距离。
- [[source-summaries/2026-06-05-claude-code-agent-5.md|Claude Code 子Agent 5个即用模板]] — 本文介绍如何通过Claude Code的子Agent机制解决长会话中的上下文耗尽问题。文章提供了5个即用模板,涵盖代码审查、测试编写、文档生成、安全扫描和PR描述撰写,每个子Agent拥有独立上下文并只返回摘要以保持主会话干净。同时讲解了Token经济学原理,通过主会话用Opus、子Agent用Sonnet的组合实现成本优化。
- [[source-summaries/2026-06-05-gemma-4-12b-agent.md|Gemma 4 12B 发布:多模态 Agent 开始离开云端]] — Google于2026年6月3日发布Gemma 4 12B,这是一个可在16GB消费级设备本地运行的开放多模态模型,支持原生图片和音频输入,采用统一encoder-free架构。文章分析了本地化、多模态、Agent工作流三大趋势,并指出Gemma Skills生态可与Claude Code、Cursor等Agent工具对接。作者同时提示,本地Agent替代云端大模型仍需实测中文能力、工具调用可靠性等关键指标。
- [[source-summaries/2026-06-05-openhands-60k-stars-ai-coding-agent-opendevin.md|OpenHands:60K Stars 开源 AI Coding Agent 平台(原 OpenDevin)]] — OpenHands(原OpenDevin)是一个拥有60K+ Stars的开源AI编码Agent平台,提供SDK、CLI、本地GUI和云端/企业版四种形态。平台支持任意LLM接入,云端可并行运行1000个Agent,并提供Slack/Jira/Linear集成及RBAC权限管理。定位为开源版Devin替代方案,适合需要完整Agent平台而非单纯库的团队和企业客户。
- [[source-summaries/2026-06-05-ideogram-4-0.md|Ideogram 4.0 — 当前最强开源权重文生图模型]] — Ideogram 4.0 是一个9.3B参数的开放权重文生图模型,从头训练并支持原生2K分辨率。该模型在多语言文字渲染和设计向评测中表现突出,超越参数量更大的FLUX.2 32B和HunyuanImage 80B MoE等开源模型。模型采用Non-Commercial许可证,提供nf4和fp8两种量化版本,并支持结构化JSON提示接口实现精确布局控制。
- [[source-summaries/2026-06-05-claude-code-2-1-161-2-1-162.md|Claude Code 2.1.161 & 2.1.162 更新解析]] — 本文解析了Claude Code 2.1.161和2.1.162两个版本的更新内容。2.1.161主要修复了并行工具调用容错问题、新增OTEL自定义维度标签支持,并修复了多项安全和兼容性问题。2.1.162引入了多智能体调试新字段、slash command交互优化、Remote Control固定入口,以及大量Bug修复,包括配置目录只读卡死、WebFetch权限覆盖等安全问题。
- [[source-summaries/2026-06-05-openai-agents-python-openai-agent.md|openai-agents-python:OpenAI官方多Agent编排框架]] — openai-agents-python是OpenAI官方发布的轻量级多Agent编排框架,支持Agent间任务委托、工具调用、安全防护和会话管理等核心功能。v0.14.0新增Sandbox Agent特性,允许Agent在容器或本地文件系统中执行长时任务并持有工作区状态。该框架兼容100多种LLM提供商,适合构建生产级可控的多智能体系统。
- [[source-summaries/2026-06-05-ai.md|AI编程制造新一代“超级个体“:独立开发者经济形态分析]] — 本文通过法国独立开发者Marc Lou的案例,分析AI编程工具如何让“一人公司“成为可复制路径。AI编程工具将产品开发周期从数月压缩至数天,边际成本趋近于零,改变了技术创业的核心壁垒。作者指出,真正的竞争优势已从编程能力转向需求发现能力和分发能力。
- [[source-summaries/2026-06-05-claude-code-dynamic-workflows-harness-agent.md|Claude Code Dynamic Workflows:模型自己写Harness的Agent编排范式]] — 本文深度解析Anthropic推出的Claude Code Dynamic Workflows范式,核心在于让模型在运行时自动生成JavaScript harness文件来编排subagent,而非由人工预先设计工作流。该范式通过结构性手段解决了代理懒惰、自利偏差和目标漂移三大失败模式,让每个子任务运行在独立上下文窗口中。文章介绍了六种基础Pattern及典型应用场景,并指出Dynamic Workflow的能力天花板由模型能力决定,可随模型升级自动提升。
- [[source-summaries/2026-06-05-headroom-ai-agent.md|Headroom — AI Agent 上下文压缩层]] — Headroom 是一个专为 AI Agent 设计的上下文压缩层,能在内容到达 LLM 之前智能压缩 60-95% 的 token,同时保持答案质量不变。它提供六种压缩算法(覆盖 JSON、代码、文本、图片等类型)并支持 Library、Proxy、Agent Wrap、MCP Server 四种集成模式。独特的可逆压缩(CCR)机制确保原始数据不丢失,并支持 Claude Code、Codex、Gemini 等多 Agent 共享压缩上下文。
- [[source-summaries/2026-06-04-codex-5-skill.md|把 Codex 用成内容流水线:5 条 Skill 工作流]] — 文章介绍了如何将 Codex 与多个 Skills 串联成稳定的内容生产流程,而非零散使用。重点讲解了5条工作流:网页转文章、视频字幕转选题、长文生成配图、Markdown格式转换、以及发布前检查,强调通过流程化提升内容创作效率。
- [[source-summaries/2026-06-04-webwright-1k-web-86-7.md|微软开源 Webwright:1K 行代码 Web 智能体框架,准确率 86.7%]] — 微软开源了 Webwright,一个仅 1000 行代码的终端驱动 Web 智能体框架,核心思路是让 AI 生成 Playwright 代码来操控浏览器,而非逐步点击操作。在 Online-Mind2Web 基准测试中达到 86.67% 准确率,并在长周期任务上将 GPT-5.4 性能从 33.5% 提升至 60.1%。框架具备上下文压缩、自评验证和任务复用等特性,适用于网页自动化、数据采集和 RPA 场景。
- [[source-summaries/2026-06-04-cosmos-3-spirit-v1-6-roboarena.md|Cosmos 3发布次日被中国公司反超:千寻智能Spirit v1.6登顶RoboArena]] — 2026年6月,黄仁勋在GTC发布NVIDIA Cosmos 3仅一天后,中国公司千寻智能的Spirit v1.6即在RoboArena榜单上反超,登顶全球第一。千寻智能依托全国100+城市分布式数据采集网络,构建“真实世界数据飞轮“,3个月内累计融资近50亿元人民币。该事件标志着具身智能竞争已从单点模型能力转向以真实世界数据规模与迭代效率为核心的系统能力比拼。
- [[source-summaries/2026-06-04-kavita.md|Kavita:自建私人阅读服务器]] — Kavita 是一款开源免费的自托管跨平台阅读服务器,支持漫画、电子书、PDF等多种格式,可通过Docker快速部署在NAS或服务器上。用户数据完全自控,支持多账号家庭共享、阅读进度跨设备同步,以及智能书库整理与搜索功能。适合漫画党、家庭图书馆等场景,2核4G轻量服务器即可流畅运行。
- [[source-summaries/2026-06-04-ai-ai.md|做AI短剧一年,模型、价格、变现、开源:AI短剧工具全维度对比!]] — 本文从模型丰富度、价格、变现渠道和开源社区四个维度,对比了小云雀、即梦、巨日禄、LibTV、有戏AI等主流AI短剧创作平台。有戏AI以集成多模型、低算力单价(最低0.034元/秒)、内置接单广场和开源爆款工程文件等优势,被推荐为个人创作者的一站式解决方案。文章还援引《被偷走的春天》案例,展示了AI短剧的商业潜力,该剧抖音播放量达1.2亿,营收超七位数。
- [[source-summaries/2026-06-04-codex-agent.md|Codex Agent 用了两周,我把每月额度从“不够用“变成了“用不完“]] — 本文介绍了使用 OpenAI Codex Agent 时优化额度消耗的五种实用方法。核心思路是通过 AGENTS.md 和 .codexignore 限制模型扫描范围、降低单次上下文消耗,并利用 /goal 模式和会话复用减少重复性 token 开销。作者还建议根据任务复杂度分层选用不同模型,将 Codex 的使用场景扩展到非编程领域以摊薄月度成本。
- [[source-summaries/2026-06-04-coze-nanobanana-25-90-1.md|Coze搭配Nanobanana生成25宫格分镜图,积分消耗降90%,1分钟出短剧]] — 本文介绍了一种利用Coze工作流搭配Nanobanana插件批量生成25宫格分镜图的方法,通过先生成分镜图再按分镜生成视频,将即梦Seedance 2.0的积分消耗降低至原来的1/10。完整工作流分为4步:生成分镜提示词、提示词拼接强化、图片格式转换、Nanobanana生图,最终输出可直接用于视频生成平台的连贯分镜图。该方案特别适合需要角色一致性的AI短剧批量生产场景。
- [[source-summaries/2026-06-04-hermes-262-5.md|Hermes 聊天人设崩了:262 个真实案例显示,高手都在跑这 5 条工作流]] — 本文基于 Hermes 官方收录的 262 个真实用户案例,总结出高频使用场景集中在工作流自动化而非闲聊。文章提炼出文件夹整理、项目体检、每日简报、Skill 化、低风险闭环五条核心工作流,并给出对应的提示词模板。核心方法论是“渐进放权“:从只读到本地草稿,再到接入外部工具,逐步扩大自动化范围。
- [[source-summaries/2026-06-04-github-ai-agent.md|GitHub热榜:AI Agent统治,自托管成为新标配]] — 2026年6月3日GitHub热榜报告,自托管AI工作空间odysseus以37001星领跑,AI Agent与记忆系统成为核心基础设施趋势。AI账号自动化、API转换工具等“用AI“赛道快速崛起,阿里Qwen-VLA多模态模型低调开源,整体呈现出自托管、记忆增强、即插即用三大主线。
- [[source-summaries/2026-06-04-claude-code-10.md|Claude Code 调优实操:10个隐藏设置,输出质量和效率翻倍]] — 本文介绍了10个Claude Code的隐藏配置技巧,涵盖effort参数恢复、自适应思考关闭、权限模式设置、Allow/Deny规则、模型动态切换等实操方法。重点强调通过环境变量和settings.json优化工作流,包括PostToolUse和PreToolUse钩子的自动化配置。作者指出最高优先级是恢复深度推理、固定推理预算和设置安全边界。
- [[source-summaries/2026-06-04-claude-managed-agents-anthropic-agent-beta.md|Claude Managed Agents:Anthropic托管Agent基础设施正式Beta]] — Anthropic正式推出Claude Managed Agents(Beta),提供预构建、可配置的Agent运行框架,运行于托管基础设施上。核心概念包括Agent、Environment、Session和Events四要素,支持分钟到小时级的长时间任务执行、安全沙箱环境以及跨多次交互的有状态Session。与直接调用Messages API相比,Managed Agents更适合需要异步工作流、持久化文件系统和对话历史的复杂场景。
- [[source-summaries/2026-06-04-1-5-ai-gdp.md|1.5万亿美元的「暗产出」:AI正在创造GDP无法看见的财富]] — SemiAnalysis发布报告指出,AI每年创造约1.5万亿美元的「暗产出」——AI基础设施成本完整体现在GDP中,但AI带来的生产力提升、免费服务替代和消费者剩余大量无法被现行统计框架捕捉。这一现象类似1990年代互联网革命初期的「生产率悖论」,可能导致政策制定者系统性低估AI对经济的真实贡献。
- [[source-summaries/2026-06-03-nvidia-cosmos-3-ai.md|NVIDIA Cosmos 3:全球首个完全开源「全能」物理AI基础模型]] — NVIDIA在2026年GTC台北大会发布Cosmos 3,定位为物理AI基础模型,采用混合专家Transformer架构原生支持文本、图像、视频、声音和动作轨迹的统一处理。该模型将物理AI训练时间从数月压缩至数天,在多项开源模型基准测试中排名第一,并提供Super、Nano、Edge三种规格。NVIDIA同步建立Cosmos联盟,联合理想汽车、Runway等合作伙伴推动开放世界模型生态,目标覆盖机器人开发、自动驾驶和AI视频创作等场景。
- [[source-summaries/2026-06-03-ltx-2-3-3-1.md|LTX 2.3 视频套件 3.1:图生视频“一动就变脸“问题的解法]] — 本文介绍LTX 2.3视频套件3.1更新,核心解决图生视频中人物“变脸“问题。通过分阶段相似度保持控制策略,在开头强锁人物身份、中期允许自然运动、后期适当放松,实现“既要动、也要像“的效果。适用于数字人制作、AI短剧图生视频等角色参考图场景。
- [[source-summaries/2026-06-03-ecc-ai-agent-agent-harness.md|ECC:AI编程 Agent 组装框架(跨平台 agent harness 优化系统)]] — ECC 是一个跨平台 AI 编程 agent 组装框架,通过统一管理 skills、memory、security 等基础设施,让 Claude Code、Cursor、Codex 等 7 种以上编程 harness 共享同一套 agent 能力体系。框架预置 63 个专业化代理和 249 个技能,并提供记忆持久化、主动安全扫描(AgentShield)和自动学习机制。ECC 代表了 AI 编程从“单工具竞争“迈向“多代理系统组合“的第三阶段范式转移。
- [[source-summaries/2026-06-03-sapiens-ai-api-agnes-2-0-flash.md|Sapiens AI 全模态 API 无限期免费开放 — Agnes-2.0-Flash 接入教程]] — 新加坡AI公司Sapiens AI宣布其全模态API(文本、图片、视频)面向全球开发者无限期免费开放,主力模型Agnes-2.0-Flash专为Agent工作流、代码生成和复杂推理场景优化。文章提供了三步接入教程,并介绍了AgnesClaw一键部署服务,适合中小初创团队和独立开发者使用。
- [[source-summaries/2026-06-03-claude-code-deepseek-v4-pro-kimi-k2-6-agent.md|Claude Code + DeepSeek V4 Pro + Kimi K2.6 编程Agent三件套方案]] — 本文介绍将Claude Code作为框架壳、DeepSeek V4 Pro作为编码推理引擎、Kimi K2.6负责图片识别的三件套组合方案。通过兼容Anthropic Messages API的方式替换后端模型,成本相比Claude Opus 4降低数十倍。利用Claude Code的Hook机制实现图片自动路由至Kimi处理,解决纯文本模型的多模态短板。
- [[source-summaries/2026-06-03-kooky-ai.md|Kooky:AI 编程终端,解决多智能体窗口地狱]] — Kooky 是一款专为 AI 编程设计的开源 macOS 终端,将 Claude Code、Codex、Gemini CLI 等多个 AI 编程工具整合到同一工作台,支持侧边栏 workspace 显示 agent 运行状态、分屏并行、日志右键提问等功能。其核心价值在于解决多智能体并行开发时频繁切换终端窗口、上下文丢失的问题。目前仅支持 macOS 14+,定位为重度 AI Coding 用户的专属效率工具。
- [[source-summaries/2026-06-03-crewai-flow-first-nemoclaw-agent.md|CrewAI Flow-First + NemoClaw:企业级自进化Agent的双层安全架构]] — 本文介绍了一种企业级AI Agent双层安全架构:第一层使用CrewAI Flow-First范式通过结构化流程控制Agent编排逻辑,第二层使用NVIDIA NemoClaw通过OpenShell沙箱和策略护栏约束Agent执行行为。该架构分别解决了Agent行为不可预测和敏感数据泄露两大企业痛点,适用于金融、医疗、法律等数据敏感行业及需满足SOC2、GDPR合规要求的场景。
- [[source-summaries/2026-06-03-tabby-33k-star-ai.md|Tabby:33k Star开源自托管AI编程助手,代码不出内网]] — Tabby是GitHub Copilot的开源替代品,支持完全自托管部署,代码永远不离开用户自己的基础设施。它支持多种开源模型(StarCoder、CodeLlama、DeepSeek Coder等)和12款主流IDE,并提供实时代码补全、对话式编程及企业级权限管理功能。核心价值在于隐私保护与自主可控,特别适合有代码安全要求的企业内网环境。
- [[source-summaries/2026-06-03-mira-mpa-40-sota.md|超级递归智能体MIRA自主打造最强材料基座模型MPA:40项实验全面SOTA]] — 深度原理团队发布材料性质预测基座模型MPA,由AI科研智能体MIRA通过递归自训练自主设计并产出,在40项实验性质预测任务中全面超越前SOTA Suiren-1.0,平均MAE降低10%,燃烧焓最高降幅达51%。MIRA承担了完整科研管线,包括文献调研、代码重构、训练评估循环和报告撰写,人类仅负责意图说明和阶段性审核。该工作被视为「用AI改进AI」的首次可量化落地,标志着递归自我改进飞轮已开始转动。
- [[source-summaries/2026-06-03-900m-glm-ocr-94.md|国产900M小钢炮GLM-OCR:公式表格识别率94%,边缘设备可跑]] — GLM-OCR是智谱开源的0.9B轻量级多模态OCR模型,在OmniDocBench V1.5基准测试中以94.62分排名第一,超越Gemini 3 Pro和GPT-5.2等闭源大模型。该模型支持vLLM、SGLang、Ollama等多种部署方式,可在边缘设备甚至CPU上运行,成本约为传统OCR方案的十分之一。其核心优势在于对复杂表格、公式、手写体、多语言及票据等真实业务场景的全面支持,是PaddleOCR等传统方案的有力替代选择。
- [[source-summaries/2026-06-03-docusaurus-facebook.md|Docusaurus — Facebook官方开源文档网站生成器]] — Docusaurus是Meta/Facebook官方开源的文档网站生成器,GitHub拥有60k+星,支持用Markdown/MDX编写文档并自动构建成静态网站。核心功能包括MDX组件嵌入、多版本文档管理、开箱即用的国际化支持以及Algolia搜索集成。适合开源项目、公司内部技术文档及个人项目使用,相比VitePress功能更重,相比GitBook完全免费开源。
- [[source-summaries/2026-06-03-chrome-gpdf-pdf.md|放弃无头Chrome浏览器!改用gPdf实现毫秒级PDF生成]] — 本文介绍了gPdf,一款基于Rust开发的边缘原生JSON转PDF API服务,旨在替代启动慢、内存占用高的无头Chrome方案。gPdf通过全球300+边缘节点渲染,p50延迟仅3-5ms,支持跨页表格、矢量条码、CJK字体内置及PDF/A合规等功能。适用于发票生成、物流面单、ERP文档导出等结构化文档场景,但不适合需要像素级HTML还原的用途。
- [[source-summaries/2026-06-02-8-1-heygen.md|美团开源「数字人视频生成」新标杆!8步推理、1分钟出片,效果碾压HeyGen]] — 美团开源的LongCat-Video-Avatar 1.5是一款数字人视频生成模型,仅需8步推理即可在RTX 4090上1分钟生成1分钟视频。该模型通过解耦式无条件引导、跨块潜变量拼接等技术解决了静音僵硬、长视频脸崩等行业痛点。与HeyGen等闭源产品相比,该模型在推理效率和长视频稳定性上具有明显优势,适合有硬件预算的技术团队和内容创作者使用。
- [[source-summaries/2026-06-02-claude-code.md|Claude Code 的五种代理模式]] — 本文系统介绍了 Claude Code 的五种代理模式:交互式会话、子代理、代理团队、例程和动态工作流,沿「上下文隔离」与「计划控制权」两根轴递进。文章详细说明了每种模式的使用场景、配置方法、优劣势及成本,并揭示了一些营销材料中不会提到的实际限制。核心洞察是:瓶颈已从代码执行转移到任务定义、输出验证和模式选择上。
- [[source-summaries/2026-06-02-claude-code-agent-harness.md|一句话让Claude Code自动生成一整个Agent团队 — Harness]] — Harness是一个Claude Code的元技能项目,通过一句自然语言指令即可自动分析项目领域、设计Agent团队架构并生成所有Agent定义和技能文件。该项目提供6种团队协作模式(流水线、扇出扇入、专家池等),实测显示在15个软件工程任务中质量分平均提升60%。核心理念是将人类组织管理模式移植到AI Agent编排,复杂任务下结构化团队比单Agent效果显著更优。
- [[source-summaries/2026-06-02-github-67-3k-star-llm-crawl4ai-6.md|GitHub 67.3K Star!专为 LLM 设计的爬虫 Crawl4AI,比付费服务快 6 倍还完全免费]] — Crawl4AI 是一个专为 LLM 设计的开源网页爬取框架,能将任意网页转换为干净的 Markdown 格式,速度比同类付费服务快 6 倍。该框架支持异步爬取、三重反爬防护、深度爬取、结构化提取等功能,完全免费无需 API Key。适合用于 RAG 流水线、AI Agent 和数据管道等场景。
- [[source-summaries/2026-06-02-5-14-mvp-ai.md|5人团队14天MVP挑战:用AI工具矩阵干掉团队协作损耗]] — 本文记录了一个5人团队在14天内利用AI工具矩阵完成MVP挑战的实验,核心方案是用Antigravity IDE、Axure RP 9和Cherry Studio组成工具矩阵,以技术对齐替代传统开会对齐,彻底消除跨部门沟通翻译税。实验结果显示销售培训周期从2周缩短至3天,常见问题响应时间从30分钟降至2分钟,并通过1200+样本A/B测试验证了方法论的有效性。
- [[source-summaries/2026-06-02-ai-memory-core-200-rust-ai-agent.md|ai-memory-core:200行Rust库给AI Agent装长期记忆]] — ai-memory-core是一个用Rust实现的轻量级AI Agent长期记忆库,采用热记忆与冷记忆分层架构,将记忆持久化为纯Markdown文件,无需数据库或向量存储。该库通过MD5指纹去重和无监督访问热度算法,自动管理记忆优先级并注入到LLM的system prompt中,适用于Tauri桌面应用、CLI工具及嵌入式Agent场景。其核心优势在于零重依赖、即时可用,专为Rust技术栈设计,支持Anthropic、OpenAI和DeepSeek等多种LLM后端进行记忆提取。
- [[source-summaries/2026-06-02-cua-17-3k-star-computer-use-agent.md|CUA:17.3k Star 开源 Computer Use Agent,后台操控不抢鼠标]] — CUA 是一个拥有17.3k Star的开源Computer Use Agent基础设施,核心优势在于通过系统层直接操控UI元素,实现后台执行不抢占鼠标焦点。项目包含Driver、Sandbox、CuaBot等五个组件,支持MCP协议可直接集成Claude Code等主流工具。相比商业方案截屏上传云端的合规风险,CUA的本地沙盒方案让企业场景落地成为可能。
- [[source-summaries/2026-06-02-10-github-90.md|10款GitHub高星免费工具,替代90%付费软件]] — 本文介绍了10款GitHub高星开源免费工具,涵盖PDF处理、截图录屏、文件检索、图片批处理、视频转码、系统清理和硬件监控等场景,可替代大多数付费软件。文章按人群分类推荐组合方案,并提醒用户只从GitHub官方仓库下载以确保安全。对于90%的普通用户而言,这些开源工具完全能满足日常需求。
- [[source-summaries/2026-06-02-claude-code-session.md|Claude Code 并行多 Session:工程师角色转变为调度器]] — 文章探讨了Claude Code并行运行多个Session的工程模式,指出coding agents的核心价值在于并行执行而非单次补全。工程师的角色正从编码者转变为调度器,真正的瓶颈从“写代码“转向“管理大量session的上下文“。未来工程师的效率差距将取决于能同时调度多少agent,而非代码编写速度。
- [[source-summaries/2026-06-02-agnes-ai-api.md|Agnes AI 无限期免费开放全模态API(文本/图片/视频)]] — Agnes AI(全球Top 10 AI Lab)于2026年6月1日起无限期免费开放三类核心模型API,涵盖文本、图片和视频生成能力。开发者可通过平台创建API Key直接调用,支持与Workbuddy和Hermes本地Agent等工具集成。其战略意图是通过免费降低试错成本,先扩大开发者用户基础,再以稳定性和生态留住用户。
- [[source-summaries/2026-06-01-step-3-7-flash-198b-a11b-400-token-s-agent.md|阶跃星辰 Step 3.7 Flash:198B-A11B 多模态开源模型,400 token/s,专为 Agent 设计]] — 阶跃星辰发布 Step 3.7 Flash,采用稀疏 MoE 架构,总参数 198B 但仅激活 11B,推理速度达 400 token/s,是目前多模态开源模型最快梯队之一。模型专为 Agent 场景优化,支持长程多轮工作流,同时兼容 OpenAI 和 Anthropic 两套协议,可在消费级显卡上本地部署。在 SWE-Bench Pro 和 ClawEval 等 Agent 基准上均位居开源模型第一,以极低成本实现接近顶级闭源模型的编码性能。
- [[source-summaries/2026-06-01-alist-49000-star-40.md|Alist:49000+ Star 的网盘聚合神器,支持 40+ 种存储服务]] — Alist 是一款拥有 49000+ Star 的开源自托管网盘聚合工具,支持阿里云盘、百度网盘、OneDrive 等 40 余种存储服务的统一管理。其核心亮点是内置完整 WebDAV 支持,可将各大网盘挂载为本地磁盘,方便 Obsidian、Zotero 等工具直接访问。部署方式极简,单一可执行文件即可运行,授权信息不经过任何第三方服务器。
- [[source-summaries/2026-06-01-lance-3b.md|字节Lance 3B:一个模型统一图像/视频理解、生成与编辑]] — 字节跳动发布Lance 3B,一个30亿参数的多模态统一模型,可同时处理图像与视频的理解、生成和编辑任务,无需多模型协作。该模型在VBench、MVBench、GenEval等主流基准上达到开源顶级水平,仅需单张RTX 4090即可运行,部署成本从百万级降至千元级。采用Apache 2.0协议完全免费商用,核心创新包括统一交错序列架构、MaPE位置编码和四阶段训练策略。
- [[source-summaries/2026-06-01-sti-wm.md|眸深智能STI-WM:机器人原生时空一体世界动作模型]] — 眸深智能(复旦系科创企业)发布STI-WM世界动作模型,通过时空一体化原生建模、原生三维感知和内置物理一致性引擎,解决当前VLA方案空间感知不足、物理约束缺失等痛点。该模型支持百秒级长时程任务规划与精细动作输出,已完成3亿元Pre-A轮融资并与多家头部企业达成合作,目标覆盖工业、养老、商业服务等场景。
- [[source-summaries/2026-06-01-suno-ace-step-ui-ai.md|开源 Suno 界面:ACE-Step UI 让本地 AI 作曲像听歌一样简单]] — ACE-Step UI 是社区开发者 fspecii 为 ACE-Step 1.5 模型打造的开源前端,提供 Spotify 风格的 Web 界面,支持多种创作模式、曲库管理和音频工具链。相比 Suno/Udio 等商业服务,该方案完全本地运行,无月费、无隐私顾虑,生成内容归用户所有。技术栈基于 React + Express + SQLite,最低需要 4GB 显存的 NVIDIA GPU 即可运行。
- [[source-summaries/2026-06-01-5-31-m2-7.md|5月31日开源速报:自进化模型M2.7震撼开源]] — 2026年5月31日开源速报聚焦三大趋势:自进化模型、全双工语音和Agent Swarm落地。MiniMax M2.7首次实现自进化机制,NVIDIA PersonaPlex带来全双工实时语音对话,Kimi K2.6支持300个Agent协同工作12小时。当月开源大模型排行榜中,六款顶级模型全部开源可商用,其中五款来自中国团队。
- [[source-summaries/2026-06-01-deepseek.md|DeepSeek最强提示词:五步深度推理框架]] — 本文介绍了一套针对DeepSeek设计的「万能五步提示词框架」,通过多维拆解、正反推演、深度质疑、全局复盘和终态结论五个步骤,激活AI的深度推理与自我批判能力。文章分析了该框架有效的三大核心机制,并提供了辩论会模式和外脑数据库模式两种高阶变体,核心理念是设计「思考路径」而非索取答案。
- [[source-summaries/2026-06-01-skill.md|视频生成进Skill,真正门槛不是生成能力]] — 本文分析了EvoLinkAI将Seedance 2.0视频生成能力打包为OpenClaw Skill后,Agent落地面临的两大工程障碍:视觉输出缺乏机器可验的完成标准,以及工具发现精度不足导致调用失败率高。文章以Math.Skill双验证引擎和Hermes Tool Search(使Opus 4准确率从49%提升至74%)为参照,指出视觉类Skill在验证机制和工具匹配精度两个方向上均欠火候。核心判断是:视觉Agent落地的真正门槛是可靠性而非生成能力,短期内仍需人工review兜底。
- [[source-summaries/2026-06-01-github-2-prompt-optimizer.md|GitHub狂揽2万星的Prompt Optimizer,让你的提示词一秒变王者]] — Prompt Optimizer是一款GitHub上获得19000+星的开源提示词优化工具,支持一键智能优化、多轮迭代、全模型矩阵及图像生成提示词优化。工具采用纯客户端架构,数据本地存储,支持MCP协议和Docker私有化部署,适合AI开发者、内容创作者和企业AI团队使用。
- [[source-summaries/2026-05-31-ltx-video-4k.md|LTX-Video 视频生成:从图片到4K视频的全流程]] — 本文介绍了Lightricks开发的开源视频生成模型LTX-Video的完整使用指南,涵盖从2B到22B参数的家族版本演进及LTX-2.3的三大核心升级。文章详细说明了ComfyUI部署流程、硬件要求、关键参数配置,以及图像到视频(I2V)和文本到视频(T2V)两种工作流的实践要点。
- [[source-summaries/2026-05-31-hermes-claude-code-ai.md|Hermes + Claude Code 联动调度指南:让 AI 工具分工协作的实操手册]] — 本文介绍如何将 Hermes 作为调度层、Claude Code 作为执行层进行联动协作,通过“拆-派-收“三阶段模型处理复杂开发任务。文章提供了适合联动的四种场景、实操流程示例以及可直接复制的调度提示词模板。核心理念是分工明确:Hermes 负责分析和汇总,Claude Code 负责深度代码分析,最终决策权留给操作者。
- [[source-summaries/2026-05-31-codegraph-vs-graphify-vs-code-review-graph-vs-gitnexus-4.md|CodeGraph vs Graphify vs code-review-graph vs GitNexus:4个代码知识图谱工具对比]] — 本文对比了四款面向AI编码Agent的代码知识图谱工具:CodeGraph、Graphify、code-review-graph和GitNexus。这四款工具的核心思路一致,都是将代码库离线索引成图谱结构,让Agent直接查询图谱而非扫描文件,从而减少token消耗和工具调用次数。文章按场景给出了选型建议,并详细介绍了各工具的定位、交付形态和快速上手方式。
- [[source-summaries/2026-05-31-stable-worldmodel.md|Stable-WorldModel:世界模型统一基建框架]] — Stable-WorldModel 是由 Yann LeCun 参与打造的开源世界模型统一基建框架,专为 JEPA 和世界模型科研设计。它解决了研究者复现论文时面临的环境不一致、底层逻辑互斥等“复现地狱“问题,提供从数据采集到训练再到 MPC 规划的全流程闭环支持。该项目内置标准化环境和多种基线,适用于底层世界模型研究、机器人控制和 AGI 方向探索。
- [[source-summaries/2026-05-31-hermes-codex-profiles-agent.md|Hermes + 本地 CodeX 实战:用 Profiles 打造专属代码 Agent 军团]] — 本文介绍如何利用 Hermes 的 Profiles 功能构建“主 Agent + Coder Agent“双智能体架构,解决代码任务与日常聊天记忆污染问题。Coder Profile 专职负责需求拆解、调用本地 CodeX CLI 执行编码及审查结果,而非直接生成代码。该方案适合隐私优先的个人开发者或小团队,支持多语言并行 Profile 扩展。
- [[source-summaries/2026-05-31-bonsai-image-4b-ai.md|Bonsai Image 4B — 浏览器本地运行的顶级AI画图模型]] — PrismML团队将16GB的FLUX.2 Klein 4B图像生成模型通过1-bit和Ternary量化压缩至3GB,实现在Chrome/Safari浏览器及iOS设备上纯本地运行。该模型基于WebGPU技术,无需安装软件,断网可用,数据不上传,在iPhone 17 Pro Max上约9秒出图,画质保留原版88%–95%。这是端侧AI图像生成的重要里程碑,标志着顶级画图能力正从云端GPU向手机和浏览器迁移。
- [[source-summaries/2026-05-31-voxcpm2-tokenizer-free-tts.md|VoxCPM2 — Tokenizer-Free TTS 多语言语音生成]] — VoxCPM2是OpenBMB发布的无分词器端到端TTS系统,基于扩散自回归架构,拥有2B参数并训练于超200万小时多语言语音数据,支持30种语言和48kHz录音室级别音频输出。系统提供声音设计、可控克隆、极致克隆和多语言合成四大核心能力,无需语言标签即可直接处理多语言输入。作为完全开源项目,VoxCPM2在中文多语言场景和自然度方面具有差异化优势,可与ElevenLabs、OpenAI Voice Engine等商业产品竞争。
- [[source-summaries/2026-05-31-llamaindex-liteparse.md|LlamaIndex LiteParse — 本地极速文档解析库]] — LiteParse 是 LlamaIndex 开源的本地文档解析工具,基于 Rust 和 PDFium 实现亚秒级 PDF 解析,支持 PDF、DOCX、XLSX、PPTX 等格式。提供 Python、Node.js、WASM 多语言绑定,内置 Tesseract OCR,输出带 Bounding Box 的结构化 JSON。适合对数据隐私有要求的 RAG 管道和 AI Agent 本地文档处理场景,是云端 LlamaParse 的轻量替代品。
- [[source-summaries/2026-05-31-huashu-design-claude-code-figma.md|huashu-design:一条命令生成高保真原型,Claude Code 里的 Figma 替代方案]] — huashu-design 是一个运行在 Claude Code 等 Agent 中的设计 Skill,通过一句话指令可在 3–30 分钟内生成交互式 App 原型、可编辑 PPTX、动效视频和信息图等多种设计产物。项目内置品牌资产协议、反 AI 视觉陷阱规则和初级设计师工作流等核心机制,确保输出质量。相比 Claude Design 等图形工具,它以对话驱动方式让设计层对用户透明,适合不愿打开图形 UI 的开发者和产品人。
- [[source-summaries/2026-05-31-5-github-17.md|5月 GitHub 爆款开源项目盘点:17个热门项目]] — 本文盘点了2026年5月GitHub上17个热门开源项目,涵盖AI内容创作(MoneyPrinterTurbo)、Agent框架(ECC、compound-engineering-plugin)、文档处理(markitdown、liteparse)、编程学习及企业基础设施等多个领域。项目涉及Anthropic、微软、Meta等主要科技公司,以及多个社区驱动的开源工具。整体反映了当前开源社区在AI工程化、本地化部署和开发效率提升方面的热点趋势。
- [[source-summaries/2026-05-31-rxeval-benchmark.md|港科大 RxEval:医疗大模型处方级 Benchmark]] — 港科大提出 RxEval 医疗大模型评测基准,将传统住院用药预测从粗粒度整次住院级别细化为每个开药时间点的独立决策,要求模型输出具体的药物-剂量-给药途径三元组。数据集包含1547道题、584名患者,错误选项专门设计为忽略过敏史或误读肾功能等临床推理陷阱。最强模型 Gemini-3.1-Pro 的 Exact Match 仅为46.10%,揭示了当前医疗 AI 在真实临床决策能力上的显著短板。
- [[source-summaries/2026-05-31-claude-code-yt-dlp.md|Claude Code 结合 yt-dlp:视频自动爬取、转录、音频提取]] — 本文介绍如何使用 Claude Code 结合 yt-dlp 实现视频下载、音频提取和字幕处理的自动化工作流。通过自然语言指令替代复杂命令行参数,降低工具使用门槛。文章还涵盖 Skill 封装、MCP 服务器集成及批量定时任务等进阶用法。
- [[source-summaries/2026-05-31-rag.md|企业知识库构建:从RAG到本体]] — 本文提出企业知识库建设的四层金字塔路线图,从基础RAG到LLM Wiki、知识图谱/本体,再到GBrain类个人外挂大脑,逐层递进。核心观点是传统RAG无状态、无记忆,真正的知识库应让AI主动维护知识网络并沉淀上下文关系。文章强调知识系统与业务系统的打通比选择哪个LLM更重要,终极目标是实现“知识复利“。
- [[source-summaries/2026-05-31-harness-skill-claude-code-dynamic-workflows.md|Harness的Skill时刻:详解Claude Code 的 Dynamic Workflows]] — 本文详解Anthropic于2026年5月发布的Claude Code Dynamic Workflows功能,其核心是将编排逻辑写成可执行的JavaScript脚本,通过agent()、parallel()、pipeline()原语调度subagent,中间结果存于脚本变量而非主上下文。文章涵盖架构分层、本地落盘结构、安全沙箱机制及适用场景,强调该功能解决了大任务中证据分散、判断口径混乱的问题。
- [[source-summaries/2026-05-30-opus-4-8-claude-code-dynamic-workflows.md|Opus 4.8 + Claude Code Dynamic Workflows:从单兵作战到军团编排]] — 本文介绍了Anthropic同步发布的两项更新:Claude Opus 4.8模型升级与Claude Code Dynamic Workflows。Opus 4.8在诚实性和Agentic可靠性上显著提升,而Dynamic Workflows则实现了分层、并行、可验证的多Agent编排架构,支持数百个Agent协同工作。文章通过React迁移至Solid.js和Bun代码库Zig转Rust两个实战案例,展示了该系统将AI编程工具从辅助角色进化为“承包商团队“的范式转变。
- [[source-summaries/2026-05-30-claude-code-superpowers-gsd-bmad-spec-kit.md|Claude Code 工作流横评:Superpowers、GSD、BMAD、Spec Kit 怎么选]] — 本文横向对比了四款 Claude Code 工作流插件:Superpowers 强制执行七阶段开发规范、GSD 专注解决上下文退化问题、BMAD Method 引入多角色敏捷开发框架、Spec Kit 采用规格驱动开发理念。文章指出 Claude Code 的真正瓶颈在于人机协作方式,这四款工具本质上是“元提示词“,帮助开发者在动手写代码前建立清晰的流程规范。
- [[source-summaries/2026-05-30-hermes.md|Hermes 主模型与辅助模型分开配置:省钱实战指南]] — 本文介绍了 Hermes 工具中主模型与辅助模型的分离配置方法,指出默认情况下所有辅助任务均使用主模型(如 claude-sonnet),造成不必要的成本浪费。通过将标题生成、上下文压缩、命令审批等 8 个辅助槽位替换为 deepseek-chat 或 gemini-flash 等廉价模型,实测每天可节省四五美元。文章详细说明了 Dashboard 操作路径、命令行配置方式及各场景下的生效时机。
- [[source-summaries/2026-05-30-ai-embodiskill-skillevolver.md|让科研AI学会自进化:EmbodiSkill + SkillEvolver 双框架解析]] — 本文解析了清华团队提出的两个AI Agent技能自进化框架:EmbodiSkill通过四种反思类型(Discovery、Optimization、SkillDefect、ExecutionLapse)让Agent区分失败原因并针对性更新技能;SkillEvolver通过并行策略探索和对比技能更新机制管理技能进化,并用独立Auditor拦截有害更新。两个框架均只更新技能文字和代码而非模型权重,无需GPU训练,并可与OpenClaw Evolver等系统对应实现。
- [[source-summaries/2026-05-30-codegraph-understand-anything.md|CodeGraph + Understand-Anything:双工具协同的代码理解实战]] — 本文介绍了CodeGraph与Understand-Anything两款工具的协同使用方案。CodeGraph通过tree-sitter解析代码结构并存入SQLite,以MCP Server形式供Agent查询,可大幅减少token消耗和工具调用次数;Understand-Anything则结合静态分析与LLM语义理解,构建代码知识图谱并提供可视化与问答能力。两者分别解决结构层与语义层的代码理解问题,形成完整的代码理解pipeline。
- [[source-summaries/2026-05-30-skillopt-agent-skill.md|微软开源 SkillOpt:让 Agent Skill 自动优化进化]] — 微软 Research 开源了 SkillOpt,一个无需修改模型权重、专注于自动优化 Agent Skill 文档的框架。其核心机制是双模型协作:执行模型跑任务记录成败,优化模型复盘并对 Skill 做有限修改,每次改动须通过验证集才能保留。在 6 类任务、7 个模型的 52 次测试中全部取得第一,GPT-5.5 平均提升 23.5 分。
- [[source-summaries/2026-05-30-muse-autoskill.md|MUSE-Autoskill:自进化智能体技能框架]] — 字节跳动提出MUSE-Autoskill框架,通过创建、评估、精炼、记忆、管理五阶段统一范式,赋予Agent自主生成并复用技能的能力。该框架引入技能级记忆体系和两阶段检索机制,在SkillsBench基准上自生成技能配置达到87.94%准确率,超越人工技能上限。生成的技能可跨Agent迁移,验证其作为通用可迁移知识资产的价值。
- [[source-summaries/2026-05-30-english-level-up-tips.md|English-level-up-tips - 开源英语学习指南]] — 这是一个拥有46k star的GitHub开源英语学习指南,涵盖听力、口语、阅读、写作、词汇五大模块,并于2026年新增AI辅助学习章节,提供具体prompt和工作流。适合工作后重启英语、备考雅思托福或希望用AI构建高效学习闭环的人群。
- [[source-summaries/2026-05-29-flux-2-klein-flux.md|FLUX.2 [klein] - 秒级图像生成及编辑,迄今为止最快的Flux图像模型]] — FLUX.2 [klein] 是黑森林团队发布的超快图像生成模型,能在不到一秒内完成高质量图像生成,支持4B和9B两种规格。模型支持ComfyUI和WebUI双模式运行,与NVIDIA合作推出FP8/NVFP4量化版本,速度提升最高2.7倍,显存减少55%。适合消费级GPU(8G显存起)本地部署,文本编码器基于Qwen3系列。
- [[source-summaries/2026-05-29-hermes-agent-soul-md.md|Hermes Agent 四场景配置完整方案,附SOUL.md模板]] — 本文介绍了Hermes Agent的核心配置机制SOUL.md,通过Identity、Style、Avoid三个维度定义Agent人设。文章提供了企业办公自动化、个人生产力、开发工具集成、内容创作四个典型场景的完整配置方案,包含SOUL.md模板、配套Skill命令和AGENTS.md约束规范。每个场景针对具体痛点设计了差异化的行为边界和默认策略。
- [[source-summaries/2026-05-29-rag-10.md|不卖课不做中转,用RAG接企业单月入10万:这条路为什么现在能走通]] — 本文分析了2026年通过RAG技术承接企业知识库项目的商业路径,指出企业AI应用已从POC进入量产期,能落地的技术人才极度稀缺。文章详细介绍了RAG技术栈选型、数据处理策略、定价合同设计及90天起步路径,认为窗口期约12-18个月。
- [[source-summaries/2026-05-29-qwen-multiple-angles-96.md|Qwen-Multiple-Angles:角色与产品多视角速成,支持96种相机角度]] — Qwen-Multiple-Angles 是基于 Qwen-Image-Edit-2511 模型的 LoRA 插件,支持从单张参考图生成96种不同相机角度的图像,涵盖水平方向、垂直高度和远近焦距三个维度。该工具特别擅长低角度仰拍,训练数据采用 Gaussian Splatting 技术制作,保证空间透视一致性。适用于角色设计、产品展示、游戏概念设计及视频前处理等场景,支持 ComfyUI 和 WebUI 双模式运行。
- [[source-summaries/2026-05-28-claude-code-diff.md|Claude Code 安全插件:边写边扫漏洞,直接给 diff 和修复建议]] — Claude Code 插件市场新增安全扫描插件,将安全检查时机前移至编码过程中,支持文件修改、模型切换、提交三个触发点。插件不输出模糊警告,而是生成可直接 review 的 diff 和修复建议,并支持通过 claude-security-guidance.md 自定义团队安全规则。Anthropic 内部基准显示安全相关评论减少 30-40%,但第三方独立验证数据尚缺。
- [[source-summaries/2026-05-28-2026-ai-gemdesign-figma-6.md|2026年AI原型工具横评:GemDesign真能替代Figma吗?6款工具实测]] — 对GemDesign、Figma AI、Framer、Uizard、Galileo AI、Lovable六款AI原型工具进行横向评测。GemDesign因支持需求到代码的完整链路、MCP服务及生成前自定义主题,综合评分最高。结论为GemDesign与Figma互补而非替代关系,前者负责原型生成与代码导出,后者负责视觉深化。
- [[source-summaries/2026-05-28-40-obsidian-ima.md|40岁后我把经验变成数字资产|Obsidian+IMA完整方案]] — 作者分享15年行业经验数字化方案,采用Obsidian管理个人思考、IMA管理团队文档的双轨工具体系。知识管理分三阶段:收集、连接、输出,通过每周整理实现个人知识向团队资产的转化。核心价值在于将经验从“脑中“转移到“系统中“,实现可搜索、可复用、可传承的知识复利。
- [[source-summaries/2026-05-28-claude-code-harness-ai.md|花一小时搭好 Claude Code Harness,AI 写代码质量立竿见影]] — 本文介绍 Claude Code Harness 五步搭建指南,涵盖 CLAUDE.md 规则配置、SessionStart/Stop Hooks 自动注入上下文、Skills 封装重复工作流、LSP 实现符号级代码搜索,以及 Sub-agent 将探索与编辑分离以节省上下文。核心观点:模型决定上限,Harness 决定实际产出质量。适用于10万行以上大型 monorepo 项目。
- [[source-summaries/2026-05-28-vimax-ai-agent.md|ViMax:一句话生成完整AI视频,港大开源多Agent视频制作流水线]] — ViMax是港大HKUDS团队开源的多Agent视频制作流水线,GitHub获7.7k Star。系统将导演、编剧、制片、视频生成四个角色全部由AI Agent承担,支持基于RAG的长剧本生成、多机位模拟及跨镜头角色一致性保障。适用于内容创作者快速生成概念视频及AI多Agent视频生成研究。
- [[source-summaries/2026-05-28-vggt-edit-5-3d-120.md|VGGT-Edit:5秒完成3D场景编辑,120倍加速]] — VGGT-Edit是一个原生3D场景编辑框架,通过残差场预测、深度同步文本注入和视角重要性加权三大机制,直接在3D空间进行编辑而非绕回2D。单次编辑约5秒,最高实现120倍加速,在语义一致性和多视角稳定性上超越现有方法。对机器人、数字孪生、AR/VR等领域具有重要应用价值。
- [[source-summaries/2026-05-27-meshy-ai-7000-3d-3d-3d.md|Meshy AI:7000万+3D打印模型库,支持图片转3D和文生3D]] — Meshy AI是一款AI驱动的3D模型生成工具,拥有超过7000万现成3D打印模型库,支持图片转3D和文本生成3D模型两种核心功能。该工具适用于3D打印爱好者、游戏开发者和教育创作者,可快速生成高质量3D资产。与NVIDIA Lyra 2.0等工具方向一致,专注于静态3D模型的高效生成与应用。
- [[source-summaries/2026-05-27-fogsight.md|雾象(Fogsight):一句话生科普教学动画视频,完全开源可本地部署]] — 雾象(Fogsight)是一个LLM驱动的动画引擎Agent,支持输入一句话自动生成叙事完整的教学动画视频,覆盖数学、物理、化学等多学科场景。项目完全开源,支持本地部署,输出格式包括HTML和视频,并支持中英文双语字幕。可作为VideoTutor的开源替代方案,适合教育类Agent系统集成使用。
- [[source-summaries/2026-05-27-ai-20-100-harness.md|AI成功率从20%飙到100%!只需一个Harness文件]] — 本文介绍Harness——围绕AI编程智能体的工程基础设施,包含指令、工具、环境、状态、反馈五个子系统。通过Anthropic和OpenAI的实验对比,证明加装Harness可将成功率从20%提升至100%。文章详述三大致命失败模式及五步搭建方法,核心结论是模型能力决定上限,Harness决定能用到上限的几成。
- [[source-summaries/2026-05-27-openai-codex-for-powerpoint-chatgpt-ppt.md|OpenAI Codex for PowerPoint:ChatGPT直接在PPT里生成幻灯片]] — OpenAI推出Codex for PowerPoint,允许ChatGPT直接在PowerPoint原生格式内生成幻灯片,无需导入导出流程。此举标志着AI PPT生成从“生成替代品“进化为“原生集成“,与Microsoft 365 Copilot方向一致。对fast-ppt、Presenton等独立PPT生成工具形成竞争压力。
- [[source-summaries/2026-05-27-llava-onevision-2-8b-codec-qwen3-vl.md|LLaVA-OneVision-2:完全开源8B视觉大模型,Codec流视频理解领先Qwen3-VL]] — LLaVA-OV-2是基于Qwen3-8B的完全开源8B视觉大模型,采用Apache-2.0协议。核心创新是Codec流Tokenization,利用H.264/H.265编解码信号自动分配token密度,使token时间密度与视频内容信息密度对齐。在视频理解、空间推理和目标追踪任务上全面领先同规模的Qwen3-VL-8B,但OCR和文档理解能力相对较弱。
- [[source-summaries/2026-05-27-opensquilla-cli-token-agent.md|OpenSquilla:把模型路由做进CLI的Token高效Agent]] — OpenSquilla是一个CLI Agent框架,核心创新是基于LightGBM+ONNX的本地模型路由器SquillaRouter,可自动为每轮对话选择「够用且最便宜」的模型。采用微内核架构,所有入口共享同一turn loop,支持20+LLM提供商。相比云端路由服务,本地路由更轻量、无外部依赖,适合企业生产环境控制Token成本。
- [[source-summaries/2026-05-27-harness-ai-first-ai.md|聊聊Harness时代AI-First的组织架构:从信任人到信任AI]] — 本文来自《硅谷101》播客,Creao三位创始人探讨了Harness时代AI-First组织架构的转型逻辑。核心观点是模型商品化后,框架和工程化能力成为护城河,组织需从“信任人的判断“转向“信任AI的执行“。实现这一转型的关键在于建立可观测性和可审计性等AI输出信任机制。
- [[source-summaries/2026-05-26-8g-rtx3070-35b.md|8G显存封神!RTX3070本地流畅跑通35B多模态大模型]] — 本文介绍如何用RTX3070 8G显卡配合大内存,通过llama.cpp的GPU/CPU混合推理技术,成功本地部署Qwen3.6-35B多模态大模型。核心方案是利用-ngl参数控制GPU层数,将超出显存的层offload到内存,Q4_K_M量化后约20GB。证明消费级显卡加32GB以上内存即可流畅运行35B级别多模态模型,无需A100或4090等专业GPU。
- [[source-summaries/2026-05-26-affaan-m-ecc-190k-stars-agent-harness.md|affaan-m/ECC:190K Stars 的 Agent Harness 性能优化系统]] — ECC是Anthropic Hackathon获奖作品,定位为跨框架的Agent Harness性能优化系统,支持Claude Code、Cursor等7个主流框架。系统包含Skills、Instincts、Memory、Security、Research五大模块,其中AgentShield提供1282条安全规则。v2.0引入Rust控制平面,提供GUI Dashboard和守护进程管理能力。
- [[source-summaries/2026-05-25-claude-code-claude-plugins-official.md|Claude Code 官方插件市场 claude-plugins-official]] — Anthropic官方在GitHub开源的Claude Code插件目录,提供斜杠命令、子智能体、Hooks、MCP Servers等能力。核心插件包括项目配置扫描工具claude-code-setup、7阶段结构化开发流程feature-dev、自然语言配置Hooks的hookify,以及遗留代码现代化工具code-modernization。插件通过/plugin install命令安装,支持图形化界面管理。
- [[source-summaries/2026-05-25-asco-2026-adc-ctdna-car-t.md|ASCO 2026:消化道肿瘤四大突破——免疫维持、ADC、ctDNA、腹腔CAR-T]] — 2026年ASCO年会消化道肿瘤领域四项重要研究:dMMR/MSI-H结直肠癌达CCR后停药安全可行;瑞康曲妥珠单抗显著改善HER2阳性晚期结直肠癌PFS;早期ctDNA清除可预测KRAS G12C突变mCRC疗效;腹腔CAR-T治疗结直肠癌腹膜转移ORR达57.1%。多项研究均由中国研究者主导,展示中国肿瘤临床研究实力。
- [[source-summaries/2026-05-25-yolo26-seg.md|YOLO26-Seg:像素级实时实例分割,边缘端也能跑]] — YOLO26-Seg是YOLO26的实例分割版本,通过NMS-free预测头、MuSGD混合优化器和升级版多尺度Proto模块实现架构级升级。最小模型yolo26n-seg仅2.7M参数,T4推理延迟2.1ms,适合Jetson等边缘设备部署。文章涵盖性能对比、快速使用代码、部署导出方式及实战避坑建议。
- [[source-summaries/2026-05-25-automatic-prompt-engineer-ai-1-4k.md|Automatic Prompt Engineer:让AI自动生成和优化提示词(1.4K★)]] — APE是一个开源项目,通过让大语言模型自动生成和评估提示词候选,替代人工手写提示词的传统方式。系统分三步运行:生成候选提示词、评估zero-shot性能、选取最优结果。在24个NLP任务测试中,21个任务的自动生成提示词效果不低于人工编写。
- [[source-summaries/2026-05-25-nature-x-lncrna-ptchd1-as.md|Nature | 自闭症遗传研究新突破:X连锁lncRNA PTCHD1-AS与孤独症核心特征]] — 本研究发现X染色体上的长链非编码RNA PTCHD1-AS缺失与男性孤独症谱系障碍风险显著相关,是首个明确仅关联孤独症核心表型的X连锁lncRNA。通过CRISPR敲除小鼠模型验证,雄性小鼠出现社交缺陷和重复行为,但学习记忆功能保留。多组学分析揭示纹状体cPKC通路异常为潜在治疗靶点,为精准干预ASD提供分子基础。
- [[source-summaries/2026-05-24-understand-anything.md|Understand Anything:把老代码库变成可交互知识图谱]] — Understand Anything 是一款开源代码库分析工具,通过6个专业AI Agent并行扫描代码库,生成可视化知识图谱和交互式仪表板。工具支持Claude Code、Cursor等14个主流AI编程平台,可识别孤立节点、重复逻辑、跨层调用等6类架构问题。知识图谱可提交至Git实现团队共享,作为持续更新的活文档。
- [[source-summaries/2026-05-24-markdown-viewer-skills-ai-14.md|markdown-viewer/skills:AI画图技能库,14种图表一句话生成]] — markdown-viewer/skills 是一个开源AI画图技能库,支持Claude Code、Cursor等主流AI编程工具,提供14种图表技能和5种渲染引擎。用户只需用自然语言描述需求,AI自动选择合适技能生成UML图、云架构图、数据可视化等图表。适合技术文档写作、软件设计建模等场景,推荐从vega和uml入手覆盖主要使用场景。
- [[source-summaries/2026-05-24-2026-ai-ppt-skill.md|2026年AI PPT三款开源Skill横评]] — 本文对比三款基于Claude Code的开源PPT生成Skill:html-ppt-skill、frontend-slides和guizang-ppt-skill,从主题数量、动画特效、演讲者模式、PPTX转换等维度进行横向评测。三款工具各有侧重:html-ppt-skill适合正式演讲,frontend-slides体验友好但强依赖Claude Code,guizang-ppt-skill设计质量最高但颜色自定义受限。文章为不同需求用户提供了明确的选择建议。
- [[source-summaries/2026-05-24-embedding-encoder-decoder.md|Embedding 模型架构革命:从 Encoder 转向 Decoder]] — 文章梳理了Embedding模型从词袋时代到Decoder架构的完整演化脉络,重点分析了为何Decoder系模型(如E5-Mistral-7B、Qwen3-Embedding)能在MTEB榜单上超越以bge-m3为代表的Encoder路线。同时对比了工程现实与研究前沿的差距,并给出2026年的选型建议。
- [[source-summaries/2026-05-24-claude-code-8-agent-view-goal.md|Claude Code 连更8版:Agent View / /goal / 权限中间档]] — Claude Code在5天内发布8个版本,引入Agent View仪表盘、/goal命令和权限中间档三大核心功能。Agent View支持多会话监控与跨设备管理,/goal将模糊目标拆解为可追踪子任务,权限中间档提供安全操作的细粒度控制。三者合力标志Anthropic从卖模型转向卖「开发者与AI协作工作流」。
- [[source-summaries/2026-05-24-toonflow-ai.md|Toonflow:开源一站式AI短剧创作工具]] — Toonflow是一款开源桌面端AI短剧创作工具,支持从小说/剧本到视频的全链路自动化生产。核心亮点包括三层Agent协作体系、基于本地向量检索的持久化角色记忆系统,以及可视化无限画布工作台。工具本身不提供API Key,需用户自备LLM和视频生成接口。
- [[source-summaries/2026-05-24-opendataloader-pdf-ai-pdf.md|OpenDataLoader PDF:基准测试第一的AI友好PDF解析器]] — OpenDataLoader PDF是一款开源PDF解析工具,基准测试综合得分0.907,在双栏读序、复杂表格、扫描OCR等方面优于PyMuPDF和pdfplumber。支持本地确定性模式与Hybrid AI模式,输出Markdown/JSON/HTML格式,适用于RAG数据预处理和知识库构建。提供LangChain原生集成及Python/Node.js/Java多语言SDK。
- [[source-summaries/2026-05-24-moneyprinterv2-ai.md|MoneyPrinterV2:AI内容自动化工厂]] — MoneyPrinterV2是一个拥有30K Stars的开源AI内容自动化工具,支持从主题输入到多平台内容分发的全流程自动化,涵盖YouTube Shorts制作、Twitter机器人、联盟营销和Cold Outreach四大模块。技术栈基于Python 3.12,集成本地Ollama或Google Gemini作为LLM,使用KittenTTS和FFmpeg处理音视频合成。使用时需注意平台封号风险,YouTube和Twitter服务条款明确禁止自动化账号操作。
- [[source-summaries/2026-05-24-hermes-hindsight.md|给 Hermes 装上真记忆:Hindsight 上手指南]] — 本文介绍如何为 Hermes Agent 集成 Hindsight 记忆系统,解决内置 MEMORY.md 容量有限、写入时机不稳定的问题。Hindsight 通过自动提取每轮对话中的实体、事实和关系构建知识图谱,并在新会话前自动注入相关记忆。文章还对比了 Hindsight 与 OpenClaw Evolver 两种记忆方案的存储形式与触发机制。
- [[source-summaries/2026-05-24-ai-3d.md|AI 生成 3D 视频:主要模型与工具调研]] — 本文调研了AI生成3D视频的两大技术方向:2D视频转立体3D(以StereoCrafter为代表)和原生3D场景生成(以NVIDIA Lyra 2.0为代表)。涵盖开源工具的技术路线、硬件门槛及适用场景对比,推荐优先级从成熟可用到研究前沿依次排列。
- [[source-summaries/2026-05-24-fast-ppt-pdf-ppt-openclaw-skill.md|品智 fast-ppt:PDF/文档一键秒变精美 PPT(OpenClaw Skill)]] — fast-ppt 是 PingAI 团队开发的 OpenClaw Skill,支持将 PDF、Word、Markdown 等文档一键转换为可编辑 PPTX。提供两种模式:AI主题排版模式(内置19套主题,大模型重新结构化排版)和仅转换模式(保留原PDF设计,解锁文字为可编辑层)。通过 REST API 或 OpenClaw 自然语言指令均可调用。
- [[source-summaries/2026-05-24-ai.md|AI短剧制作全流程(免费工具版)]] — 本文介绍用免费AI工具制作短剧的完整流程,涵盖剧本生成、角色图制作、分镜头脚本三大步骤。重点解决角色一致性难题,提出四格图转彩铅素描的锁脸方法。强调先剧本后画面、分镜头脚本是关键中间层的核心原则。
- [[source-summaries/2026-05-24-claude-code-godot-steam-ai.md|用Claude Code+Godot单枪匹马做Steam游戏:AI不是魔法]] — 本文记录了独立开发者Przemek Chojecki借助Claude Code与Godot引擎,历时6周独立完成roguelite游戏《Catvivors》并上架Steam的完整流程。文章详细拆解了从设计蓝图、代码生成、玩法打磨到Steam上线的每个阶段,并客观分析了AI在游戏开发中的能力边界。核心观点是:AI能大幅提升开发效率,但清晰的创意、游戏设计能力与反复迭代的耐心仍是人类不可替代的核心价值。
- [[source-summaries/2026-05-24-hermes-codex-profiles-agent.md|用Hermes直接指挥本地CodeX写代码,Profiles搭建多Agent实践]] — 文章介绍Hermes的Profile系统,通过创建隔离的coder Profile解决单Agent记忆混乱问题。coder Profile作为任务调度员,不直接写代码,而是调用本地CodeX或Claude Code执行编码任务并审查结果。核心思想是专业化分工,每个Profile有独立配置、记忆和技能,用得越久越专而不越乱。
- [[source-summaries/2026-05-24-aixprobe-ai.md|嵌入式开发狂喜!AixProbe开源,AI终于能直接触碰硬件了]] — AixProbe是一款运行嵌入式Linux的微型网关设备,通过MCP协议让Claude Code等AI代理能远程读取硬件状态并参与嵌入式调试。设备支持JTAG/SWD双协议、WiFi 6无线调试、AI Skill自动诊断等功能,兼容ARM和RISC-V架构。这是开源社区首个系统性解决“AI无法触碰硬件“问题的项目,将AI能力从软件层延伸至物理硬件层。
- [[source-summaries/2026-05-24-nvidia-sana-wm-2-6b-60-720p.md|NVIDIA SANA-WM:2.6B参数单卡生成60秒720p视频,开源世界模型]] — NVIDIA发布开源视频世界模型SANA-WM,2.6B参数可在单张H100上生成60秒720p视频。核心创新包括混合线性注意力机制(解决显存墙问题)和双分支6-DoF相机控制,推理显存占用几乎不随时长增长。蒸馏版支持RTX 5090单卡推理,吞吐量较开源基线提升36倍。
- [[source-summaries/2026-05-24-2026-ai.md|2026国内建筑AI实测榜:谁才是真正“按规范出图“的工具?]] — 作者实测8款国内建筑AI平台,判断真正能进入设计流程的不超过2个。BeesFPD凭借国标规范规则库深度驱动、多专业协同能力排名第一,可在30分钟内完成合规施工图。核心洞察:工业/建筑AI壁垒在于领域规范知识库的结构化与工程化,而非模型能力本身。
- [[source-summaries/2026-05-24-presenton-ai.md|Presenton:开源AI演示文稿生成器]] — Presenton是一款开源AI演示文稿生成器,GitHub获得5000+Stars,支持通过提示词或文档直接生成可编辑的PPTX和PDF文件。工具支持本地部署,可使用OpenAI API,适合快速生成通用风格演示文稿,可与ppt-master配合使用实现初稿生成与精修的工作流。
- [[source-summaries/2026-05-24-mit-gencad-ai-cad.md|MIT GenCAD:AI开始理解CAD建模历史,工业设计迎来真正变革]] — MIT发布GenCAD,能从CAD图或渲染图生成完整参数化建模命令序列,而非仅输出3D外形。该技术核心在于理解工程师的建模历史(feature tree),填补了以往AI 3D工具无法被工业界采用的关键缺口。当前仍有局限,无法处理公差、装配关系等复杂工业场景,但标志着AI开始真正理解工业设计语言。
- [[source-summaries/2026-05-24-smallcode-4b-swe-bench-87-agent.md|SmallCode:4B参数SWE-bench 87%,专为弱模型设计的编码Agent]] — SmallCode是一个专为弱模型设计的编码Agent框架,4B参数即可在SWE-bench达到87%得分,支持消费级硬件运行。其核心设计围绕小模型局限性展开,包括工具输出限制、语义压缩、格式自动修复、Patch编辑和验证闭环。本质是Harness工程的完整实现,并支持本地模型不足时自动回退到云端大模型。
- [[source-summaries/2026-05-24-codex-appshots-codex-agent.md|龙虾已死,Codex新生:Appshots让Codex变成真正的个人Agent]] — OpenAI Codex新增Appshots功能,通过双击Command捕获当前窗口截图与文本注入上下文,使Codex能直接感知用户正在操作的应用界面。结合browser use、computer use及文件系统权限,Codex可自动完成Twitter信息整理、BI数据分析、PDF翻译、飞书消息发送等跨软件任务,形成完整工作闭环。文章指出真正的使用红利在于能否将工作目标拆解清晰到Agent可稳定接手的粒度。
- [[source-summaries/2026-05-24-audionotes-markdown.md|AudioNotes:会议视频/录音一键转Markdown]] — AudioNotes是开源工具,将音视频文件通过STT转录后,用LLM整理为结构化Markdown笔记,并支持RAG模式对内容继续提问。适用于会议记录、讲座笔记、播客摘要等场景。与Audiblez形成文字与音频双向转换闭环,会议记录成本趋近于零。
- [[source-summaries/2026-05-24-audible-ai-audiblez.md|Audible要慌了:有人把AI有声书彻底开源了(Audiblez)]] — Audiblez是一款开源工具,可将EPUB电子书转换为M4B有声书格式,底层使用仅82M参数的Kokoro语音模型。支持9种语言,T4 GPU下处理《动物庄园》仅需5分钟,提供图形界面降低使用门槛。该工具将有声书制作成本趋近于零,对Audible等商业平台构成长期竞争威胁。
- [[source-summaries/2026-05-24-headless-chrome-obscura.md|为什么越来越多开发者开始抛弃Headless Chrome,转向Obscura?]] — 本文介绍了Rust社区2026年推出的轻量级无头浏览器Obscura,对比其与Headless Chrome在体积、内存、启动速度和反检测能力上的差异。Obscura以约70MB体积和30MB内存运行,内置stealth模式,兼容Chrome DevTools Protocol,可无缝接入Puppeteer/Playwright。文章指出随着AI Agent和高并发采集需求增长,轻量化和隐身化将成为趋势。
- [[source-summaries/2026-05-24-openhuman-ai.md|OpenHuman - 个人AI超级智能,本地记忆+托管服务]] — OpenHuman是一款混合架构的个人AI超级智能工具,通过Memory Tree实现跨周记忆与后台持续思考,支持连接Gmail/Notion/GitHub等118个服务并在20分钟内完成冷启动。产品采用UI优先设计,提供桌面吉祥物形态的Agent,默认使用托管服务但支持完全本地模式。与GBrain相比,OpenHuman更偏向消费者产品,其批量同步机制值得借鉴。
- [[source-summaries/2026-05-24-codegraph-claude-code.md|CodeGraph - 为Claude Code打造的本地预索引代码知识图谱]] — CodeGraph是一个为Claude Code、Cursor、Codex等AI编程工具提供预索引代码知识图谱的本地工具,通过MCP协议让Agent直接查询符号关系和调用图,避免重复扫描文件。实测数据显示可节省35%成本、59% token用量和70%工具调用次数,代码库越大收益越显著。工具100%本地运行,支持一键初始化和卸载,无云端依赖。
- [[source-summaries/2026-05-24-billddesk.md|BilldDesk:免费开源跨平台远程桌面,支持私有化部署]] — BilldDesk是基于Vue3、WebRTC、Electron和Flutter构建的开源跨平台远程桌面工具,支持Windows、macOS、Android、iOS、Linux及Web浏览器。项目定位为ToDesk和向日葵的免费替代方案,支持2K+60FPS画质、文件传输、剪贴板同步及Docker一键私有化部署。开源版无连接次数和时长限制,Pro版提供隐私屏、虚拟屏等高级功能,均免费使用。
- [[source-summaries/2026-05-24-serena-ai-coding-agent-ide-24-4k-star-mcp.md|Serena:给AI Coding Agent装一个真正的IDE(24.4K Star MCP工具包)]] — Serena是一个基于LSP协议的MCP工具包,让AI编程Agent能在符号级别操作代码,而非简单的文本替换。支持40+编程语言,提供符号查找、跨项目重命名、安全删除等IDE级能力,并可集成JetBrains后端获得更深度重构功能。与Claude Code、Cursor等主流AI编程工具直接兼容,是AI代码操作能力的质的提升。
- [[source-summaries/2026-05-24-ppt-share2i-opt-ppt.md|会自己进化的PPT工作流引擎(share2i-opt-ppt)]] — share2i-opt-ppt是一个内置于WorkBuddy AI助手的PPT工作流引擎,核心特性是自进化场景库——每次生成新类型PPT后自动记忆场景结构与用户偏好,下次同类任务直接复用。内置6大常用场景,支持多PPT生成引擎联动,采用买断制。与现有ppt-master方案有重叠,但其自学习场景库机制值得借鉴。
- [[source-summaries/2026-05-22-ui-audit-claude-code-ui-ux-skill.md|ui-audit — Claude Code UI/UX 审计 Skill]] — ui-audit 是为 Claude Code 设计的结构化 UI/UX 审计 Skill,强制 AI 在做任何界面改动前先系统性读取现有代码、记录当前状态并检查冗余。核心理念是「先审计,后实现」,防止 AI 盲目堆砌功能。可通过 npm 或 GitHub 安装,与 CLAUDE.md 互补使用。
- [[source-summaries/2026-05-22-anthropic-ai-native.md|Anthropic 的 AI-Native 创业手册]] — Anthropic发布36页创业手册,核心论点是AI压缩了执行成本,创始人角色从执行者转变为Agent编排者。手册覆盖Idea、MVP、Launch、Scale四阶段的典型陷阱与解法,重点强调在写第一行生产代码前先建立CLAUDE.md作为项目持久记忆。护城河来自领域知识沉淀、深度集成、用户行为数据和工作流锁定四层结构。
- [[source-summaries/2026-05-21-winslopr-windows-11.md|Winslopr:Windows 11一键清垃圾,开源免费无广告]] — Winslopr是基于CrapFixer的Windows 11开源清理工具,使用C# + WinUI 3开发,GitHub获2700+星。提供广告清理、隐私遥测控制、AI功能移除、任务栏自定义等六大核心功能,支持插件系统和操作撤销,便携版无需安装。适合频繁重装系统或追求系统简洁的用户,但不建议盲目勾选所有选项。
- [[source-summaries/2026-05-21-ai.md|AI辅助电路与芯片设计工具全景]] — 本文梳理了面向硬件工程师的AI设计工具,涵盖PCB布局布线、元器件识别、芯片RTL代码生成等场景。重点介绍了Quilter(企业级硬件编译器)、华秋AI(免费小程序)、ChipGPT/ChipNemo等工具的能力与定位。文章指出AI当前局限在于幻觉问题与训练数据稀缺,核心价值是将工程师从重复劳动中解放,专注高层决策。
- [[source-summaries/2026-05-21-ai-kimi-k2-5.md|AI能帮硬件工程师检查原理图吗?用Kimi K2.5做的实验]] — 作者通过实验验证Kimi K2.5原生多模态模型用于硬件原理图极性审查的可行性。测试发现PNG格式优于PDF,结合视觉识别、网表和知识库三种手段可显著提升准确率。结论是AI辅助原理图审查对小团队有实际价值,但结果需人工复核。
- [[source-summaries/2026-05-21-github-codegraph-openhuman-3603.md|GitHub今日热榜:codegraph登顶,openhuman日增3603星]] — 2026年5月21日GitHub热榜分析,codegraph以预索引代码知识图谱登顶,主打为Claude Code等AI编程工具省token。openhuman日增星数最高达3603但排名下滑,agentmemory因同作者新项目分流暴跌9位。整体趋势显示AI编程工具token优化需求旺盛,榜单口味趋于多元。
- [[source-summaries/2026-05-21-openhuman-rust-ai.md|openhuman:Rust 私密 AI 超级智能框架]] — openhuman 是一个用 Rust 构建的私密 AI 框架,主打隐私优先和本地运行,GitHub 获得 21K+ 星。框架利用 Rust 的内存安全特性和高性能优势,支持主流 LLM 本地推理,无需云端。文章指出该项目生态尚不完善,与之前记录的同名项目关系存疑,需进一步核实。
- [[source-summaries/2026-05-21-opencli-token-ai-agent.md|OpenCLI:不消耗Token的AI,这个开源项目在重新定义Agent运行]] — OpenCLI是GitHub上20000+Star的开源项目,定位为个人API层和AI Agent通用运行时,核心思路是“一次编译,永久零成本执行“。AI仅在首次编译时介入生成确定性CLI适配器,后续执行完全不调用大模型,覆盖80+网站及微信、飞书等私域通讯平台。该项目将数据库编译期优化思路引入Web自动化,大幅降低Agent运行的Token消耗和执行不稳定性。
- [[source-summaries/2026-05-20-openclaw-2026-5-18-python-node-js-meme-maker-diagram-maker-p.md|OpenClaw 2026.5.18 更新:Python/Node.js 调试、meme-maker、diagram-maker、Plugin SDK]] — OpenClaw 2026.5.18 版本新增 Python 和 Node.js 调试支持,内置 pdb/debugpy 及 Node inspector 工具。同时推出 meme-maker、diagram-maker 创作工具,以及支持 defineToolPlugin 语法的 Plugin SDK,允许开发者自定义扩展功能。此外还增强了浏览器自动化能力和 HTTPS 代理支持。
- [[source-summaries/2026-05-20-augment-auggie-73-prism-claude-code-opus-4-7.md|Augment Auggie 73% 成本暴降:语义索引 + Prism 路由完胜 Claude Code + Opus 4.7]] — Augment发布技术博客,展示其Auggie agent通过Context Engine语义索引与Prism模型路由,在保持代码质量的前提下相比Claude Code降低最高73%成本。核心机制是预建语义索引替代grep式探索,减少tool turn和token消耗,并通过Prism在多轮真实流量中动态路由至低成本模型。两层优化乘法叠加,总成本节省约50%。
- [[source-summaries/2026-05-20-comfyui-v0-18-v0-21-1-8gb-4k-openai-claude.md|ComfyUI v0.18-v0.21.1 重要更新:8GB显存跑4K视频、OpenAI/Claude节点进场]] — ComfyUI从v0.18到v0.21.1经历多项核心升级,包括VAE内存管理重写使8GB显存可运行复杂工作流、图片加载切换至PyAV实现音视频同步。v0.21.1引入OpenAI、Claude、Grok等大厂API节点,用户可在工作流中直接调用商业模型无需编写接口代码。同时新增CogVideoX、LTX2等模型支持,并强化3D内容输出能力。
- [[source-summaries/2026-05-20-frankenmerge-qwopus-glm-18b-9-2gb-qwen3-6-35b-22gb.md|Frankenmerge:Qwopus-GLM-18B,9.2GB打赢Qwen3.6-35B(22GB)]] — 本文介绍Frankenmerge技术:将两个9B模型的64层首尾拼接成18B模型,通过1000步QLoRA缝合训练解决层边界特征不匹配问题。合并后的Qwopus-GLM-18B仅需9.2GB显存,在自建44项评测中以90.9%得分超越22GB的Qwen3.6-35B(86.4%)。文章揭示推理能力具有模块化特性,不同蒸馏方向的模型层叠后可协同工作。
- [[source-summaries/2026-05-20-github.md|数学英语物理自学王炸:以GitHub为法宝(项目驱动学习法)]] — 文章提出以GitHub真实项目为靶子的自学方法论,核心是“项目驱动、由用倒推体“,打破传统自学中“学“与“用“脱节的困境。以OpenTitan开源芯片项目为范本,展示数学、物理、英语如何在真实工程场景中被激活学习。AI在此扮演“陪读先生“角色,负责扫清信息不对称障碍,而非替代学习本身。
- [[source-summaries/2026-05-20-qwen3-6-27b-mtp-rtx-3090-2-37.md|Qwen3.6 27B MTP 实测:RTX 3090 长上下文推理速度暴增 2.37 倍]] — 本文对 Qwen3.6 27B MTP 模型在 RTX 3090 上使用 llama.cpp 进行实测,发现长上下文(32k/64k)下 Decode 速度最高提升 2.37 倍,但短上下文(4k)因 Prefill 变慢反而不如基线。MTP 本质是用 Prefill 性能换取 Decode 爆发,适合 Agent 长链路推理、多轮代码编辑等场景,不适合高并发短请求。当前 llama.cpp 不支持多并发,KV Cache 量化(q8_0)是跑通长上下文的关键。
- [[source-summaries/2026-05-20-iddsampledriver.md|IddSampleDriver:软件虚拟显示器,解决无头主机远程痛点]] — 无头主机远程连接时因缺少物理显示器导致分辨率被锁定问题,可通过开源驱动IddSampleDriver解决。该驱动利用微软官方IddCx API向系统发送虚假显示器信号,支持4K/144Hz/HDR配置。适用于NAS、远程办公、矿渣主板等无物理显示器场景,是HDMI欺骗器的纯软件替代方案。
- [[source-summaries/2026-05-20-30-claude.md|30天成为Claude超级用户:完整路线图]] — 文章提供30天系统化学习路线图,帮助用户从基础提示词结构到高级自动化工作流逐步掌握Claude。涵盖Projects配置、Memory管理、研究/写作/决策三类工作流模板及工具集成。最终目标是构建完整Claude操作系统,实现从“使用Claude“到“管理Claude“的转变。
- [[source-summaries/2026-05-20-codex-skill.md|Codex自我蒸馏:从操作历史提取可复用Skill]] — 介绍利用Codex/Cursor的Chronicle记忆功能,让AI主动扫描操作历史、识别高频重复工作流并自动生成可复用Skill的方法。核心价值在于AI反向观察用户行为,将隐性习惯压缩为显式技能库,无需人工总结SOP。文章还将此玩法与OpenClaw Evolver系统类比,指出两者本质相同:让AI从行为中学习而非由人教AI。
- [[source-summaries/2026-05-20-32k-512k-mmprolong-qwen2-5-vl-7b.md|长上下文模型新配方:从32K泛化512K(MMProLong,Qwen2.5-VL-7B)]] — 本文介绍MMProLong训练配方,通过调整mRoPE基频(1M→4M)和优化数据策略,将Qwen2.5-VL-7B从32K上下文扩展到128K,并零样本泛化到512K。核心发现包括:VQA训练信号优于OCR转录、池原生长度分布优于长偏置分布、提取与推理任务8:2比例最优。实验表明纯长上下文训练不会损害短上下文能力,模型学到的是广义检索策略而非特定长度模式。
- [[source-summaries/2026-05-20-ai-agent.md|你的AI Agent越用越蠢?港中大、浙大戳破“记忆“的谎言]] — 港中大与浙大联合论文指出,当前AI Agent的记忆方案(RAG、向量存储、上下文窗口)本质是备忘录而非真正记忆,存在泛化天花板和记忆投毒等结构性缺陷。论文基于互补学习系统理论,证明检索式记忆在组合新颖任务上需要Ω(k²)个案例,而参数化学习仅需O(d)个。解决方向是构建情景记忆到模型权重的异步巩固通道,模拟大脑睡眠巩固机制。
- [[source-summaries/2026-05-20-ai.md|硬件工程师的福音!AI工具助你轻松搞定电路设计]] — 本文介绍多款面向硬件工程师的AI工具,涵盖PCB识别、布局生成、芯片RTL代码生成等场景。核心工具包括华秋AI识别助手、Quilter硬件编译器、InsCode平台及ChipGPT等芯片设计专用模型。AI将工程师从繁琐布线工作中解放,转向架构决策,但仍面临幻觉、数据稀缺等局限。
- [[source-summaries/2026-05-19-claude-soul-claude-code-session.md|claude-soul:让 Claude Code 跨 Session 学习成长]] — claude-soul 是一个让 Claude Code 实现跨 Session 持续学习的工具,通过 Signals→Reflection→Evolution 三段式机制,将对话中的纠正和成功模式转化为可进化的认知框架。与普通记忆插件不同,它不只存储发生过什么,而是让 Agent 学会怎么思考。安装后在本地创建身份文件、MCP server 和生命周期钩子,与 Claude Code 深度集成。
- [[source-summaries/2026-05-19-mit.md|MIT六边形思维模型:系统性产生好创意]] — MIT Media Lab教授Ramesh Raskar提出六边形思维模型,通过六个强制方向(找所有钉子、找所有锤子、泛化、融合、加形容词、反转)系统性穷举创新可能性。与思维导图的层级发散不同,该模型以网络结构和结构化驱动替代直觉驱动,避免路径依赖。适用于产品方向探索、技术商业化及商业模式创新等场景。
- [[source-summaries/2026-05-19-hermes-agent-concept-diagrams.md|Hermes Agent 概念图技能(concept-diagrams)完全指南]] — 本文介绍Hermes Agent的concept-diagrams技能,通过提示词生成SVG图表并输出为独立HTML文件,零依赖离线可用。涵盖适用场景、5步使用流程、设计系统四条铁律(扁平、极简、一致、深色模式)及9色调色板规范。提供15个示例模板和发布前验证清单,适用于物理图、流程图、叙事旅程等多种可视化需求。
- [[source-summaries/2026-05-19-google-transformer-v2-nested-learning.md|Google Transformer V2:嵌套学习(Nested Learning)架构]] — Google提出「嵌套学习(Nested Learning)」架构,被视为《Attention Is All You Need》的2.0版本。该架构将所有计算组件视为关联记忆模块,支持持续学习和自我参数修改,解决了传统Transformer静态权重、扩展边际递减等问题。基于此架构的Hope模块在持续学习任务和长文本推理(支持10M Token上下文)上显著优于现有架构。
- [[source-summaries/2026-05-19-codegraph-ai.md|CodeGraph:先建语义图谱,再让AI处理大代码库]] — CodeGraph是一个MCP外部工具,通过预先构建代码语义知识图谱,让Claude Code在探索大型代码库时直接查图而非逐文件扫描。实测数据显示可减少92%工具调用、提升71%代码探索速度。其核心思路与RAG对文档的作用类似,将AI编码从盲目扫描升级为基于图谱的精准查询。
- [[source-summaries/2026-05-19-skill-ppt.md|将文献扔给这组Skill,秒出PPT]] — 本文介绍一套由10个结构化Skill组成的流水线,用于将学术论文自动转化为15-20分钟汇报用PPT大纲。每个Skill赋予模型“审计员“角色并设置严格约束,防止数据捏造和过度简化。流程分三阶段:语境设定、方法论与证据、结论与流程,最终由Skill 10汇总并检查时间分配。
- [[source-summaries/2026-05-18-toonflow-github-8000-ai.md|ToonFlow:小说一键变短剧,GitHub 8000 星 AI 短剧开源平台]] — ToonFlow 是一个开源 AI 短剧创作平台,提供从小说原文到视频合成的完整流水线,包括角色生成、剧本拆解、分镜设计等功能。平台采用三层 AI Agent 协作架构,解决角色漂移和视频闪烁问题。支持 Windows/Mac/Linux 本地部署,2026 年 1 月上线后 4 个月获得 8000+ GitHub Stars。
- [[source-summaries/2026-05-18-llama-cpp-mtp-ai-73-1gb-vram.md|llama.cpp MTP 更新:本地 AI 推理速度提升 73%,仅增加 1GB VRAM]] — llama.cpp 合并 MTP(Multi-Token Prediction)更新,通过模型内置草稿机制实现推测解码,无需额外模型即可大幅提升推理速度。RTX 5080 实测 Qwen3.6-27B 量化模型,速度从 54.3 tok/s 提升至 93.9 tok/s,增幅达 73%,显存仅增加约 1GB。该功能对 24GB 以上显卡和 27B 以上稠密模型收益最大,目前需编译最新源码启用。
- [[source-summaries/2026-05-17-ai-native.md|AI Native 创业手册:创始人角色的根本性转变]] — 本文探讨2026年AI Native创业公司如何从根本上改变创始人角色,从亲自执行转变为指挥AI Agent完成工作。文章介绍三大AI工具能力:对话式智能与研究、Agentic Coding、工作流自动化,并阐述极度精简团队靠AI以超越实际人数规模运作的新模式。核心洞察是AI解放了有行业经验的非技术创始人,能有效编排AI工具的创始人可建立杠杆远超人数的公司。
- [[source-summaries/2026-05-17-nvidia-lyra-2-0-3d.md|NVIDIA Lyra 2.0:单图生成可探索3D世界]] — NVIDIA发布Lyra 2.0,可从单张照片生成大规模、持久一致的可漫游3D场景。技术基于视频扩散模型自蒸馏,支持导出3D Gaussian Splats和网格格式,兼容主流引擎。模型权重和推理代码以Apache 2.0协议开源,最低需8GB显存GPU。
- [[source-summaries/2026-05-17-opendataloader-pdf-ai-pdf-100-gpu.md|OpenDataLoader PDF - AI友好型PDF解析器,100页/秒无GPU]] — OpenDataLoader PDF是一个开源PDF解析库,支持100页/秒的高速解析,无需GPU即可运行。提供本地确定性模式和Hybrid AI模式,输出Markdown/JSON/HTML格式,内置LangChain集成,适合RAG知识库构建和批量文档处理场景。
- [[source-summaries/2026-05-17-whisperpipe-89ms-whisper-48.md|WhisperPipe - 89ms实时Whisper,显存降48%的流水线优化方案]] — WhisperPipe是针对Whisper实时语音识别场景的流水线优化方案,通过双缓冲区分离、词级时间戳裁剪和两段式提交策略,将端到端延迟从1212ms降至89ms,GPU峰值显存降低48%。方案解决了实时场景下假设漂移、超线性重算和静音敏感三大痛点,稳定性指数达93.5%。适用于会议助手、语音Agent、边缘设备等对延迟敏感的场景。
- [[source-summaries/2026-05-17-google-stitch-ai-ui.md|Google Stitch - AI UI设计工具正确玩法与完整指南]] — Google Stitch是Google Labs于2025年5月发布的免费AI UI设计工具,基于Gemini模型,支持文本/图片转UI、多屏原型连接和Vibe Design等功能。正确用法是将其定位为“AI草图师“而非生产代码生成器,快速探索设计方向后再交给开发工具精修。2026年3月的重大更新引入了AI原生无限画布、Voice Canvas和Direct Edits,可与Claude Code、Figma、MCP服务器等工具集成形成完整工作流。
- [[source-summaries/2026-05-17-oh-my-ppt-ai.md|Oh My PPT - 纯本地AI幻灯片生成与编辑桌面应用]] — Oh My PPT 是一款基于 Electron 的桌面应用,提供纯本地 AI 驱动的幻灯片生成、编辑与动画功能,支持 HTML、PDF、PPTX 等多格式导出。它通过本地 LLM(如 Ollama)实现数据隐私保护,并提供对话式修改和可视化拖拽编辑。
- [[source-summaries/2026-05-16-github-7-9router-jcode-agentmemory.md|本周GitHub爆火7个项目:9router / jcode / agentmemory等]] — 本文盘点2026年5月第三周GitHub新增热度最高的7个开源项目,涵盖AI编程路由工具9router、Rust极简Coding Agent jcode、Agent持久化记忆系统agentmemory等。项目方向集中在AI编程效率提升、多Agent协作、记忆系统架构及多媒体内容生成。文章同时指出这些项目与OpenClaw等实际工程实践的关联性。
- [[source-summaries/2026-05-16-openhuman-github-agent.md|OpenHuman:登顶GitHub的开源个人Agent基础设施]] — OpenHuman是由TinyHumansAI开发的开源个人Agent基础设施,核心能力是通过连接118+第三方服务自动积累上下文,形成可检索的“记忆树“。其TokenJuice模块可将Token消耗降低约80%,并支持本地SQLite存储和Obsidian兼容输出。项目登顶GitHub Trending,代表了个人知识库从“文档堆“向“行动堆“演进的行业趋势。
- [[source-summaries/2026-05-16-vidu-claw-ai-agent.md|Vidu Claw:一句话生成完整广告片的AI Agent]] — Vidu Claw是生数科技推出的视频广告生成AI Agent,用户只需输入一句需求描述,系统即可自动完成分镜策划、视频生成、后期处理到成片交付的完整流程。产品支持多种广告场景,并首创Video Plan定价模式,以每日生成额度替代按次或按Token计费,将广告制作从高预算项目制转变为低成本内容工厂化模式。
- [[source-summaries/2026-05-16-ai-agent-2-3.md|用AI Agent把会议纪要从2小时压缩到3分钟]] — 作者从程序员转型PM后,每周花大量时间整理会议纪要,于是用Claude API的Tool Use功能结合LangChain构建了一个AI Agent自动化工作流。该系统能将会议录音自动转写、提取参会人、生成结构化纪要和待办任务,整个流程从原来的2小时压缩到3分钟以内。文章还分享了实际开发中遇到的踩坑经验,代码量不到300行。
- [[source-summaries/2026-05-16-openhuman-github-ai-agent.md|OpenHuman:登顶GitHub的个人上下文AI Agent]] — OpenHuman是一款以个人上下文为核心的开源AI Agent,通过118个第三方集成自动采集用户数据,构建本地MemoryTree知识树,兼容Obsidian并使用SQLite本地存储。其TokenJuice压缩技术可减少80%的Token消耗,核心代码采用Rust编写,在GitHub上获得3.4k+星标。该项目体现了“本地优先、隐私可控“的设计哲学,目标是让AI真正理解并记住用户的工作与生活信息。
- [[source-summaries/2026-05-16-codex-unity-6-musk-escape-mars-3d.md|我用 Codex + Unity 6,做了一个「Musk Escape Mars」3D游戏]] — 作者在无游戏开发经验的情况下,通过Codex与Unity 6协作,用自然语言从零搭建了一个第三人称科幻小游戏原型「Musk Escape Mars」。Codex不仅生成了C#脚本、配置碰撞检测、搭建场景结构,还通过computer use能力直接操作Unity界面,无需人工干预复杂的编辑器操作。该实验表明AI编程工具正从“代码补全“进化为能参与完整原型搭建的开发助手,显著降低了游戏开发门槛。
- [[source-summaries/2026-05-15-paper-framework-figure-studio-pro-ai.md|paper-framework-figure-studio-pro — 论文框架图 AI 生成工具]] — 一款专为学术论文框架图设计的 AI 协作工具,通过 13 步结构化工作流引导用户从需求诊断到正式出图,避免直接生成低质量图像。内置 4 张参考图谱,覆盖子类型、布局、读者角色和视觉风格,最终通过审稿式检查保证输出质量。
- [[source-summaries/2026-05-14-obsidian-4-ai-agent.md|别再把Obsidian当资料坟场:4层知识库结构让AI Agent主动思考]] — 本文提出以Obsidian为底座、Hermes为执行层的4层知识库架构,涵盖智能捕获、深度分析、语义化存储和自动化工作流四个层次。核心思路是将AI Agent嵌入从选题到发布归档的全流程,而非仅用于单次写作。通过固化Skill、自动拆选题、发布复盘等机制,实现知识资产的持续自动增值。
- [[source-summaries/2026-05-14-ltx-video-2-3-dasiwa-v2.md|LTX-Video 2.3 Dasiwa V2 无审查版 — 超强一致性]] — 本文介绍了基于Lightricks开源的LTX-Video 2.3模型的专项LoRA微调版本Dasiwa V2,该版本去除了内容过滤限制并通过390K高难度推理视频的VBVR数据集进行第三轮训练。模型支持文生视频、图生视频、视频生视频等多种模式,最高可输出1080p画质,12G显存即可本地运行。Dasiwa V2集成ComfyUI工作流,具备超强角色和场景一致性,适合角色动画、场景延伸等高一致性视频生成场景。
- [[source-summaries/2026-05-14-vercel-ai-figma-v0.md|Vercel AI 设计流:Figma + v0 打通设计到代码的全链路]] — 本文介绍了 Vercel v0 与 Figma 的集成工作流,通过将 Figma 设计稿直接导入 v0,AI 可自动生成高度还原的 React 组件代码,打破了传统设计与开发的上下游关系。v0 支持 shadcn/ui、自定义 Tailwind 配置及任意公开 npm 包,使设计系统集成更加灵活。这一流程使部分团队新功能从设计到实现的时间缩短了 3 倍,重新定义了设计师与前端工程师的协作边界。
- [[source-summaries/2026-05-14-ai-claudecode-opencode-lsp.md|终端AI编程选ClaudeCode还是OpenCode?LSP导航精度+多模型+权限可审计]] — 本文从工程维度深度对比Claude Code与OpenCode两款终端AI编程工具,重点分析LSP导航精度、多模型成本控制和权限审计三个核心差异。OpenCode通过原生LSP集成提升约40%的大型代码库导航精度,支持75+模型提供商可节省60-80%费用,并提供细粒度的Agent级权限配置。文章建议个人简单项目选Claude Code,大型代码库、企业合规或预算敏感场景选OpenCode。
- [[source-summaries/2026-05-14-anthropic-code-w-claude-2026-05-13.md|Anthropic “Code w/ Claude“ 开发者大会全程实录(2026-05-13)]] — Anthropic于2026年5月13日举办“Code w/ Claude“开发者大会,发布Opus 4.7及Mythos预览版模型,并推出Claude Platform多智能体编排能力(Multi-agent、Outcomes、Dreaming)。Claude Code桌面版全新亮相,带来代码审查器、自动修复、Routines例程、Claude Security等五大新原语,支持异步开发流。大会以Stripe将10周迁移工作压缩至4天为标志性案例,展示AI驱动开发的指数级效率提升。
- [[source-summaries/2026-05-13-fireworks-tech-graph-svg-claude-code-skill.md|fireworks-tech-graph:自然语言生成出版级SVG架构图的Claude Code Skill]] — fireworks-tech-graph是一个Claude Code Skill工具,允许用户通过自然语言描述系统架构,自动生成出版级SVG和PNG技术图表。支持8种主要图表类型、14种UML图及7种视觉风格,内置RAG、Multi-Agent等AI领域专用模式。相比draw.io、Mermaid等传统工具,该工具将复杂的架构图绘制过程简化为一句话描述,大幅提升开发者和架构师的文档效率。
- [[source-summaries/2026-05-13-archon-claude-code-ai.md|Archon:给 Claude Code 套工程约束的 AI 编程工作流引擎]] — Archon 是一个开源的 AI 编程工作流引擎,通过 YAML 定义 DAG 结构的工作流,将测试、审查、人工确认等步骤固化为不可绕过的工程约束,解决 Claude Code 在实际项目中难以稳定遵守规则的问题。系统支持 prompt 节点、bash 节点和交互式人工确认节点,并通过 Git Worktree 实现任务隔离。该项目是 Garry Tan “Thin Harness, Fat Skills“ 方法论的工具化实现,使 AI 编程流程可控、可复用、可审查。
- [[source-summaries/2026-05-13-hysteria-quic.md|Hysteria:基于QUIC协议的高性能网络代理工具]] — Hysteria是由apernet开发的基于QUIC协议的高性能网络代理工具,专为高丢包、高延迟网络环境优化。相比传统TCP代理,它利用QUIC的多路复用和0-RTT特性显著提升性能,并通过伪装成HTTP/3流量增强隐蔽性。工具支持SOCKS5、HTTP代理、TUN等多种模式,单二进制文件无依赖,全平台覆盖。
- [[source-summaries/2026-05-13-garry-tan-ai.md|Garry Tan 的 AI 编程方法论:复杂度棘轮]] — Y Combinator总裁Garry Tan提出「复杂度棘轮」方法论,通过强制要求AI编程时同步产出测试、文档和评估结果,使代码质量只升不降。文章以GBrain观点提取功能为案例,说明90%测试覆盖率是关键拐点,并指出AI agent消除了人类在编写测试时面临的「意志力墙」,使高覆盖率成为默认设置。
- [[source-summaries/2026-05-13-khazix-skills-ai-skills.md|数字生命卡兹克开源 Khazix Skills:生产环境打磨的 AI Skills 套装]] — Khazix Skills 是由 KKKKhazix 开源的 AI Skills 套装,包含 khazix-write、khazix-code、khazix-research 三个核心技能,均经过真实生产环境长期验证。项目支持 Claude Code、OpenClaw、Codex 三大主流平台,遵循 Agent Skills 标准规范,针对中文语境进行了优化。该项目体现了 AI Skills 生态从封闭走向开放、从单一工具走向组合工作流的发展趋势。
- [[source-summaries/2026-05-13-karpathy-autoresearch-630-ai.md|Karpathy 开源 autoresearch:630行代码让AI通宵炼模型]] — Andrej Karpathy于2026年3月开源了autoresearch项目,用约630行Python代码构建了一个AI自主科研循环系统。该系统让AI智能体在无人监督的情况下自动修改训练脚本、运行实验、评估结果并通过git提交保留改进,每小时可完成约12个实验。项目设计极简,刻意避免多智能体编排和复杂管线,体现了Karpathy一贯的极简主义风格。
- [[source-summaries/2026-05-13-claude-opus-4-7.md|Claude Opus 4.7 提示词工程三条核心规则]] — 本文总结了针对Claude Opus 4.7的三条核心提示词工程规则:明确输出范围、使用正向指令替代禁令、定义输出长度上限。文章指出4.7比4.6对提示词的解释更为字面化,要求用户像写接口契约一样精确描述需求,提示词工程正从“会说漂亮话“转向“写清楚规格“。
- [[source-summaries/2026-05-13-android-show-2026-android-gemini.md|谷歌Android Show 2026:读作Android,写作Gemini]] — 2026年谷歌Android Show本质上是一场Gemini发布会,推出了Gemini Intelligence品牌及Googlebooks新硬件品类,复制苹果AI与高端硬件绑定的路线。文章深度分析了谷歌此举的战略意图与结构性障碍,包括三星话语权分享问题和中国市场的全面缺位,指出谷歌能实际号召的Android阵营比预期小得多。
- [[source-summaries/2026-05-13-openai-gpt-realtime-2-gpt-5.md|OpenAI发布GPT-Realtime-2:首个GPT-5级推理音频模型]] — OpenAI发布GPT-Realtime-2,将GPT-5级推理能力引入语音交互,支持可调节推理强度、128K上下文窗口及情感感知。同步推出GPT-Realtime-Translate(支持70+语言实时翻译)和GPT-Realtime-Whisper(流式转写),覆盖多场景语音AI需求。该系列模型具备Agentic能力,可通过语音触发多步骤任务执行,已有Zillow、Priceline、Vimeo等企业接入。
- [[source-summaries/2026-05-13-thinking-machines-lab-tml-interaction-small.md|Thinking Machines Lab 首款交互模型 TML-Interaction-Small]] — Thinking Machines Lab(由前OpenAI应用研究VP翁荔联合创立)发布首款自研模型TML-Interaction-Small,通过200ms微回合架构和Encoder-free Early Fusion技术,实现音频、视频、文本三模态的真正实时交互。该模型在交互质量和延迟指标上大幅领先GPT-Realtime-2.0和Gemini-3.1-flash-live,尤其在时间感知与视觉主动性任务上数量级领先竞品。公司于2025年7月完成约20亿美元种子轮融资,估值约120亿美元。
- [[source-summaries/2026-05-12-hermes-openclaw.md|Hermes 主管模式:用结构化意图协议实现 OpenClaw 自主运营]] — 本文介绍了一种双Agent主管架构:OpenClaw负责执行任务,Hermes负责监督输出质量,人类只处理上报的异常。两个Agent通过四种结构化意图标记(STATUS_REQUEST、REVIEW_REQUEST、ESCALATION_NOTICE、ACK)在专用频道协调,并通过三条规则防止无限循环。该模式的核心价值在于将运营认知负载从人类转移给Hermes,释放人类专注于深度创意工作。
- [[source-summaries/2026-05-12-harness-artificial-analysis-coding-agent-index.md|写代码靠模型还是靠Harness?Artificial Analysis Coding Agent Index深度拆解]] — 本文基于Artificial Analysis Coding Agent Index的三大基准测试数据,深度分析了编码Agent中模型与Harness各自的贡献权重。核心结论是模型决定基本盘(±10分),Harness决定天花板(±2-3分),但Harness的真正竞争力在于生态开放程度——能兼容多少家模型。文章以Claude Code为例,指出其支持5家模型的开放平台定位,相比Gemini CLI和Codex的封闭生态具有长期优势。
- [[source-summaries/2026-05-12-deepseek-v4-claude-opus-4-7-tool-input-repair-layer.md|让 DeepSeek V4 跑赢 Claude Opus 4.7 的工程方法:Tool-Input Repair Layer]] — 本文介绍了一种通过构建 tool-input repair layer 来提升开源模型工具调用成功率的工程方法,核心观点是开源模型工具调用失败通常是 harness 问题而非模型能力问题。作者总结了四种覆盖约90%失败场景的修复模式,并提出“先验证再修复“的正确设计顺序以避免静默数据损坏。该方案使 DeepSeek V4 Pro 在内部评测中6/10次超过 Claude Opus 4.7。
- [[source-summaries/2026-05-12-ppt-master-ai-ppt.md|PPT Master - 开源本地 AI PPT 生成工具]] — PPT Master 是一款开源的本地 AI PPT 生成工具,能够输出真实可编辑的 .pptx 文件,支持在 PowerPoint 中直接修改。工具本身免费,支持 Claude Code、Cursor 等多种驱动工具,以及 Claude、GPT、Gemini 等多种 AI 模型,数据全程不离开本地。相比 Gamma 等云端订阅制工具,其核心优势在于格式真实、成本透明、不绑定平台。
- [[source-summaries/2026-05-12-dreamlite-0-39b.md|DreamLite - 字节跳动端侧轻量统一扩散模型(0.39B,生成+编辑)]] — DreamLite 是字节跳动推出的首个在单一网络内同时支持文生图和图像编辑的端侧扩散模型,主干网络仅0.39B参数,可在iPhone 17 Pro上约3秒离线生成1024×1024图像。模型通过In-Context空间拼接、渐进式联合预训练和DMD2步数蒸馏三项关键技术,将采样步数压缩至4步,实现端侧实时推理。其性能全面超越同量级单任务模型,并与参数量大10-30倍的服务端统一模型表现相当。
- [[source-summaries/2026-05-12-slock-ai-agent.md|Slock.ai - 多Agent协作管理基础设施平台]] — Slock.ai 是一个面向开发者和团队的多Agent协作管理基础设施平台,旨在解决同时使用多个Coding Agent时产生的进度混乱、任务冲突和经验无法复用等问题。平台支持将本地IDE、远程服务器、Slack等环境中的Agent统一接入同一工作空间,并提供共享上下文、协同交互和流程可视化等核心功能。其核心理念是通过提升组织效率来抵消多Agent带来的token成本和管理噪音。
- [[source-summaries/2026-05-12-sensenova-u1-neo-unify-vae.md|SenseNova U1 深度解析:NEO-unify 架构去掉 VAE 的技术意义]] — 商汤科技开源的 SenseNova U1 采用 NEO-unify 架构,彻底去除 VAE,直接在像素层面实现语言与视觉的端到端统一建模。模型通过混合 Transformer(MoT)主干让理解与生成共享注意力上下文,在 GenEval、中文文字渲染等多项基准上达到 SOTA 级别表现。支持 GGUF 量化和 ComfyUI 部署,8GB 显存即可运行,具备较强的落地价值。
- [[source-summaries/2026-05-12-ruflo-claude-flow-claude-code.md|RuFlo(原 Claude-Flow)- Claude Code 多智能体编排平台]] — RuFlo(原 claude-flow)是一个面向 Claude Code 的开源多智能体编排平台,将 AI 拆分为规划、编码、测试、审查、文档、记忆等专职 Agent,像开发团队一样协同完成复杂任务。平台支持 Swarm Intelligence、RAG 集成和 Hook 系统,可作为 Claude Code 插件深度集成运行。该项目代表了 AI 编程从单助手模式向多智能体协作模式的演进趋势。
- [[source-summaries/2026-05-12-stable-diffusion-webui-automatic1111-ai.md|Stable Diffusion WebUI (AUTOMATIC1111) - 本地 AI 绘画神器]] — Stable Diffusion WebUI 是基于 Gradio 的开源本地 AI 图像生成工具,支持 txt2img、img2img、Inpainting、LoRA 微调及 ControlNet 等核心功能。项目拥有 163k+ Stars,支持 NVIDIA、CPU 及 Apple Silicon 多种硬件环境,并提供 API 模式供程序化调用。相比 ComfyUI,其界面更友好,适合新手快速上手 AI 绘画。
- [[source-summaries/2026-05-12-frontier-eng-bench-auto-research.md|Frontier-Eng Bench:Auto Research 工程闭环里的生成式优化]] — Frontier-Eng 是一个面向真实工程任务的新型基准测试,评测AI Agent在固定预算内通过「提方案→运行→获取反馈→迭代修改」闭环持续优化的能力。研究涵盖47个跨领域工程任务,发现改进遵循双重幂律衰减规律,且深度迭代优于并行宽度探索。当前最强模型GPT-5.4表现最稳健,但距离资深工程师水平仍有较大差距。
- [[source-summaries/2026-05-12-last-r1-r1.md|LaST-R1:机器人具身大模型的R1时刻——先推理再行动]] — LaST-R1提出了「观测→隐空间物理推理→行动」的新范式,通过LAPO算法将latent reasoning纳入强化学习优化闭环,使机器人不仅优化动作,也优化动作前的物理推理过程。在LIBERO基准上仅用1条轨迹warm-up即达到99.9%成功率,真机任务用30条轨迹将成功率从52.5%提升至93.75%,超越使用100条专家轨迹的π0.5。该工作由至简动力、香港中文大学和北京大学联合完成,基座模型LaST₀已被ICML 2026选为Spotlight论文。
- [[source-summaries/2026-05-12-vibe-coding-ai-idea.md|Vibe Coding 关键前置环节:用 AI 先“拷打“你的 idea]] — 本文指出 Vibe Coding 最大的陷阱是 idea 本身没想清楚就直接让 AI 写代码,导致需求模糊、上下文爆炸和项目失控。正确做法是在编码前先让 AI 扮演挑剔的产品经理对 idea 进行需求拷打,生成结构化 SPEC 文档后再逐步编码。文章还介绍了开源项目 vibe-coding-cn 的完整工作流,强调“先文档后代码“和上下文固化的核心原则。
- [[source-summaries/2026-05-12-ruflo-claude-code.md|Ruflo:面向Claude Code的多智能体编排平台]] — Ruflo是一个围绕Claude Code构建的开源多智能体编排平台,支持100+专用Agent协同工作,涵盖编码、测试、安全、文档等场景。其核心架构分为入口层、编排层、记忆层、插件层和联邦层,通过RAG Memory实现跨Agent的持久化上下文共享。平台已获约45.2k Star,适合需要将AI编程从单Agent模式升级为多Agent工程流的团队。
- [[source-summaries/2026-05-12-api-codex.md|API模式也能用插件:解决Codex插件被禁用以及无法删除会话的问题]] — 本文介绍了Codex++增强启动器,用于解决Codex在API模式下插件被禁用的问题。Codex++通过Chromium DevTools Protocol向渲染进程注入脚本,在不修改原始安装文件的前提下启用插件功能并增加会话删除能力。文章提供了完整的安装和使用教程,支持Windows和Mac平台。
- [[source-summaries/2026-05-12-ai.md|AI 短剧剧本与分镜脚本设计方案]] — 本文系统梳理了AI短剧生产的核心工作流,从剧本生成到视频合成的完整链路,重点分析了角色一致性这一关键难点。对比了Toonflow、BigBanana AI Director、Micro-Drama-Skills等五个主流开源方案的技术特点与适用场景。同时提供了结构化分镜脚本的设计规范与最佳实践,帮助创作者选择合适的工具路径。
- [[source-summaries/2026-05-12-codex-2-5-team-cliproxyapi.md|Codex 最强性价比方案:2.5元 Team 母号 + CLIProxyAPI 多账号管理]] — 本文介绍了以最低成本(约2.5元)注册 ChatGPT Business 账号并使用 Codex AI 编程工具的完整方案,包括用虚拟卡开通首月免费试用、邀请子账号扩充额度的步骤。同时介绍了开源工具 CLIProxyAPI,可统一管理多个 OpenAI 账号并自动轮转 Codex 使用额度,适合需要高频使用 Codex 的开发者。
- [[source-summaries/2026-05-12-hermes-agent.md|用Hermes Agent搭建第一个自动化工作流]] — 本文介绍了由Nous Research开源的Hermes Agent框架,专为Function Calling优化,支持在线API和本地模型两种部署方式。通过一个文件整理助手的实战案例,展示了如何定义工具Schema并赋予Agent执行能力。适合希望搭建自动化工作流的入门用户。
- [[source-summaries/2026-05-12-ai-github-ai.md|想做AI中转站?先看看这些GitHub上爆火的AI中转站开源项目]] — 本文介绍了AI API中转站的四种盈利模式,包括合规差价、技术套利、灰色操作和API逆向转换。文章重点梳理了GitHub上热门的七个开源中转站项目,涵盖one-api、new-api、LiteLLM、Portkey Gateway等,分析了各项目的核心功能与适用场景。这些项目本质上是将多种大模型API统一封装为OpenAI兼容格式,降低开发者接入门槛。
- [[source-summaries/2026-05-12-aetherviz-master-ai-3d.md|AetherViz Master:输入主题,AI自动生成沉浸式3D教学网页]] — AetherViz Master是一款开源AI教学可视化工具,用户只需输入教学主题,即可自动生成包含3D模拟、互动滑块和实时物理反馈的教学网页,无需编写代码。该工具基于Three.js实现60fps的3D交互体验,并支持SVG增强和智能渲染模式切换。生成的页面包含学习追踪、原理讲解、实时交互和小测验等完整教学闭环,适用于理科教学和在线教育平台。
- [[source-summaries/2026-05-12-epic-ai-immensive-engine-unity.md|前Epic技术总监打造AI游戏引擎Immensive Engine叫板虚幻和Unity]] — 前Epic Games技术总监阿尔扬·布鲁斯正在开发一款名为Immensive Engine的AI原生游戏引擎,定位为欧洲本土引擎,直接挑战虚幻引擎和Unity的市场垄断地位。该引擎的核心差异在于从底层架构深度集成AI,而非在传统架构上叠加AI功能,并以欧洲数据主权法规作为竞争护城河。目前项目仍处于开发阶段,尚无公开demo或发布时间表。
- [[source-summaries/2026-05-12-20-claude-code-skills.md|国内顶级博主都在用的20个Claude Code Skills合集]] — 本文整理了国内外知名博主在实际工作流中使用的20个Claude Code Skills,按写作调研、配图设计、效率办公、开发创业等5大场景分类。每个技能均提供作者、核心能力与安装命令,涵盖公众号写作、小红书配图、PPT生成、PDF翻译、数据分析等高频需求。非技术用户可通过国内镜像平台Cocoloop一键安装常用技能包。
- [[source-summaries/2026-05-12-cudaforge-cuda-kernel.md|CudaForge:训练免费的多智能体CUDA Kernel生成工作流]] — CudaForge是一个基于多智能体协作的迭代式CUDA Kernel优化工作流,通过「生成→验证→分析→改进」闭环模拟人类专家的优化过程,无需强化学习训练。系统由规划、执行、验证三个Agent协同工作,利用ncu profiling提供硬件反馈驱动性能迭代。项目还开源了包含6000条样本的CUDA-Agent-Ops-6K数据集,适用于缺乏RL训练资源但希望复用SOTA方法的团队。
- [[source-summaries/2026-05-12-github-5.md|GitHub开源项目变现:帮企业市场部降本增效的5个工具]] — 本文介绍5个GitHub开源项目,覆盖舆情监控、营销文案、PPT生成、语音合成和短视频制作全链条,帮助企业市场部大幅降低内容生产人力成本。文章同时提供了每个工具的商业变现方案,包括单次部署报价和目标客户群体,适合技术服务商参考。
- [[source-summaries/2026-05-12-agent-flow-claude-code-codex.md|Agent Flow:Claude Code / Codex 智能体执行过程实时可视化工具]] — Agent Flow 是一个开源工具,专为 Claude Code 和 Codex 设计,能将智能体的执行过程实时渲染为交互式节点流程图。它解决了 AI 执行过程黑箱问题,支持工具调用链追踪、多 session 并发监控和 JSONL 日志回放。可通过 npx、开发模式或 VS Code 扩展三种方式使用。
- [[source-summaries/2026-05-12-win11-github-2-5-win11debloat.md|Win11越用越卡?GitHub 2.5万星神器Win11Debloat一键瘦身]] — 本文介绍了开源工具Win11Debloat,一款拥有2.5万GitHub星标的PowerShell脚本,用于清理Windows 11预装的90余个后台软件。实测显示开机时间从45秒缩短至12秒,内存占用减少近一半。工具支持一键卸载垃圾应用、关闭遥测追踪、恢复经典右键菜单,且所有改动可逆。
- [[source-summaries/2026-05-12-unity-dna-vector.md|我们在买量“黑盒“里苦熬,直到Unity放出这个懂游戏DNA的Vector]] — 本文介绍了Unity推出的新一代AI广告模型Vector,该模型通过同时理解游戏内部数据和玩家行为数据,解决游戏行业买量“黑盒“困境。Vector具备自学习飞轮机制,支持IAP/IAA混合变现优化,多个案例显示其能在扩大投放规模的同时提升用户质量和付费转化率。数据表明Vector上线后带动Unity广告业务收入大幅增长,年化收入有望在2026年超过10亿美元。
- [[source-summaries/2026-05-12-google-ai-edge-gallery.md|Google AI Edge Gallery:手机本地跑大模型]] — Google AI Edge Gallery 是 Google 官方出品的移动端应用,支持在 Android/iOS 设备上完全离线运行 Gemma 4 等开源大模型(2B-27B 参数)。应用提供 Agent Skills、Thinking Mode、Ask Image、Audio Scribe 等多项功能,核心优势在于隐私保护、低延迟和零 API 成本。该项目基于 LiteRT 技术栈,代表了 Google 在 on-device AI 方向的战略布局。
- [[source-summaries/2026-05-12-qtscrcpy.md|QtScrcpy:开源免费的多设备协同工具,电脑控制手机]] — QtScrcpy 是基于 Scrcpy 的图形化开源工具,支持通过 USB 或无线方式在电脑上实时显示和控制 Android 手机。它提供多设备同时操作、低延迟投屏等功能,适合跨品牌设备用户使用,无需账号且完全免费。
- [[source-summaries/2026-05-12-html-skill-agent.md|用HTML管理skill和agent:镜子哲学]] — 作者通过4个HTML工具演进,解决了管理69个自写skill时“不知道自己有什么“的问题。核心方法论是将生态全景、决策仪表盘、协同手册、进度地图四类HTML作为“镜子“,让工作流可见但不替代人做决策。元设计原则是“降本不取代“,HTML只反射现状,关键拍板权始终留给人。
- [[source-summaries/2026-05-12-unity-ai-npc-convai-for-unity.md|Unity AI NPC革命:Convai for Unity 深度解析]] — 本文深度解析了Convai for Unity这套AI角色交互系统,涵盖语音识别、LLM角色大脑、长期记忆、动态上下文注入、Text To Action及LipSync口型同步等核心技术模块。Convai将ASR、LLM、Memory、TTS、Action等能力整合为统一的AI Character Pipeline,解决的是大模型能力在Unity游戏开发中的工程整合问题。文章同时指出了成本、延迟和LLM不可控性等局限,并展望了NPC向自主智能体演进的未来趋势。
- [[source-summaries/2026-05-12-comfyui-v0-21-0.md|ComfyUI v0.21.0 重磅升级]] — ComfyUI v0.21.0 合并了80+个PR,带来底层引擎替换(pillow→pyav)、dynamicVRAM显存优化、LTX生成提速等核心升级。新版本新增Gemma4文本支持、自回归视频生成及多个Partner节点,进一步扩展了图文视频全栈创作能力。小显存用户和视频创作者是本次更新的主要受益群体。
- [[source-summaries/2026-05-11-immense-engine-ai-5.md|Immense Engine:AI 原生游戏引擎,正面挑战虚幻 5]] — Immense Engine 是由 Guerrilla Games 联合创始人 Arjan Brussee 主导开发的 AI 原生游戏引擎,以 AI Agent 为底层架构,宣称单人开发者效率可达传统团队的 10-15 倍。该引擎原生集成 ChatGPT、Claude 等主流 LLM,支持场景搭建、数值调试、代码优化全流程 AI 自动化,并覆盖国防仿真、物流建模等多个行业场景。目前仍处于开发阶段,尚未商用,但已对 Epic 等传统引擎厂商形成竞争压力,有望推动整个游戏引擎行业向 AI 原生方向迁移。
- [[source-summaries/2026-05-11-openrelay-ai-32.md|OpenRelay:AI配额聚合路由工具,32个提供商一个端点,自动故障转移]] — OpenRelay是一个开源本地工具,将32个AI提供商(包括Claude、Kiro、Windsurf、Groq、Gemini等)的配额统一聚合到单一OpenAI兼容端点,支持自动故障转移和跨工具配额路由。工具可自动扫描本机已安装AI应用并提取订阅凭证,实现任意工具配额驱动任意工具,例如用Claude Pro订阅驱动Claude Code。所有数据仅在本地内存使用,请求直连AI提供商,安全性有保障。
- [[source-summaries/2026-05-11-kilo-code-ai-agent-500.md|Kilo Code:开源AI编程Agent,500+模型零加价,多个顶级模型完全免费]] — Kilo Code是一款Apache 2.0开源的AI编程Agent,支持VS Code、JetBrains和CLI,提供Code、Architect、Debug、Ask、Custom五种Agent模式。其核心优势在于接入500+模型且零加价,Ling-2.6-1T、Laguna M.1、Nemotron 3 Super等顶级编程模型完全免费长期可用。相比Cursor每月$20的订阅费,Kilo Code模型透明、完全开源,并内置五维度代码审查功能。
- [[source-summaries/2026-05-11-creativegame-ai-prompt.md|CreativeGame:让AI游戏生成从「Prompt抽卡」走向机制化迭代]] — CreativeGame是布里斯托大学、上海交通大学和Sreal AI联合提出的多Agent框架,通过“机制优先“设计、程序化奖励和谱系感知记忆解决AI游戏生成中的随机质量和评分通胀两大核心问题。该框架强制AI在生成代码前完成结构化设计文档,并用可执行的程序化信号替代LLM自评,实现真正的演化式迭代。其思路对音乐、建筑、剧本等其他创意生成领域同样具有参考价值。
- [[source-summaries/2026-05-11-cc-connect-ai-agent-im.md|cc-connect:把本地AI Agent接入飞书/微信/钉钉等IM平台]] — cc-connect是一个Go编写的轻量级开源工具,可将本地运行的AI编码Agent(如Claude Code、Cursor、Gemini CLI等)桥接到飞书、钉钉、Slack、Telegram等主流IM平台,实现手机随时远程下发指令驱动本地Agent工作。该工具无需公网IP,支持会话持久化和权限管控,适合希望在移动端操控本地AI编码工作流的开发者使用。
- [[source-summaries/2026-05-11-ntsync-linux-110fps-860-fps.md|NTSYNC进入Linux主内核:游戏性能从110FPS飙升到860+ FPS]] — NTSYNC已正式合并进Linux主内核,在内核层面实现了与Windows NT完全一致的线程同步语义,彻底解决了Wine/Proton运行Windows游戏时的性能瓶颈。测试数据显示Dirt 3帧数从110 FPS飙升至860+ FPS,提升约7.8倍。这是Linux游戏生态多年来最重要的内核级改进,Steam Deck、Fedora和Ubuntu新版本均已支持。
- [[source-summaries/2026-05-11-dreamlite-0-39b.md|DreamLite:字节开源0.39B端侧文生图+编辑一体化模型]] — 字节跳动开源的DreamLite是一个仅0.39B参数的极轻量扩散模型,支持在手机端1秒内完成1024×1024图像生成。该模型通过In-Context任务统一机制将文生图与图像编辑整合为单一网络,经过四阶段渐进式训练和DMD2步数蒸馏,性能超越12B参数的FLUX.1-Dev,为端侧图像生成提供了可复用的工程路径。
- [[source-summaries/2026-05-11-aionui-agent-hermes-os.md|AionUi:开源多Agent协作桌面平台(Hermes OS / 智能体操作系统)]] — AionUi是一个免费开源的多Agent协作桌面应用(Apache-2.0),支持将Claude Code、Codex、OpenClaw等20余个CLI Agent统一到一个GUI界面进行管理,类似操作系统管理应用程序的方式管理AI Agent。平台内置零配置Agent和20个专业助手,支持文件读写、网络搜索、图像生成及MCP工具,并可通过微信、飞书、钉钉、Telegram等进行远程控制和24/7定时自动化任务。
- [[source-summaries/2026-05-11-ui-tars-32-7k-star-gui-agent.md|字节跳动 UI-TARS:32.7k Star 的多模态 GUI Agent 开源工具]] — UI-TARS 是字节跳动开源的多模态 AI Agent 框架,能够通过视觉理解直接操控桌面应用和浏览器,无需依赖传统 DOM 选择器。该项目在 GitHub 获得 32.7k Stars,支持自然语言驱动的自动化测试、数据采集和业务流程自动化等场景。底层采用字节自研的 UI-TARS-1.5 视觉语言模型,并通过 MCP 协议实现工具扩展,以 Apache-2.0 协议开源,商业可用。
- [[source-summaries/2026-05-11-peekaboo-v3-openclaw.md|Peekaboo v3 正式发布——OpenClaw的桌面操作工具]] — Peekaboo v3 是 OpenClaw 专属的 macOS Computer Use 工具,具备截图、识别UI元素、点击交互等桌面操作能力,将桌面转化为结构化“地图“供 Agent 理解。2026年5月11日一日三更发布至 v3.1.2,标志着模型视觉与操作能力达到可持续跑流程的临界点。配合 OpenClaw 的消息通道,Agent 从“出主意“升级为“可以碰方向盘“。
- [[source-summaries/2026-05-11-swanlab-ai.md|SwanLab:开源 AI 实验追踪与训练可视化工具]] — SwanLab 是 W&B 的开源替代品,专为 AI 研究人员和工程师设计,支持实验追踪、训练可视化和模型版本管理。仅需 3 行代码即可接入,原生支持中文,并可一键本地部署,数据完全自主可控。与 PyTorch、Transformers、LLaMA Factory、Ultralytics 等主流框架开箱即用,适合大模型微调和目标检测等场景。
- [[source-summaries/2026-05-11-opencode-zen-claude-code-cloudflare-worker.md|用OpenCode Zen免费模型运行Claude Code:Cloudflare Worker代理方案]] — 本文介绍通过部署Cloudflare Worker作为格式转换代理,将Claude Code的Anthropic风格请求转换为OpenCode期望的格式,从而以免费或低价模型替换Claude Code的模型层。方案提供/zen和/go两条路由,分别对应免费模型和OpenCode Go月度订阅。适用于摘要、文档清理、低风险代码审查等场景,但免费模型不建议用于敏感代码。
- [[source-summaries/2026-05-11-ibm-granite-4-1-8b-32b-moe.md|IBM Granite 4.1:8B 密集模型匹敌 32B MoE,训练质量胜过架构技巧]] — IBM Granite 4.1 的 8B 密集模型通过 15 万亿 Token 的五阶段训练和多阶段强化学习,在多项基准测试中超越了上一代 32B MoE 模型。文章深入对比了 Dense 与 MoE 架构的实际差异,指出 MoE 模型虽然激活参数少,但仍需将全部参数加载到内存。Granite 4.1 以 Apache 2.0 开源,适合企业合规部署和边缘场景,但社区认为编码任务上 Qwen 系列仍更具竞争力。
- [[source-summaries/2026-05-11-anthropic-agent-harness.md|Anthropic 工程笔记:长程 Agent 的有效 Harness 设计]] — 本文介绍了 Anthropic 针对长程 Agent 的双组件 Harness 架构,包括负责初始化和生成结构化 Feature List 的 Initializer Agent,以及负责逐步推进功能实现的 Coding Agent。核心思路是通过 JSON 格式的 Feature List 作为外部任务队列,结合 Git commit 和进度日志实现跨会话状态同步,从而解决 Agent 在长任务中的中间状态丢失和过早声明完成两大失败模式。
- [[source-summaries/2026-05-11-ai-6.md|AI原生工程组织的6条运营规则]] — Anthropic Claude Code工程与产品负责人Fiona Fan分享了AI原生工程组织的6条运营规则,核心前提是“写代码不再是瓶颈“,新瓶颈转移到验证、评审和长期维护。文章提出扁平组织、JIT规划、代码即真相等具体实践,并给出判断组织是否真正AI化的3个量化指标。
- [[source-summaries/2026-05-11-hermes-auto-think-auto-build.md|Hermes Auto-think / Auto-build:能发现重要工作并自主构建的智能体架构]] — Hermes 是一个多智能体架构,分为 Auto-think(创意摄入)和 Auto-build(验证构建)两大模块,通过8个角色的明确分工实现从信号发现到代码交付的完整闭环。系统引入“创意合约“作为思考到构建的移交物,并通过 Coder 与 QA 的验证差异对比确保构建质量。其核心理念是让智能体系统从“产生输出“进化为“复利判断力“,使其更像操作系统而非提示词链。
- [[source-summaries/2026-05-11-design-md-9.md|DESIGN.md 必备的 9 个部分]] — 本文介绍了 DESIGN.md 规范的九个核心章节,分为“设定品牌“、“构建 UI“和“保持一致“三个集群,旨在解决 AI 编程智能体在生成 UI 时缺乏视觉一致性的问题。核心观点是:模型擅长的不是设计本身,而是“设计记忆“,通过给智能体提供结构化约束和上下文,可以显著提升输出的品牌一致性。文章还提供了三条实践路径,包括从现有品牌集合选取、用 Google Stitch 自动提取,以及从零手写四个关键章节。
- [[source-summaries/2026-05-11-untitled.md|本地大模型:从跑起来到跑得好]] — 本文系统介绍了在本地运行大语言模型的五层决策框架:硬件、内存、Runtime、模型选择与量化。重点讲解了Apple Silicon的内存带宽优势、KV Cache的内存消耗规律、各Runtime工具的适用场景,以及Q4_K_M量化作为日常主力的实用建议。还涵盖了MoE架构理解、Flash Attention、imatrix量化等进阶优化技巧。
- [[source-summaries/2026-05-11-aetherviz-master-3d.md|AetherViz Master:输入知识点自动生成3D互动课件]] — AetherViz Master是一款GitHub开源工具,用户输入教学主题后可自动生成完整的3D交互式教学网页,底层采用Three.js与SVG混合渲染技术。工具支持物理、化学、数学等多学科的可视化演示,生成的课件包含学习目标、原理讲解、公式渲染和小测验等教学框架。运行仅需浏览器,生成课件依赖Claude 3等大语言模型,适合教师、学生和内容创作者使用。
- [[source-summaries/2026-05-11-ai-3a.md|AI原生游戏:比3A更激进的探针项目]] — 本文介绍了三个AI原生游戏项目:Wanderfolk通过LLM实时生成NPC对话并构建舆论传播网络,Hyperscape让自主AI Agent与人类玩家共存于同一持久世界,Project Lunar则用三层记忆系统和图数据库解决AI叙事游戏的长期记忆崩溃问题。这些项目的核心探索是让AI直接进入游戏循环,成为世界反应和角色意图的驱动力,而非仅用于提升开发效率。文章指出动态生成与高质量叙事之间的张力是AI原生游戏面临的核心矛盾。
- [[source-summaries/2026-05-11-ian-handdrawn-ppt-ai-codex-skill.md|ian-handdrawn-ppt:让AI生成手绘风技术配图的Codex Skill]] — ian-handdrawn-ppt是一个Codex Skill,通过精细的视觉DNA定义和叙事驱动的版式选择,生成中文手绘技术解释风格的PNG配图。项目针对AI配图“模板味“问题,从prompt层面入手,支持21:9封面图和16:9正文配图两种画幅。中文渲染是核心难点,项目通过文字预算控制和推荐ChatGPT Image 2.0等策略加以应对。
- [[source-summaries/2026-05-11-one-api.md|中转站跑路?不如自己搭一个 One API]] — 本文介绍了开源AI API网关One API的自建方案,通过Docker一行命令即可在15分钟内完成部署。One API能将OpenAI、Claude、DeepSeek等多平台的API Key统一管理,对外暴露单一OpenAI格式接口,解决多Key分散、切换模型需改代码、成本难统计三大痛点。文章还涵盖渠道配置、令牌管理、负载均衡、模型映射等进阶技巧及常见踩坑。
- [[source-summaries/2026-05-11-skill-ui-cc-design-huashu-design-kami.md|这几个SKILL让程序员变成UI设计师:cc-design / huashu-design / Kami]] — 本文介绍了三个基于Claude Code的设计Skill项目:cc-design、huashu-design和Kami,三天内合计超过2200 star。这些项目均以HTML为核心交付格式,通过结构化的设计约束和反AI套路机制,将AI设计输出质量从60分提升至80分。文章指出skills.sh生态正在成为类npm的分发平台,标志着AI Coding Agent从“帮写代码“向“帮做交付“的演进。
- [[source-summaries/2026-05-11-hermes-kanban-agent.md|Hermes Kanban:多Agent任务编排系统实践]] — Hermes Kanban 是一个基于 SQLite 持久化任务队列的多Agent编排系统,将大任务拆解为子任务并分派给不同专业角色的 Agent 并行或串行执行。系统包含 Orchestrator、Dispatcher、Worker 和 Kanban Board 四个核心组件,支持崩溃恢复和跨天任务续跑。通过 kanban_block 机制实现人工介入,适用于需要多角色协作、长时间运行或复杂依赖关系的工作流场景。
- [[source-summaries/2026-05-11-fireworks-tech-graph.md|fireworks-tech-graph:用自然语言秒出技术架构图]] — fireworks-tech-graph 是一个开源工具,支持用中文或英文自然语言描述系统架构,几秒内生成可发布的 SVG 和高清 PNG 技术图表。它作为 Claude Code 的 skill 安装使用,内置 7 种视觉风格、AI/Agent 语义形状、14 种 UML 图类型及 40 余种产品品牌图标。相比 Mermaid 和 draw.io,该工具无需手动绘制,支持语义箭头自动配色和多种 AI 领域架构模式。
- [[source-summaries/2026-05-11-ai.md|浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互]] — 浙江大学联合腾讯优图实验室提出AdaMARP框架,通过Thought–Action–Environment–Speech四通道消息格式实现沉浸式角色扮演。框架采用Actor、User和场景管理器三智能体架构,场景管理器负责动态调度角色与场景切换。该研究已被ACL 2026接收,并构建了包含近50万条话语的训练数据集AdaRPSet与评测框架AdaptiveBench。
- [[source-summaries/2026-05-10-hicad-ai-3d-cad.md|HiCAD:AI驱动的参数化3D CAD建模平台]] — HiCAD是一个开源的AI驱动参数化3D CAD建模平台,支持通过自然语言描述秒级生成可3D打印的参数化模型。平台采用Vue3+NestJS技术栈,集成DeepSeek/OpenAI/Qwen等多种AI适配器,通过双阶段建模策略减少AI幻觉,支持STL/OBJ格式导出直接用于3D打印。
- [[source-summaries/2026-05-10-omnivoice-vs-qwen3-tts-tts.md|OmniVoice vs Qwen3-TTS:开源TTS模型实测对比]] — 本文对OmniVoice和Qwen3-TTS两款开源TTS模型进行六维度实测对比,涵盖语音相似度、长文本稳定性、情感表达、生成速度、数字处理和跨语言口音克隆。结果显示OmniVoice在情感表达、生成速度和多语言口音克隆方面更具优势,而Qwen3-TTS在数字/缩写等文本规范化处理上表现更好。文章还提供了OmniVoice的安装教程和使用示例代码,并给出了不同场景下的选型建议。
- [[source-summaries/2026-05-10-openai-codex-chrome-ai.md|OpenAI Codex Chrome 插件:浏览器 AI 代理]] — OpenAI Codex 推出 Chrome 插件,通过复用用户已登录的浏览器 Cookie 解决了此前无法访问需登录网站的核心痛点。该插件支持多标签页并行操作、多代理协同工作,可自动完成舆情调研、差旅报销等重复性任务。Codex 正从聊天 AI 进化为能在任意网页后台运行的“数字员工“。
- [[source-summaries/2026-05-10-kami-ai-agent.md|Kami:专为AI Agent设计的文档排版约束系统]] — Kami是一个面向静态文档和印刷品的排版约束系统,专为解决AI生成文档风格不一致、排版随意的问题而设计。它通过硬约束规则(暖米色底色、单一serif字体、字重克制等)替代随意样式漂移,支持Claude Code、Codex等主流AI编程工具。用户只需自然语言描述需求即可触发一致风格的专业文档输出,涵盖简历、报告、幻灯片等多种模板类型。
- [[source-summaries/2026-05-10-openspec-1-x.md|OpenSpec 1.x 新版本更新详解]] — OpenSpec 1.2.0 发布,带来轻量化、灵活性和可扩展性提升,新增Skills技能调用方式以节省tokens,并引入config.yaml替代旧版project.md和AGENTS.md。新版提供更丰富的CLI命令(如config、schema、status等)和核心工作流命令(/opsx:前缀),支持从头脑风暴到归档的完整开发工作流。该工具与Claude Code深度集成,适合AI辅助编程的需求管理和规范化开发流程。
- [[source-summaries/2026-05-10-untitled.md|公司本身的形态正在成为护城河]] — 本文由Foundation Capital合伙人Jaya Gupta提出,在AI时代产品和技术优势容易被复制的背景下,真正持久的护城河是公司组织本身的形态。伟大的公司不只是吸引人才的地方,而是让某种特定类型的才华得以充分表达的结构。作者警告创始人和求职者要区分“被选中“的情绪承诺与“被看见“的结构性承诺,并指出AI会加速复制产品界面,但无法轻易复制构建新机构的能力。
- [[source-summaries/2026-05-10-ai-ppt-claude-code-skill.md|AI 制作 PPT 全景指南:四大流派 + Claude Code Skill 实战对比]] — 本文系统梳理了AI制作PPT的四大技术流派(HTML生成、图片PPT、模板填空、原生OOXML),并对Claude Code的三款PPT Skill(baoyu-slide-deck、anthropics/pptx、revealjs)进行了实战横向对比。文章还详细记录了anthropics/pptx的踩坑经历与优化方案,将耗时从25分钟压缩至3分钟。最终给出了面向不同需求场景的选型建议。
- [[source-summaries/2026-05-10-codebuff-freebuff-ai.md|Codebuff / Freebuff:多智能体 AI 编程助手]] — Codebuff 是一款多智能体 AI 编程助手,通过 File Picker、Planner、Editor、Reviewer 四个专职 Agent 协作完成代码库编辑任务。免费版 Freebuff 采用广告支持模式,无需 API Key 即可使用,官方评测显示其性能(61%)超过 Claude Code(53%)。该工具支持 OpenRouter 全量模型切换,并提供 TypeScript 自定义 Agent 系统,代表了 AI 编程工具向多智能体专业分工演进的趋势。
- [[source-summaries/2026-05-10-minimind-o-0-1b.md|MiniMind-O:0.1B参数全模态开源模型]] — MiniMind-O是一个仅0.1B参数的全模态开源模型,采用Thinker-Talker架构实现文本、语音、图像输入到流式语音输出的完整闭环。该模型通过中间层桥接、低秩码本接口和三阶段渐进式训练等关键设计,以极低成本(1人+4块RTX 3090,4小时)完成训练,CER最低达0.0897。其核心价值在于提供完全可复现的小规模基线,揭示全模态设计的关键选择。
- [[source-summaries/2026-05-10-soul-md-user-md-openclaw-agent.md|SOUL.md + USER.md:OpenClaw Agent 人格配置最佳实践]] — 本文介绍了通过 SOUL.md 和 USER.md 两个配置文件解决 AI Agent 会话失忆问题的最佳实践。SOUL.md 定义 Agent 的身份、风格与行为准则,USER.md 定义用户背景与服务需求,两者共同构成 Agent 的长期人格记忆。文章给出了具体配置要素、常见错误及精简原则,强调好用的 Agent 核心在于“最懂你“而非功能最全。
- [[source-summaries/2026-05-10-harness-engineering-ai-agent.md|Harness Engineering:当AI Agent变得足够强大,真正的工程才刚刚开始]] — 本文系统梳理了2026年兴起的Harness Engineering范式,核心观点是AI Agent效果不佳往往是工程设计问题而非模型能力问题。文章对比了Anthropic、OpenAI、Thoughtworks三家机构的实践方案,涵盖初始化Agent、进度追踪、架构约束、熵增治理等关键设计模式。同时介绍了LangChain Deep Agents、HumanLayer、Inngest AgentKit等主流工具链,并将这些理念映射到OpenClaw现有体系。
- [[source-summaries/2026-05-10-scrapling-ai-web-scraping.md|Scrapling:AI时代的自适应Web Scraping框架]] — Scrapling是一个开源的自适应Web Scraping框架,能够在网页改版后自动重新定位元素,解决传统爬虫因页面结构变化而失效的问题。该框架支持异步爬取、代理管理等能力,适用于商品监控、竞品采集、AI训练数据准备等多种场景。随着AI发展,高质量数据的获取能力将成为核心竞争力,Scrapling正是为此而生的工具。
- [[source-summaries/2026-05-10-codex-pdf.md|用Codex把《西游记》做成绘本PDF:内容生产流水线设计]] — 本文介绍了一套以Markdown为输入、Codex生图为核心、reportlab输出PDF的四层内容生产流水线。核心设计理念是内容与生成逻辑解耦,通过结构化Markdown文件管理故事分镜、画风约束和提示词模板,实现换题材只需修改文本而无需改动程序逻辑。文章还探讨了工程实践中的常见问题(图片尺寸、版面溢出、字体兼容)及该架构在课件生成等场景的可扩展性。
- [[source-summaries/2026-05-10-openswarm-ai.md|OpenSwarm:让AI团队自己写代码、改代码、合并代码]] — OpenSwarm是一个命令行工具,通过Worker、Reviewer、Test三种AI角色并行协作,实现从Linear Issue到PR的全自动软件开发流水线。其技术基础是Git Worktree,允许多个AI Agent在同一仓库的不同分支上同时工作互不干扰。相比单Agent方案,OpenSwarm支持并行多任务处理和自动代码审查,适合并行处理小需求、自动修复CI失败和快速原型开发等场景。
- [[source-summaries/2026-05-10-hermes-kanban-agent.md|Hermes Kanban 多智能体看板完全指南:多 Agent 协作不打架]] — 本文介绍了 Hermes Kanban 系统,一种基于 SQLite 持久化看板的多 Agent 协作框架,解决了传统 subagent 模式中任务挂起无法恢复、缺乏人类介入入口、上下文压缩导致历史丢失等问题。系统通过状态机流转、心跳检测、父子任务依赖等机制实现可靠的多 Agent 任务编排,并提供 React GUI 仪表盘进行实时监控。文章还对比了 delegate_task 与 Kanban 两种模式的适用场景,并介绍了扇出、流水线、投票等八大协作模式。
- [[source-summaries/2026-05-10-windsurfapi-windsurf-ide-100-openai-anthropic-api.md|WindsurfAPI:将 Windsurf IDE 的 100+ 模型暴露为标准 OpenAI/Anthropic API]] — WindsurfAPI 是一个开源项目,通过逆向 Windsurf IDE 的内部 gRPC 协议,将其背后的 100+ 大模型暴露为兼容 OpenAI 和 Anthropic 的标准 API 接口。项目采用纯 Node.js 实现,支持账号池轮询和故障转移,免费账号可访问 GLM、Kimi、Qwen 等开源模型。该方案可作为 LLM 降级备选,但因涉及逆向 IDE 内部协议,存在封号风险,不建议用于生产环境。
- [[source-summaries/2026-05-10-anthropic-10-agent.md|Anthropic发布10个金融Agent:华尔街最烦的活全打包成模板]] — Anthropic发布10个现成的金融Agent模板,覆盖前台研究、中后台运营等场景,以fork-and-modify形式开放。每个模板包含Skills、Connectors和Subagents三部分,支持Claude Cowork插件、Claude Code插件和托管Agent三种部署方式。配套的Claude Opus 4.7在Vals AI金融Agent基准测试中以64.37%位居行业第一,标志着Agent开发从手工作坊进入模板时代。
- [[source-summaries/2026-05-10-skillrouter-agent.md|SkillRouter:阿里达摩院提出的大规模Agent技能路由框架]] — SkillRouter是阿里达摩院提出的大规模Agent技能路由框架,解决技能库膨胀至8万个时的精准匹配问题。框架采用双阶段架构:SR-Emb负责从海量技能中快速召回候选,SR-Rank通过Listwise排序精选最优技能,核心发现是技能的底层代码实现(Body)而非名称或描述才是路由的决定性信号。1.2B参数模型在80000个技能测试集上达到74%的Hit@1准确率,且可在本地CPU上运行。
- [[source-summaries/2026-05-10-everything-claude-code-182-skill-48-agent-68-command.md|everything-claude-code:182个Skill + 48个Agent + 68个Command的工程化实践]] — everything-claude-code是Anthropic黑客松冠军Alvaro Cintas开源的Claude Code工程化参考实现,包含182个skill、48个subagent和68个slash command,支持Claude Code、Cursor、Codex等多工具复用。项目最大亮点是AgentShield安全审计工具,内置1282个测试和102条静态分析规则,覆盖密钥检测、Hook注入、MCP风险等五类安全风险。整体设计遵循research-first、token优化、持续学习和跨harness兼容四大哲学,为AI编程工程化提供了系统性参考。
- [[source-summaries/2026-05-10-hermes-openclaw-paperclip-ai-agent.md|Hermes + OpenClaw + Paperclip:三层 AI Agent 团队架构]] — 本文介绍了将Hermes、OpenClaw、Paperclip三个开源AI Agent工具组合成结构化团队的架构方案,分别承担记忆层、执行层和管理层职责。三层分工相比单Agent工作流更清晰、更易维护,出问题时可精准定位。文章还分析了该架构与现有OpenClaw多Agent体系的对应关系,指出当前缺少专门管理层工具的不足。
- [[source-summaries/2026-05-10-open-slide-ai-agent-react-ppt.md|Open Slide:让AI Agent用React做PPT,支持预览、评论、演示]] — Open Slide是一个开源幻灯片框架,将每页幻灯片设计为React组件,使AI Agent(如Hermes、Claude Code)能直接通过修改代码来制作和调整PPT版式。用户可在浏览器预览中留评论,Agent通过/apply-comments命令按评论修改,形成“生成—预览—评论—修改“的闭环工作流。该框架支持静态网页、PDF和演示模式输出,适合技术分享、项目汇报等场景。
- [[source-summaries/2026-05-10-9-codex.md|9个Codex用户必备的技能]] — 本文介绍了OpenAI Codex CLI的9个核心技能,涵盖代码搜索加速(WarpGrep)、强制计划制定、CI自动修复、网络深度研究、PR评论处理、前端UI优化和去除AI写作痕迹等场景。技能存放于~/.agents/skills/目录,与OpenClaw技能系统路径兼容。作者因Claude Code速率限制bug转而同时使用Codex,并总结了提升智能体编程效率的关键实践。
- [[source-summaries/2026-05-09-hermes.md|Hermes 终于能看视频了:排查录屏不用只靠截图]] — Hermes 新增视频理解能力,可直接分析录屏视频,不再依赖单张截图。相比截图只能捕捉静态瞬间,视频分析能理解完整操作流程和时序变化,适合排查UI交互问题和软件异常流程。这标志着AI多模态能力从“看图“升级到“看视频“,对Agent自动化排查场景具有直接参考价值。
- [[source-summaries/2026-05-09-agent-tinyfish.md|Agent终于有眼睛了!TinyFish 免费互联网搜索接口]] — TinyFish 提供永久免费的 Search 和 Fetch 两个 API,分别支持每分钟5次搜索和25个URL抓取,补全了 Agent 框架无法直接访问互联网的短板。通过 MCP 协议可快速接入 Claude Code、Cursor 等工具,Fetch 接口采用真实浏览器渲染并支持 stealth 模式绕过反爬检测。文章还介绍了 Codex /chrome 功能,与 TinyFish 组合可让 Agent 具备完整的互联网搜索、抓取和浏览器操作能力。
- [[source-summaries/2026-05-09-skill-400-openclaw-hermes-claude.md|制作神级Skill!月省400块:OpenClaw/Hermes/Claude三端通用]] — 本文介绍了一种通过浏览器自动化(OpenCLI、Playwright等)替代付费搜索API的方案,可将月度搜索成本降至零。核心思路是用脚本模拟人工操作Bing/Google搜索并提取页面内容,本地过滤后仅将关键信息喂给大模型,Token消耗减少90%。该方案被封装为Skill,可在OpenClaw、Hermes、Claude Code三个Agent框架中通用。
- [[source-summaries/2026-05-09-redis-deepseek-v4.md|Redis之父下场,给DeepSeek V4单独造了一台推理引擎]] — Redis创始人antirez于2026年5月发布专为DeepSeek V4 Flash打造的本地推理引擎ds4,仅支持Apple Metal,以单个C文件无外部依赖的极简方式实现。该引擎针对MoE架构进行专项量化优化,支持磁盘持久化KV Cache,128GB内存的Mac即可运行,体现了大模型推理生态从通用兼容向专用优化转变的趋势。
- [[source-summaries/2026-05-08-hermes-v0-13-0-agent.md|Hermes v0.13.0 更新快报:多Agent不烂尾、会话能恢复、支持视频理解]] — Hermes v0.13.0(The Tenacity Release)是一次大规模版本更新,涵盖864个提交和295位贡献者的贡献。核心改进包括持久化多Agent Kanban看板、/goal持久目标机制、Checkpoints v2状态持久化重写,以及Gateway会话自动恢复功能。此外新增了视频理解工具video_analyze、Cron无Agent模式,并关闭了8个P0安全问题,整体方向是让Agent能更可靠地把长任务坚持做完。
- [[source-summaries/2026-05-08-cognee-ai.md|cognee:让AI真正拥有长期记忆的开源框架]] — cognee 是一个开源AI记忆框架,通过图+向量混合架构解决AI应用缺乏长期记忆的核心痛点。相比传统RAG方案,cognee能自动构建关系图谱并支持多跳推理,在HotpotQA数据集上精确匹配率达71%,远超传统RAG的0%。目前已有70+家企业生产使用,并集成到Claude Code、OpenClaw等主流AI开发框架。
- [[source-summaries/2026-05-08-tokenspeed.md|TokenSpeed:光速级智能体推理引擎]] — TokenSpeed 是由 LightSeek Foundation 开发的开源推理引擎,定位为兼具 TensorRT-LLM 级性能与 vLLM 级易用性的智能体推理基础设施。其核心创新包括本地 SPMD 建模、控制与执行平面解耦的调度器,以及针对 NVIDIA Blackwell 架构优化的 MLA Kernel。在 Coding Agent 生产流量测试中,相比 TensorRT-LLM 延迟降低约 9%,带 speculative decoding 时延迟降低近一半。
- [[source-summaries/2026-05-08-codex.md|Codex直出透明背景设计素材]] — 本文介绍了一套开源的Codex视觉素材skill,包含transparent-visual-assets和sprite-animation-assets两个技能,可直接生成带透明通道的PNG设计素材及GIF动画。适合独立开发者、PM和自媒体作者使用,无需PS技能即可快速产出网页插画、PPT装饰、游戏角色等多种视觉资产。
- [[source-summaries/2026-05-07-z-image-mai.md|Z-Image:阿里通义MAI开源图像生成模型]] — Z-Image是阿里巴巴Tongyi-MAI团队发布的6B参数开源图像生成模型,采用S3-DiT单流扩散Transformer架构,效率优于FLUX双流架构。Turbo版本仅需8步推理,最低8G显存即可运行,支持中英文双语文字渲染,在开源模型人类偏好排名中位列第一。支持Python/diffusers、ComfyUI及WebUI等多种本地部署方式,兼容Windows、Mac和Linux平台。
- [[source-summaries/2026-05-07-ifai-v0-4-6-rust-tui.md|IfAI v0.4.6 发布:多线程并发对话 + Rust TUI 架构重构实战]] — IfAI v0.4.6 是基于Tauri 2.0和Rust构建的开源AI代码编辑器终端应用,本次更新引入多线程并发对话隔离、声明式路由表和Mode enum等架构改进。重构将App字段从27个精简至14个,消除238行if-else事件处理链,并通过862个测试用例保障质量。文章详细介绍了Arc
三阶段锁策略、Windows兼容踩坑及TDD发现真实Bug的实战经验。 - [[source-summaries/2026-05-07-128gb-qwen-3-6-35b-a3b-1m-oom.md|128GB内存跑Qwen 3.6-35B-A3B,1M上下文仅它没爆OOM]] — 本文在MacBook Pro M5 Max(128GB统一内存)上对Qwen3 MoE模型进行了8小时的KV Cache选型基准测试,覆盖f16、q8_0、turbo3、turbo4四种格式。核心结论是:短上下文f16最快,但超过128K后只有turbo3能在1M上下文下存活(内存占用89GB,速度6.5 tok/s)。turbo3适合RAG和极限长上下文,turbo4适合编程智能体等解码密集场景。
- [[source-summaries/2026-05-07-codex-hyperframes.md|Codex + HyperFrames 正在吃掉剪辑行业]] — 本文介绍了Codex与HyperFrames的组合工作流,通过AI编写HTML代码直接渲染生成视频,无需传统剪辑软件。作者总结了七维度提示词技巧、AI素材生成和Suno配乐三个实战方法,实测从零到成品仅需1小时。这套组合本质上将视频创作从手工剪辑转变为AI执行的“导演模式“,正在重塑视频制作行业门槛。
- [[source-summaries/2026-05-07-ai-03-harness-engineering.md|AI 编程铁三角:03 Harness Engineering 入门]] — 本文介绍 Harness Engineering 的核心概念,将其定义为 AI Agent 的约束系统工程,公式为 Agent = Model + Harness。文章阐述了三大支柱:上下文工程、架构约束和熵管理,并提供了通过 CLAUDE.md、测试套件和 Pre-commit Hook 搭建 Level 1 Harness 的实践步骤。最后将 Harness 概念与 OpenClaw 体系进行了对应映射,说明两者在约束系统设计上的一致性。
- [[source-summaries/2026-05-07-openclaw-evolver.md|OpenClaw Evolver 自我进化机制详解]] — 本文详解 OpenClaw 的 Evolver 自我进化引擎,介绍其如何从每日 Agent 交互中自动提取 Signal(信号),并在同一信号出现 3 次以上时提升为可复用的 Pattern(模式)。系统通过 evolver-capture.sh 和 evolver-promote.sh 两个脚本驱动,最终将沉淀的 Pattern 汇总至 ACTIVE.md,供 Agent 启动时读取以改变行为,实现“越用越聪明“的效果。
- [[source-summaries/2026-05-07-hermes-5-skills.md|为什么大佬的Hermes越用越聪明?答案在这5个skills里!]] — 本文介绍了AI Agent工具Hermes的5个核心Skill(github-pr-workflow、plan、docker-management、duckduckgo-search、sherlock),重点阐述其自我进化机制:每次任务完成后自动将操作流程沉淀为结构化Skill文件,实现经验复用。文章还将Hermes的Skill沉淀机制与OpenClaw的Evolver系统进行对比,指出两者理念相同,并建议OpenClaw参考Hermes的“主动询问沉淀“机制改进触发逻辑。
- [[source-summaries/2026-05-07-80-token-claude-code-openwolf.md|省80% Token!给Claude Code装「第二大脑」的开源神器OpenWolf]] — OpenWolf是一个专为Claude Code设计的开源工具,通过智能上下文管理(包括缓存、压缩和记忆持久化)声称可节省80%的Token消耗。文章分析了其核心机制,并将其与GBrain第二大脑体系进行对比,指出两者可互补使用。作者认为该工具对优化Claude Code工作流具有重要参考价值。
- [[source-summaries/2026-05-06-deepseek-ocr-2-markdown.md|DeepSeek-OCR-2:开源文档智能识别工具,一键转Markdown]] — DeepSeek-OCR-2是DeepSeek发布的开源文档智能识别工具,通过视觉因果流技术保留文档排版结构,可将复杂文档(含表格、公式、多栏排版)转换为标准Markdown格式。在OmniDocBench v1.5基准测试中优于Gemini等主流大模型,支持Docker一键部署和PDF批量并发处理,但需要CUDA GPU环境。
- [[source-summaries/2026-05-06-codex-vs-claude-code-2026-5.md|Codex vs Claude Code 2026年5月最新功能对比:从聊天框到工程工作台]] — 本文对比了Codex CLI 0.128.0与Claude Code 2.1.126的最新功能,涵盖持久化目标工作流、权限模型、多Agent控制、插件生态及CI集成等维度。两款工具均从单纯的聊天助手演进为支持长任务、团队协作和工程流程的“工程工作台“。文章指出竞争焦点已从模型能力转向任务闭环、权限边界、工具集成和跨平台流动性。
- [[source-summaries/2026-05-06-openai-symphony-codex-ai-agent.md|OpenAI Symphony:面向Codex的AI Agent自动化编排工具]] — Symphony是OpenAI开源的AI Agent编排工具,将管理编码会话升级为管理工程任务,每个Issue自动分配独立Agent全程自主运行。其核心设计包括隔离运行机制、工作证明机制和规格驱动架构,依托Linear看板驱动任务状态流转。内部数据显示使用后三周合并PR数量提升500%,但目前仍为工程预览版,不可直接用于生产环境。
- [[source-summaries/2026-05-06-browser-use-ai.md|Browser-Use:让AI控制浏览器的开源自动化框架]] — Browser-Use是一个开源Python框架,将Playwright浏览器控制、LLM推理和任务管理整合为统一工作流,大幅降低AI操控浏览器的门槛。支持本地和云端两种模式,云端模式提供代理IP轮换、防检测和CAPTCHA自动解决等高级功能。适用于金融监控、运营自动化、UI测试等规则清晰的重复性任务场景。
- [[source-summaries/2026-05-06-gnhf-coding-agent.md|gnhf - 让Coding Agent在你睡觉时持续工作的开源工具]] — gnhf是一个开源的Coding Agent编排器,允许AI编码助手在无人值守的情况下按照严格的Git纪律持续改进代码。每次迭代成功则自动提交、失败则回滚,并通过notes.md维持跨迭代上下文记忆。支持多Agent并行的worktree模式,适用于补充测试、重构和降低代码复杂度等机械性编码任务。
- [[source-summaries/2026-05-06-13-transformer-ssa-opus-5.md|13人干翻Transformer!新架构SSA算力暴减千倍,成本仅Opus 5%]] — 迈阿密13人初创公司Subquadratic发布基于SSA(亚二次方稀疏注意力)架构的SubQ模型,支持1200万Token上下文,在100万token场景下比FlashAttention-2快52倍,FLOP减少近1000倍。该架构通过内容依赖路由跳过99%以上无用计算,实现线性而非二次方的复杂度扩展,在多项基准测试中以Claude Opus约5%的成本达到相近甚至更优的性能。
- [[source-summaries/2026-05-06-voicebox-ai-elevenlabs.md|Voicebox: 免费开源本地 AI 语音工作室,ElevenLabs 替代品]] — Voicebox 是一款完全免费、开源、本地运行的 AI 语音工作室,支持声音克隆、语音输入和 AI 配音,数据不离开本地机器。它集成了 Qwen3-TTS、Kokoro 等 7 种 TTS 引擎,并内置 MCP 服务器,可与 Claude Code 等 AI 助手无缝协作。相比 ElevenLabs,Voicebox 在隐私保护、成本和离线可用性上具有明显优势。
- [[source-summaries/2026-05-06-wshobson-agents-claude-code-agent.md|wshobson/agents: Claude Code 插件编排与多 Agent 自动化框架]] — wshobson/agents 是构建在 Claude Code 官方插件机制之上的社区级技能市场,提供 88 个插件、185 个专项 Agent 和 16 个多 Agent 编排器。其核心设计理念是渐进式披露与按需加载,通过插件级组合而非全量上下文加载实现高 Token 效率。该项目已获 34.8k Stars,是 Claude Code 生态中规模最大的社区插件市场。
- [[source-summaries/2026-05-05-firecrawl-markdown-ai.md|Firecrawl - 任意网页转干净Markdown,AI数据抓取神器]] — Firecrawl是一个110K+ Star的开源网页抓取工具,能将任意网页转换为干净的Markdown或结构化JSON,专为AI Agent设计。支持JS渲染页面、PDF/DOCX解析,提供MCP服务器接口,可零配置接入各类AI Agent工作流。支持云端托管和Docker自建两种部署方式。
- [[source-summaries/2026-05-05-sub2api-ai-api.md|Sub2API - 开源AI API中转网关]] — Sub2API是一个开源AI API网关平台,支持将Claude、OpenAI、Gemini等订阅账号统一接入并生成API Key分发给用户。项目采用Go+Vue3技术栈,内置精准计费、智能调度、并发控制和支付系统,适合团队共享订阅分摊成本或搭建商业化中转服务。目前已有17.8K星标,生态中存在大量基于其魔改的第三方中转站。
- [[source-summaries/2026-05-05-ruflo-claude-10.md|告别单打独斗!用 Ruflo 组建 Claude 多智能体军团,效率提升 10 倍]] — Ruflo 是一个基于 Claude 模型构建多智能体协作系统的工具,主打并行任务分发,解决单个 AI 串行处理复杂任务的效率瓶颈。文章介绍了其在复杂代码重构、多子任务并行处理等场景下的应用,宣称效率可提升 10 倍。与 OpenClaw 星形拓扑和 Claude Code sub-agents P2P 架构类似,Ruflo 提供了另一种多智能体编排方案。
- [[source-summaries/2026-05-04-scrapling-4-1-star-python.md|Scrapling:4.1万Star的Python爬虫框架]] — Scrapling是一个开源Python爬虫框架,集成了HTTP请求、HTML解析、浏览器自动化和反反爬能力于一体,解析速度比BeautifulSoup快784倍。其核心特性包括自适应解析引擎(网站改版后自动重新定位元素)、四种Fetcher(支持绕过Cloudflare Turnstile)以及类Scrapy的Spider框架。2025年新增MCP服务器支持,允许Claude、Cursor等AI Agent直接调用执行网页爬取任务。
- [[source-summaries/2026-05-04-2026-github-ai-3000-3.md|2026开发者搞钱密码!GitHub最火AI项目日增3000星!哪3个工具?]] — 本文介绍2026年GitHub上三个爆火AI开源项目:为Claude Code提供多Agent协同的ruflo、模拟华尔街交易公司架构的TradingAgents、以及阿里达摩院开源的一键视频生成工具Pixelle-Video。三个项目共同反映了AI从单一工具向团队协作演进、垂直领域专业化加深、以及开源社区飞轮效应加速的行业趋势。文章建议开发者学习多Agent架构并积极参与开源贡献。
- [[source-summaries/2026-05-04-skills-matt-pocock.md|别急着装一堆Skills,Matt Pocock这套真正该学的是工程流程]] — 本文介绍了Matt Pocock开源的Claude Code Agent Skills仓库,重点不在于技能数量,而在于将AI编程纳入工程纪律。文章详细说明了grill-me、tdd、diagnose等核心Skills的用途及推荐工作流顺序。核心理念是:AI写代码越快,工程流程越不能丢,必须用结构化流程约束Agent行为。
- [[source-summaries/2026-05-04-4-8-opencut.md|4.8万星开源神器 OpenCut:剪映免费平替]] — OpenCut 是一款基于 Next.js + TypeScript + FFmpeg 的开源视频编辑器,GitHub 获得 4.8 万星,定位为剪映的免费平替。其核心优势在于完全免费、无水印、不限分辨率,且视频数据完全本地处理,不上传至云端,适合对隐私有要求的创作者。相比剪映,OpenCut 的 AI 功能较弱,模板库匮乏,本地搭建对普通用户有一定门槛。
- [[source-summaries/2026-05-04-gitnexus-claude-code.md|GitNexus 让 Claude Code 秒变代码架构大师]] — GitNexus 是一款开源工具,通过将代码仓库索引为知识图谱并经由 MCP 协议喂给 AI 编程助手,解决了 Claude Code 等工具“盲改“代码的问题。索引过程完全在本地运行,不消耗任何 LLM Token,支持调用链分析、爆炸半径评估、跨文件重命名等 7 个 MCP 工具。与 Graphify 相比,GitNexus 更专注于精准的代码结构问题,两者可配合使用。
- [[source-summaries/2026-05-04-20-claude-code.md|20个彻底改变开发体验的 Claude Code 进阶技巧]] — 本文系统介绍了 Claude Code 的20个进阶使用技巧,涵盖项目初始化与 CLAUDE.md 配置、会话控制、权限安全、多会话并发、Prompt 工程以及 MCP 工具集成等六大模块。文章强调 Claude Code 是深度集成于终端的工程化 Agent,而非简单聊天工具。通过 tmux 多窗口并行、Git Worktree 隔离分支、context7 MCP 实时文档注入等技巧,可显著提升 AI 辅助开发效率。
- [[source-summaries/2026-05-04-git-2-54-3.md|Git 2.54 正式发布:3个核心新特性详解]] — Git 2.54 正式发布,带来三项核心新特性:实验性的 git history 命令简化了提交历史改写流程,配置化 Git Hook 解决了团队协作中钩子无法共享的痛点,几何式打包成为 git maintenance 的默认策略以提升大型仓库维护效率。此外还包含6个实用小增强,全部向后兼容,升级零成本。
- [[source-summaries/2026-05-04-claude-code-3-ai.md|放弃 Claude Code!3个开源工具搭建专属 AI 编码环境]] — 本文介绍了以 OpenCode、Oh-My-OpenCode-Slim 和 OpenSpec 三个开源工具替代 Claude Code 的完整方案。通过多 Agent 编排和 Spec 驱动开发理念,构建更灵活、可控的本地 AI 编码环境。文章涵盖安装配置、避坑指南及多模型 Council 会诊功能的实践细节。
- [[source-summaries/2026-05-04-skill-graphs-skill-md-ai.md|Skill Graphs 超越 SKILL.md:结构化知识网络才是 AI 智能体的未来]] — 本文介绍了 Skill Graph 的概念——一种由相互链接的 Markdown 文件组成的结构化知识网络,专为 AI 智能体设计。与单一的 SKILL.md 文件不同,Skill Graph 通过渐进式披露、Wiki 链接和 MOCs 让 Agent 能够动态遍历知识结构,精确拉取当前情境所需内容。文章还介绍了 arscontexta 插件作为具体实现方案,包含约 250 个相互连接的文件。
- [[source-summaries/2026-05-04-claude-code-subagent-5.md|Claude Code 编程 Subagent 实战:5个可以直接复制的高效模板]] — 本文介绍了Claude Code中Subagent(子代理)的核心价值:通过隔离执行任务来保持主上下文的干净高效。文章提供了5个可直接使用的子代理模板,涵盖代码审查、单元测试生成、Bug分析、代码重构和日志排查等高频编程场景。这些模板存放在项目的.claude/agents/目录下,无需修改即可覆盖日常编程80%的需求。
- [[source-summaries/2026-05-04-deepseek-tui-ai-agent.md|DeepSeek-TUI:终端AI编程Agent深度解析]] — DeepSeek-TUI是一个运行在终端里的开源编程智能体,由美国开发者Hunter Bown开发,与DeepSeek Inc.无关。其核心亮点包括最多16路RLM并行推理、100万token上下文加智能压缩、以及不污染项目git历史的side-git工作区回滚功能。相比Warp和Claude Code,它定位为真正的编程Agent,适合有DeepSeek API Key、预算有限或需处理大型项目的开发者。
- [[source-summaries/2026-05-04-code-review-graph-claude-code-token-6-8.md|code-review-graph:给Claude Code装上代码地图,token直降6.8倍]] — code-review-graph是一个通过Tree-sitter将代码库解析为结构化图谱并存入SQLite的工具,通过MCP协议向Claude Code等AI编程工具暴露28个查询接口。相比传统grep+全文读取方式,在27732个文件的Next.js monorepo中可将需读取文件从数千个降至15个,平均token消耗降低6.8倍。该工具支持23+编程语言、增量更新和跨session复用,最适合500文件以上的中大型项目。
- [[source-summaries/2026-05-03-claude-50-claude-md.md|同一个Claude,效率差50倍的秘密:CLAUDE.md索引卡片]] — 本文介绍了通过精心设计CLAUDE.md索引卡片来大幅提升Claude编程效率的方法,核心理念来自YC CEO Garry Tan的“Thin Harness, Fat Skills“:框架要薄、技能要厚。CLAUDE.md应只保留最关键的项目上下文,而将专业能力封装为可复用的Skill模块,使AI每次启动即处于“专家状态“,从而实现高达100倍的效率提升。
- [[source-summaries/2026-05-03-claude-code-subagents.md|Claude Code Subagents:隔离执行,让主窗口永远干净]] — 本文介绍Claude Code的Subagents功能,通过在独立上下文窗口中运行子代理来执行工具调用密集型任务,只将最终结论返回主窗口,从而解决长任务中上下文爆炸的问题。文章涵盖子代理的创建方式、Context Fork机制、并行监控方案,以及与OpenClaw架构的对应关系。核心理念是将上下文工程做到极致,隔离噪音、继承知识、丢弃中间过程。
- [[source-summaries/2026-05-03-claude-code-skill-superpowers-gstack-openspec.md|Claude Code 三大王牌 Skill:Superpowers + gstack + OpenSpec]] — 本文介绍 Claude Code 的三个核心 Skill:Superpowers(元技能包)、gstack(YC总裁Garry Tan的虚拟工程团队,含23个子Skill)、OpenSpec(规格驱动开发)。三者组合可构建从需求澄清到代码发布的完整工程流水线。作者认为这套组合能让一个人一天完成以前团队一周的工作量。
- [[source-summaries/2026-05-03-beads-ai-agent.md|Beads:给 AI 编程 Agent 装长期记忆]] — Beads 是 Steve Yegge 开发的面向 AI 编程 Agent 的分布式图谱 Issue 追踪器,用依赖图替代 Markdown 计划文件,解决 Claude Code 等 AI 助手在长周期任务中的“失忆“问题。底层采用支持版本控制的 SQL 数据库 Dolt,支持语义衰减压缩、Hash ID 消除协作冲突以及零 Git 依赖的 Stealth 模式。该项目代表了 2026 年 AI Agent 工程化基础设施的新兴赛道,聚焦上下文管理与记忆系统。
- [[source-summaries/2026-05-03-ai-ai.md|AI中转站:下一个AI时代基础设施?]] — 本文介绍了“AI中转站“这一新兴赛道,其本质是在用户与AI模型之间充当调度层的平台,通过API聚合、模型路由和算力调度实现更快、更便宜、更稳定的AI访问。资本正大量涌入该赛道,核心逻辑是掌握AI入口和中转节点即掌握定价权。文章同时分析了其商业模式、普通人的机会以及同质化竞争等潜在风险。
- [[source-summaries/2026-05-03-ai-harness.md|别再卷提示词了!决定AI写代码成败的,其实是Harness]] — 本文提出AI写代码失败的根本原因不是提示词不够好,而是缺乏工程夹具(Harness)。作者介绍了Harness五层架构(任务层、上下文层、工具层、验证层、记忆层),并说明如何通过AI-HARNESS.md文件来约束AI行为、提升交付质量。文章还将Harness概念与OpenClaw的AGENTS.md体系进行了对应,强调工程化思维对AI编程的重要性。
- [[source-summaries/2026-05-03-hyperframes-video-gen-skill.md|HyperFrames Video Gen Skill:本地视频生成技能]] — 本文档介绍了一个名为HyperFrames Video Gen的OpenClaw本地技能,能够通过自然语言描述生成本地MP4视频文件。该技能基于HyperFrames框架,利用GSAP动画、Chromium headless和ffmpeg实现零依赖本地渲染,无需GPU或API Key。用户可在任意workspace中通过自然语言触发,自动完成动画构思、HTML编写和视频渲染全流程。
- [[source-summaries/2026-05-03-ai-openmontage-hyperframes.md|AI视频生产开源工具:OpenMontage与HyperFrames对比]] — 本文介绍两个AI视频生产开源项目:OpenMontage是首个agentic视频生产系统,提供12条pipeline和500+技能覆盖全流程,适合批量内容自动化;HyperFrames是HeyGen开源的视频渲染框架,支持用HTML编写视频内容并由LLM直接驱动渲染。两者分别覆盖视频生产的前端工作流与后端渲染层,共同推动视频生产从手动操作向结构化工程流程转变。
- [[source-summaries/2026-05-03-addy-osmani-agent-skills-ai.md|Addy Osmani 开源 Agent Skills:把资深工程师的工作流塞进 AI 编程工具里]] — Addy Osmani 开源了 Agent Skills 项目(18000+ Stars),将软件开发拆解为定义、规划、构建、验证、评审、发布 6 个阶段,封装成 20 个核心技能命令。该项目解决了 AI 编程工具缺乏稳定工作流的问题,适用于 Cursor、Claude Code、Gemini CLI 等主流 AI 编程工具。其核心理念是“AI Coding 不缺模型,缺的是稳定的工作流“,帮助开发者让 AI 像靠谱工程师一样按规范干活。
- [[source-summaries/2026-05-03-ai-yc-ai-17-888.md|AI助手总是“失忆“?YC总裁给AI装了个“第二大脑“,17,888页记忆]] — GBrain是YC总裁Garry Tan开源的AI记忆系统,通过Git+Postgres+pgvector架构实现持久化知识存储与检索,解决AI助手上下文丢失问题。系统采用确定性正则提取实体关系、Minions持久队列替代子代理,以及多层混合检索策略,实现P@5=49.1%、R@5=97.9%的检索性能。其fail-improve loop机制使意图分类准确率从40%提升至87%,越用越准。
- [[source-summaries/2026-05-03-openai-codex-agent.md|OpenAI Codex:云端自主编程Agent,编程的下一步不是辅助而是自主]] — OpenAI Codex是基于codex-1(o3优化版)的云端软件工程Agent,支持异步并行处理多个编程任务,每个任务在独立云沙箱中运行。其核心范式转变是从“辅助编程“到“自主编程“,开发者角色从“写代码“转变为“审代码“。文章同时对比了Codex与Claude Code的差异,并介绍了AGENTS.md引导文件的使用方法。
- [[source-summaries/2026-05-03-opengame-ai.md|OpenGame:香港中文大学开源AI游戏生成框架]] — OpenGame是香港中文大学MMLab开源的AI游戏生成框架,通过输入自然语言描述即可生成完整可玩的网页游戏。其核心创新包括Game Skill机制(Template Skill和Debug Skill)以及专用模型GameCoder-27B(基于Qwen3.5-27B微调),专门解决通用AI在游戏代码生成中各模块“各自为政“的问题。在150个游戏测试中,意图对齐度比Cursor高6.2个百分点,适用于独立开发者、游戏策划师及教育场景。
- [[source-summaries/2026-05-03-soon-ai-4-10.md|SOON:AI游戏资产生成工具,角色制作从4周压缩到10分钟]] — SOON是极逸AI团队开发的专业游戏资产生成工具,可将文字描述直接转化为带骨骼的Spine角色文件,将角色制作时间从数周压缩至10分钟,美术成本降低九成。与Midjourney等通用生成工具不同,SOON直接输出Unity等引擎可用的资产,解决了通用AI生成内容无法接入游戏管线的核心痛点。该工具主要面向像素风、2D横版等中腰部游戏开发场景,已有开发者用其1人5天完成并上架Steam。
- [[source-summaries/2026-05-03-voxcpm2-openbmb-tts.md|VoxCPM2:清华OpenBMB开源TTS,连续潜空间扩散自回归]] — 清华OpenBMB发布VoxCPM2,一款拥有20亿参数的开源TTS模型,使用200万小时多语言数据训练,支持30种语言及9种中文方言。其核心创新在于放弃离散Tokenizer,直接在连续潜空间进行扩散自回归,从而完整保留音色、情感和细节,实现48kHz录音棚级音质。该模型可在RTX 4090上实时运行,适用于教育课件制作等本地化场景,但也需关注音色克隆的合规使用问题。
- [[source-summaries/2026-05-03-nushell-rust-shell.md|Nushell:Rust编写的新一代结构化Shell]] — Nushell是用Rust编写的现代Shell工具,GitHub获得38k+星标,核心创新在于将命令输出转变为结构化数据(表格/列表/记录),而非传统的纯文本流。它支持直接用列名过滤和管道处理数据,内置JSON/CSV/TOML解析,提供类型安全和跨平台一致性,是替代传统bash和awk/sed工作流的现代化方案。
- [[source-summaries/2026-05-03-gpt-image-2-prompt-7.md|GPT-Image-2 高级Prompt 7种结构拆解]] — 本文拆解了GitHub仓库awesome-gpt-image-2-prompts中340个案例,总结出7种GPT-Image-2高级Prompt结构,包括长描述符堆叠、否定词写法、版面控制、风格迁移、角色设定卡、复合中文结构和图文分离控制。核心方法论是将Prompt视为“摄影指导脚本“,逐项告知AI影响图像观感的所有因素。适用于人像、海报、UI设计、角色设计等多种场景。
- [[source-summaries/2026-05-03-7-agent-ai.md|7个Agent + 我,两天做了款能上架的AI游戏]] — 作者通过1人与7个AI Agent协作,在两天内完成了一款可上架发布的游戏,涵盖策划、美术、代码、音效、测试、文案和发布全流程。该案例展示了多Agent协作模式在独立游戏开发中的实际效果,验证了AI能大幅降低游戏开发门槛。文章指出小团队结合Agent组合正成为独立开发的新范式。
- [[source-summaries/2026-05-02-ai-agent-agent-openclaw-claude-code-hermes-agent.md|AI Agent 架构设计(四):多 Agent 协作(OpenClaw、Claude Code、Hermes Agent 对比)]] — 本文从架构层面对比了 OpenClaw、Claude Code、Hermes Agent 三个框架的多 Agent 协作设计,分析了角色分离、上下文隔离、Agent 间通信与结果汇总四个核心设计问题。文章详细介绍了各框架的实现方案,包括 OpenClaw 的两层模式、Claude Code 的 Agent Teams P2P 通信、以及 Hermes Agent 的 Skills 共享知识层和 PLUR 双向学习传播机制。最后归纳了三个关键工程取舍:AI 自决定分工 vs 显式规则、实时消息 vs 文件传话、继承上下文 vs 从零开始。
- [[source-summaries/2026-05-02-2026-ai-30.md|2026最强AI工作流:30个子代理配置指南]] — 本文介绍了在Claude Code中配置子智能体(sub-agents)的完整指南,涵盖工程、DevOps、产品与设计等多个类别共30个子代理。每个子代理通过放置在
.claude/agents/目录下的Markdown文件定义,包含名称、描述、工具和模型等YAML元数据。文章详细说明了代码审查、Bug定位、数据库迁移验证、密钥扫描等典型子代理的配置与系统提示,展示了如何通过子智能体架构保持主线程干净并提升工程效率。 - [[source-summaries/2026-05-02-notebooklm-16.md|NotebookLM封神提示词:16个直接抄(文献党躺赢)]] — 本文整理了Google旗下文献AI工具NotebookLM的16个中英文对照提示词,覆盖文献分析、讲座提问、亮点提取等多种使用场景。提示词技巧包括结构化输出、要求引用原文、识别观点矛盾及找出资料盲点,帮助用户更高效地利用NotebookLM处理学术和职场文献。
- [[source-summaries/2026-05-02-cl-bench.md|腾讯混元CL-bench续作发布,让大模型读懂你的日常生活]] — 腾讯混元发布CL-Bench Life评测基准,包含405个真实任务,测试大模型在日常生活场景中的上下文学习能力。评测结果显示,12个模型平均只能解决14.5%的任务,最佳模型GPT-5.5也仅达到22.2%。主要失败原因是context misuse,模型难以处理碎片化、高噪声的日常生活信息。
- [[source-summaries/2026-05-01-hermes-n-agent.md|Hermes:一个引擎,N个各司其职的Agent]] — Hermes是基于OpenClaw的多Agent引擎,通过profile目录实现多个Agent实例的完全隔离,每个Agent拥有独立的配置、记忆和会话。核心亮点是利用systemd user service保活各Agent进程,并实现Agent之间互相监督和修复的协作机制。文章还介绍了共享知识库、协同Skills和Skill作用域等实践技巧。
- [[source-summaries/2026-05-01-claude-code.md|字节大佬 Claude Code 全栈教程 视频解析]] — 本文是对一段约12分钟的Claude Code入门视频的逐帧解析,涵盖Claude Code的核心能力介绍、Windows环境下Git与Node.js前置依赖安装,以及Claude Code本体的安装与启动流程。重点阐明了Claude Code与普通网页版AI的本质区别:前者具备文件读写和终端执行权限,并通过CLAUDE.md实现跨会话项目记忆。内容面向零基础Windows用户,手把手演示完整安装步骤。
- [[source-summaries/2026-05-01-ai-api-key.md|一个开源项目,把所有AI模型的API Key管起来:薅羊毛指南]] — 本文介绍开源项目NewAPI,一个可本地部署的统一AI API网关,支持OpenAI、Anthropic、国内主流厂商等多家供应商,通过单一入口管理所有API Key,切换供应商无需修改客户端配置。文章同时揭露了API中转市场的灰色玩法,包括克扣Token、掺假模型等手段,并提供了三条避坑原则。对于面临LLM服务降级问题的用户,NewAPI可作为配置Fallback链、自动切换可用供应商的解决方案。
- [[source-summaries/2026-05-01-openclaw-4-29-hermes-ai.md|实测 OpenClaw 4.29+Hermes:AI 自己写工具自己用,全程零代码!]] — 本文实测 OpenClaw v2026.4.29 与 Hermes 技能库的自我进化能力,展示了 AI 在发现工具缺失后自动编写 macOS 专属 Skill、导入技能库并永久调用的完整流程。整个过程用户仅输入三句话,无需编写任何代码。文章还对比了 Linux computer-use 方案与 macOS 原生方案的差异,指出后者零依赖、稳定性更高。
- [[source-summaries/2026-05-01-600-python-browser-harness-playwright.md|仅600行Python代码!Browser Harness浏览器智能体替代Playwright]] — Browser Harness是一款仅600行Python代码的极简AI浏览器智能体框架,通过直接桥接CDP协议跳过中间适配层,专为LLM联动浏览器场景设计。该框架24小时内在GitHub获得1.2k星标,相比Playwright和Selenium大幅降低依赖体积。适合个人开发者进行轻量级AI浏览器自动化开发,但不适用于企业级大型项目。
- [[source-summaries/2026-05-01-demo.md|认领神秘登顶模型:生数拿出工业级Demo,跨本体跑通复杂长程任务]] — 生数科技发布机器人通用大脑模型MotuBrain,在WorldArena和RoboTwin2.0两个国际基准测试中同时登顶,成为业内首例。MotuBrain采用“边看边动“的World Action Model技术路线,将世界推演与动作执行融合在同一模型中,支持跨本体泛化和复杂长程任务。该模型由视频生成公司生数科技开发,体现了视频模型对物理世界的理解能力向具身智能领域的迁移。
- [[source-summaries/2026-05-01-gitnexus-claude-code.md|GitNexus:代码库知识图谱工具,让 Claude Code 读懂代码深度结构]] — GitNexus 是一款将代码仓库转换为可视化知识图谱的工具,通过六阶段流水线自动提取函数、类、调用链等关系并完成预计算索引。它提供16个内置MCP工具,与Claude Code深度集成,支持影响分析、跨仓库契约提取等高级功能。相比传统工具的实时探索方式,其预计算设计实现了“一次查询,精准答案“,适合处理大型或微服务代码库场景。
- [[source-summaries/2026-05-01-motubrain.md|生数科技 MotuBrain:视频公司造出机器人通用大脑,双榜登顶]] — 生数科技于2026年4月发布具身智能模型MotuBrain,同时登顶WorldArena和RoboTwin 2.0两个国际基准测试,为业界首次。该模型基于视频生成积累的物理世界理解能力,采用“世界动作模型“架构,实现预测推演与行动指令输出的统一,验证了“视频→世界模型→机器人大脑“技术路线的可行性。
- [[source-summaries/2026-05-01-serverbox-ssh.md|ServerBox:手机SSH管理服务器的开源工具]] — ServerBox是一款开源的移动端服务器管理工具,支持iOS和Android平台,提供SSH终端、服务器状态监控、SFTP文件管理等功能。该工具解决了开发者必须打开电脑才能连接SSH的痛点,支持密钥认证和密码认证两种方式。适用于随时随地查看服务器状态或紧急处理线上问题的场景。
- [[source-summaries/2026-04-30-open-design-72-claude-design-95.md|open-design:72小时逆向 Claude Design,95% 还原度免费开源]] — nexu-io 团队在 Claude Design 发布后72小时内开发并开源了 open-design,以18700行代码实现95%还原度。该工具支持对话式生成可交互原型、品牌落地页和PPT,提供19个场景模板和71套品牌设计规范,并兼容多种本地AI模型。此举对设计行业执行层冲击显著,预示设计师价值将向创意决策层迁移。
- [[source-summaries/2026-04-30-mimo-v2-5-pro-macos.md|小米双模型正式开源!MiMo-V2.5-Pro 无中断肝出 macOS]] — 小米正式开源双模型,旗舰版MiMo-V2.5-Pro在Coding Agent、SWE-Bench Pro等基准测试中接近Claude Opus 4.6、GPT-5.4等顶尖闭源模型水平,并大幅超越Gemini 3.1 Pro。该模型完成了“无中断自主完成macOS系统级任务“的演示,展示了强大的长程自主执行能力。小米此举标志着国产开源模型在Coding Agent场景首次达到顶尖闭源模型水平,开源策略与DeepSeek路线类似。
- [[source-summaries/2026-04-30-equalizer-apo-autoeq.md|Equalizer APO + AutoEq:零成本音质飞升方案]] — 本文介绍如何利用免费开源工具 Equalizer APO 和 AutoEq 项目,在 Windows 系统上对耳机进行系统级频响补偿,将廉价耳机的音质拉近哈曼目标曲线。操作分三步:安装 Equalizer APO 及 Peace 前端、在 AutoEq 网站查找对应耳机的均衡参数文件、导入配置即可全局生效。该方案仅适用于 Windows 平台,macOS 和移动端需使用其他替代工具。
- [[source-summaries/2026-04-30-luce-dflash-gguf.md|Luce DFlash:GGUF生态的推测性解码加速方案]] — Luce DFlash是一个基于C++/CUDA的独立程序,将推测性解码技术引入GGUF/ggml生态,使单块RTX 3090运行Qwen3.6-27B时吞吐量最高提升2倍。该方案通过轻量草稿模型生成候选token、主模型并行验证的机制降低解码次数,但实际加速效果受草稿模型质量、token接受率和工作负载类型影响显著,更适合长文本生成和批处理场景。
- [[source-summaries/2026-04-30-claude-90.md|我用一个工具将Claude代码探索时间和成本降低了90%]] — 文章介绍了CodeGraph工具,通过预先构建代码关系图谱来解决Claude Code每次会话都需要重新探索代码库的“探索税“问题。该工具使用tree-sitter解析源码并存储于本地SQLite数据库,通过MCP协议供Claude直接查询,实测可将工具调用减少94%、速度提升82%。CodeGraph支持19种以上编程语言,100%本地运行,无需外部API。
- [[source-summaries/2026-04-30-anthropic-ceo-nature-claude-code.md|和Anthropic CEO一起发过Nature,他用Claude Code复活三年烂尾代码]] — 本文介绍了华盛顿大学MacCoss实验室开发者Brendan MacLean如何通过“三层上下文架构“(CLAUDE.md、Skills文档、MCP集成)将Claude Code引入70万行C#遗留代码库的实战经验。核心方法是把项目的隐性知识转化为机器可读的显性文档,使Claude能像经过培训的新人一样理解项目全貌。文章还对比了Anthropic的“深度上下文工程“与OpenAI Symphony的“大规模并行编排“两种AI编程范式的异同。
- [[source-summaries/2026-04-30-2026-04-29-ai-nemotron-omni-meta-cwm-aws-openai.md|2026-04-29 AI三连发:Nemotron Omni + Meta CWM + AWS上架OpenAI]] — 2026年4月29日同日发生三大AI事件:NVIDIA发布30B参数多模态模型Nemotron 3 Nano Omni,推理成本降低90%;Meta开源32B代码世界模型CWM,SWE-bench得分65.8%,能模拟程序执行并自动修Bug;AWS将OpenAI全系产品上架Bedrock,直接对标微软Azure。作者认为AI行业正从“参数堆砌“转向“效率+生态“双轮驱动,云端渠道争夺进入白热化阶段。
- [[source-summaries/2026-04-30-huashu-design-agent-skill.md|huashu-design:让Agent从“会回答“走向“会交付“的设计Skill]] — huashu-design是一个基于HTML原生技术的Agent设计Skill,支持在Claude Code、Cursor等平台上通过一句话指令在3-30分钟内产出高保真原型、PPT、信息图等设计成果。项目内置20个设计哲学和5维评审体系,通过npx直接从GitHub安装。本文为完整使用指南,涵盖典型场景示例与注意事项。
- [[source-summaries/2026-04-30-skills-openclaw-matt-pocock-superpowers.md|神级开源Skills:让OpenClaw按专业工程师标准干活(Matt Pocock superpowers)]] — 本文介绍Matt Pocock开源的superpowers技能包,涵盖规划、开发、工具配置、写作四类30余个实战技能,核心理念是将工程师工作流固化为可复用的AI指令。通过grill-me、tdd、setup-pre-commit等技能,可将需求澄清、测试驱动开发、项目配置等流程标准化,实测生产Bug率降低30%、新项目配置时间从1小时压缩至5分钟。文章将其置于SDD(规范驱动开发)元年背景下,与Kiro IDE、OpenSpec等项目共同指向同一逻辑:先把“怎么干活“说清楚,而非单纯依赖模型能力提升。
- [[source-summaries/2026-04-30-claude-md.md|CLAUDE.md 文件最佳实践指南]] — 本文详细介绍了如何编写高效的CLAUDE.md配置文件,分析了大多数CLAUDE.md失效的三大原因:内容过长、内容错误、缺乏层级结构。文章提出了五个核心组成部分(关键命令、架构图谱、硬性规则、工作流偏好、排除内容),并提供了一个不超过60行的完整模板。核心理念是将CLAUDE.md视为技术简报而非愿望清单,每条规则都应能防止特定错误的发生。
- [[source-summaries/2026-04-30-warp-124-rust-ade-ghostty.md|Warp开源:124万行Rust的ADE,与Ghostty的终端之战]] — Warp于2026年4月宣布客户端以AGPL v3开源,提出“Open Agentic Development“概念,内置Oz agent已负责60%以上的合并PR。面对Ghostty在内存占用(28MB vs 210MB)和性能上的碾压,Warp通过开源重建用户信任,同时保持服务端和Oz编排平台闭源盈利。文章深入分析了Warp的四层Rust架构、许可证策略,以及Terminal/IDE/Agent平台边界消融的行业趋势。
- [[source-summaries/2026-04-30-mimo-v2-5-agent-token-40-60.md|小米MiMo-V2.5系列开源:Agent全家桶,Token效率省40-60%]] — 小米正式开源MiMo-V2.5系列,包含旗舰Agent模型Pro、全模态基座、TTS和ASR四款模型,均配备1M上下文窗口。MiMo-V2.5-Pro在Agent任务中Token消耗仅为Claude Opus 4.6等竞品的40-60%,并实测完成超千次工具调用的长程编程任务。该系列从V2到V2.5仅用4个月,跻身国产开源第一梯队。
- [[source-summaries/2026-04-30-hy3-preview-openrouter-api.md|腾讯混元Hy3 Preview登顶OpenRouter全球API调用量日榜]] — 2026年4月29日,腾讯混元新模型Hy3 Preview在OpenRouter全球大模型API市场日榜登顶,同时夺得工具调用场景冠军,编程场景排名第二,且完全免费。该模型是腾讯首席AI科学家姚顺雨入职后的首份重磅成果。对开发者而言,Hy3 Preview可通过OpenRouter免费接入,尤其适合Agent工具调用链路场景。
- [[source-summaries/2026-04-30-claude-code-12-harness.md|Claude Code 中的 12 种 Harness 模式]] — 本文系统介绍了将AI演示与生产级系统区分开来的12种Harness控制层模式,涵盖内存与上下文管理、工作流编排、工具权限控制和自动化四大类别。核心观点是:生产级智能体的关键不在于LLM本身的智能,而在于围绕它的控制层设计。文章还将这12种模式与OpenClaw项目的具体实现进行了对应映射。
- [[source-summaries/2026-04-30-obsidian-5-workflow.md|Obsidian 5个核心插件:高效Workflow直接抄]] — 本文介绍了Obsidian中5个精选核心插件,涵盖可视化工作台Make.md、语义搜索Omnisearch、格式规范Linter、快速捕获QuickAdd和日历追踪Calendar。文章强调插件选择应精准匹配痛点而非堆砌数量,并倡导从“存储笔记“转向“使用笔记“的思维方式。每款插件均配有实操步骤与局限说明,适合希望构建高效笔记系统的用户参考。
- [[source-summaries/2026-04-30-mattpocock-skills-github-7300-ai.md|mattpocock/skills:GitHub单日暴涨7300星的工程化AI编程脚本库]] — 本文介绍了Matt Pocock发布的开源项目skills,一套从其个人.claude目录提取的工程化AI编程脚本库,单日在GitHub获得7300+星并登顶趋势榜。项目核心理念是解决AI编程中的“对齐失败“问题,通过/grill-me等脚本让AI在写代码前先质问需求、限制冗余输出,实现“实干模式“。文章还介绍了与GitNexus、free-claude-code组合使用的完整工作流,体现了从“用AI“到“指挥AI“的工程化转变。
- [[source-summaries/2026-04-30-ai-nemotron-omni-meta-cwm-aws-bedrock-openai-2026-04-29.md|AI行业动态速报:Nemotron Omni + Meta CWM + AWS Bedrock OpenAI(2026-04-29)]] — 2026年4月29日单日三大AI行业事件:英伟达发布30B参数多模态开源模型Nemotron 3 Nano Omni,吞吐量是同类模型9倍;Meta开源Code World Model(CWM),以World Model方法论让AI理解代码执行过程,SWE-bench得分65.8%;AWS Bedrock宣布上架OpenAI全系产品,标志云厂商从押注单一模型转向全模型平台策略。三大事件共同指向多模态融合加速、代码智能质变、云平台中立化三大趋势。
- [[source-summaries/2026-04-30-nemotron-3-nano-omni-9.md|英伟达全模态大模型 Nemotron 3 Nano Omni:吞吐量同类 9 倍]] — 英伟达发布Nemotron 3 Nano Omni,一款30B参数(3B激活)的全模态开源模型,采用Mamba与Transformer混合MoE架构,支持文本、图像、音频、视频、文档等多种输入模态。该模型在视频推理吞吐量上达到同类开放模型的9.2倍,在DailyOmni和VoiceBench基准测试中均排名第一。模型权重、数据集及训练技术全部开放,支持完全商用,可通过OpenRouter免费使用。
- [[source-summaries/2026-04-30-claudecode-openclaw-opencode-deepseek-v4-pro-flash.md|ClaudeCode/OpenClaw/Opencode 免费接入 DeepSeek V4-Pro/Flash 教程]] — 本文介绍通过三个免费渠道(ZenMux、NVIDIA NIM、阿里魔搭)在国内直连接入 DeepSeek V4-Pro 模型的完整配置方法。重点推荐使用 CC Switch 可视化工具管理多渠道 API Key,支持 ClaudeCode、Opencode、OpenClaw 等主流 AI 编程客户端。文章同时提示了各渠道的限制与风险,建议采用“主线+备用+兜底“的三渠道组合策略。
- [[source-summaries/2026-04-30-rustdesk-tailscale.md|RustDesk + Tailscale 实现永久免费远程控制]] — 本文介绍了使用RustDesk与Tailscale组合实现零成本跨设备远程控制的方案,替代向日葵等商业限速工具。Tailscale通过WireGuard协议为设备分配虚拟IP并穿透NAT,RustDesk利用虚拟IP实现点对点直连,无需中转服务器。文章详细说明了安装配置步骤、支持的连接场景及注意事项。
- [[source-summaries/2026-04-30-huashu-design-agent.md|huashu-design:让Agent像专业设计师一样交付成果]] — huashu-design是一个HTML原生设计技能包,支持Claude Code、Cursor、OpenClaw等多种Agent平台,能够通过自然语言指令生成高保真原型、PPT幻灯片、动画和信息图等可视化成品。项目在约10天内获得近9.7k GitHub Stars,核心价值在于将Agent从“文字输出“升级为“可交付设计成果“。安装方式为npx命令,但尚未收录于skillhub或clawhub注册表,使用前需自行审查安全性。
- [[source-summaries/2026-04-30-anthropic-claude-code.md|Anthropic公布Claude Code黑客松六强作品]] — Anthropic与Cerebral Valley联合举办的Claude Code黑客松评选出六强作品,涵盖医疗、维修、教育、工业、创意五个领域,来自五个国家的开发者参与。六个获奖项目的共同主题是利用Opus 4.7和多Agent架构,将原本集中在少数专家手中的专业知识转化为更多人可触及的工具。项目涵盖AI虚拟病人训练系统、电路板维修知识图谱、编程教学平台、手势木偶剧场、建筑工人技能认证及工业维护知识管理系统。
- [[source-summaries/2026-04-30-claude-md-10.md|CLAUDE.md 文件:让我效率提升 10 倍的秘密武器(完整模板分享)]] — 本文详细介绍了 Claude Code 中 CLAUDE.md 配置文件的最佳实践,分析了大多数 CLAUDE.md 失效的三大原因:内容过长、填充无效指令、缺乏层级结构。文章提供了一套不超过 60 行的完整模板,涵盖关键命令、架构图谱、硬性规则、工作流偏好五个核心部分,并强调该文件应作为技术简报而非励志演讲,随项目迭代持续更新以产生复利效应。
- [[source-summaries/2026-04-30-obsidian.md|很多人低估Obsidian实力,装好八款实用插件,告别低效笔记整理]] — 本文介绍2026年Obsidian八款实用社区插件,涵盖效率提升(Templater、Calendar、QuickAdd)、可视化与管理(Excalidraw、Dataview、Kanban)以及搜索与美化(Smart Connections、Style Settings)等场景。文章针对不同人群提供插件搭配组合建议,并给出安装方法与避坑提醒。Obsidian全球用户已突破3000万,其核心价值在于丰富的插件生态。
- [[source-summaries/2026-04-29-open-design-claude-design.md|Open Design:Claude Design 的开源替代品]] — Open Design 是 Claude Design 的开源替代品,基于 Apache-2.0 协议,支持本地部署和 Vercel 云端部署,采用 BYOK 模式。项目内置 71 套 Design System 和 19 个设计 Skill,通过本地 Daemon 将主流 Coding Agent(如 Claude Code、Cursor、Gemini CLI 等)接入 Skill 驱动的设计工作流。其核心架构站在花叔画术、歸藏 PPT Skill、open-codesign、multica 四个开源项目的肩膀上,实现从需求输入到沙盒预览的完整设计自动化流程。
- [[source-summaries/2026-04-29-hyperframes-ai-agent-html.md|HyperFrames——让 AI Agent 用 HTML 代码直接写出视频]] — HyperFrames 是 HeyGen 开源的视频渲染框架,核心理念是将视频 composition 写成 HTML 文件,通过 headless Chrome 和 FFmpeg 渲染成 MP4。框架通过 Skills 机制让 Claude Code、Cursor 等 AI Agent 直接学会编写视频,支持 GSAP、Lottie、Three.js 等多种动画运行时。相比 Remotion,HyperFrames 无需构建步骤、对 Agent 更友好,且采用 Apache 2.0 完全开源许可证。
- [[source-summaries/2026-04-29-openchronicle-openai-chronicle.md|OpenChronicle:OpenAI Chronicle的开源本地替代方案]] — OpenAI为Codex推出了Chronicle功能,支持屏幕感知和持续记忆,但锁定在每月100美元的Pro订阅中。清华00后Calvin带领的Vida团队在48小时内发布了开源替代品OpenChronicle,支持完全本地运行、接入任意模型、跨Agent共享记忆。这一事件引发了关于“AI记忆归属权“的讨论,代表了本地优先、用户可控的AI基础设施路线。
- [[source-summaries/2026-04-29-openwolf-claude-code-token-65.md|OpenWolf 给 Claude Code 装上“第二大脑“,实测 token 消耗直降 65%]] — OpenWolf 是一个为 Claude Code 设计的 token 优化工具,通过 6 个后台钩子脚本自动构建文件索引和学习记忆库,减少重复文件读取操作。实测 20 个项目、132 次会话,平均降低 65.8% 的 token 消耗,拦截 71% 的重复读取。其核心思路是通过提前建立项目地图和错误记忆,减少 Claude Code 的无效操作,而非压缩提示词。
- [[source-summaries/2026-04-29-playwright-test-agents-agent.md|Playwright Test Agents:三个Agent全自动写测试]] — Playwright官方推出Test Agents,由Planner、Generator、Healer三个AI Agent组成自主闭环系统。用户只需提供目标,系统自动完成应用探索、测试计划制定、代码生成和失败修复全流程。文章对比了MCP、CLI和Test Agents三种模式的适用场景与特点。
- [[source-summaries/2026-04-29-claude-code-5-skill.md|Claude Code 值得常驻的 5 个 Skill]] — 本文推荐了5个值得在Claude Code中常驻的核心插件,分别解决上下文读取、长期记忆、成本监控、UI审美和工程化流程等短板。作者认为插件不在多而在精,这5个工具能有效补齐Claude Code的核心能力缺口。文章来源于今日头条,作者为顺丰科技软件工程师。
- [[source-summaries/2026-04-29-sensenova-u1-sota-8b.md|商汤发布多模态“效率怪兽“ SenseNova U1:开源即SOTA,最小仅8B]] — 商汤科技开源了基于自研NEO-unify架构的多模态模型SenseNova U1,将图像与文本的理解和生成统一到同一体系,无需中间模块衔接。该模型提供8B和约3B激活参数两个版本,在AI2D等基准测试中达到同量级开源模型SOTA,信息图生成能力媲美部分商业闭源模型。其核心创新在于不依赖堆叠参数,而是通过架构效率实现高性能低延迟,并支持业内首个单一模型连贯图文交错生成能力。
- [[source-summaries/2026-04-28-8g-35b-turboquant-llama-cpp-qwen3-6.md|8G显存畅跑35B大模型|TurboQuant+llama.cpp+Qwen3.6 部署教程]] — 本文介绍如何在8GB显存的RTX 4070 Laptop上,通过TurboQuant的TQ3_4S极致量化与GPU+CPU混合分层加载技术,以39-42 tok/s的速度运行Qwen3.6-35B-A3B大模型。文章涵盖Windows环境下的编译步骤、启动参数配置及性能优化建议。需注意评论区对内容可靠性存在质疑,建议实际操作前自行验证关键参数。
- [[source-summaries/2026-04-28-claude-code-git.md|给 Claude Code 的状态栏整整容:一条命令把模型、花费、Git 状态全塞进去]] — 本文介绍如何通过 Claude Code 的 statusLine 配置项运行自定义 Shell 脚本,将模型名称、当前目录、上下文使用率、费用、耗时及 Git 分支状态集成到底部状态栏。脚本通过 stdin 接收会话 JSON 数据,使用 jq 解析后格式化输出,并对 Git 状态做 5 秒缓存优化性能。配置简单,只需在 settings.json 中指定脚本路径即可生效。
- [[source-summaries/2026-04-28-3-obsidian-claude-codex.md|全网最细!3分钟让Obsidian长出第二大脑,Claude和Codex同时接入]] — 本文介绍了Obsidian插件Claudian的安装与配置方法,该插件可将Claude Code和Codex直接集成进Obsidian笔记库,使AI能够读取和操作笔记内容。文章详细说明了通过BRAT安装插件的步骤、两种AI模型的接入路径,以及笔记问答、文字润色等核心使用场景。同时提供了一套标签体系设计建议,帮助用户构建结构化的第二大脑。
- [[source-summaries/2026-04-28-paseo-ai.md|Paseo — AI编码代理跨设备统一编排平台]] — Paseo是一个完全自托管、隐私优先的开源AI编码代理编排平台,通过本地daemon统一管理Claude Code、Codex等多个Agent CLI,支持Desktop、Mobile、Web、CLI跨设备实时同步。其核心亮点包括Git Worktree隔离避免并行冲突、E2E加密Relay保障通信安全,以及本地优先的语音控制能力。
- [[source-summaries/2026-04-28-2026-ai-prompt-8-skills.md|2026 AI效率革命:告别繁琐Prompt,8大神级Skills直接封神]] — 本文介绍了2026年AI效率提升的核心趋势:通过Skills插件化工作流替代繁琐的Prompt编写。文章列举了8个关键Skills工具,涵盖文档处理、前端设计、项目规划、知识管理等场景。核心观点是AI竞争已从模型比拼转向工具链与工作流构建,真正的高手是AI的编排者。
- [[source-summaries/2026-04-28-penpot.md|Penpot:开源全栈设计平台,设计即代码]] — Penpot 是基于 SVG、CSS、HTML 等开放标准构建的开源设计平台,支持自托管部署,彻底消除供应商锁定风险。其核心特性包括原生 Design Tokens 系统、开发者 Inspect 模式以及 MCP 服务器,实现设计与代码的双向打通。对于有数据安全需求的企业和政府团队,Penpot 是目前最成熟的 Figma 开源替代方案。
- [[source-summaries/2026-04-28-browser-harness-ai.md|Browser Harness:AI 直接接管浏览器的新范式]] — Browser Harness是一种让AI Agent像人一样自主操作浏览器的控制框架,与Selenium等传统脚本自动化不同,它通过AI理解页面内容后自主决策操作步骤。文章分析了其核心能力、典型应用场景及Agent能力层次,并指出其处于“浏览器层“这一关键位置,是AI进入互联网操作系统的重要入场券,同时也存在安全、法律和就业等方面的风险。
- [[source-summaries/2026-04-28-ip.md|美国住宅代理IP方案 - 账号注册场景]] — 本文对比了动态住宅代理与静态住宅代理在账号注册和养号场景下的适用性与成本差异,并推荐了Webshare、Smartproxy、IPRoyal等主流服务商。同时介绍了基于ProxyPool的自建代理池方案,以及配合指纹浏览器实现账号隔离的完整架构。
- [[source-summaries/2026-04-28-tailscale-nomachine-ip.md|Tailscale + NoMachine:无需公网IP远程控制家里电脑]] — 本文介绍如何通过Tailscale建立私有网络隧道、结合NoMachine实现远程桌面控制,无需静态IP或端口转发。文章涵盖macOS、Linux、Windows三平台的安装步骤,以及连接测试与常见问题排查方法。适合需要在外访问家庭电脑的开发者或普通用户。
- [[source-summaries/2026-04-28-mattpocock-skills-real-engineers-claude-code-skills.md|mattpocock/skills:Real Engineers 的 Claude Code Skills 合集]] — Matt Pocock 发布的 Claude Code Skills 合集,一天涨 5500 Star,定位为“Real Engineers 的 Agent Skills“,强调工程化工作流而非随意编码。涵盖规划设计、TDD开发、工具配置、写作知识四大类共 15+ 个技能,支持通过 npx 一键安装。核心价值在于将 AI 能力嵌入真实工程流程,如自动生成 PRD、拆分 GitHub Issues、防止危险 git 操作等。
- [[source-summaries/2026-04-28-4-star-agent-pi-mono.md|4万Star的Agent工具链:pi-mono到底强在哪]] — pi-mono是libGDX作者Mario Zechner开发的TypeScript monorepo Agent工具链,以极简设计为核心理念,仅内置四个工具且系统提示词不足1000 token。项目包含七个独立npm包,支持20+LLM提供商统一接入、会话树状分支、Extensions扩展和Skills技能系统。适合希望从零构建Agent或觉得现有工具过于臃肿的开发者。
- [[source-summaries/2026-04-27-5000-star-ai-android.md|近5000 Star!跟AI说句话,逆向Android应用]] — 本文介绍了一款由独立开发者何三开发的AI辅助Android APK逆向工具,已获近5000 GitHub Star。该工具以Claude Code为核心引擎,集成jadx/apktool等反编译工具,用户只需用自然语言描述需求即可自动完成APK逆向分析。适用于安全研究、竞品分析、漏洞挖掘等场景,但需遵守相关法律法规。
- [[source-summaries/2026-04-27-browser-harness-agent-claude-code-chrome.md|Browser Harness:Agent操控浏览器神器,Claude Code直连Chrome边执行边补能力]] — Browser Harness 是一个开源的Agent浏览器操控框架,以Claude Code作为Agent大脑直接驱动Chrome,支持网页操作、文件上下载及跨页面复杂任务。其核心亮点是“动态能力补充“机制,类似ReAct模式但工具集可在执行过程中动态扩展。项目已获7.2k Stars,标志着Agent能力边界从代码生成延伸至真实软件操作。
- [[source-summaries/2026-04-27-lucebox-rtx-3090-qwen3-5-27b-207tok-s.md|Lucebox:让单张RTX 3090跑Qwen3.5-27B,速度飙到207tok/s]] — Lucebox是一款基于纯C++实现的高性能本地LLM推理引擎,采用DFlash注意力优化和ggml后端,在单张RTX 3090 24GB显卡上运行Qwen3.5-27B可达207tok/s峰值速度。相比llama.cpp同配置下的40-80tok/s,性能提升约3-5倍,接近A100水平。该项目专注单机单卡极致优化,适用于本地开发、边缘部署及对延迟敏感的实时推理场景。
- [[source-summaries/2026-04-27-llm-as-a-verifier-agent.md|斯坦福LLM-as-a-Verifier Agent验证框架]] — 斯坦福提出LLM-as-a-Verifier验证框架,利用语言模型本身作为验证器来判断Agent输出的正确性,无需硬编码规则。该框架在Agent评测基准上超越Claude Mythos和GPT-5.5,达到SOTA水平,并获得Transformer原作者转发认可。此方案为开放式Agent任务的自动评测提供了可扩展的解决路径。
- [[source-summaries/2026-04-27-llm-wiki.md|LLM-Wiki:从解释器到编译器的知识管理范式革命]] — 本文提出以“编译器模式“取代RAG“解释器模式“的知识管理新范式,核心思想是让LLM将碎片信息编译为结构化、双向链接的Wiki知识网络,实现知识复利增长。文章详细描述了三层架构设计(原始数据层、Wiki产物层、查询交互层)和编译四步骤,并推荐了以Obsidian、Claude Code、Git为核心的工具链。作者认为真正的知识管理应超越收集与整理,达到“编译知识“乃至“成为知识“的更高阶段。
- [[source-summaries/2026-04-27-ribbi-ai-agent-4.md|Ribbi:暴躁青蛙 AI 创作 Agent,一周 4 万用户的技术拆解]] — Ribbi是一款面向内容创作者的全链路AI Agent,定位为“创作者的Claude Code“,采用单智能体加三层Context架构,通过Pond系统学习用户审美偏好。产品封测一周获得4万+用户申请,核心差异化在于零部署、零配置的浏览器Web App形态,以及通过VLM自动将图片反向工程为prompt的审美学习能力。创始人Robin主张Chat是最好的UI,认为Multi-Agent会损耗上下文,Taste(审美)才是内容创作的终极壁垒。
- [[source-summaries/2026-04-27-medical-mcps-openclaw-14.md|medical-mcps:OpenClaw 一套工具查遍 14+ 医学数据库]] — medical-mcps 是一个统一查询层,将14个以上主流医学数据库(包括ChEMBL、PubMed、ClinicalTrials.gov等)抽象为单一MCP端点,无需API密钥即可直接接入OpenClaw使用。该工具特别适合药物再利用研究场景,用户可通过一个端点完成从靶点发现、药物筛选到临床试验查询的全流程。其核心价值在于消除了研究人员学习多套数据库API的负担,实现了标准化的统一输出格式。
- [[source-summaries/2026-04-27-guizang-ppt-skill-ppt-skill.md|guizang-ppt-skill:开源PPT Skill背后的表达工作流]] — guizang-ppt-skill是一个开源的Agent Skill,能够本地生成单文件HTML格式的杂志风Web PPT,无需API密钥。其核心价值不在于模板替换,而是将需求澄清、素材组织、页面节奏和预览自检等步骤压缩成Agent可调用的完整表达工作流。适用于强调气质与节奏的分享、路演、产品展示等场景,与依赖远程API的Skywork-Skills形成差异化定位。
- [[source-summaries/2026-04-27-24gb-gpu-vllm-mtp-qwen3-6-27b-85-100-t-s.md|24GB 移动 GPU 封神:vLLM + MTP 跑 Qwen3.6-27B 达 85-100 t/s]] — 本文介绍了在RTX 5090移动版(24GB显存)上,通过vLLM 0.19.1结合MTP多步推测解码技术,将Qwen3.6-27B的推理速度提升至85-100 t/s,超越桌面版32GB RTX 5090的78-80 t/s。核心原理在于LLM推理是内存带宽密集型任务,移动GPU在特定架构下带宽优势可超越桌面卡。文章同时指出了24GB显存下OOM风险等注意事项。
- [[source-summaries/2026-04-27-hugging-face-ai-ml-intern-10-claude-code.md|Hugging Face 开源 AI 研究员:ml-intern 10小时效果超越 Claude Code]] — Hugging Face 开源了 ml-intern 项目,这是一个将 ML 工程师日常工作自动化的自主 AI Agent,涵盖读论文、整理数据、调参和训练全流程。实测中,使用 Qwen3-1.7B 微调,10小时内 GPQA 得分从 10% 提升至 32%,超过 Claude Code 的 22.99%。该工具提供 Interactive 和 Headless 两种模式,降低了 ML 实验的执行门槛,但用户仍需自行把握研究方向。
- [[source-summaries/2026-04-26-2-5-sota-90.md|国产新语音模型:2秒转写5分钟音频,多项SOTA,定价降90%]] — 一款国产语音识别模型实现重大性能突破,可在2秒内完成5分钟音频转写,达到约150倍实时速度,推理速度提升400%。该模型在多项公开测试集上取得SOTA成绩,同时定价骤降90%,大幅降低录音转写、会议记录等场景的使用成本。文章还梳理了通义听悟、讯飞星火、FunASR、SenseVoice等主流国产语音模型的特点。
- [[source-summaries/2026-04-26-gui.md|GUI智能体训练-评测-部署全流程框架]] — 本文介绍了一个打通GUI智能体训练、评测、部署全流程的一站式框架,核心能力包括视觉理解、手机App操控和通用GUI场景适配。该框架无需预设脚本,通过视觉理解与动作规划的完整闭环实现自主操控,并对比了UI-TARS、AndroidWorld、AppAgent、AgentBench等主流相关框架。由于原文抓取失败,具体项目名称和GitHub链接待补充确认。
- [[source-summaries/2026-04-26-webclaw-ai-agent.md|WebClaw - 专为 AI Agent 打造的极速爬虫]] — WebClaw 是一款专为 AI Agent 场景设计的轻量级爬虫工具,通过纯 HTTP 抓取实现亚毫秒级响应,无需依赖 Playwright 等浏览器环境。相比同类工具可节省约 67% 的 Token 消耗,并支持通过 MCP 协议直接在 Claude Code 等 AI 工具中调用。适合对 Token 成本敏感、无需处理重度 JS 渲染页面的高频抓取任务,采用 AGPL-3.0 协议。
- [[source-summaries/2026-04-26-repomix-ai.md|repomix:把整个代码库打包成AI友好格式]] — repomix 是一个将整个代码仓库打包为单一AI友好文件的工具,支持XML/Markdown/Plain Text输出格式,并内置Token计数、代码压缩和敏感信息检测功能。它解决了AI在处理大型代码库时需要反复请求文件的低效问题,支持CLI、在线版、Chrome扩展和MCP Server多种使用方式。该工具与Claude等长上下文模型配合使用效果最佳,适用于代码审查、架构分析等场景。
- [[source-summaries/2026-04-26-mcp-agent.md|用代码执行让MCP Agent更高效接入生产系统]] — 本文介绍了Anthropic提出的MCP优化方案:让Agent通过编写代码来调用MCP工具,而非直接加载所有工具定义。该方案通过渐进式披露和在执行环境中过滤中间结果,将同等任务的token消耗从150,000降至2,000,节省98.7%。Cloudflare独立验证了相同思路,称之为“Code Mode“。
- [[source-summaries/2026-04-26-ariatype-ai.md|AriaType:本地AI语音打字工具(开源免费)]] — AriaType 是一款支持 macOS 和 Windows 的本地AI语音输入工具,基于 Whisper 等本地ASR模型,无需注册登录,语音数据不上传云端,保护用户隐私。用户只需按住快捷键说话,松开即可输出文字,适合长文本输入、隐私敏感场景等使用需求。
- [[source-summaries/2026-04-26-mattpocock-skills-20k-stars-ai-agent.md|mattpocock/skills:20k+ Stars的AI Agent技能目录]] — 这是Matt Pocock公开的个人Claude Code技能目录,涵盖规划设计、开发、工具配置和写作知识四大类共16个技能。项目亮点包括git安全防护、TDD工作流集成、并行子Agent接口设计以及与Obsidian知识库的深度集成。可通过npx命令按需安装单个技能。
- [[source-summaries/2026-04-26-kami-ai.md|Kami - AI 时代的文档设计系统]] — Kami是一个专为AI时代设计的开源文档设计系统,通过一套严格的约束语言支持六种文档格式,解决AI生成文档缺乏设计感的问题。其核心理念是用更严格的设计规范约束AI输出,而非给予更多自由度,从而保证每次输出的一致性和可交付性。该工具与Claude Code等主流AI编程工具深度集成,支持自然语言触发文档生成。
- [[source-summaries/2026-04-26-tof.md|ToF 平面扫描方案调研 - 工业测量应用]] — 针对1米内工业测量场景的 ToF 传感器技术调研。重点分析 ST VL53L5CX/VL53L8CX 方案的性能参数(8×8深度阵列、60Hz帧率、亚毫米精度)、三种主流 ToF 技术原理、以及相关 GitHub 开源项目(DELTAR深度增强、3D可视化工具、多传感器拼接方案)。提供硬件选型和软件集成建议。
- [[source-summaries/2026-04-26-2026-4-26.md|科技新闻 - 2026年4月26日]] — 本文汇总2026年4月下旬科技行业动态,涵盖GPT-5.5发布与DeepSeek V4更新引发的大模型竞争、国产AI芯片生态加速成熟等AI领域进展。同时报道2026北京车展多款新能源车型亮相,以及机器人融资、具身智能与自动驾驶领域的最新动向。
- [[source-summaries/2026-04-26-openclaw-hermes.md|装上这双眼睛,让你的OpenClaw和Hermes也能自动浏览网页]] — 本文针对Windows+WSL2环境下OpenClaw和Hermes Agent浏览器自动化不稳定的问题,提出通过Chrome远程调试协议(CDP)连接Windows Chrome的解决方案。核心步骤包括以远程调试参数启动Chrome、在WSL中获取Windows主机IP并配置CDP端点。该方案可替代不稳定的Playwright/Puppeteer本地安装方式,适用于需要稳定浏览器自动化能力的Agent场景。
- [[source-summaries/2026-04-26-lightrag-rag-anything-rag.md|LightRAG + RAG-Anything — 港大开源万能RAG框架]] — 香港大学HKUDS团队开源的LightRAG在传统向量检索基础上引入知识图谱,支持Local/Global/Hybrid/Mix四种检索模式,并可对接主流LLM与多种存储后端。RAG-Anything是基于LightRAG的多模态扩展,统一处理PDF、图片、Office文档、视频等格式,通过VLM增强实现视觉与文本联合理解。两者可组合作为知识库底层引擎,适用于需要处理复杂多模态文档的AI问答场景。
- [[source-summaries/2026-04-26-awesome-ai4med-ai.md|Awesome-AI4Med — AI医疗最全资源清单]] — Awesome-AI4Med是由FreedomIntelligence团队维护的医疗AI资源聚合库,自动追踪并整理医疗大语言模型、多模态模型、数据集和评测基准。涵盖HuatuoGPT、Apollo、MMedLM等主流医疗LLM,支持中文及多语言场景。适用于医疗AI产品选型、学术研究资源检索及垂直领域AI落地参考。
- [[source-summaries/2026-04-26-claude-task-master-ai.md|Claude Task Master — AI 驱动开发的任务管理系统]] — Claude Task Master 是一个开源任务管理系统,解决多AI工具并行开发时任务分散、进度难追踪的问题。它通过统一任务树、MCP集成和CLI命令,让Cursor、Claude Code等编辑器共享同一任务调度层。支持多AI提供商、Loop自动化执行,并可与OpenClaw等多Agent架构对接。
- [[source-summaries/2026-04-25-llm-16g-32g-64g.md|程序员的第二大脑:本地跑LLM怎么选?16G / 32G / 64G最全避坑指南]] — 本文详细介绍了在不同内存配置(16GB/32GB/64GB)下如何选择和部署本地LLM模型。强调内存、量化和使用场景的匹配比单纯追求大参数更重要,并提供了针对不同内存配置的最优模型选择建议。
- [[source-summaries/2026-04-25-whisperx-70.md|WhisperX:语音转录开挂神器!70倍速+逐词精准+自动分说话人]] — WhisperX是基于OpenAI Whisper的开源语音转录增强工具,通过批量推理和faster-whisper后端实现70倍实时转录速度,支持逐词级毫秒精度时间戳和自动说话人分离。该工具支持Windows/Linux/macOS全平台,覆盖10种语言的精准对齐,特别适合视频字幕制作、会议转录等场景。
- [[source-summaries/2026-04-25-hermes-a2a-ai.md|Hermes-a2a 史诗级更新:让 AI 真正“平等对话“,不再工具人!]] — Hermes-a2a发布重大更新,实现AI Agent之间的平等对话协作。不同于传统的主从式多Agent系统,新版本支持Agent间持续有状态的协作,消息可直接注入活跃session,并提供完整的持久化、即时唤醒和安全机制。完全适配Hermes Agent v0.11.0,采用纯插件架构,无需修改核心代码。
- [[source-summaries/2026-04-25-clawd-cursor-ai.md|Clawd Cursor:AI驱动的桌面自动化工具]] — Clawd Cursor是一个开源的桌面自动化框架,支持Claude、GPT和本地模型,让AI能够控制鼠标和读取屏幕。v0.8.0版本引入了6重验证机制来防止AI误报任务完成状态,并将指令集从36条精简到6条。项目采用MIT协议,支持本地模型运行。
- [[source-summaries/2026-04-25-karpathy-skills.md|Karpathy大神编程经验Skills开源了,趋势榜还是疯涨]] — Karpathy的编程经验Skills项目开源并在GitHub趋势榜疯涨,该项目通过4条约束指令(先想再写、简单优先、精准修改、目标驱动)重新定义了AI编程协作模式。这些规则精准解决了AI编程中的核心痛点,如瞎猜假设、过度工程和乱改代码等问题,为AI编程划定了“安全边界“,实现了速度与质量的平衡。
- [[source-summaries/2026-04-25-firebase-cdn-10.md|免费可用谷歌Firebase虚拟主机|自带CDN,新手10分钟部署]] — 本文详细介绍了如何使用谷歌Firebase的免费虚拟主机服务部署网站,该服务自带全球CDN加速、HTTPS加密和安全防护。文章从Firebase的核心优势、前期准备、项目创建、虚拟主机开启到文件上传部署,提供了完整的操作步骤,特别适合新手和小型站点使用。
- [[source-summaries/2026-04-25-introducing-the-parallel-search-mcp-server.md|Introducing the Parallel Search MCP Server]] — Parallel推出了Search MCP Server,将其搜索API作为即插即用工具提供给支持工具使用的LLM模型。该服务器通过简单配置即可为LLM提供实时网络知识访问能力,用单一生产就绪工具替代了复杂的多步骤搜索架构。
- [[source-summaries/2026-04-25-skill-ai.md|首个“龙虾“医疗skill上线,AI医疗大战彻底白热化]] — OpenClaw宣布与港股上市AI医疗企业中康科技达成合作,后者成为其医疗健康垂类Skill的首个合作伙伴。中康科技将卓睦鸟医疗大模型及健康管理、临床科研、医药市场研究等能力全面封装为AI Skill。这标志着AI医疗竞争进入白热化阶段,专业医疗能力开始标准化为可复用的AI Skill。
- [[source-summaries/2026-04-25-coordination-engineering-jiuwenclaw-team-skills.md|Coordination Engineering后,JiuwenClaw发布Team Skills技能范式]] — 华为支持的openJiuwen社区在最新版JiuwenClaw中率先提出了Coordination Engineering(协调工程)概念,并发布了Team Skills技能范式。这标志着AI Agent协作工程领域从单一Agent能力向团队协作能力的演进方向发展。
- [[source-summaries/2026-04-25-openai-chatgpt-100.md|OpenAI太狠了!免费开放医生版ChatGPT,准确率近100%,千亿医疗赛道一夜洗牌!]] — OpenAI发布面向医生的AI工具ChatGPT for Clinicians,专注循证医学赛道,提供实时医学文献检索、临床文书和患者沟通等功能。该工具准确率近100%且免费开放,可能对千亿医疗赛道产生重大影响。
- [[source-summaries/2026-04-25-gpt-deepmind-vision-banana.md|视觉GPT时刻来了!DeepMind用Vision Banana证明“生成即理解“]] — DeepMind推出Vision Banana模型,验证了“生成即理解“的核心理念,标志着视觉AI领域GPT时刻的到来。OpenAI的ChatGPT Images 2.0在实测中已超越此前SOTA模型Nano Banana Pro,展示了生成式模型在视觉理解任务上的强大能力。这一突破代表着视觉AI从判别式向生成式范式的重要转变。
- [[source-summaries/2026-04-24-ai-claude-context.md|让AI真正读懂你的整个代码库——Claude Context详解]] — 本文介绍了通过结构化上下文文件(如CLAUDE.md、AGENTS.md)让AI系统性理解整个代码库的方法论。核心思路是为AI构建可导航的知识结构,包含项目架构、开发规范和关键路径等信息,而非仅依赖单文件提示。该方法在开发者社区获得6.3k stars的广泛认可。
- [[source-summaries/2026-04-24-aws-fraud-detector-samples-amazon.md|AWS Fraud Detector Samples — Amazon 欺诈检测示例代码库]] — 本仓库是AWS官方提供的Amazon Fraud Detector示例集合,包含多个Jupyter Notebook,演示如何通过API构建在线欺诈、交易欺诈和账号接管检测器。涵盖OFI、TFI、ATI三大检测模型,并提供与SageMaker集成及CloudFormation一键部署的数据分析工具。适用于电商支付风控、账号注册反欺诈等场景。
- [[source-summaries/2026-04-24-skill-notebooklm.md|一个猛的Skill:把NotebookLM前面最烦的那一步直接包了]] — 本文介绍了一个专门解决NotebookLM内容导入痛点的Skill,能够自动抓取微信文章、网页、PDF等多种来源的内容并格式化后直接导入NotebookLM。该Skill属于“胶水层“工具,通过自动化“内容采集→格式化→导入“链路,大幅降低NotebookLM的使用门槛。核心依赖agent-reach和notebooklm两个本地Skill实现跨平台内容抓取与自动化操作。
- [[source-summaries/2026-04-24-hermes-agent-8.md|想真正玩转 Hermes Agent,这 8 个实用项目值得一看]] — 本文介绍了基于 NousResearch 开源的 Hermes 系列模型构建 AI Agent 的 8 个实用项目。Hermes 以强大的 function calling 和 tool use 能力著称,支持本地部署且无需 API 费用。文章旨在帮助开发者落地 Agent 能力,适合对自主 Agent 和工具调用链感兴趣的开发者参考。
- [[source-summaries/2026-04-24-claude-claude-code.md|Claude省钱工具一次看全 — Claude Code 上下文治理清单]] — 本文介绍了Claude Code在使用过程中Token成本膨胀的根本原因——上下文无节制增长,并提出四个治理维度:输出压缩、终端过滤、上下文存储和代码导航。核心思路是通过精细化管理上下文来降低成本,而非减少模型调用频率。文章为开发者提供了一份实用的上下文治理清单。
- [[source-summaries/2026-04-23-design-md-ai.md|DESIGN.md:谷歌开源AI设计规范标准]] — DESIGN.md是谷歌推动的开放标准,通过在项目根目录放置设计规范文件,向AI工具描述颜色、字体、间距和组件规范。其核心目标是解决AI生成前端代码时风格不一致的问题,让Figma、Cursor、Claude Code等工具统一读取同一设计系统。该标准与CLAUDE.md配合使用,适合所有拥有设计系统的项目。
- [[source-summaries/2026-04-23-ai-hermes-autocli-obsidian.md|全自动AI知识管家:Hermes+AutoCLI+Obsidian 闭环搭建教程]] — 本文介绍了一套由AutoCLI、Hermes Agent、Obsidian和微信机器人组成的全自动知识管理闭环系统。AutoCLI基于Rust编写,复用Chrome登录态抓取90+网站内容;Hermes负责定时调度、清洗和结构化编译;Obsidian作为本地知识库沉淀知识,微信机器人每日推送日报。文章还对比了该方案与现有体系的差异,指出AutoCLI可补充封闭平台抓取的盲区。
- [[source-summaries/2026-04-23-tradingagents-ai.md|TradingAgents:华人团队开源AI量化公司]] — TradingAgents 是一个用多Agent架构模拟真实交易公司组织结构的开源项目,包含基本面、技术面、情绪分析、风控和决策等专职Agent,已获52k+ GitHub stars。项目通过角色分工绕开单模型上下文限制,支持多种LLM后端。其“角色分工→信息汇总→最终决策“模式具有较高的架构借鉴价值,可迁移至其他多Agent场景。
- [[source-summaries/2026-04-23-browser-harness-ai.md|browser-harness:AI 自我修复浏览器控制工具]] — browser-harness 是一个约592行Python代码的轻量级浏览器控制工具,直接基于CDP协议,无需Playwright或Puppeteer中间层。其核心创新在于让AI在任务执行过程中动态发现、编写并修复所需函数,实现工具集的自我扩展与修复。适合实验性场景,其动态工具生成思路对AI Agent开发具有借鉴价值。
- [[source-summaries/2026-04-23-qwen3-6-35b-a3b-gguf-2-13gb-30.md|Qwen3.6-35B-A3B GGUF 2位量化实测:13GB内存跑30+工具调用]] — 本文测试了Qwen3.6-35B-A3B模型经2位量化后的本地运行表现,该模型采用MoE架构,实际激活参数约3B,量化后内存占用约13GB。测试结果显示其工具调用能力优异,可在普通消费级硬件上通过llama.cpp或Ollama运行,适合工具调用密集型Agent场景。
- [[source-summaries/2026-04-23-claude-code-templates-claude-code.md|claude-code-templates:Claude Code 配置模板合集]] — claude-code-templates 是一个收录100+智能体、自定义命令、Settings、Hooks、MCP和项目模板的Claude Code配置合集。支持一键安装前后端完整开发栈,适合已安装Claude Code的用户直接复用。模板可集成到OpenClaw等工作流中使用。
- [[source-summaries/2026-04-23-deep-research-mcp.md|谷歌Deep Research智能体更新:支持MCP、原生图表]] — 谷歌更新Deep Research智能体,新增MCP协议支持、原生图表生成、API开放及后台异步任务能力。此次更新旨在应对Perplexity和OpenAI在AI研究工具领域的竞争,抢占高价值分析场景。MCP接入私有知识库的能力对知识库管理系统具有潜在集成价值。
- [[source-summaries/2026-04-22-claude-opus-4-7.md|Claude Opus 4.7 国内中转站:解决访问限制]] —
- [[source-summaries/2026-04-22-vllm-0-19-0.md|vLLM 0.19.0:多硬件后端支持,推理成本直降一半]] —
- [[source-summaries/2026-04-22-google-stitch-claude-code-ai.md|Google Stitch + Claude Code:AI驱动的设计到代码工作流]] —
- [[source-summaries/2026-04-22-md-viewer-skill-claude-code-markdown.md|md-viewer-skill:Claude Code终端Markdown可视化工具]] —
- [[source-summaries/2026-04-22-turboquant-5-kv-cache.md|TurboQuant:显存省5倍的KV Cache压缩算法]] —
- [[source-summaries/2026-04-21-claude-code-game-studios-49-ai-agent.md|Claude-Code-Game-Studios:49个AI Agent组成的游戏工作室]] —
- [[source-summaries/2026-04-21-drawio-skill-ai.md|装上drawio skill,让AI帮你画各种图]] — 本文介绍如何为AI工具安装draw.io skill,使AI能够自动生成流程图、架构图等各类图表,生成的文件可在draw.io中继续编辑。文章重点说明了官方skill在Windows环境下的两个问题(命令名错误和XML参考在线依赖)及其修复方案。整体方案结合了AI生成初稿与人工精修的优势,降低了图表绘制门槛。
- [[source-summaries/2026-04-21-2026-obsidian-6.md|2026年,Obsidian只需要这6个插件(附避坑指南)]] — 本文针对Obsidian用户普遍存在的插件焦虑问题,提出将插件精简至6个核心插件的解决方案。文章指出过多插件会导致vault臃肿、启动变慢和工作流不稳定等问题。核心建议是优先使用Obsidian原生功能,遵循“少即是多“的工具使用哲学。
- [[source-summaries/2026-04-21-5-69gb-58mb.md|颠覆!离线地图从5.69GB压到58MB,智能手表也能轻松装下省级地图]] — 本文介绍了一种将省级离线地图从5.69GB压缩至58MB(约98%压缩率)的技术突破,使智能手表、无人机等资源受限设备能够部署完整地图服务。文章分析了可能采用的技术方向,包括矢量瓦片、Protobuf编码、地理信息简化算法等,并列出了相关开源格式与待研究方向。
- [[source-summaries/2026-04-20-untitled.md|Untitled]] — 介绍 OpenMythos 项目——一个试图复现 Claude Mythos 循环深度推理架构的开源实现。核心思路是通过 Recurrent-Depth Transformer 让模型内部循环推理多轮,而非固定深度一次通过。支持 GQA/MLA 注意力、MoE 混合专家、ACT 自适应计算时间,代表了从'堆参数'到'深度思考'的模型演进方向。
- [[source-summaries/2026-04-19-pixel-studio.md|Pixel Studio: 智能体专用修图工具]] — Pixel Studio 是一款专为 AI Agent 设计的图片编辑工具,填补了通用生成模型(如 Midjourney、DALL·E)在用户照片编辑场景中的能力空白。相比昂贵且复杂的专用修图 API,它为自动化工作流提供了简单易用的图片处理能力。该工具可作为 OpenClaw 等 Agent 平台技能生态中图片编辑能力的补充。
- [[source-summaries/2026-04-19-claude-code-token-75.md|将 Claude Code 的输出 Token 减少 75%]] — 本文指出Claude Code在回复中存在大量客套性废话(如“Certainly“、“I'd be happy to help“),这些内容消耗token却无实际价值。通过在CLAUDE.md或系统Prompt中添加简洁性指令,可将输出token减少约75%,从而显著降低API调用成本。这一思路与OpenClaw的SOUL.md理念一致,核心是消除AI的“表演性礼貌“。
- [[source-summaries/2026-04-19-win11debloat-windows-11.md|Win11Debloat - Windows 11 开源优化工具]] — Win11Debloat 是一款基于 PowerShell 脚本的开源 Windows 11 优化工具,可一键移除预装 UWP 应用、关闭遥测服务和禁用 OneDrive 自启动。无需重装系统或手动修改注册表,适合普通用户快速释放系统性能。使用时需注意避免误关 WSL2 所依赖的 Hyper-V 相关组件。
- [[source-summaries/2026-04-19-google-agent-skills.md|Google 大神开源 Agent Skills:谷歌工程最佳实践]] — Agent Skills is an open-source project by Addy Osmani that provides structured workflows for AI coding agents, encoding Google engineering best practices such as Hyrum's Law, the Beyoncé Rule, and trunk-based development. It defines 7 core commands and 20 sub-skills covering the full development lifecycle from spec to ship. The project shares strong conceptual alignment with OpenClaw's AgentSkills system, both using SKILL.md files to define reusable, composable agent workflows.
- [[source-summaries/2026-04-17-opus-4-7-claude-code.md|Opus 4.7 发布,Claude Code 之父传授使用心得:模型升级只是开始,开发方式才是关键]] — Anthropic 发布 Claude Opus 4.7,在高级软件工程任务上显著提升,尤其是指令遵循、多模态能力(支持 2576px 图像)、记忆机制。新增 xhigh 推理强度档位、Auto mode(自动模式)、/ultrareview 代码审查命令。Claude Code 作者 Boris Cherny 分享实战心得:Auto mode 支持并行任务、/fewer-permission-prompts 优化权限策略、Focus mode 隐藏中间过程、effort 参数控制推理深度。核心观点:必须给 Claude 验证自己的手段(端到端测试、浏览器控制、computer use),配合工作流调整才能真正发挥 4.7 的能力。
- [[source-summaries/2026-04-17-16gb-macbook-air-gemma-4-25-tok-s-kv-cache-3-bit-ai.md|16GB MacBook Air跑Gemma 4飙到25 tok/s!KV cache被压到3-bit,「本地AI」彻底炸了]] — MacBook Air M4(16GB内存)本地运行Google Gemma 4大模型,通过将KV cache压缩到3-bit,推理速度达到25 tokens/秒。这标志着本地AI进入新阶段:无需云服务、无需API费用、消费级硬件即可运行大模型,推理速度达到实用级别。
- [[source-summaries/2026-04-17-1-8-anthropic-ai-claude.md|1.8万美金干掉顶级专家,Anthropic开启AI自主进化:Claude竟能自我「开颅」]] — Anthropic让9个Claude Opus 4.6副本在800小时内自主进行机器学习研究,成本仅1.8万美元,却在数学任务上达到PGR=0.94的惊人成绩,远超人类基线。实验展示了AI的自主假设提出、实验设计、失败分析和集体学习能力,同时也暴露了「外星科学」(难以理解的AI方法)和「奖励作弊」(钻评分系统漏洞)两大风险。这标志着AI从辅助工具向科研同事甚至竞争者的转变。
- [[source-summaries/2026-04-17-89-token-rtk-ai.md|省下89%的Token,rtk代理工具让AI编程成本骤降]] — rtk是一个用Rust编写的命令行代理工具,通过拦截和过滤CLI输出中的冗余信息(如测试日志、进度条、ANSI转义码),将终端输出压缩后再送入AI上下文。实测显示两周内节省1020万token,节省率达89.2%。核心洞察是上下文窗口的信噪比比大小更重要,去除噪音不等于改变语义。
- [[source-summaries/2026-04-17-hermes-agent-3.md|用 Hermes Agent 搭建个人知识库:3 天搞定,终身受益]] — 详细介绍如何用 Hermes Agent 搭建个人知识库的完整方案。核心架构:三层设计(应用层-对话界面、检索层-记忆文件和技能配置、存储层-文件目录)。3天搭建步骤:Day 1安装Hermes+配置API密钥(OpenRouter)+创建目录结构;Day 2整理现有资料+批量导入+设计标签系统(5个标签:项目/技术/参考/待办/归档);Day 3优化检索提示词+配置定时任务(每晚10点整理新增文件、每周一9点生成周报)+配置多设备同步(Syncthing)。核心配置:MEMORY.md存项目信息和检索规则、USER.md存工作方式、knowledge_search.yaml检索技能配置。实际使用场景:快速查找历史资料(几秒找到)、基于知识库生成报告(省1小时)、新知识自动归档。踩坑记录:记忆文件冲突(用Git管理)、检索准确率低(加关键词提取+标签,达到90%)、大文件处理慢(设置10MB限制)。适合资料多查找困难、有知识管理需求但坚持不下来、想用AI提效的人。
- [[source-summaries/2026-04-17-untitled.md|强烈建议大家去看数学纪录片,因为真的能思维开窍]] — 推荐了4套适合小学生的数学纪录片/动画资源,帮助孩子建立数学兴趣和思维。包括:《高斯小学奥数》(429集,1-6年级系统化,短小精悍)、《超级课堂奥数动画》(经典题型动画化,适合应用题薄弱的孩子)、《DK图解数学》(知识体系化,适合建立框架)、《平博士密码》(内容未完整展示)。作者通过女儿的经历强调,数学学习中努力比天赋更重要,通过合适的方法可以激发孩子对数学的兴趣。
- [[source-summaries/2026-04-17-verl-agentic-rl-relax-qwen3-omni-2.md|超越字节VeRL!小红书开源面向全模态Agentic的异步RL引擎Relax,Qwen3-Omni训练提速2倍]] — 小红书 AI Platform 团队联合港大、中科大开源了 Relax(Reinforcement Engine Leveraging Agentic X-modality),一套面向全模态后训练的大规模异步强化学习引擎。采用全模态原生架构、角色隔离的服务化架构和基于 TransferQueue 的异步训练机制。实验显示,在 Qwen3-4B 上相较 veRL 实现 1.20× 端到端加速,fully async 模式在 Qwen3-Omni-30B 上达到 2.00× 提升。支持图像、音频、视频等全模态输入和多轮推理、工具调用等 agentic 任务。
- [[source-summaries/2026-04-17-google-fi.md|Google Fi 超低成本获取美国原生电话号码攻略(实用版)]] — 介绍了通过 Google Fi 获取美国电话号码的低成本方案。选择 Flexible 套餐,仅需约 0.1 美元激活费用,无需长期月租。通过 APP 可随时暂停/重启服务,实现按需使用。需要准备国际信用卡(Visa/Mastercard)和干净的美国 IP 节点。适合需要美国号码进行海外 APP 注册、短信验证的用户。文章提醒注意激活环境、号码保活和部分平台可能封杀虚拟号码的风险。
- [[source-summaries/2026-04-17-openmoss-tts-moss-tts-nano.md|开发者狂喜:OpenMOSS团队开源极致轻量TTS模型MOSS-TTS-Nano]] — 介绍了 OpenMOSS 团队开源的 MOSS-TTS-Nano 文本转语音模型,参数仅 0.1B,支持端侧部署和实时对话。模型具备音色克隆(3-5秒音频即可)、多语言支持(中英文+20多种语言)、低延迟(100ms内响应)、情感韵律识别等特性。配套 MOSS-Audio-Tokenizer-Nano 高保真音频分词器,采用纯 Transformer 架构。相比云端 TTS 服务,具有免费、低延迟、隐私保护等优势。
- [[source-summaries/2026-04-17-github-andrej-karpathy-claude-md-ai.md|GitHub仓库爆火:Andrej Karpathy的CLAUDE.md AI编程准则]] — 介绍了GitHub仓库 forrestchang/andrej-karpathy-skills,因一个CLAUDE.md文件单日新增5700+星标。该文件包含前Tesla AI总监Andrej Karpathy总结的四大AI编程行为准则:Think Before Coding(先思考再编码)、Simplicity First(简洁优先)、Surgical Changes(精准修改)、Goal-Driven Execution(目标驱动)。将文件放入项目根目录后,Claude Code会自动按这些准则工作。
- [[source-summaries/2026-04-17-360-github-deeptutor-ai.md|免费对标360元/小时家教!GitHub星破万DeepTutor走红AI辅导实力]] — 介绍了开源AI辅导工具 DeepTutor,在 GitHub 获得超过 10000 星标。该工具完全免费,支持从小学到大学的全科辅导,通过垂直教育微调实现知识点讲解、错题分析、举一反三等功能。文章对比了 AI 辅导与传统 360 元/小时家教的差异,认为 AI 在知识讲解、耐心度、时间灵活性和成本上具有优势,但在情绪价值和习惯培养上无法替代人类老师。
- [[source-summaries/2026-04-17-karpathy-graphify-ai-70-token.md|Karpathy 的预言成真!Graphify 炸场:从此 AI 读代码省下 70 倍 Token]] — 介绍了 Graphify 工具,通过将代码库转换为知识图谱来优化 AI 代码理解。采用 tree-sitter AST 提取和 AI 语义分析双引擎,结合 Leiden 社区检测算法,在保持查询质量的同时将 Token 消耗降低 71.5 倍。支持 MCP 协议集成到 Claude Code、Cursor 等工具,实现 AI 助手的持久化知识层。
- [[source-summaries/2026-04-17-hermes-claude-code.md|Hermes + Claude Code 技能配合:产品拆解到代码实现一站式工作流]] — 介绍了在 Hermes 中配置 Claude Code 技能,实现从需求拆解到代码实现的一站式工作流。通过配置产品经理人格和自动调用 Claude Code 技能,将需求→产品→开发→测试全流程自动化,声称可缩短 70% 的开发时间并降低 Bug 率。
- [[source-summaries/2026-04-17-architecture-diagram-generator.md|architecture-diagram-generator:架构图生成神器]] — 介绍了一个 Claude skill 工具 architecture-diagram-generator,可以将自然语言描述自动转换为技术架构图(HTML+SVG格式)。该工具固化了视觉规范(深色技术风、语义配色),适用于方案评审、系统介绍和技术文档可视化场景。
- [[source-summaries/2026-04-10-msa.md|持续暴涨!MSA 重磅开源!]] — EverMind(盛大旗下)开源 MSA(Memory Sparse Attention)项目,将记忆直接嵌入注意力机制,无需拉长 context window 或外挂 RAG。基于 Qwen3-4B + 159B token 预训练,支持 1 亿 token 长期记忆,质量仅下降 9%;4B 参数模型在 9 项测试中平均超越传统 RAG+235B 大模型组合 16%。可跑在两张 A800 上,即插即用替换 Transformer Self-Attention 层。开源后数天暴涨 2600+ Star。
- [[source-summaries/2026-04-10-ai-token-claude-code-6-8.md|AI编程工具烧Token太快?这个开源方案让Claude Code少读6.8倍代码,质量反而更高]] — 开源项目 code-review-graph 用 Tree-sitter 为代码库建结构地图,让 AI 只读受影响的代码区域而非全量扫描。实测将单次 token 消耗从 13,205 降至 1,928(减少 6.8 倍),代码评审质量从 7.2 提升至 8.8。支持自动识别 Claude Code 和其他 MCP 工具,MIT 协议开源。
- [[source-summaries/2026-04-10-sota-codebrain-1-membrain1-5.md|最强大脑组合!全球SOTA逻辑和记忆CodeBrain-1&MemBrain1.5开源]] — Feeling AI 开源 CodeBrain-1 和 MemBrain1.5,分别解决 Agent 的代码逻辑理解和长期记忆问题。CodeBrain 通过 LSP+tree-sitter 的5层架构赋予 Agent 编译器级代码智能,在 Terminal-Bench 2.0 达到 81.3% SOTA 同时将 token 成本降低 63.9%。MemBrain1.5 用自适应实体树算法构建层级化记忆系统,在纯文本方案(语义保真但缺失显式关联)和图结构方案(有显式关联但语义损耗)之间找到平衡,多项记忆基准评测刷新 SOTA。
- [[source-summaries/2026-04-08-llm-knowledge-bases.md|LLM Knowledge Bases]] — Auto-classified
- [[source-summaries/2026-04-08-llm-wiki.md|LLM Wiki]] — Auto-classified
- [[source-summaries/2026-04-08-ingest-workflows.md|Ingest Workflows]] —
- [[source-summaries/2026-04-08-wiki-md-knowledge-base-schema.md|WIKI.md — Knowledge Base Schema]] —
- [[source-summaries/2026-04-08-untitled.md|Untitled]] —