字节跳动 UI-TARS:32.7k Star 的多模态 GUI Agent 开源工具
Type: article
Author: unknown
Primary Topic: AI Agent
Ingested: 2026-05-11
Summary
UI-TARS 是字节跳动开源的多模态 AI Agent 框架,能够通过视觉理解直接操控桌面应用和浏览器,无需依赖传统 DOM 选择器。该项目在 GitHub 获得 32.7k Stars,支持自然语言驱动的自动化测试、数据采集和业务流程自动化等场景。底层采用字节自研的 UI-TARS-1.5 视觉语言模型,并通过 MCP 协议实现工具扩展,以 Apache-2.0 协议开源,商业可用。
Key Concepts
- 多模态GUI Agent
- 视觉语言模型
- 桌面自动化
- 浏览器自动化
- RPA增强
- MCP协议
- Computer Operator
Entities
- 字节跳动
- UI-TARS
- UI-TARS-1.5
- Doubao-1.5-UI-TARS
- Agent-TARS
- HuggingFace
- VolcEngine
- MCP
Source
Relations
- (none)
Auto-generated on 2026-05-11
相关文章(自动整合)
字节AI学会了写CUDA,NVIDIA护城河裂了 — 同属相关主题(重叠度: 2,整合于 2026-06-07)
字节Lance 3B:一个模型统一图像/视频理解、生成与编辑 — 同属相关主题(重叠度: 2,整合于 2026-06-01)
DreamLite - 字节跳动端侧轻量统一扩散模型(0.39B,生成+编辑) — 两者均为字节跳动推出的端侧AI模型技术(重叠度: 2,整合于 2026-05-12)