字节跳动 UI-TARS:32.7k Star 的多模态 GUI Agent 开源工具

Type: article
Author: unknown
Primary Topic: AI Agent
Ingested: 2026-05-11

Summary

UI-TARS 是字节跳动开源的多模态 AI Agent 框架,能够通过视觉理解直接操控桌面应用和浏览器,无需依赖传统 DOM 选择器。该项目在 GitHub 获得 32.7k Stars,支持自然语言驱动的自动化测试、数据采集和业务流程自动化等场景。底层采用字节自研的 UI-TARS-1.5 视觉语言模型,并通过 MCP 协议实现工具扩展,以 Apache-2.0 协议开源,商业可用。

Key Concepts

Entities

Source

Relations


Auto-generated on 2026-05-11

相关文章(自动整合)