You need to enable JavaScript to run this app.
导航
doubao-1.5-ui-tars
最近更新时间:2025.04.17 09:13:59首次发布时间:2025.04.17 09:13:59
我的收藏
有用
有用
无用
无用
智力程度
速度
较快
价格(百万token)
3.5元[输入],12元[输出]
输入
文本,图像
输出
文本

Doubao-1.5-UI-TARS 是一款原生面向图形界面交互(GUI)的Agent模型。通过感知、推理和动作执行等类人的能力,与 GUI 进行连续、流程的交互。
与传统模块化框架不同,模型将所有核心能力(感知、推理、基础理解能力),统一集成在视觉大模型(VLM)中,实现无需预定义工作流程或人工规则的端到端任务自动化。

最大上下文长度:32k
可配置最大输出长度:4k
默认最大输出长度:4k


模型价格

元/百万 token

输入
3.50
输出
12.00
缓存命中
不涉及
缓存存储[每小时]
不涉及
输入[批量]
不涉及
输出[批量]
不涉及

其中使用上下文缓存会产生缓存命中、缓存存储费用;批量推理产生输入[批量]、输出[批量]费用。具体请参阅模型服务计费

能力支持

模型版本

Doubao-1.5-UI-TARS

  • doubao-1-5-ui-tars-250328

模型限流

速率限制通过对给定时间段内的请求或令牌使用量设置特定上限来确保公平可靠地访问 API。

TPM:5,000,000
RPM:3,0000

使用文档

模型调用API参数的说明
供您查阅API请求以及返回参数取值范围、默认值、示例等信息。

其他说明

官方System Prompt

务必使用以下内容,作为固定的System Prompt请求模型。如有更改,会影响模型输出的效果。

You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.
## Output Format
```
Thought: ...
Action: ...
```
## Action Space
click(start_box='[x1, y1, x2, y2]')
left_double(start_box='[x1, y1, x2, y2]')
right_single(start_box='[x1, y1, x2, y2]')
drag(start_box='[x1, y1, x2, y2]', end_box='[x3, y3, x4, y4]')
hotkey(key='')
type(content='') #If you want to submit your input, use "\n" at the end of `content`.
scroll(start_box='[x1, y1, x2, y2]', direction='down or up or right or left')
wait() #Sleep for 5s and take a screenshot to check for any changes.
finished(content='xxx') # Use escape characters \\', \\", and \\n in content part to ensure we can parse the content in normal python string format.
## Note
- Use Chinese in `Thought` part.
- Write a small plan and finally summarize your next action (with its target element) in one sentence in `Thought` part.
## User Instruction

模型推理参数

使用无随机性的推理参数,以提高模型输出准确性

  • temperature=0
  • top_p=0.7

Action集

Action名称

动作类型

参数

输出示例

click

点击

start_box

click(start_box='<bbox>859 950 859 950</bbox>')

left_double

左键双击

start_box

left_double(start_box='<bbox>859 950 859 950</bbox>')

right_single

右键单机

start_box

left_double(start_box='<bbox>859 950 859 950</bbox>')

drag

拖拽

start_box
end_box

drag(start_box='<bbox>768 150 768 150</bbox>', end_box='<bbox>79 150 79 150</bbox>')

hotkey

热键

key

hotkey(key='ctrl a')

type

键盘输入

content

type(content='北京天气怎么样')

scroll

滚动屏幕

start_box
direction

scroll(direction='up', start_box='<bbox>850 869 850 869</bbox>')

wait

等待

wait()

finished

完成

content

finished(content='todo.txt已打开')

Action坐标映射

**该模型生成的二维坐标输出表示相对位置。**要将这些值转换为相对于图像的坐标,需将每个分量除以1000,得到范围在[0,1]内的值。动作所需的绝对坐标可通过以下公式计算:

X绝对坐标 = X相对坐标 × 图像宽度 
Y绝对坐标 = Y相对坐标 × 图像高度 

例如:

  • 给定屏幕尺寸为1920 × 1080
  • 模型生成的坐标输出为(235, 512)
    • X绝对坐标为:round(1920*235/1000)=451
    • Y绝对坐标为:round(1080*512/1000)=553
  • 最终得到的绝对坐标为(451, 553)