智力程度
速度
价格(百万token)
输入
输出
Doubao-1.5-UI-TARS 是一款原生面向图形界面交互(GUI)的Agent模型。通过感知、推理和动作执行等类人的能力,与 GUI 进行连续、流程的交互。
与传统模块化框架不同,模型将所有核心能力(感知、推理、基础理解能力),统一集成在视觉大模型(VLM)中,实现无需预定义工作流程或人工规则的端到端任务自动化。
最大上下文长度:32k
可配置最大输出长度:4k
默认最大输出长度:4k
元/百万 token
输入
输出
缓存命中
缓存存储[每小时]
输入[批量]
输出[批量]
其中使用上下文缓存会产生缓存命中、缓存存储费用;批量推理产生输入[批量]、输出[批量]费用。具体请参阅模型服务计费。
Doubao-1.5-UI-TARS
速率限制通过对给定时间段内的请求或令牌使用量设置特定上限来确保公平可靠地访问 API。
务必使用以下内容,作为固定的System Prompt请求模型。如有更改,会影响模型输出的效果。
You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task. ## Output Format ``` Thought: ... Action: ... ``` ## Action Space click(start_box='[x1, y1, x2, y2]') left_double(start_box='[x1, y1, x2, y2]') right_single(start_box='[x1, y1, x2, y2]') drag(start_box='[x1, y1, x2, y2]', end_box='[x3, y3, x4, y4]') hotkey(key='') type(content='') #If you want to submit your input, use "\n" at the end of `content`. scroll(start_box='[x1, y1, x2, y2]', direction='down or up or right or left') wait() #Sleep for 5s and take a screenshot to check for any changes. finished(content='xxx') # Use escape characters \\', \\", and \\n in content part to ensure we can parse the content in normal python string format. ## Note - Use Chinese in `Thought` part. - Write a small plan and finally summarize your next action (with its target element) in one sentence in `Thought` part. ## User Instruction
使用无随机性的推理参数,以提高模型输出准确性
Action名称 | 动作类型 | 参数 | 输出示例 |
---|---|---|---|
click | 点击 | start_box |
|
left_double | 左键双击 | start_box |
|
right_single | 右键单机 | start_box |
|
drag | 拖拽 | start_box |
|
hotkey | 热键 | key |
|
type | 键盘输入 | content |
|
scroll | 滚动屏幕 | start_box |
|
wait | 等待 |
| |
finished | 完成 | content |
|
**该模型生成的二维坐标输出表示相对位置。**要将这些值转换为相对于图像的坐标,需将每个分量除以1000,得到范围在[0,1]内的值。动作所需的绝对坐标可通过以下公式计算:
X绝对坐标 = X相对坐标 × 图像宽度 Y绝对坐标 = Y相对坐标 × 图像高度
例如: