文档中心
文档
备案
控制台
登录
立即注册
导航
机器学习平台
搜索目录或文档标题
搜索目录或文档标题
产品动态
新功能发布记录2024.11
新功能发布记录2024.9
新功能发布记录2024.8
【停售公告】机器学习平台停止售卖g1v等规格族
新功能发布记录2024.7
新功能发布记录2024.6
新功能发布记录2024.5
新功能发布记录2024.4
新功能发布记录2024.3
新功能发布记录2024.2
新功能发布记录2024.1
续费策略调整通知
【停售公告】机器学习平台停止售卖g2i等规格族
有关 MLP 基础指标升级变更说明
日志功能升级变更说明
【停售公告】机器学习平台停止售卖g1ie等规格族
产品简介
什么是机器学习平台
功能总览
常用概念
产品计费
实例规格及定价
快速入门
概述
准备工作
注册账号及开通服务
创建适当的子账号
针对算法工程师的快速入门
用户指南
概述
权限管理
资源组
【新功能】创建资源组
创建资源组
为资源组续费 / 更配 / 退订
更改预付费资源组的负载网络VPC
更改预付费资源组的vePFS实例
创建资源队列
管理队列内的用户
为队列更配 / 转让资源
开发机自动关机规则设置
GPU碎片资源整理规则设置
节点负载详情
负载排队中状态常见原因说明
镜像仓库
概述
预置镜像列表
构建自定义镜像
迁移外部镜像到镜像仓库
开发机
创建开发机
开发机生命周期管理
通过SSH远程连接开发机
关闭开发机
重启开发机
删除开发机
使用 WebIDE 开发代码
在开发机中创建Docker容器
自定义任务
发起单机 / 分布式训练任务
优先级调度策略
查看 TensorBoard 日志
查看任务的状态 / 监控 / 日志
配置任务的消息通知
预付费场景下的闲时任务
发起 TensorFlowPS 分布式训练
发起 PyTorchDDP 分布式训练
发起 MPI 分布式训练
发起 BytePS 分布式训练
使用 RAY 计算引擎提交分布式任务
通过 RDMA 网络加速训练
验证镜像是否支持 RDMA
基于交换机信息的分布式通信优化
通用环境变量列表
常见 Xid 事件的处理方法
疑似故障节点上报
工作流
使用YAML定义工作流
创建工作流
运行工作流
通过SDK使用工作流
模型管理
导入模型
模型的效果评估
模型的性能评估及优化
删除模型 / 版本
模型包规范
在线服务
将模型部署成服务
如何调用在线服务
查看服务的状态 / 监控 / 日志
为服务配置自动扩缩容
服务的变更与变更记录
删除服务
全局配置
镜像仓库
VPC
vePFS
CloudFS
监控
监控配置说明
MLP 在 VMP 的预置看板介绍
实验管理
概述
使用SDK进行实验记录
使用SDK进行数据导出
界面可视化操作
最佳实践
LLM
Llama 3.1 8B模型在 MLP 的最佳实践
Llama 3.1 8B mcore dense模型在 MLP 的最佳实践
Qwen2 72B模型在 MLP 的最佳实践
AWQ量化 -- LlaMA3.1-8B 在 MLP 的最佳实践
GPTQ量化 -- LlaMA3.1-8B 最佳实践文档
离线FP8静态量化 -- LlaMA3.1-8B 最佳实践文档
如何通过 Grafana 对监控数据指标搭建可视化看板——以配置GPU资源总量看板为例
节点故障通知与负载迁移指南
样本数据的存储
概述
上传数据至 TOS
训练代码如何访问TOS
挂载共享文件系统
多实例命令批量执行工具
如何在火山引擎中使用 NVIDIA Clara 平台--以 AutoDock 为例
通过工作流串联训练与评测任务
更多示例
命令行工具
使用文档
升级指南
变更记录
常见问题
相关协议
付费相关协议
机器学习平台专用条款
产品 / 服务线上计费结算规则
服务等级协议
服务等级协议-向量数据库
文档首页
/
机器学习平台
/
产品动态
/
新功能发布记录2024.8
新功能发布记录2024.8
最近更新时间:2024.11.18 20:17:51
首次发布时间:2024.11.18 20:17:51
我的收藏
文档反馈
2024年8月
涉及地域:若无特别说明,以下功能都会在
华北2(北京)
、
华北3(北京2)
、
华东4(大同)
、
华东2(上海)
、
华南1(广州)
、
亚太东南(柔佛)
几个地域发布。
功能
说明
开放状态
相关文档
推理服务支持7层负载均衡APIG
提供7层负载均衡器能力,实现 HTTP2、GRPC 等多种协议。
支持监控QPS、响应时间、错误码等数据。
基于多部署使用
-
自定义训练任务支持多机诊断
在自定义任务时,支持校验GPU设备和机内带宽(NVLink和PCIe)是否正常,同时对机器之间的RDMA网卡通信和交换机的连通性也做检查。需注意只支持HPC规格。
全量开放
-
TensorBoard 服务升级
自定义任务支持开启 TensorBoard 服务并发起对比实验。
用户可以自定义设置 TensorBoard Logs 存储位置,将实验数据存储在 vePFS 或者 NAS。
使用该功能时,选择的 vePFS 实例需要处于运行中状态,且选择的 vePFS 实例的 VPC 与资源组的存储VPC 一致。
对比任务所在资源组的存储 VPC 需要一致,否则无法发起对比实验。
全量开放
-