AI 套件支持以预加载方式实现模型的缓存加速。加速了算力端加载模型的时间,全面提升了大模型应用的运行效率。
背景信息
AI 大模型领域的模型文件通常都比较大,几个 GiB 甚至几十个 GiB 规格的模型文件非常常见。用户微调、部署这些模型时,需要加载大量的数据,耗时较多,大大影响推理服务的启动以及模型切换的效率,从而造成用户体验低下的问题。针对上述问题,云原生 AI 套件提供 AI 数据加速能力。
功能介绍
AI 数据加速是云原生 AI 套件基于数据缓存加速技术提供的数据集加速能力。AI 数据加速能力将数据从存储位置缓存到算力近端,加速了算力端加载模型的时间,大幅提升 AI 训练、大模型应用的推理速度和运行效率。
AI 数据加速在容器服务(VKE)存储访问加速中提供了两种解决思路:
- 托管缓存:基于 Fluid + CloudFS Runtime 的缓存方法。CloudFS 重点解决集群维度的整体性能,虽然对单机器单流量的提升有限,但其较大的带宽可以解决常见的限流问题,同时托管缓存具有较高的稳定性。
- 集群内缓存:基于 Fluid + Alluxio Runtime 的缓存方法。Alluxio Runtime 采用了集群内缓存设计,可以利用大机型剩余的内存或磁盘来进行数据缓存,同时解决了在相同集群内访问的常见限流问题。
AI 数据加速的架构示意图如下:
适用场景
- 推理场景下的数据加速
推理场景下通常涉及到模型文件的拉取与切换。常规存储产品受限于访问速度与访问带宽,会对推理请求的响应时间有较大影响,AI 数据加速可解决此类问题。 - 运行环境下的模型加载
通过预热的方式来指定具体的文件或文件夹为热点文件,并针对此类文件提供更快的读写速度。 - 运行环境下的模型切换
常规远端存储(例如 TOS)具有带宽限制,大量的模型切换以及多 Pod 的同时访问,都会造成存储侧的限流,AI 数据加速功能可加速运行环境的模型切换速度。
使用方法
不同的数据集目的端和不同的数据来源之间,配置数据集的方法略有不同,详情请参见: