在Ray Data中使用TOSFS--E-MapReduce-火山引擎

文档中心

导航

E-MapReduce

在Ray Data中使用TOSFS

最近更新时间：2024.12.02 17:56:46首次发布时间：2024.12.02 17:56:46

随着大语言模型的日益盛行，RAY 引擎的重要性愈发凸显。RAY 引擎作为一种强大的技术支撑，在大语言模型的生态体系中扮演着关键角色。它具备卓越的计算加速能力，能够高效地处理大规模的数据运算任务，极大地缩短大语言模型训练与推理所需的时间，从而显著提升模型的开发与应用效率。在处理复杂的语言逻辑和海量文本数据时，RAY 引擎凭借其先进的架构设计，可以灵活地调配计算资源，确保模型在不同场景下都能稳定运行并输出精准的结果。无论是智能客服、内容生成，还是语言翻译等领域，RAY 引擎都为大语言模型提供了坚实可靠的运行基础，助力其突破性能瓶颈，实现更广泛、更深入的商业与社会价值挖掘，成为推动大语言模型技术持续进步与广泛应用的核心动力之一。
火山引擎有多种不同形态的产品来满足不同用户对RAY引擎的使用需求，详情可参考RAY 服务相关文档。而TOS是火山引擎推出的支持海量数据的低成本的对象存储服务。两者相结合是很多AI用户的主流选择。TOSFS 是一个轻量级的访问TOS 的 Python SDK，它允许用户在Ray Data模块中使用它来读写TOS。
通过如下命令安装TOSFS的最新版本以及RAY相关的依赖包：

说明

建议使用3.9及以上版本的Python环境。

pip install tosfs
pip install "ray[data]"

下面的代码展示了如何使用Ray Data API结合TosFileSystem的常用API读写TOS的示例：

import ray
import logging
from tosfs.core import TosFileSystem

# csv file path
input_csv_path = "tos://{your-bucket}/input.csv"
output_csv_path = "tos://{your-bucket}/output.csv"

# TOS AK
ENV_AK = '{Access Key}'
# TOS SK
ENV_SK = '{Secret Key}'
# TOS ENDPOINT 请根据实际情况填写
TOS_ENV_ENDPOINT = 'https://tos-cn-beijing.volces.com'

ray.init(runtime_env={
    "env_vars": {"RAY_LOGGING_LEVEL": "INFO"},
    "pip": ["pyarrow", "tosfs"]
})

logging.basicConfig(level=logging.INFO)
# TosFileSystem中region 请根据实际情况填写
tos_fs = TosFileSystem(
    key=ENV_AK,
    secret=ENV_SK,
    endpoint_url=TOS_ENV_ENDPOINT,
    region='cn-beijing',
    socket_timeout=60,
    connection_timeout=60,
    max_retry_num=30
)


if __name__ == "__main__":
    # init: write a file to tos
    with tos_fs.open(input_csv_path, 'w') as f:
        f.write("id,name,age\n1,John Doe,30\n2,Jane Smith,25\n3,Bob Johnson,40\n")

    ds = ray.data.read_csv(input_csv_path, filesystem=tos_fs)

    # processing data
    #ds = ds.map_batches(your_processing_function)

    ds.repartition(1).write_csv(output_csv_path, filesystem=tos_fs)