随着大语言模型的日益盛行,RAY 引擎的重要性愈发凸显。RAY 引擎作为一种强大的技术支撑,在大语言模型的生态体系中扮演着关键角色。它具备卓越的计算加速能力,能够高效地处理大规模的数据运算任务,极大地缩短大语言模型训练与推理所需的时间,从而显著提升模型的开发与应用效率。在处理复杂的语言逻辑和海量文本数据时,RAY 引擎凭借其先进的架构设计,可以灵活地调配计算资源,确保模型在不同场景下都能稳定运行并输出精准的结果。无论是智能客服、内容生成,还是语言翻译等领域,RAY 引擎都为大语言模型提供了坚实可靠的运行基础,助力其突破性能瓶颈,实现更广泛、更深入的商业与社会价值挖掘,成为推动大语言模型技术持续进步与广泛应用的核心动力之一。
火山引擎有多种不同形态的产品来满足不同用户对RAY引擎的使用需求,详情可参考RAY 服务相关文档。而TOS是火山引擎推出的支持海量数据的低成本的对象存储服务。两者相结合是很多AI用户的主流选择。TOSFS 是一个轻量级的访问TOS 的 Python SDK,它允许用户在Ray Data模块中使用它来读写TOS。
通过如下命令安装TOSFS的最新版本以及RAY相关的依赖包:
说明
建议使用3.9及以上版本的Python环境。
pip install tosfs pip install "ray[data]"
下面的代码展示了如何使用Ray Data API结合TosFileSystem的常用API读写TOS的示例:
import ray import logging from tosfs.core import TosFileSystem # csv file path input_csv_path = "tos://{your-bucket}/input.csv" output_csv_path = "tos://{your-bucket}/output.csv" # TOS AK ENV_AK = '{Access Key}' # TOS SK ENV_SK = '{Secret Key}' # TOS ENDPOINT 请根据实际情况填写 TOS_ENV_ENDPOINT = 'https://tos-cn-beijing.volces.com' ray.init(runtime_env={ "env_vars": {"RAY_LOGGING_LEVEL": "INFO"}, "pip": ["pyarrow", "tosfs"] }) logging.basicConfig(level=logging.INFO) # TosFileSystem中region 请根据实际情况填写 tos_fs = TosFileSystem( key=ENV_AK, secret=ENV_SK, endpoint_url=TOS_ENV_ENDPOINT, region='cn-beijing', socket_timeout=60, connection_timeout=60, max_retry_num=30 ) if __name__ == "__main__": # init: write a file to tos with tos_fs.open(input_csv_path, 'w') as f: f.write("id,name,age\n1,John Doe,30\n2,Jane Smith,25\n3,Bob Johnson,40\n") ds = ray.data.read_csv(input_csv_path, filesystem=tos_fs) # processing data #ds = ds.map_batches(your_processing_function) ds.repartition(1).write_csv(output_csv_path, filesystem=tos_fs)