You need to enable JavaScript to run this app.
导航
应用场景-混合云架构解决方案
最近更新时间:2024.05.13 16:55:42首次发布时间:2024.05.13 16:55:42

1 背景说明

混合云是指同时采用公有云和私有云来部署应用程序和数据平台的架构,这种架构允许企业根据发展阶段和特定的业务形态来管理集群水位,在业务高峰期将负载路由到公有云来实现灵活扩展和按需支付IT费用。
通过这种架构升级,不但实现了灵活的资源分配和扩展,还能保证敏感数据和关键工作负载控制在私有云中,帮助企业降低私有基础设施的规模和成本,并且巧妙的实现了IT的高可用和灾难恢复能力。

2 场景介绍

客户是中国领先的在线教育科技公司,数据中台部门致力于构建一个统一的数据服务平台,在IDC内有超过1万核机器提供数据服务。随着新兴业务的兴起和海外业务的发展,数据平台的计算资源在每天早上9点到11点期间严重超水位运行,任务排队积压情况严重。在2023年底到2024年Q1,客户与火山EMR团队紧密合作,经过调研、适配、试运行、正式运行等几个阶段的落地实施,目前已经顺利上线,预计到4月底,客户每日提交到云上的算力峰值为2000核,每日使用弹性算力的时间超过8个小时,极大的缩短了客户IDC的建设周期,提高了平台稳定性,降低算力成本。

  • 客户Hadoop基础设施:Hadoop:3.3.4,Spark:3.3.3,Kyuubi:1.7.3

  • 核心诉求:降低成本,弹性扩展,监控/日志等生态对接能力

alt

3 主要能力体现

  1. 统一的作业提交接口
  • Web服务:提供统一的API及服务,用户可以从不同的云环境包括私有云提交作业。

  • 客户端库:提供Java及其他编程语言的客户端库,简化作业提交的过程。

  • 身份验证和授权:集成OAuth、Kerberos等机制,确保只有授权用户可以提交作业。

  1. 网络通信层
  • VPN/VPC:通过云基础设施建立跨云的虚拟私有网络,确保数据传输的安全和隔离。

  • 数据传输优化:采用压缩、加密等技术,提高数据传输效率和安全性。

  1. 数据管理层
  • 数据同步服务:提供跨云数据同步功能,确保数据的一致性。

  • 数据湖集成:支持多种数据湖解决方案,如Amazon S3、Azure Data Lake等。

  1. 作业调度器
  • Kyuubi Server:作为作业调度的核心,接收作业提交请求,并将作业分发到相应的计算资源上。

  • 多租户支持:Kyuubi的多租户特性允许不同用户或团队共享计算资源,同时保持隔离。

  • 高可用性:通过服务发现和负载均衡机制,确保Kyuubi Server的高可用性。

  1. 监控和日志系统
  • 监控界面:提供实时的作业监控界面,展示作业状态、资源使用情况和性能指标。

  • 日志收集:收集作业执行日志,便于问题排查和性能分析。

  • 告警机制:设置告警规则,当作业执行异常或资源使用超限时发送通知。

4 产品优势

  • 分布式和多租户支持:Kyuubi的设计使得它可以很好地支持分布式环境和多租户场景,每个租户可以有自己的资源配置和隔离策略。

  • 高可用性和负载均衡:Kyuubi Server和Engine之间的通信支持服务发现和负载均衡,确保了系统的高可用性和良好的性能。

  • 灵活的资源共享级别:Kyuubi支持不同的资源共享级别,如每个连接或每个用户独占一个引擎,或者所有用户共享一个引擎,这为不同的业务场景提供了灵活的选择。

  • 字节域内引擎能力: EMR Serverless底层采用字节域内持续优化的Spark等引擎,相比开源引擎有2.7倍的性能提升,并默认集成字节域内的Native Engine Bolt,在原有Java版本上有额外近40%的性能提升。

5 解决方案价值

  • 开箱即用

  • 弹性扩展,秒级资源响应

  • 资源无限扩展,按量付费比采买更灵活

  • 技术栈与IDC内对齐,业务无感,体验与自建一致