You need to enable JavaScript to run this app.
导航
EMR Serverless 应用场景
最近更新时间:2024.11.20 11:13:21首次发布时间:2024.11.19 15:39:43

EMR Serverless Spark 应用场景

云数据仓库建设

云数据仓库
企业在高速发展的业务驱动下构建数据仓库,能够帮助企业敏捷迭代,通过开源系统与旧系统低成本适配,打破数据孤岛,满足海量数据处理场景。

  • 专业迁移上云: 迁移方案工具化,支持多源数据上云、搬站、同步。
  • 高效数据建设: 打通DataLeap实现集成、开发、运维治理等全套建设。
  • 丰富数仓应用: 对接内部生态,实现BI报表、OLAP分析、数据探索。

Image

日志大数据分析

帮助企业更好地了解业务运行情况,发现问题和优化机会,从而提高运营效率和决策质量,例如:网络安全分析、应用性能分析、业务分析、市场营销分析等。

  • 成本极致优化: 存算分离&冷热分层的云原生湖仓架构,精准控制成本。
  • 降低运维消耗: 解决日志采集、实时和离线处理分析,无需多余运维。

Image

精细化运营

支持电商/金融/汽车/游戏等行业,挖掘数据资产,发挥数据价值,帮助企业提升运营效率、决策质量、精准服务、客户满意度,同时大大降低运营成本。

  • 业务数据深挖掘: 支持EB级海量数据分析,上亿DAU精细分析&运营。
  • 业务洞察高时效: 实时弹性扩展,高性能计算引擎,满足突发业务增长。
  • 业务需求快响应: 无缝对接,生态丰富,满足业务快速迭代的多样诉求。

混合云架构解决方案

背景说明

混合云是指同时采用公有云和私有云来部署应用程序和数据平台的架构,这种架构允许企业根据发展阶段和特定的业务形态来管理集群水位,在业务高峰期将负载路由到公有云来实现灵活扩展和按需支付IT费用。
通过这种架构升级,不但实现了灵活的资源分配和扩展,还能保证敏感数据和关键工作负载控制在私有云中,帮助企业降低私有基础设施的规模和成本,并且巧妙的实现了IT的高可用和灾难恢复能力。

场景介绍

客户是中国领先的在线教育科技公司,数据中台部门致力于构建一个统一的数据服务平台,在IDC内有超过1万核机器提供数据服务。随着新兴业务的兴起和海外业务的发展,数据平台的计算资源在每天早上9点到11点期间严重超水位运行,任务排队积压情况严重。在2023年底到2024年Q1,客户与火山EMR团队紧密合作,经过调研、适配、试运行、正式运行等几个阶段的落地实施,目前已经顺利上线,预计到4月底,客户每日提交到云上的算力峰值为2000核,每日使用弹性算力的时间超过8个小时,极大的缩短了客户IDC的建设周期,提高了平台稳定性,降低算力成本。

  • 客户Hadoop基础设施:Hadoop:3.3.4,Spark:3.3.3,Kyuubi:1.7.3
  • 核心诉求:降低成本,弹性扩展,监控/日志等生态对接能力

Image

主要能力体现

  1. 统一的作业提交接口
  • Web服务:提供统一的API及服务,用户可以从不同的云环境包括私有云提交作业。
  • 客户端库:提供Java及其他编程语言的客户端库,简化作业提交的过程。
  • 身份验证和授权:集成OAuth、Kerberos等机制,确保只有授权用户可以提交作业。
  1. 网络通信层
  • VPN/VPC:通过云基础设施建立跨云的虚拟私有网络,确保数据传输的安全和隔离。
  • 数据传输优化:采用压缩、加密等技术,提高数据传输效率和安全性。
  1. 数据管理层
  • 数据同步服务:提供跨云数据同步功能,确保数据的一致性。
  • 数据湖集成:支持多种数据湖解决方案,如Amazon S3、Azure Data Lake等。
  1. 作业调度器
  • Kyuubi Server:作为作业调度的核心,接收作业提交请求,并将作业分发到相应的计算资源上。
  • 多租户支持:Kyuubi的多租户特性允许不同用户或团队共享计算资源,同时保持隔离。
  • 高可用性:通过服务发现和负载均衡机制,确保Kyuubi Server的高可用性。
  1. 监控和日志系统
  • 监控界面:提供实时的作业监控界面,展示作业状态、资源使用情况和性能指标。
  • 日志收集:收集作业执行日志,便于问题排查和性能分析。
  • 告警机制:设置告警规则,当作业执行异常或资源使用超限时发送通知。

产品优势

  • 分布式和多租户支持:Kyuubi的设计使得它可以很好地支持分布式环境和多租户场景,每个租户可以有自己的资源配置和隔离策略。
  • 高可用性和负载均衡:Kyuubi Server和Engine之间的通信支持服务发现和负载均衡,确保了系统的高可用性和良好的性能。
  • 灵活的资源共享级别:Kyuubi支持不同的资源共享级别,如每个连接或每个用户独占一个引擎,或者所有用户共享一个引擎,这为不同的业务场景提供了灵活的选择。
  • 字节域内引擎能力: EMR Serverless底层采用字节域内持续优化的Spark等引擎,相比开源引擎有2.7倍的性能提升,并默认集成字节域内的Native Engine Bolt,在原有Java版本上有额外近40%的性能提升。

解决方案价值

  • 开箱即用
  • 弹性扩展,秒级资源响应
  • 资源无限扩展,按量付费比采买更灵活
  • 技术栈与IDC内对齐,业务无感,体验与自建一致

EMR Serverless StarRocks应用场景

StarRocks 能够使用一套系统解决多维分析、高并发查询、预计算、实时分析查询等场景,降低系统复杂度和多技术栈开发与维护成本。StarRocks 采用 MPP(大规模并行处理)架构,能够充分利用所有节点资源,显著提升查询性能。

实时数仓

实时数仓对数据实时性,data serving,并发等都有较高的要求,离线分析系统无法满足该类需求。StarRocks 支持实时数据更新和删除,适用于需要频繁更新数据的场景:

  • 支持流式入仓,数据秒级可见;
  • 支持高并发数据服务,支持万级QPS;
  • 秒级或亚秒级数据查询性能;
  • 支持实时指标聚合,支持多维分析。

企业可基于EMR Doris/StarRocks构建实时数仓。数据入仓后,经过流式计算,明细数据进入Doris/StarRocks集群ODS层,数据聚合计算后进入DWS层,数据指标经计算后存入ADS层。数据支撑在线更新。由Doris/StarRocks对数据应用层提供服务,支持在线、离线查询分析,支持几十万级QPS。
Image

OLAP多维分析

StarRocks 是一款高性能的分析型数据库,专为 OLAP(在线分析处理)查询设计,它能够与多种 BI(商业智能)工具集成,这意味着可以将 StarRocks 作为数据源,直接在这些工具中进行数据查询和分析。这种集成能力使得企业能够利用 StarRocks 的强大分析能力,结合 BI 工具的可视化和报告功能,更有效地洞察数据,做出决策。
StarRocks 支持标准的 SQL 接口,这使得它能够轻松地与各种 BI 工具连接,如 Tableau、Power BI、Looker 等。这些工具通常提供图形界面,让用户能够通过拖放的方式构建复杂的查询和仪表板,而无需编写复杂的 SQL 代码。StarRocks 的高性能查询引擎确保了即使在处理大规模数据集时,BI 工具也能快速响应用户的查询请求,提供实时的数据分析结果。StarRocks 的兼容性不仅限于传统的 BI 工具,它还支持与现代的、基于云的 BI 平台集成,如火山引擎智能数据洞察平台ABI等。这种广泛的兼容性使得 StarRocks 能够适应不同的业务场景和技术栈,为用户提供灵活的数据访问和分析选项。
借助StarRocks 与多种 BI 工具标准化集成的能力,能够支持企业用户的数据分析平台场景,使得管理决策及数据分析人员可以更直观、更快速地从数据中提取价值,支持业务决策。

Serverless Presto 应用场景

在大数据时代,SQL 作为数据分析的通用语言,于大规模数据集的处理中起着举足轻重的作用。尽管大数据技术日新月异,Hive 依旧是大数据 SQL 领域的坚实基石。它提供了类似 SQL 的查询接口 ——HiveQL,使用户能够轻松地对存储于 HDFS 或其他兼容存储系统中的大规模数据进行汇总、即席查询与分析,而无需深入洞悉底层分布式计算的复杂性。Presto 通过与 Hive Metastore 集成,获取 Hive 表的元数据信息。Presto 的 Hive 连接器允许其直接与 Hive Metastore 进行通信,从而能够访问 Hive 表的模式、表名、列名等元数据,并利用这些信息构建查询计划,确定数据的位置。
当面对 TB 乃至 PB 量级的数据时,Presto 是专门针对大数据查询进行优化而顺势而生的,Presto 保留了 SQL 的易用性,又引入了诸多创新技术,以实现对大规模数据的高效查询。Presto 充分利用现代硬件的高速内存,将中间结果存储于内存而非传统的磁盘上,极大地减少了 I/O 操作,显著提升了查询速度。Presto 的 SQL 语法更趋近于传统 SQL,使其在交互式查询和实时分析场景中表现卓越,而 Hive 则更适合批处理和离线分析场景。
Presto 在需要快速、交互式查询多种数据源的场景中表现突出,如即席分析、商业智能报告和实时数据探索。其无需进行 ETL 即可连接多种存储系统的特性,使其成为构建统一数据访问层、实现跨源分析的理想之选。
Serverless Presto 支持快速部署和事件驱动,完美适应了 Serverless 架构的事件驱动模型。在容错性和简化部署方面,无状态的特性使得 Serverless 应用更易实现高可伸缩性,且容错性更强,同时也简化了部署与维护。
企业可以选择在构建数仓初期就使用 Serverless Presto ,同样支持在已经运行的数仓上新增部署 Presto,通过简单的元数据配置即可实现与原数仓的跨源查询。用户在提交查询时可以根据场景需要和要查询的数据选择使用 Presto 或者 Spark 进行查询。
Image
综上所述,Presto 在查询速度、内存计算、数据源支持、SQL 语法、内置函数和操作符、性能优化以及适用场景等方面相较于 Hive 具有显著优势。这些优势使得 Presto 成为进行交互式数据分析的理想选择,尤其在需要实时或近实时结果的应用场景中。