云数据仓库
企业在高速发展的业务驱动下构建数据仓库,能够帮助企业敏捷迭代,通过开源系统与旧系统低成本适配,打破数据孤岛,满足海量数据处理场景。
帮助企业更好地了解业务运行情况,发现问题和优化机会,从而提高运营效率和决策质量,例如:网络安全分析、应用性能分析、业务分析、市场营销分析等。
支持电商/金融/汽车/游戏等行业,挖掘数据资产,发挥数据价值,帮助企业提升运营效率、决策质量、精准服务、客户满意度,同时大大降低运营成本。
混合云是指同时采用公有云和私有云来部署应用程序和数据平台的架构,这种架构允许企业根据发展阶段和特定的业务形态来管理集群水位,在业务高峰期将负载路由到公有云来实现灵活扩展和按需支付IT费用。
通过这种架构升级,不但实现了灵活的资源分配和扩展,还能保证敏感数据和关键工作负载控制在私有云中,帮助企业降低私有基础设施的规模和成本,并且巧妙的实现了IT的高可用和灾难恢复能力。
客户是中国领先的在线教育科技公司,数据中台部门致力于构建一个统一的数据服务平台,在IDC内有超过1万核机器提供数据服务。随着新兴业务的兴起和海外业务的发展,数据平台的计算资源在每天早上9点到11点期间严重超水位运行,任务排队积压情况严重。在2023年底到2024年Q1,客户与火山EMR团队紧密合作,经过调研、适配、试运行、正式运行等几个阶段的落地实施,目前已经顺利上线,预计到4月底,客户每日提交到云上的算力峰值为2000核,每日使用弹性算力的时间超过8个小时,极大的缩短了客户IDC的建设周期,提高了平台稳定性,降低算力成本。
StarRocks 能够使用一套系统解决多维分析、高并发查询、预计算、实时分析查询等场景,降低系统复杂度和多技术栈开发与维护成本。StarRocks 采用 MPP(大规模并行处理)架构,能够充分利用所有节点资源,显著提升查询性能。
实时数仓对数据实时性,data serving,并发等都有较高的要求,离线分析系统无法满足该类需求。StarRocks 支持实时数据更新和删除,适用于需要频繁更新数据的场景:
企业可基于EMR Doris/StarRocks构建实时数仓。数据入仓后,经过流式计算,明细数据进入Doris/StarRocks集群ODS层,数据聚合计算后进入DWS层,数据指标经计算后存入ADS层。数据支撑在线更新。由Doris/StarRocks对数据应用层提供服务,支持在线、离线查询分析,支持几十万级QPS。
StarRocks 是一款高性能的分析型数据库,专为 OLAP(在线分析处理)查询设计,它能够与多种 BI(商业智能)工具集成,这意味着可以将 StarRocks 作为数据源,直接在这些工具中进行数据查询和分析。这种集成能力使得企业能够利用 StarRocks 的强大分析能力,结合 BI 工具的可视化和报告功能,更有效地洞察数据,做出决策。
StarRocks 支持标准的 SQL 接口,这使得它能够轻松地与各种 BI 工具连接,如 Tableau、Power BI、Looker 等。这些工具通常提供图形界面,让用户能够通过拖放的方式构建复杂的查询和仪表板,而无需编写复杂的 SQL 代码。StarRocks 的高性能查询引擎确保了即使在处理大规模数据集时,BI 工具也能快速响应用户的查询请求,提供实时的数据分析结果。StarRocks 的兼容性不仅限于传统的 BI 工具,它还支持与现代的、基于云的 BI 平台集成,如火山引擎智能数据洞察平台ABI等。这种广泛的兼容性使得 StarRocks 能够适应不同的业务场景和技术栈,为用户提供灵活的数据访问和分析选项。
借助StarRocks 与多种 BI 工具标准化集成的能力,能够支持企业用户的数据分析平台场景,使得管理决策及数据分析人员可以更直观、更快速地从数据中提取价值,支持业务决策。
在大数据时代,SQL 作为数据分析的通用语言,于大规模数据集的处理中起着举足轻重的作用。尽管大数据技术日新月异,Hive 依旧是大数据 SQL 领域的坚实基石。它提供了类似 SQL 的查询接口 ——HiveQL,使用户能够轻松地对存储于 HDFS 或其他兼容存储系统中的大规模数据进行汇总、即席查询与分析,而无需深入洞悉底层分布式计算的复杂性。Presto 通过与 Hive Metastore 集成,获取 Hive 表的元数据信息。Presto 的 Hive 连接器允许其直接与 Hive Metastore 进行通信,从而能够访问 Hive 表的模式、表名、列名等元数据,并利用这些信息构建查询计划,确定数据的位置。
当面对 TB 乃至 PB 量级的数据时,Presto 是专门针对大数据查询进行优化而顺势而生的,Presto 保留了 SQL 的易用性,又引入了诸多创新技术,以实现对大规模数据的高效查询。Presto 充分利用现代硬件的高速内存,将中间结果存储于内存而非传统的磁盘上,极大地减少了 I/O 操作,显著提升了查询速度。Presto 的 SQL 语法更趋近于传统 SQL,使其在交互式查询和实时分析场景中表现卓越,而 Hive 则更适合批处理和离线分析场景。
Presto 在需要快速、交互式查询多种数据源的场景中表现突出,如即席分析、商业智能报告和实时数据探索。其无需进行 ETL 即可连接多种存储系统的特性,使其成为构建统一数据访问层、实现跨源分析的理想之选。
Serverless Presto 支持快速部署和事件驱动,完美适应了 Serverless 架构的事件驱动模型。在容错性和简化部署方面,无状态的特性使得 Serverless 应用更易实现高可伸缩性,且容错性更强,同时也简化了部署与维护。
企业可以选择在构建数仓初期就使用 Serverless Presto ,同样支持在已经运行的数仓上新增部署 Presto,通过简单的元数据配置即可实现与原数仓的跨源查询。用户在提交查询时可以根据场景需要和要查询的数据选择使用 Presto 或者 Spark 进行查询。
综上所述,Presto 在查询速度、内存计算、数据源支持、SQL 语法、内置函数和操作符、性能优化以及适用场景等方面相较于 Hive 具有显著优势。这些优势使得 Presto 成为进行交互式数据分析的理想选择,尤其在需要实时或近实时结果的应用场景中。