You need to enable JavaScript to run this app.
导航
高并发点查最佳实践
最近更新时间:2025.01.09 19:32:27首次发布时间:2025.01.09 19:32:27

ByteHouse云数仓版支持对 PB 级海量数据进行高效分析,本文为您介绍在高并发点查场景下,提高查询效率和性价比的最佳实践。

计算资源建议

购买专属Server

ByteHouse云数仓的Server组件负责SQL的解析、优化、和查询调度,在QPS>1000的高并发场景下,公共Server容易成为性能瓶颈。因此,当您需要使用ByteHouse云数仓支撑高并发点查业务时,我们建议您购买专属Server以获得最佳性能。
Image
专属Server是 ByteHouse 云数仓提供的 专属计算资源 解决方案,通过为用户分配独立的计算节点(Server),实现资源隔离、性能保障和更高的灵活性详情请参见专属Server
成功购买专属Server后,后续查询即会自动使用专属Server,以保障查询的计算资源。

计算组隔离&规格建议

如果您未购买专属Server使用的是公共计算组,在同时有点查、OLAP、ELT等多种查询场景时,为了避免点查业务受其他查询场景的影响,我们建议您为点查业务购买独立的计算组。规格起步用XL(32核128GB,2 节点)即可,后续可按需升配或降配。
购买专属计算组后,后续在点查SQL中,您可在查询SQL中通过SET参数指定使用的计算组,以保障计算组资源隔离,示例如下:

  • 可以放到SQL的末尾:select ... settings virtual_warehouse='xxx'
  • 可以在会话级别:set virtual_warehouse='xxx'

表设置DDL建议

在高并发点查场景下,建议建表时,为表设置合适的排序键/分桶键/索引。
以下面的点查SQL为例:id是表的唯一键,date是分区字段。

SELECT * FROM t WHERE id = ? and date = ? and ...;

建议建表DDL为:

CREATE TABLE t
(
  id Int64,
  date Date,
  ....,
  INDEX idx_id id TYPE bloom_filter GRANULARITY 1
)
ENGINE = CnchMergeTree
PARTITION BY date
UNIQUE KEY id
ORDER BY id
[CLUSTER BY id INTO <N> BUCKETS] -- 表或单分区行数超过100万时考虑添加
SETTINGS index_granularity = 1024;

建模说明

重要设置

示例

说明

表参数(SETTINGS)

index_granularity = 1024

ByteHouse 为了提升大规模数据集的存储和内存使用效率,索引的最小单位不是行,而是每index_granularity行(称为granule 颗粒)。这种技术叫做稀疏索引
index_granularity 的默认大小为 8129,即每8192行组成一个颗粒。在点查场景中,查询往往只命中一行数据。这时调小index_granularity参数可以降低读取过程的读放大效应。但是index_granularity越小,索引的存储占用和计算成本也会越高。
经过实验评估,1024 是适合推荐给点查场景的经验值。

排序键(ORDER BY)

ORDER BY id

在示例的SQL中,唯一键id列的过滤条件有最佳的过滤效果。将id列作为排序键的第一个字段,查询可以充分利用主键索引(Primary Index)提前过滤掉无法命中谓词的granules。

跳数索引(Skip Index)

INDEX idx_id id TYPE bloom_filter GRANULARITY 1

主键索引由于是稀疏索引,即使某个数据文件不包含指定的id,通常也需要至少读取一个granule。
为了降低假阳率,可以为id列创建bloom filter类型的跳数索引,该索引会为每个granule创建一个bloom filter。这样,当某个数据文件不包含指定id时,就有非常高的概率可以直接跳过该文件的读取。

分桶(CLUSTER BY)

CLUSTER BY id INTO <N> BUCKETS

分桶可以将分桶键取值相同的行分配到同一个数据文件中。针对分桶键精准过滤的查询,可以利用分桶裁剪技术,在查询规划阶段就排除掉无法命中谓词的数据文件和计算节点,从而显著提升并发性能。
该示例的点查SQL原本需要计算组的所有节点参与计算,添加id列分桶后,利用分桶裁剪技术,只需要1个节点参与计算。能够显著提升点查QPS。
分桶的数量一般为计算组节点数的整数倍,建议取 #节点 x 1 或者 #节点 x 2

查询DQL建议
  • 点查的SQL建议指定 enable_point_lookup_profile = 1 参数,以获得最佳性能。

    SELECT * FROM t WHERE id = 10000 SETTINGS enable_point_lookup_profile = 1;
    
  • 对于Flink lookup场景,可以通过异步lookup增加查询并发,从而提升整体QPS。