Apache Doris 是一个现代化的 MPP 分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,可高效地进行实时数据分析。Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。
Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。
特点 | 说明 |
---|---|
MySQL 协议兼容 | Doris 兼容 MySQL 连接协议,用户可直接使用 MySQL 的相关库或者工具对Doris集群进行连接访问。 |
现代化 MPP 架构 | Doris 使用 MPP 分布式计算架构进行任务计算,能够支持聚合,排序,连接等计算任务的高效执行。Doris支持复杂 Join,支持多层嵌套子查询。 |
数据更新 | Doris 支持按主键删除和更新数据。 |
高可用和高可靠 | Doris 中 FE 的元数据和 BE 的数据都会有副本机制。 |
极简运维, 弹性伸缩 | FE 节点和 BE 节点都可以进行横向扩展。扩展BE 节点后,Doris 会自动根据节点间的负载情况,进行数据分片的自动均衡,无需人工干预。 |
物化视图和预聚合引擎 | Doris 支持通过物化视图或 Rollup 表的形式对数据预聚合计算后的结果进行存储,从而加速部分聚合类场景的查询效率。 |
联邦查询 | Doris 可以高效的分析本地存储的数据,也可以作为计算引擎直接联邦查询数据湖中的数据,支持包括 Apache Hive、Apache Iceberg、Apache Hudi 等数据组织结构,支持 Parquet、ORC、CSV 等文件格式,也支持 HDFS、TOS 等存储方式。使用 Doris 查询数据湖数据, 可以充分发挥向量化引擎的优势, 大大提升了数据湖分析的性能。 |
FE: Doris 的前端接入节点,集群元数据存储在 FE 中的 Catalog 中。BE负责接收SQL,解析SQL,进行优化,并产生对应的执行计划,提交执行计划给 BE,由 BE 负责任务的具体执行。
BE: Doris 的后端执行节点,负责具体 SQL 任务执行。BE 节点会在本地存储数据,也可以访问远端存储,例如 HDFS/S3,获取对应表数据,进行计算。
更多信息可以参考 Doris官网。