1.MixQuery系列(一):异构数据混合查询引擎调研
MixQuery系列(一):异构数据混合查询引擎调研
当前存储引擎多样,世今生源百花齐放,世今生源其原因在于不同存储各具优劣与适用场景。世今生源业务场景中,世今生源不同特性数据被分别存储,世今生源带来异构数据与源的世今生源源码巅峰挑战,如跨源查询与跨集群查询。世今生源异构数据关联分析需先处理整合至同一存储,世今生源再进行关联,世今生源流程冗长,世今生源成本高且资源浪费。世今生源直接基于异构数据源实现联邦查询,世今生源能显著提升效率。世今生源
跨集群数据查询成为难题,世今生源尤其在冷热数据分离场景下,世今生源波段有序指标源码数据配置差异导致不同集群对应不同数据层级。政策、因素影响下,数据分布于私有云、公有云及与公网隔离集群内,跨集群与DC查询需求凸显。
解决跨数据源及跨DC查询问题,价格分布指标源码混合查询引擎应运而生。此类引擎需具备:统一SQL查询语言,屏蔽底层细节;灵活支持多种计算引擎;具备SQL优化能力。主要能力包括:统一查询语言、灵活数据计算、SQL优化。
Presto、源码天空图片蓝色Drill、SparkSQL、QuickSql等开源解决方案,提供多源联合查询,支持本地、HDFS、HBase、源码分享文案励志MongoDB等数据存储,灵活适应不同数据格式。QuickSql利用动态调度思想,通过Apache Calcite解析,实现对不同引擎的高效路由。
SuperSQL,腾讯自研高性能大数据SQL中间件,满足跨数据中心与数据源的数据联合分析需求。基于Apache Calcite构建,通过定制、扩展与优化,实现高性能计算。
对比开源框架,QuickSql总结了Presto、Drill、SparkSql等的优劣势。SuperSQL则对所有引擎进行深入分析。Apache Calcite作为核心框架,提供跨源查询、SQL解析与优化能力。
混合查询引擎核心能力包括:支持多种计算引擎、灵活扩展数据源、自主SQL优化、完善元数据管理。开发基于Apache Calcite的混合查询框架,主要涵盖:兼容多种计算引擎、扩展数据源、自主SQL优化、元数据管理。
未来规划将逐步分享每部分实现过程,参考文档包括腾讯天穹SuperSQL、多数据源混合查询引擎前世今生等资料,深入了解混合查询引擎的技术与实践。