目录导读
简介
ebase(ap)数据库是由中兴通讯自主研发的面向olap场景的分布式数据库产品,采用计算存储分离 多master架构,支持最大1024节点规模,支持在线弹性扩容;支持多写多读、列式存储、压缩存储等关键特性;支持湖仓一体化,消除数据孤岛;对接大数据生态工具(flink、hive、spark等),满足用户多种数据分析场景;100%兼容postgresql,可对pb级数据进行实时多维度分析透视,极大提升用户挖掘数据价值效率。
产品介绍
- master group
master节点是数据库系统入口,接收来自客户端的请求、负责权限管理、sql解析和优化、分布式执行计划生成和分发、汇总执行结果并返回给客户端。所有master节点是无状态的,都可以接收和处理业务的读写请求,提供高并发能力。
- mds
统一元数据服务,负责存储数据库元数据信息,统一数据资产视图,多引擎可见;负责全局事务管理,协调集群事务,管理全局对象;支持对接数据湖元数据,获取元数据信息并存储为数据库可识别的格式。
- 集群通信网络
基于万兆以太网架构,负责节点间的通信。
- 数据节点
负责数据计算,每个host上可以部署多个datanode;数据按照一定的规则切片到各datanode中,支持hash、随机和复制三种切片规则。生产环境中可以根据业务特征选择合适的切片规则,发挥分布式数据库的最佳性能。
- 分布式云共享存储
采用计算与存储分离的设计理念,多个数据节点共享一份数据,极大降低了用户的存储成本。支持在线平滑扩展,不受单个服务器的存储容量限制。
产品优势
高并发读写
ebase(ap)数据库支持高并发读写:
- 统一元数据服务为多master提供统一数据视图,master节点间无需元数据同步;
- 每个master节点都可以接收客户端的读写请求,并返回一致的结果;
- 优化数据库锁机制,减少高并发场景下锁冲突。
高性能在线分析
ebase(ap)提供高性能在线分析能力,基于多master和多datanode架构,能够充分利用每个计算节点的cpu/内存/io/网络资源,达到高性能的查询和数据处理:
- master节点解析sql,生成分布式执行计划并下发到每个datanode节点;
- 分布式执行计划在每个datanode节点上对应生成多个分片;
- 每个分片同时启动形成流水线结构,从底向上依次执行,多个datanode形成并行流水线的执行架构
高效数据压缩
ebase(ap)支持数据压缩存储,利用业界领先的压缩技术,极大地节省了数据存储空间:
- 依赖于数据内容,最终可节省4-20倍的空间占用,同时获得有效的i/o 性能提升
- 支持高效压缩算法:
zstd 1-19:更快的压缩和解压缩速度
zlib 1-9:压缩比高,占用cpu资源较多,适用于cpu计算能力较强的场景
流批一体入库
ebase(ap)支持批量和实时两种数据导入方式
- 支持以lodaserver模式将hdfs、本地文件等离线数据批量导入,支撑传统数仓应用场景
- 对接flink、kafka等实时数据源,支持流式数据不落地实时入库,支撑实时数仓、即席查询等场景
- 支持orc, parquet和csv等数据格式
在线扩容
ebase(ap)支持在线扩容,包括水平扩容和垂直扩容,可线性增加存储、查询和加载性能:
- 具备超强的scale-out横向扩展能力,可扩展至1024节点
- 使用一致性哈希算法,扩容过程仅迁移少量数据
湖仓一体化分析
ebase(ap)支持统一元数据,实现湖仓一体化分析:
- 内置存储引擎支持直接解析并读取数据湖中的parquet、orc等通用格式的数据
- 获取数据湖中元数据信息,实现湖仓元数据统一
- 获取数据统计信息进行sql执行计划的优化,提升查询性能
向量化引擎加速
ebase(ap)支持全面向量化执行引擎,充分发挥了 cpu 的处理能力:
- 全面向量化引擎按照列式的方式组织和处理数据,并实现向量化各个sql 算子及表达式计算
- 通过向量化算法充分的利用 cpu 提供的simd(single instruction multiple data)指令,从而可以用更少的指令数目,完成更多的数据操作
新硬件加速
ebase(ap)支持新的计算硬件和存储硬件,进一步提升分析能力:
- 支持基于fpga的数据流加速,将压缩/解压、加密/解密等计算密集型操作的数据流处理任务,从cpu转移到fpga
- 支持基于gpu的sql加速,将对海量数据进行条件扫描、模糊匹配、排序、分组、聚合等带有通用计算和矩阵运算特征的计算转移到gpu执行
- 支持nvme高速存储
智能运维
智能运维服务提供了数据库参数智能调优、性能故障诊断和基于规则的故障诊断功能。
- 参数智能调优:根据业务模型,采集数据库状态特征和数据库所在机器的物理设备特征,优化数据库配置,提升数据库性能。
- 性能故障诊断:采集数据库运行状态时序数据和物理设备的cpu、内存、io等时序数据,智能判断当前数据库是否发生异常以及异常类型。
- 基于规则的故障诊断:通过对日志、数据库运行状态信息等筛查,可诊断集群故障、节点故障、数据库连接故障、容灾故障等多种数据库运行时常见故障。
应用场景
数据仓库服务
ebase(ap)支持高并发、高性能的在线分析能力,快速为用户提供查询结果,应用于大规模及超大规模数据处理、数据分析、数据存储和管理的数据仓库。
ods即席查询
对接flink或kafka等实时数据源,海量数据实时写入与计算,秒级返回结果,方便自由灵活的快速构建报表和自定义多维查询。
湖仓一体化分析
ebase(ap)支持统一元数据,高并行直接访问数据湖中的数据,打破湖仓界限,实现数据间的共享,支持高性能实时查询和分析,将数据仓库的高性能及管理能力与数据湖的灵活性融合起来,构筑中兴通讯统一数据湖分析平台。