目录
产品简介
trs海贝大数据管理系统是拓尔思自主研发的一款搜索引擎数据库。trs 海贝大数据管理系统定位为大数据应用支撑软件,为大数据应用提供高效的数据存储、全文检索、分类统计等数据管理服务,支持几乎所有类型的数据,包括文本、数字、地理空间、图片等各种结构化、半结构化和非结构化数据。系统从设计之初就考虑到海量数据的特点,支持ssd、hdd、hdfs混合存储,引入了多副本、列存储和内存索引等机制,充分利用现代计算机多cpu、大内存的特点,实现分布式并行计算,满足用户对海量数据交互式处理的需求。
产品功能
- 数据管理
数据类型:hybase存储数据类型包括字符型(char)、日期型(date)、数值型(number)、短语型(phrase)、全文型(document)、二进制型(bit)以及对象型(object,使用json格式结构)。系统原生支持附件的存储,并且可以实现文档数据的自动抽取和索引,方便数据的管理。
数据导入:使用数据文件批量导入:包括api工具、管理台工具、批量导入脚本工具、mapreduce数据实时导入、离线索引归并导入等方式。
使用trs adapter数据整合工具直接对接导入。逐条记录导入:包括hybaseapi工具、管理台工具、sql语句等。
数据操作:支持数据排重、按记录删除、按查询语句删除、按记录uuid更新、按唯一值字段更新、使用文件批量更新等操作。
数据导出:hybase提供高效的数据导出操作,可以导出检索后数据、按子库导出部分数据以及全数据导出,导出方式的包括以下几种方式:
海贝api导出接口、管理台导出接口、数据导出脚本、离线导出、mapreduce导出等。
- 数据检索
全文检索:支持全文文本的精准检索、模糊检索、范围检索、距离检索、短语检索、like检索、include检索、多值检索等; 支持按字段排序、相关度排序,同时可以设置字段权重进行排序。
地图检索:支持基于经纬度信息的距离范围检索,矩形范围检索,多 边形范围检索等一系列空间检索模式,结合openstreetmap等开源软件,快速实现基于地理位置信息的lbs应用。
ip检索:系统支持对ip索引,可以通过子网掩码、ip端等进行检索。
二进制检索:系统支持小文件的二进制索引,允许通过二进制文件的代码片段查找相似的文件。
- 数据统计
检索统计:sum(col1,col2) 将检索结果的col1和col2字段进行求和。
分类统计:根据检索结果,按照字段进行分类后,输出类别对应的频次、记录数等,支持多个类别的合并。
多维统计:根据查询结果,输出所有文章不同版次下,各个作者发表的数量,采用二维统计。多维统计,每一维度支持最大、最小、求和等统计函数,每一维度可以设置关注列表。
- 权限管理
权限控制:结合系统的读写权限控制、https安全访问、ip黑白名单等机制,保证用户数据的访问安全。
逻辑隔离:不同模式包含不同数据库,通过指定用户的访问模式,进行数据库访问上的逻辑隔离。
物理隔离:不同模式可以指定不同服务器组,模式下的数据库仅存储于指定服务器上,实现数据的物理隔离。
- 系统管理
可视化集群状态监控:包括cpu、io、网络、检索速度、装库速度、内存使用、磁盘使用等属性。
系统任务监控:监控集群各个节点当前正在执行的装库、检索、数据删除、修改等操作的任务状态,包括任务开始时间、持续时间、任务详情等。
集群管理:进行集群的自动部署、扩容、hadoop的自动安装。
作业管理: 支持后台作业的添加与操作,包括离线索引导入作业、磁盘数据自动迁移作业、数据拷贝作业、数据重分布作业等。
- 生态对接
hadoop对接:hadoop作为一个标准组件引入,系统充分利用hdfs文件系统的高可靠性和高扩展性,实现数据的安全备份;利用mapreduce实现离线索引和数据导入,实现读写分离。
spark/sparksql对接:无缝对接spark/sparksql2.0,实现数据的灵活加载,大大提高spark/sparksql的数据处理效率,支持jdbc访问。
openstreetmap对接:与openstreetmap对接,实现地图检索,以及基于地理位置信息的lbs应用。
可视化的etl工具:与可视化工具etl配套,通过简单拖拽即可实现数据的抽取、转化、加工、导入、同步等。
水晶球分析师平台:对接trs水晶球分析师平台,将海贝的分析结果导入trs水晶球分析师平台中,实现数据的挖掘和展现。
产品优势
-
完善权限管理机制
不同等级用户的访问控制
用户ip黑白名单控制
用户逻辑隔离和物理隔离
数据加密存储、传输 -
高效检索机制
实时索引、离线索引、读写分离、二级分区、列存储、冷热数据分离 -
智能化自然语言处理
单一分词器,支持全语种数据统一处理;p字词混合分词模式兼顾,查全率和查准率;p支持词典的统一维护,无需重构索引 -
高可靠性
扁平化设计,弹性扩展
pb级海量数据支撑
基于hdfs多副本机制
异常感知、自动恢复 -
易用性
功能一体化系统管理台
支持自动化部署和自动化更新
高效m6米乐安卓版下载的技术支持服务 -
混合存储机制
支持ssd、非ssd、hdfs等多种文件系统统一管理,充分利用各种存储的特点,实现数据的高效访问和海量存储需求。
所属公司
北京拓尔思信息技术股份有限公司。拓尔思公司在人工智能领域的优势核心技术方向是语义智能——基于语义理解的认知智能,是被称为人工智能皇冠上的明珠的“硬科技”。
相关资料
trs hybase 官方地址:http://www.trs.com.cn/cphfw/hybase/