目录
产品简介
vearch 是京东研发的一款分布式向量搜索系统,可以用来计算向量相似度或用于机器学习领域 如:图像识别, 视频识别或自然语言处理各个领域。
本系统基于 faiss 实现, 提供了快速的向量检索功能。提供类似 elasticsearch 的 restful api 可以方便的对数据及表结构进行管理查询等工作。
产品架构
vearch整体架构有三部分组成:master,router 和 partition server(ps)。其中master负责对整个vearch集群的资源进行调度和管理;router负责对用户所有的请求进行解析路由 和转发;partition server(ps)则是存储及重要的计算节点,可以提供存储、检索文档、向量、标量的能力。
产品功能
1、支持cpu与gpu两种版本。
2、支持实时添加数据到索引。
3、支持单个文档定义多个向量字段, 添加、搜索批量操作。
4、支持数值字段范围过滤与string字段标签过滤。
5、支持ivfpq、hnsw、二进制等索引方式(hnsw、二进制方式4月下旬发布)。
6、支持python sdk本地快速开发验证。
7、支持机器学习算法插件方便系统部署使用
系统特性
1、自研gamma引擎,提供高性能的向量检索。
2、ivfpq倒排索引支持compaction,检索性能不受文档更新次数的影响。
3、支持内存、磁盘两种数据存储方式,支持超大数据规模。
4、基于raft协议实现数据多副本存储。
5、支持内积(innerproduct)与欧式距离(l2)方法计算向量距离。
应用场景
-
人脸识别应用
在人脸识别应用中,vearch向量检索系统可以帮助企业相关业务系统在不对基础设施进行大幅投资的前提下,提升特征向量检索的速度,降低存储资源消耗,节约总体拥有成本(tco),从而助力构建更加敏捷高效的ai应用。
-
电商场景应用
通过基于vearch的实时在线相似性图片搜索服务,电商平台能够为用户提供同款商品的搜索服务,让用户体验更加便捷、直观的购物方式。
所属公司
京东
相关资料
- vearch 官方产品文档:https://vearch.readthedocs.io/zh_cn/latest/overview.html
- vearch 开源地址:https://github.com/vearch/vearch
- 《vearch 的 gpu 方案在海量向量检索系统上的应用创新》
为了进一步提升vearch系统在性能和资源利用方面的能力,京东与英特合作,在基于英特尔®至强®可扩展处理器的服务器上,通过原始向量压缩、string字段压缩、内存整理、图 量化组合索引等方式对系统进行优化。