提交 eefe9e2c 编写于 作者: D dongshuilong

add vector search doc

上级 167f60fe
# 向量检索
向量检索在图像识别、图像检索中应用比较广泛。其主要目标是,对于给定的查询向量,在已经建立好的向量库中,与库中所有的待查询向量,进行特征向量的相似度或距离计算,得到相似度排序。在图像识别系统中,我们使用[Faiss](https://github.com/facebookresearch/faiss)对此部分进行支持,具体信息请详查[Faiss官网](https://github.com/facebookresearch/faiss)`Faiss`主要有以下优势
向量检索技术在图像识别、图像检索中应用比较广泛。其主要目标是,对于给定的查询向量,在已经建立好的向量库中,与库中所有的待查询向量,进行特征向量的相似度或距离计算,得到相似度排序。在图像识别系统中,我们使用[Faiss](https://github.com/facebookresearch/faiss)对此部分进行支持,具体信息请详查[Faiss官网](https://github.com/facebookresearch/faiss)`Faiss`主要有以下优势
- 适配性好:支持Windos、Linux、MacOS系统
- 安装方便: 支持`python`接口,直接使用`pip`安装
......@@ -26,10 +26,10 @@ pip install faiss-cpu==1.7.1post2
目前`PaddleClas`中检索模块,支持如下三种检索算法
- **HNSW32**: 一种图索引方法。检索精度较高,速度较快。但是特征库只支持添加图像功能,不支持删除图像特征功能。(默认方法)
- **IVF**:倒排索引检索方法。速度较快,但是精度略低。特征库支持增加、删除图像特功能。
- **IVF**:倒排索引检索方法。速度较快,但是精度略低。特征库支持增加、删除图像特功能。
- **FLAT**: 暴力检索算法。精度最高,但是数据量大时,检索速度较慢。特征库支持增加、删除图像特征功能。
每种检索算法,满足不同场景。其中`HNSW32`为默认方法,此方法检索精度、检索速度可以取得一个较好的平衡,具体算法介绍可以查看[官方文档](https://github.com/facebookresearch/faiss/wiki)
每种检索算法,满足不同场景。其中`HNSW32`为默认方法,此方法检索精度、检索速度可以取得一个较好的平衡,具体算法介绍可以查看[官方文档](https://github.com/facebookresearch/faiss/wiki)
## 三、相关配置文档参数介绍
......@@ -56,9 +56,9 @@ IndexProcess:
- **index_dir**:构建的特征库所存放的文件夹
- **image_root**:构建特征库所需要的标注图像所存储的文件夹位置
- **data_file**:构建特征库所需要的标注图像的数据列表,每一行的格式:relative_path label
- **index_operation**: 此次运行建库的操作:`new`新建,`append`将data_file的图像特征添加到特征库中,`remove`将data_file的特征从特征库中删除
- **index_operation**: 此次运行建库的操作:`new`新建,`append`将data_file的图像特征添加到特征库中,`remove`将data_file的图像从特征库中删除
- **delimiter****data_file**中每一行的间隔符
- **dist_type**: 特征配过程中使用的相似度计算方式。`IP`内积相似度计算方式,`L2`欧式距离计算方法
- **dist_type**: 特征配过程中使用的相似度计算方式。`IP`内积相似度计算方式,`L2`欧式距离计算方法
- **embedding_size**:特征维度
### 3.2 检索配置文件参数
......@@ -70,7 +70,7 @@ IndexProcess:
score_thres: 0.5
```
与建库配置文件相似,新参数主要如下:
与建库配置文件不同,新参数主要如下:
- `return_k`: 检索结果返回`k`个结果
- `score_thres`: 检索匹配的阈值
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册