向量搜索
基于 AI 神经网络的语义搜索,让您能够根据含义而非关键词查找文档。
语义搜索简介
传统的关键词搜索只能匹配精确的文字,而 InfMind 的向量搜索能够理解查询的语义含义,即使您使用不同的表达方式,也能找到相关的文档。
什么是向量搜索?
向量搜索(Vector Search)是一种基于语义相似度的搜索技术。系统会:
- 将文档内容转换为高维向量(数百维的数字数组)
- 将您的查询也转换为相同维度的向量
- 计算查询向量与所有文档向量的相似度
- 返回最相似的文档及其匹配度
语义理解
例如,当您搜索"如何提升模型准确率"时,系统能找到包含"改善算法性能"、"增强预测精度"等表述的文档,因为它们在语义上是相似的。
工作原理
知识库使用 SOTA(State-of-the-Art)级别的 Embedding 神经网络进行向量化:
向量化流程
1
文档上传
当您上传文件时,系统首先进行文档解析,提取文本内容。
2
文本分割
长文档会被智能分割成多个语义完整的片段(chunk)。
3
向量转换
Embedding 神经网络将每个文本片段转换为高维向量。
4
索引存储
向量被存储在专用的向量数据库中,建立语义索引。
整个过程在后台自动完成,您可以在文件列表的"状态"列查看处理进度。
基础搜索
工具栏的搜索框提供快速的关键词搜索功能。
使用方法
在工具栏左上角的搜索框中输入关键词,系统会实时筛选匹配的文件和文件夹:
- 匹配文件名和文件夹名
- 不区分大小写
- 支持部分匹配
- 300ms 防抖优化,流畅输入
适用场景
基础搜索适合快速查找记得名称的文件,或按文件名模糊筛选。如需根据文档内容搜索,请使用向量搜索。
向量搜索
向量搜索是知识库的核心功能,提供深度语义理解能力。
打开向量搜索
有两种方式打开向量搜索对话框:
- 点击桌面端右侧向量搜索面板底部的"向量搜索"按钮
- (移动端)使用顶部菜单进入向量搜索
执行搜索
1
输入查询
在搜索框中输入您想查找的内容,使用自然语言描述即可。
2
开始搜索
点击"搜索"按钮或按
Enter 键开始搜索。3
查看结果
系统会显示最相关的文档片段,按相似度排序。
4
打开文档
点击任意结果可以打开对应的文件详情。
查询示例
向量搜索支持各种自然语言查询:
查询示例text
# 概念查询
"深度学习的基本原理"
"什么是强化学习"
# 方法查询
"如何优化神经网络"
"提升模型性能的方法"
# 问题查询
"为什么会出现过拟合"
"如何选择学习率"
# 应用查询
"计算机视觉在医疗中的应用"
"自然语言处理的实际案例"提示
尽量使用完整的句子或短语进行查询,这样系统能更准确地理解您的意图。避免使用过于简短的单个词语。
搜索技巧
掌握以下技巧,让您的搜索更高效:
1. 使用具体的描述
越具体的查询,结果越精准:
- ❌ 不好:"学习"
- ✅ 较好:"机器学习算法"
- ✅✅ 最好:"监督学习中的分类算法"
2. 使用问题形式
如果您在寻找某个问题的答案,直接用问句查询:
- "如何防止神经网络过拟合"
- "什么是注意力机制"
- "为什么需要数据归一化"
3. 尝试不同表述
如果第一次搜索结果不理想,尝试换个说法:
- "提升模型准确率" → "改善预测性能"
- "加快训练速度" → "减少训练时间"
4. 关注上下文
添加领域或场景信息,缩小搜索范围:
- "计算机视觉中的数据增强技术"
- "自然语言处理的预训练模型"
5. 搜索特定概念
如果您记得文档中的某个关键概念或术语:
- "Transformer 架构的优势"
- "卷积神经网络的工作原理"
结果解读
向量搜索结果包含丰富的信息,帮助您快速判断相关性。
结果项信息
每个搜索结果显示:
- 文档片段:引用样式显示匹配的内容片段,最多 3 行
- 序号:结果排名,从 [1] 开始
- 文件名:来源文档的名称
- 匹配度进度条:可视化显示相似度
- 匹配度百分比:精确到小数点后 1 位
匹配度说明
匹配度(相似度)表示文档片段与您的查询在语义上的接近程度:
- 90% 以上:高度相关,内容基本匹配您的查询
- 80% - 90%:很相关,内容与查询有较强关联
- 70% - 80%:相关,内容涉及类似主题
- 60% - 70%:弱相关,可能包含部分相关信息
- 60% 以下:不太相关,可能是误匹配
注意
匹配度是相对值,不同类型的查询阈值不同。有时即使 70% 的匹配度也能找到有用的内容。建议浏览前 5-10 个结果。
查看完整文档
点击任意搜索结果会:
- 关闭向量搜索对话框
- 打开文件详情对话框
- 显示完整的文件内容和元信息
您可以在详情对话框中进一步操作文件(下载、重命名、删除等)。
空结果处理
如果搜索没有返回任何结果,可能的原因:
- 知识库中没有相关内容
- 文件还在处理中,尚未完成向量化
- 查询过于宽泛或过于具体
- 查询用词与文档内容表述方式差异较大
建议:
- 检查文件状态,确保已完成向量化
- 尝试不同的查询表述
- 使用基础搜索按文件名查找
- 上传更多相关文档丰富知识库