作者:杨雨虹 历史版本:1 最后编辑:杨雨虹 更新时间:2025-05-21 17:35
概述
由于大语言模板训练一般基于公开的数据,不包含私有领域知识,同时公开领域的数据存在一定的滞后性,导致针对一些专业性问题,大模型无法精确回答。为解决这一问题,知识库提供了存储和管理外部数据的功能和增强检索功能。
- 一个知识库可以被整体集成至一个应用中作为检索上下文使用。
- 文档可以由开发者或运营人员上传。
- 大模型会根据召回的内容片段生成最终的回复内容。
创建知识库
- 点击【创建知识库】
- 点击【创建一个空知识库】
- 此时在知识库中添加知识文档即可
导入已有文本
- 上传指定的文件类型,支持 TXT、 MARKDOWN、 MDX、 PDF、 HTML、 XLSX、 XLS、 DOCX、 CSV、 VTT、 PROPERTIES、 MD、 HTM,每个文件不超过 15MB。
- 支持批量上传。
- 在知识库中点击【添加文件】,上传文件,点击下一步
- 设置文本分段和清洗,点击保存并处理
(参考章节文本分段与清洗)
- 点击前往文档进行查看
同步自Notion内容
- 点击【创建知识库】,选择【同步自Notion内容】
- 根据提示完成绑定。
- 回到创建知识库的页面,点击同步自 Notion 内容,选择需要的授权页面进行导入。
- 进行分段和清洗后,点击保存并处理即可。
(参考章节文本分段与清洗)
- 若Nation内容有更新,点击右上角的同步按钮。
同步自Web站点
以Firecrawl工具为例:
点击【创建知识库】,选择【同步自Web站点】,选择Firecrawl工具
输入需要爬取的网页,点击运行
进行分段和清洗后,保存并处理即可查看,网页中的内容将会被收录至知识库内。
(参考章节文本分段与清洗)
管理知识库
进入知识库,可以在此对内容进行维护
知识库设置
点击左侧导航中的设置可以进行调整名称、描述、可见权限、索引模式、Embedding 模型和检索设置。
- 知识库名称:用于区分不同的知识库。
- 知识库描述:用于描述知识库内文档代表的信息。
- 可见权限:提供 “只有我” 、“所有团队成员” 和 “部分团队成员” 三种权限范围。不具有权限的人将无法访问该知识库。若选择将知识库公开至其它成员,则意味着其它成员同样具备该知识库的查看、编辑和删除权限。
- 索引方法:详细说明请参考[索引方式]。
- Embedding 模型: 修改知识库的嵌入模型,修改 Embedding 模型将对知识库内的所有文档重新嵌入,原先的嵌入将会被删除。
- 检索设置:详细说明请参考[知识检索设置]
查看关联应用
- 知识库将会在左侧信息栏中显示已关联的应用数量。
- 点击关联的应用可快速跳转到应用编排界面。
召回测试
为了保证知识库检索的效果,平台支持单独对知识库进行检索找回测试。
- 在输入框中输入待测试的内容,系统会根据检索配置进行召回测试,并将结果展示在右侧展示。
- 页面下方展示当前知识库检索历史记录,其中包含召回测试的检索记录和智能体应用中对该知识库检索的记录。
召回测试配置建议:
- 设计并整理覆盖常见用户问题的测试用例/测试问题集。
- 修改检索策略:向量检索。
- 调试召回分段数量(TopK)和召回分数阈值(Score),需根据应用场景、包括文档本身的质量来选择合适的参数组合。
元数据
元数据是用来描述数据的信息,简单来说就是“描述数据的数据”,通过提供数据的上下文,元数据能在知识库内快速查找和管理数据。
详细说明请参考[元数据]