知识库
<p>大语言模型的训练数据一般基于公开的数据,且每一次训练需要消耗大量算力,这意味着模型的知识一般不会包含私有领域的知识,同时在公开知识领域存在一定的滞后性,导致针对一些专业性问题,大模型无法精确回答。为了解决这一问题,知识库功能提供如下两个能力,一是存储和管理外部数据的能力;二是增强检索的能力。 一个知识库可以被整体集成至一个应用中作为检索上下文使用。文档可以由开发者或运营人员上传。 大模型会根据召回的内容片段生成最终的回复内容。</p>
<h2>创建与配置知识库</h2>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=ZGFmMDY0NTZjZGZiYjc3YTM2NGE3OTRlMjg0ZDFiYmNfQnZTaXBYZXhEUmU2ZGFJV2hmZjREenJnS2dGQlpTWnZfVG9rZW46VUZUZmIzeGlZb1pMRXV4U2MxZmN6bnQybk9jXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
<h3>知识库创建</h3>
<p>点击左侧导航栏中的<strong>知识库</strong>按钮进入知识库管理页面,点击创建知识库。单用户最多创建50个知识库</p>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=NjU4NjYyMzQyNWFkNzY1N2EyYmQyZTJhZDliZjI1NDBfOXlJWWhja3RCdHh3cTllTVpNbzBLRDRDNTlEQ1JBVWVfVG9rZW46RnpuSWIzUW9Bb2h4Y2R4TjdjVGN2VzQ4bmVnXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
<ul>
<li>
<p>创建知识库需填写的信息:知识库名称、知识库描述</p>
</li>
<li>文件上传指定的文件类型:TXT、MARKDOWN、PDF、HTML、XLSX、XLS、DOCX、CSV</li>
</ul>
<h3>知识数据处理</h3>
<ul>
<li>
<p><strong>分段设置:</strong></p>
<ul>
<li>
<p><strong>自动分段与清洗方式:</strong>自动模式适合对分段规则与预处理规则尚不熟悉的初级用户。在该模式下,平台将为你自动分段与清洗内容文件,你不需要进行任何筛选与操作。</p>
</li>
<li>
<p><strong>自定义:</strong>自定义模式适合对于文本处理有明确需求的进阶用户。在自定义模式下,你可以根据不同的文档格式和场景要求,手动配置文本的分段规则和清洗策略。配置参数如下:</p>
<ul>
<li>
<p><strong>分段标识符:</strong>系统将在文本中出现指定的标识符的分段,文本换行时将自动分段;</p>
</li>
<li>
<p><strong>分段最大长度:</strong>根据分段的文本字符数最大上限来进行分段,超出该长度时将强制分段。一个分段的最大长度为 4000 Tokens;</p>
</li>
<li>
<p><strong>分段重叠长度:</strong>分段重叠指的是在对数据进行分段时,段与段之间存在一定的重叠部分。这种重叠可以帮助提高信息的保留和分析的准确性,提升召回效果。建议设置为分段长度 Tokens 数的 10-25%。</p>
</li>
<li><strong>文本预处理规则:</strong>文本预处理规则可以帮助过滤知识库内部分无意义的内容。例如替换连续的空格、换行符和制表符;删除所有 URL 和电子邮件地址。</li>
</ul>
</li>
</ul>
</li>
<li>
<p><strong>Embedding模型设置:</strong></p>
<ul>
<li>
<p>Embedding 模型用于将自然语言处理转为向量,用于后续检索和大模型处理</p>
</li>
<li>可选择的内置embedding模型,或在设置-模型来源中添加第三方embedding模型</li>
</ul>
</li>
</ul>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=NDU4NmFlNGNlODFiODY2MzRjZjc0ODViY2VhZGU0NzJfY0g4WGI1N0ZZRjF4YzlwVHY4OFNwcWg3QlJYSXc0aDFfVG9rZW46SkJwUGJ3ekM3b211cnp4eHVQdmNnOEdabnZlXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
<ul>
<li>
<p><strong>知识检索设置</strong></p>
<ul>
<li>
<p><strong>向量检索:</strong>通过向量化用户输入的问题并生成查询向量,比较查询向量与知识库内对应的文本向量距离,寻找最近的分段内容。通过生成查询嵌入并查询与其向量表示最相似的文本分段。支持设置以下参数:</p>
<ul>
<li>
<p><strong>TopK:</strong> 用于筛选与用户问题相似度最高的文本片段。系统默认值为 3,数值越高,预期被召回的文本分段数量越多 。可选择范围是1-10。</p>
</li>
<li>
<p><strong>Score 阈值:</strong> 用于设置文本片段筛选的相似度阈值。系统默认关闭该设置,即不会对召回的文本片段相似值过滤。打开后默认值为 0.5 。可选择范围是0-1。数值越高说明对于文本与问题要求的相似度越高,预期被召回的文本数量也越少。</p>
</li>
<li><strong>Rerank模型:</strong>开启“Rerank 模型”后,系统会在语义检索后对已召回的文档结果再一次进行语义重排序,优化排序结果。设置 Rerank 模型后,TopK 和 Score 阈值设置仅在 Rerank 步骤生效。</li>
</ul>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=NTk1N2IzZjk4MjUzMTRlYjIxODE0YzllZTcwYTA5NzhfSHlDRTFFV1pvZVRwQzBTcE96SWZ2cXdNTEhBNWFPbHpfVG9rZW46WlJkRWJiQ0o1b1J3Z3N4NnBUaWNHTlpVbkljXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
</li>
</ul>
</li>
<li>
<p><strong>分段预览</strong></p>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=MTljZmI4ODVhMjJhMWYyZjVlMjFkZGQyOGY5NzY2MGZfNHNneXZLdUNZRDNvQ05vZzdTVGFWRjR3bEIweWhWSzFfVG9rZW46RXV3QWJ1VkdvbzRSdFl4M240cGNTRHVObkVnXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
</li>
<li>
<p>按照选定的规则模式展示知识库切片的具体内容。您可以修改每个切片中的文本信息或者增加删除切片。</p>
</li>
<li>对于暂时不引用的切片也可以点击右侧关闭按钮,关闭后检索系统将不会提取其中的内容。</li>
</ul>
<h3>完成配置</h3>
<ul>
<li>
<p>完成文件上传和基础设置后,系统会自动根据设置的参加进行知识库索引,根据上传文件的大小和选择的策略索引时间有所不同。在处理过程中,您可以进行其他操作,文档处理会在后台进行。</p>
</li>
<li>只有索引完成的知识库才可以在应用中被添加。在知识库列表中可以查看知识库索引的状态。</li>
</ul>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=N2ZiZTQyODJkZjQzZWI4MDlkNTU5NWQ1NzdhYjAzZGVfUkYzUjNqbnBmc1V2SkJMOUpCdFpwYlA2TEpYbDRSWGlfVG9rZW46QXBHeGJ5elI1bzh5NGh4aU9sSmNqU05ZbjFlXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
<h2>已有知识库管理</h2>
<ul>
<li>
<p>知识库管理页面展示当前知识库中包含的所有文档。您可以根据具体场景开启或关闭某个文档</p>
</li>
<li>
<p>点击已创建的知识库右侧添加文件按钮,继续添加更多文件。</p>
</li>
<li>
<p>点击顶部设置按钮,支持对当前知识库的名称、简介、检索配置等信息进行修改</p>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=ODUxZGQ1OTVlZmNiMTc0OTM4NmIwMDNhMmY4NGU1ZmJfZExCMzZtNUt5YlhEcUJTdGYyT0RwY01PSkhjRENsWEJfVG9rZW46QjhvVWIzMTU1b2NJVEx4OExuMGN2YWNqbnNkXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
</li>
</ul>
<h2>召回测试</h2>
<p>为了保证知识库检索的效果,平台支持单独对知识库进行检索找回测试。</p>
<p><img src="https://k36drdpyul.feishu.cn/space/api/box/stream/download/asynccode/?code=YTFjMDI2MzAzNDRkNTE2ZmIzMDQ4MjY1YjYzMDQ0ZjRfV3RWeU42U24yWHhHTkFzU3hxU0E4c1FmZFdjUFZ3aVFfVG9rZW46T0M0MmJlcUVib0VUUEV4bngyZ2NuMU41blEyXzE3MzUwMDk5NDc6MTczNTAxMzU0N19WNA" alt="" /></p>
<ul>
<li>
<p>在输入框中输入待测试的内容,系统会根据检索配置进行召回测试,并将结果展示在右侧展示。</p>
</li>
<li>
<p>页面下方展示当前知识库检索历史记录,其中包含召回测试的检索记录和智能体应用中对该知识库检索的记录</p>
</li>
<li>
<p>召回测试配置建议:</p>
<ul>
<li>
<p>设计并整理覆盖常见用户问题的测试用例/测试问题集。</p>
</li>
<li>
<p>修改检索策略:向量检索。</p>
</li>
<li>调试召回分段数量(TopK)和召回分数阈值(Score),需根据应用场景、包括文档本身的质量来选择合适的参数组合。</li>
</ul>
</li>
</ul>