RAG实践篇（一）：知识资产的“梯度”

近日，一位中国女博主赴非洲坦桑尼亚旅游，观看动物大迁徙。她表示，总共待了10天9晚，期间遇到的当地人几乎都很喜欢中国，称中国援建了他们国家，但也遇到了一颗“老鼠屎”。

近期我们结束了一个RAG项目的开发，后续将不定期掉落RAG系列的复盘与实践。如有兴趣的读者，欢迎收藏文章和关注。

你是某个企业的领域知识专家。这个月，你们公司的AI技术来通知你，你们公司会通过RAG技术，把企业的私有知识库搬进大模型。这样，以后和这个领域的专有知识有关的问题，AI就再也不会满嘴跑火车，拿着不知真回答人了。他们希望你协助整理相关知识，然后他们就能把相关知识“喂给”大模型了。

请问，作为一位领域内容专家，你此时要怎么做？

A. 多就是好！立刻把我们庞大的、百万体量的私有知识资产，源源本本地输入进去。

B. 知识资产要怎么放，放哪些，才是真的有效？

可能此时你的表情be like：

别急，我们先来了解一下，什么是RAG？为什么当企业要把领域知识/私有知识的“AI化”的时候，要用到RAG？

RAG的全称是Ret eval-Au ented Gener ion。中文可以翻译为“检索增强生成”。技术特点就是通过增强检索功能来辅助生成模型。这个技术可以允许大语言模型在“回答”之前，先从指定的“池子”里检索相关信息。这样，AI在回答问题时，它就不仅仅是依赖于其训练期间所学习到的数据，而是能够参考更多、特定的上下文信息。

说到这里，你应该能明白，RAG对企业私有知识库的作用了。从目前的生成式AI的技术而言，大模型们虽然对各种主题都有着惊人的了解，但这些了解仅限于它们训练时使用的数据，我们姑且称之为“世界知识”。这意味着当我们将它用于企业私有或专有业务信息的时候，大模型的惊人理解力就无用武之地了。因为它根本没有“训练”过相应的知识。

而RAG（检索增强生成）技术等于给大模型开了一个知识“ ”。通过这个“ ”，一些并没有包含在原始的模型训练数据中的企业私有知识、专有业务信息，也能够被检索到，然后生成正确的输出。

简单来说，RAG的工作流程可以分为以下几个步骤：

不过，当我们用RAG技术为AI模型输入知识库时，并不像往图书馆里添加新书一样清楚简单。毕竟是一种“外部检索”技术，稍有不慎就会翻车。以下是我们在做RAG时，经常会踩的坑：

误区：在专业领域中。许多文献和资料中充满了专业术语，这些术语对于非专业人士（甚至是大模型）来说都是难以理解的。

风险：当知识库内容包含大量专业术语、且文献错综复杂，对术语没有做出很好的解释和关联时，模型可能就会“倒在” 步。因为它根本无法很好地理解这些术语，更遑论最终输出正确的了。

误区：有时候，文献量太大，RAG系统在处理大量文本数据时，它可能无法有效地从中抽取关键信息。

风险：如果模型无法从复杂的文献中提取出核心要点，那么生成的可能会缺乏重点，或者包含大量无关紧要的细节，例如，在法律文献中，关键条款往往隐藏在大量法律条文中，模型在检索时可能会“忽略”，或者一股脑地提取。导致回答要么缺漏重点，要么又多又杂、找不到重点。

误区：有时候文献过多，输入到RAG系统中的数据可能包含不准确或错误的信息。比如，一个医疗的RAG系统，它的目的为医生和患者在进行询问时，提供准确的药品信息。但是，这个系统在知识库的建立时，收集了多种来源的药品说明书、临床试验报告以及的医学研究论文。就极有可能出现以下情况：

风险：生成时，可能会出现自相矛盾的回答，或者是每次的回答都不一致，容易误导用户。

误区：过时内容是指知识库中的某些信息可能已经不再适用当前的情况。

风险：如果RAG系统提供了过时的信息，那么这些信息可能会导致用户做出基于过时数据的决策。例如，在技术快速发展的领域，如信息技术或生物医药，几年前的研究成果可能已经不再适用。

误区：无关且多余的信息是指知识库中包含了一些与当前问题无关或多余的内容。