RAG(Retrieval Augmented Generation,检索增强生成)

[合集]本地大模型编程实战

此系列文章讲述了：如何在普通电脑上自己写代码完成常见的基于大语言模型能力的任务。 ...

[合集]从零搭建langchain+本地大模型+本地矢量数据库的RAG系统

此系列文章详细的阐述了如何从第一行代码开始搭建一个可以运行完全在本地服务器的RAG(Retrieval Augmented Generation)系统，包含了详细的步骤说明和代码，它是保姆级教程。它主要包含以下功能：使用本地大语言模型做语言翻译使用本地大语言模型做专业领域的知识问答从系统架构来看，本系统包含了前端、API网关、后台服务三大部分： ...

程序员应该熟悉的概念(6)Fine-tuning和RAG

大语言模型/LLM 通常是由海量通用知识（如语法、常识、逻辑）训练的，在面对具体场景（如医疗问诊、法律文书生成）时，能力往往不足。 Fine-tuning/微调正是为解决这一问题而生的核心技术，其本质是在预训练模型的基础上，用特定领域 / 任务的小数据集进一步训练，让模型适配具体需求，最终输出更精准、更贴合场景的结果。 ...

本地大模型编程实战(37)使用知识图谱增强RAG(3)

本文将简单介绍如何使用 AutoSchemaKG 提升 RAG(Retrieval Augmented Generation,检索增强生成) 的问答效果。实现的主要思路是：解析知识图谱文件：用 NetworkX 解析 GraphML 知识图谱文件；嵌入：用 FAISS (Facebook AI Similarity Search) 矢量化节点（实体、事件、概念），并将边的 “源节点 + 关系 + 目标节点” 拼接为字符串之后再做嵌入；语义检索：检索 “源节点 + 关系 + 目标节点” 的矢量库，找出最相似的文档，再用大语言模型（LLM）对结果进一步筛选，筛选出节点；检索相似的 passage(文本段落)；将上述包含分数的结果合并，将分数作为初始权重，通过 NetworkX 的 Pagerank 方法在知识图谱中通过节点间的关联关系传播权重，权重更新后，选择权重最高的 passage(文本段落) 为结果。 PageRank 核心原理（知识图谱场景）：给节点赋予初始权重（与查询相关的节点权重高）每个节点将自身权重按 “出边数量” 平均分配给相邻节点（例如，节点 A 有 2 条出边，就将自身权重的 1/2 分别传给两个邻居）迭代传播，直到权重分布稳定（误差小于 tol），最终每个节点的 pr[node] 即为 “综合相关度分数”。通过权重传播，与查询节点间接关联的节点（例如 “苹果手机”→“苹果公司”→“芯片供应商”）也能获得较高分数，挖掘出 “字面不直接匹配但语义相关” 的内容。传统的 RAG(Retrieval Augmented Generation,检索增强生成) 一般是直接查询返回相似的 passage(文本段落)，没有上述通过知识图谱调整权重的过程。 ...

本地大模型编程实战(36)使用知识图谱增强RAG(2)生成知识图谱

本文将简单介绍如何把文本生成知识图谱（Knowledge Graph）。具体来说，是使用开源项目 AutoSchemaKG 生成 GraphML 。 GraphML 是 XML（Extensible Markup Language）格式的文件，可以使用 NetworkX 等框架轻松处理这种格式的文件。下图是一个典型的 GraphML ： ...