分类工具技巧下的文章

March 15, 2025

盘点 Python 中那些 PDF 解析库

使用 RAG 实现企业私域知识问答是目前最流行也是最前沿的大模型技术之一，在高级 RAG 技术学习笔记这篇笔记中，我介绍了很多种不同的高级 RAG 技术，其关注点更多的是如何检索私域知识以及如何将检索结果灌输到大模型中，并没有深入如何获得这些私域知识。

现实中，绝大数企业私域知识都是非结构化的，散落在各种网页、文档或邮件附件里，如果能将这些内容解析出来，对企业来说无疑是巨大的价值。而在这些非结构化的文档中，PDF 文档占比很高，使得 PDF 解析对 RAG 至关重要。

PDF 全称 Portable Document Format（可移植文档格式），于 1993 年由 Adobe 公司开发，鉴于其跨平台性、高安全性、开放标准、可搜索性和可访问性等优势，已经成为全球范围内广泛使用的文件格式。Python 中有着大量的 PDF 解析库，这篇笔记对常用的 PDF 解析库做一个盘点，方便自己后期技术选型时做参考。

pypdf

pypdf 是一个免费且开源的纯 Python PDF 库，能够分割、合并、裁剪和转换 PDF 文件的页面，可以向 PDF 文件添加自定义数据，对 PDF 文件进行加密和解密。当然，pypdf 还可以从 PDF 中提取文本、图片、附件、批注和元数据等。

from pypdf import PdfReader

reader = PdfReader("./pdfs/example.pdf")
number_of_pages = len(reader.pages)
print('Total %d pages.' % (number_of_pages))
for i in range(number_of_pages):
    print('----- Page %d -----' % (i+1))
    page = reader.pages[i]
    text = page.extract_text()
    print(text)

    for count, image_file_object in enumerate(page.images):
        with open(str(count) + image_file_object.name, "wb") as fp:
            fp.write(image_file_object.data)

可以看出 pypdf 的用法较为简单，我们只能拿到每一页的文本和图片内容，拿不到更多的详细信息，比如文本字体和大小，块位置等，这些信息在处理复杂场景时是必不可少的。所以 pypdf 只适合 PDF 的内容比较规整的场景。

pdfminer.six

pdfminer.six 也是一个纯 Python 编写的 PDF 库，专注于获取和分析文本数据。

pdfminer 最初由 Euske 开发，但是只支持 Python 2，不支持 Python 3，于是社区在他的基础上引入了 six，这是一个无需修改代码，就可以同时兼容 Python 2 和 3 的库，所以叫做 pdfminer.six。

使用 extract_text 方法实现类似 pypdf 的效果，直接返回文本：

from pdfminer.high_level import extract_text

text = extract_text("./pdfs/example.pdf")
print(text)

或者使用 extract_pages 方法提取元素的详细信息，包括文本的精确位置、字体、大小或颜色：

from pdfminer.high_level import extract_pages

for page in extract_pages("./pdfs/example.pdf"):
    for element in page:
        print(element)

这里的元素可能是 LTTextBox、LTFigure、LTLine、LTRect 或 LTImage，它们的层次结构如下所示：

其中 LTTextBox 还可以继续遍历得到 LTTextLine，LTTextLine 再继续遍历得到 LTChar：

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar

for page in extract_pages("./pdfs/example.pdf"):
    for element in page:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        print(character.get_text())
                        print(character.fontname)
                        print(character.size)
        else:
            print(element)

布局分析

PDF 文件和 .txt 或 Word 在格式上有着很大的不同，它不包含任何类似于段落、句子甚至单词的内容。它由一系列对象及其结构信息组成，这些对象共同描述一个或多个页面的外观，可能还附带有其他交互元素和更高级别的应用程序数据。这使得从 PDF 文件中提取有意义的文本片段变得困难，组成段落的字符与组成表格、页面底部或图表描述的字符没有任何区别。

上一节我们知道，通过 pdfminer.six 可以拿到元素的位置信息，通过这些位置信息我们可以重建句子或段落的布局。布局分析由三个不同阶段组成：将字符分组为单词和行，然后将行分组为框，最后以层次结构方式将文本框分组。这是一种最经典的基于规则的 布局分析算法（Layout analysis algorithm）。

布局分析依赖于几个重要参数，比如字符间距、行间距、行重叠等，这些参数都是 LAParams 类的一部分。

更多说明请参考 Converting a PDF file to text 这篇文档。

pypdfium2

PDFium 被认为是开源世界中最高质量的 PDF 渲染引擎之一，它最初是基于福昕软件（Foxit Software）的 PDF SDK 开发的，在 2014 年被 Google 开源。PDFium 支持多种操作系统，包括 Windows、macOS、Linux 等，它还被编译到 iOS、Android 等移动平台上，支持跨平台应用；除了基本的 PDF 渲染功能，PDFium 还支持生成、编辑、文本提取、搜索、注解、表单填充等高级功能。PDFium 是一个高效、可靠的 PDF 渲染引擎，广泛应用于 Chrome 浏览器和其他第三方项目中。其开源性质和丰富的功能使其成为处理 PDF 文档的理想选择，由于基于 C++ 开发，处理大文件速度优于纯 Python 库。

pypdfium2 是 PDFium 库的 Python 3 绑定，它提供了一些辅助方法简化 PDFium 库的使用，同时原始的 PDFium/ctypes API 仍然可访问。下面的示例代码演示了如何通过 pypdfium2 的 get_text_bounded() 方法将 PDF 中的文本提取出来：

import pypdfium2 as pdfium

pdf = pdfium.PdfDocument("./pdfs/example.pdf")
for i in range(len(pdf)):
    print('----- Page %d -----' % (i+1))
    page = pdf[i]
    textpage = page.get_textpage()
    text_all = textpage.get_text_bounded()
    print(text_all)

和 pdfminer.six 一样，我们也可以通过 get_rect() 获取每个文本块的位置：

textpage = page.get_textpage()
rect_count = textpage.count_rects()
print(rect_count)
for i in range(rect_count):
    rect = textpage.get_rect(i)
    print(rect)
    text = textpage.get_text_bounded(rect[0], rect[1], rect[2], rect[3])
    print(text)

得到文本块的位置后，就可以使用布局分析算法对版面进行分析，比如行检测（通过 Y 坐标差异判断是否在同一行）、列检测（通过 X 坐标差异判断是否属于同一列）或表格边界检测等等。

此外，PDFium 还提供了一个 render() 方法，可以方便地将 PDF 转换为图片：

bitmap = page.render(
    scale = 1,    # 72dpi resolution
    rotation = 0, # no additional rotation
)
pil_image = bitmap.to_pil()
pil_image.save('x.png')

pdfplumber

pdfplumber 是另一个用于解析 PDF 的 Python 库，它基于 pdfminer.six 构建，但提供了更简洁的 API 和对复杂布局（尤其是表格）的更好支持。它的核心功能如下：

文本提取：提取 PDF 中的文本（包括位置、字体等元数据），支持按页面、按区域或按特定条件提取；
表格提取：自动检测和提取 PDF 中的表格数据（支持合并单元格、多行文本等复杂结构）；
页面操作：获取页面尺寸、裁剪页面区域，提取页面内的图像、线条、矩形等可视化元素；
可视化调试：支持绘制页面中的文本、线条、表格框等元素，帮助用户调试提取逻辑。

pdfplumber 的基本用法如下：

import pdfplumber

path = "./pdfs/example.pdf"
with pdfplumber.open(path) as pdf:
    for i in range(len(pdf.pages)):
        print('----- Page %d -----' % (i+1))
        page = pdf.pages[i]
        text = page.extract_text()
        print(text)

pdfplumber 中有很多借鉴 pdfminer.six 的概念，比如通过 page.chars 可以访问页面中所有的文本字符，获取字体，大小，位置等信息：

page = pdf.pages[1]
for char in page.chars:
    print(char['text'], char['fontname'], char['size'], char['x0'], char['y0'], char['x1'], char['y1'])

除此之外，通过 page 还能访问很多其他对象，比如 .lines 代表线，.rects 代表矩形框，.curves 代表曲线（无法识别成线或矩形的连接点），.images 代表图像，.annots 代表 PDF 批注，.hyperlinks 代表链接等。

布局分析

pdfplumber 基于 pdfminer.six 构建，所以也具备 pdfminer.six 布局分析的功能，打开 PDF 时传入 laparams 参数即可：

laparams = {
    "line_overlap": 0.5,
    "char_margin": 2.0,
    "line_margin": 0.5,
    "word_margin": 0.1,
}
with pdfplumber.open(path, laparams=laparams) as pdf:
    pass

表格提取

pdfplumber 的一大亮点是它的表格提取功能，可以处理比较复杂布局的表格。它的基本用法如下：

page = pdf.pages[2]
tables = page.extract_tables()
for table in tables:
    print(table)

得到的表格是一个二维数组，类似下面这样：

[
    ['姓名', '学号', '学科', '成绩'], 
    ['小明', '001', '语文', '98'], 
    ['小明', '001', '数学', '97'], 
    ['小华', '002', '语文', '94'], 
    ['小华', '002', '数学', '99'], 
    ['小红', '003', '语文', '100'], 
    ['小红', '003', '数学', '95']
]

可以直接加载到 pandas 的 DataFrame 中对表格数据进行处理：

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
print(df)

pdfplumber 的表格提取算法参考了 Anssi Nurminen 的这篇论文《Algorithmic Extraction of Data in Tables in PDF Documents》，大概的思路如下：

首先查找页面中明确定义的行，或者根据单词对齐找到隐含的行；
合并重叠或接近重叠的线条；
找出这些线条的交点；
找到使用这些交点作为顶点的最细粒度的矩形，即单元格；
将连续单元格分组到表中。

和布局分析类似，这种基于规则的算法必然也提供了大量的规则参数，可以通过 table_settings 传入：

table_settings = {
    "vertical_strategy": "lines",
    "horizontal_strategy": "lines",
    "snap_tolerance": 3,
    "join_tolerance": 3
}
tables = page.extract_tables(table_settings=table_settings)
for table in tables:
    print(table)

官方仓库里提供了几个示例可供参考，其中 extract-table-ca-warn-report.ipynb 演示了表格提取的基本操作，extract-table-nics.ipynb 演示如何使用可视化调试查找最佳的表提取设置。

可视化调试

pdfplumber 的另一大亮点是它可以将页面转换为 PageImage 对象（有趣的是，这一步是通过 pypdfium2 实现的），然后在 PageImage 将 chars、lines、rects 绘制出来，通过可视化页面，可以更直观地理解页面的布局结构。

绘制文本解析结果：

im = page.to_image()
im.draw_rects(page.extract_words()).save('extract_words.png')

绘制表格解析结果：

im = page.to_image()
im.debug_tablefinder(table_settings={}).save('debug_tablefinder.png')

PyMuPDF

MuPDF 是由 Artifex Software 公司开发的一个专注于 PDF 文档处理和渲染的开源库和工具集，具有轻量级、高性能的特点，适合嵌入式系统、移动设备和桌面应用集成。MuPDF 提供了多种语言接口，可以在 JavaScript、Java、.NET 和 Python 等语言中调用，PyMuPDF 就是 MuPDF 的 Python 绑定。

注意，MuPDF 采用 AGPL 许可证，商业用途需联系 Artifex 获取商业授权。

如果安装 PyMuPDF 时遇到编译错误，可以考虑如下方式安装：

$ pip install --only-binary=pymupdf pymupdf

下面是 PyMuPDF 的基本用法：

import pymupdf

doc = pymupdf.open("./pdfs/example.pdf")
number_of_pages = len(doc)
print('Total %d pages.' % (number_of_pages))
for i in range(number_of_pages):
    print('----- Page %d -----' % (i+1))
    page = doc[i]
    text = page.get_text()
    print(text)

其中，get_text() 用于从页面中提取文本，默认是以纯文本格式输出，还支持很多其他的输出格式，比如以 HTML 格式输出：

html = page.get_text('html')

或以 JSON 格式输出，当我们想对 PDF 结构进一步分析时非常有用：

json = page.get_text('json')

PyMuPDF 的功能非常丰富，除了 PDF，它还支持大量其他的文件格式，包括 XPS、EPUB、MOBI 等电子书格式，以及 DOCX、XLSX、PPTX 等 Office 文档（Pro 版），这里有一个表格列举了它的所有特性，并和其他几个 PDF 库进行对比。

表格提取

PyMuPDF 支持提取 PDF 中的表格数据：

from pprint import pprint
page = doc[2]
for t in page.find_tables():
    table = t.extract()
    pprint(table)

和 pdfplumber 一样，得到的表格是一个二维数组，可以直接加载到 pandas 的 DataFrame 中对表格数据进行处理。

Markdown 提取

在 RAG 中，为了实现文档内容的切片，文档版式分析的准确性显得至关重要，Markdown 作为一种语法简单、段落清晰的文本格式，在 LLM 和 RAG 场景下经常被使用。PyMuPDF 支持将 PDF 文件转换为 Markdown 格式，方便在 LLM 和 RAG 场景下使用，这需要安装 PyMuPDF4LLM 扩展库，它的功能特性如下：

支持保留 PDF 中的大多数格式，比如表格、图片、链接、标题、段落、粗体、斜体、列表、代码块等都以 Markdown 语法保留下来；
支持多列页面；
支持图像和矢量图形提取，在 Markdown 文件中以图片语法；
支持按页面分块输出；
支持将输出作为 LlamaIndex Documents，方便在 LlamaIndex 中快速开发 RAG 应用；

PyMuPDF4LLM 扩展库的安装很简单：

$ pip install pymupdf4llm

使用也很简单：

import pymupdf4llm
md_text = pymupdf4llm.to_markdown("./pdfs/example.pdf", write_images=True)
print(md_text)

官方提供了一些示例，可以实现 Chat PDF 的功能。

OCR 识别

PyMuPDF 集成了对 OCR 的支持，可以使用 OCR 对图片或文档页面进行识别，要使用该功能，需要先安装 Tesseract-OCR：

$ apt update
$ apt install tesseract-ocr

默认 Tesseract-OCR 只能识别英文，为了支持中文识别，还需要下载中文的训练数据，可以从 tesseract-ocr/tessdata 仓库下载 chi_sim.traineddata 文件，并将文件放在 /usr/share/tesseract-ocr/5/tessdata/ 这个目录下。

PyMuPDF 支持两种 OCR 策略，第一种是识别整个页面，第二种是提取页面中的图片进行识别。由于 OCR 非常缓慢，所以建议在处理 PDF 时每页只进行一次 OCR，当出现下面这些情况时可以使用第一种策略：

页面完全被图片覆盖；
页面上不存在文本；
页面上有数千个小矢量图形；

示例代码如下：

page = doc[3]
textpage = page.get_textpage_ocr()
text = textpage.extractText()
print(text)

这里通过 page.get_textpage_ocr() 方法将 Page 转换为 TextPage 从而方便后续我们提取文本。

第二种策略是识别单独的图片，我们先从页面中将图片提取出来：

page = doc[3]
for img in page.get_images():
    xref = img[0]
    data = doc.extract_image(xref)['image']
    pix = pymupdf.Pixmap(data)

这里先通过 page.get_images() 获取页面中的所有图片，注意返回的是图片的 xref 引用信息，需要通过 doc.extract_image() 提取出图片的原始数据，最后再转换为 Pixmap 格式，只有这种格式才能 OCR 识别。得到 Pixmap 之后，我们可以将其保存成本地文件：

    pix.save('x.png')

也可以对其进行 OCR 识别：

    pix.pdfocr_save('x.pdf', language='eng')

这个方法将 Pixmap 保存为 1 页的 PDF 文件，该页面看起来像原始图片，具有相同的宽度和高度，但是它包含了一个被 Tesseract 识别的文本层，可以使用常规文本提取和搜索方法进行提取和搜索。当然这样做比较繁琐，会生成大量的临时文件，我们也可以直接在内存中进行读取：

    bytes = pix.pdfocr_tobytes()
    imgdoc = pymupdf.open("pdf", bytes)
    page = imgdoc[0]
    text = page.get_text()
    print(text)

还有另一种方式可以将 Page 转换成 Pixmap：

page = doc[0]
pix = page.get_pixmap(dpi=300)
pix.save('x.png')
pix.pdfocr_save('x.pdf', language='chi_sim')

注意这里的 dpi=300 参数，可以保证生成的图片足够清晰，模糊的图片可能导致 Tesseract 识别失败。

Tabula vs. Camelot

上面提到 pdfplumber 和 PyMuPDF 都具备表格提取功能，关于表格提取，还有两个库不得不提，那就是 Tabula 和 Camelot。

Tabula 是一款专门用于提取 PDF 中表格的工具，它本身是一个基于 Java 开发的本地 Web 应用。首先上传 PDF 文件，手动选择或自动检测表格区域：

然后将选择的表格区域提取成结构化的数据：

Tabula 实现了两种表格提取算法：一种叫 Stream 模式（参考 BasicExtractionAlgorithm 和 NurminenDetectionAlgorithm，实际上也是借鉴了 Anssi Nurminen 那篇论文中的思路），另一种叫 Lattice 模式（参考 SpreadsheetExtractionAlgorithm）；Stream 模式通过查找列之间的空白来确定表格，而 Lattice 模式则是查找列之间的边界线，如果单元格之间有明确的边界线，建议选择 Lattice 模式，当其中一种算法无法提取表格数据时，可以切换到另一种尝试。

同时，Tabula 也开源了对应的 SDK 方便其他开发者集成，核心仓库是 tabula-java，也有社区维护的 Python 绑定 tabula-py，基本用法如下：

import tabula

dfs = tabula.read_pdf(
    "./pdfs/table.pdf",
    pages = '1'
)
print(dfs[0])

注意：由于 Tabula 是基于 Java 实现的，所以要安装 JVM 环境。

Camelot 是另一款 PDF 表格提取工具和库，和 Tabula 非常类似，它是纯 Python 实现，不用依赖 JVM 环境。而且相比于 Tabula 它提供了更多的高级选项，能应付更多更复杂的场景。这里有一份 Camelot 和 Tabula 的详细对比，根据对比结果，Camelot 在多个场景下效果都比 Tabula 要好。

Camelot 用起来和 Tabula 也很像，如下：

import camelot

tables = camelot.read_pdf(
    './pdfs/table.pdf',
    pages = "1",
    flavor = "stream"
)
print(tables[0].df)

其中 flavor = "stream" 表示使用 Stream 模式，同样的，Camelot 也支持 Lattice 模式，不过它的实现有些不同（参考 lattice.py），它首先通过 Ghostscript 或 Pdfium 将 PDF 页面转换为图像，然后使用 OpenCV 的图像学算法，获取水平和垂直线段；推荐阅读 Camelot 的官方文档 How It Works，这篇文档带我们详细了解 Lattice 是如何一步一步地处理 PDF 页面的。此外，这篇文档还介绍了 Camelot 的另两种模式：Network 模式 和 Hybrid 模式，此处不再赘述。

除了 Camelot 和 Tabula，还有很多类似的库也用于表格提取，比如 pdftables 和 pdf-table-extract 等。

pikepdf

pikepdf 是另一个 Python PDF 解析库，帮助开发者读取、写入和修改 PDF 文件。这个库的取名很有意思：

Python + qpdf = "py" + "qpdf" = "pyqpdf"

可以看出 pikepdf 基于 qpdf 开发，而 qpdf 是一个使用 C++ 编写的功能强大的 PDF 操作和修复库。

使用 pikepdf 解析 PDF 不是一件容易的事，因为它使用了一些比较低级的概念，比如对象模型和流，这种设计使得用户需要对 PDF 的内部结构和规范有一定的了解，才能高效地使用该库。

当我们准备上手 pikepdf 的入门示例时，我们会发现它甚至都没有提取文本的能力，只能访问页面中的 内容流（Content Streams）：

import pikepdf

with pikepdf.open('./pdfs/example.pdf') as pdf:
    page = pdf.pages[0]
    instructions = pikepdf.parse_content_stream(page)
    data = pikepdf.unparse_content_stream(instructions)
    print(data.decode())

解析出来的结果类似于下面这样的被称为 指令（Instructions） 的特殊字符串：

q
1 0 0 -1 0 841.9 cm
q
0 0 595.3 841.9 re
W*
n
0.12 w
2 M
2 J
2 j
0 0 0 RG

对 PDF 底层数据结构感兴趣的同学可以看看《PDF Explained》这本电子书。

强烈不推荐从内容流中解析文本，因为这意味着你需要手动处理字体、字号、编码等一系列问题，这只适合部分硬核玩家，我们不如直接使用其他现成的 PDF 解析库。不过我们可以使用 pikepdf 处理图片，比如提取、替换、删除等，下面是提取图片的一个示例：

    page = pdf.pages[3]
    for key in page.images:
        rawimage = page.images[key]
        pdfimage = pikepdf.PdfImage(rawimage)
        pdfimage.extract_to(fileprefix='x')

OCRmyPDF

OCRmyPDF 的特点是通过 OCR 识别图像中包含的文本，并为 PDF 中的图像添加一个文本层，使得图像 PDF 也可以被搜索。它的工作流程大致如下：

首先通过 pikepdf 处理 PDF，修复 PDF 中可能存在的语法错误，并将 PDF 拆分成单页；
然后使用 Ghostscript 以 -dSAFER 模式对 PDF 的每一页进行光栅化；光栅图也叫做位图、点阵图、像素图，可以方便的进行 OCR 识别；
接着使用 Tesseract 对光栅化的图像执行 OCR 识别；
最后将识别的结果和原始的 PDF 进行合成，生成一个新的 PDF 文件。

默认情况下，OCRmyPDF 生成的文件是 PDF/A 格式，这是 PDF 规范的子集，旨在用于归档（“A” 代表归档）。PDF/A 与 PDF 的主要区别在于去掉了很多复杂的功能，例如嵌入式 Javascript、视频、音频和对外部字体的引用，因此它可能更安全。

OCRmyPDF 可以通过命令行工具使用，也可以通过 API 集成在 Python 代码中：

import ocrmypdf

ocrmypdf.ocr('./pdfs/example.pdf', 'output.pdf', skip_text=True)

正如前文所述，OCRmyPDF 依赖于 Ghostscript 处理页面，所以我们需要先安装 Ghostscript，不过当前使用 apt install ghostscript 命令安装的是 10.0.0 版本，是个有问题的版本，无法在 OCRmyPDF 中直接使用。如果你也遇到和我一样的问题，可以通过下面的步骤手动编译源码来安装：

$ wget https://github.com/ArtifexSoftware/ghostpdl-downloads/releases/download/gs10040/ghostscript-10.04.0.tar.gz
$ tar zxvf ghostscript-10.04.0.tar.gz
$ cd ghostscript-10.04.0
$ ./configure
$ make install

上面的 skip_text=True 参数表示跳过有文本的页面，只处理有图片的页面。要注意的是，如果页面既有文本又有图片，也会跳过，可以设置 force_ocr=True 参数强制识别所有页面：

ocrmypdf.ocr('./pdfs/example.pdf', 'output.pdf', force_ocr=True)

详细的参数说明可以参考官网的使用手册。

打开生成的 PDF 文件，如果一切正常，可以发现图片上的文字不仅可以搜索，也可以用鼠标框选复制（而且框选的位置和图片中文字的位置非常吻合，一点违和感都没有）：

此外，OCRmyPDF 通过 pluggy 实现了插件机制，我们可以基于插件机制实现如下功能：

添加新的命令行参数；
执行 OCR 之前增加自己的判断逻辑；
在 OCR 识别或 PDF 生成之前对图片进行修改；
用其他 OCR 引擎替换 Tesseract OCR；
用其他光栅化或 PDF/A 生成器替换 Ghostscript；

感兴趣的同学可以参考官网的插件文档。

markitdown

markitdown 是微软开源的一款 Python 库，旨在将各种文件格式转换为 Markdown。该库的一大特色是支持大量的文件格式，包括：Word、PPT、Excel、PDF、HTML、JSON、XML、CSV、ZIP、图像、音频、URL，等等等等，因此人气非常高，目前在 Github 上收获了超过 39k 的 Star。

使用 markitdown 非常简单，只需要 4 行代码：

from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("./pdfs/example.docx")
print(result.text_content)

上面的代码将 Word 文档转换为 Markdown 格式，支持保留标题、表格、图片等 Markdown 语法，对 LLM 和 RAG 场景非常友好。深入研究 markitdown 的源码可以发现，它集众家之所长，使用了大量其他流行的开源库，比如：

通过 mammoth 将 Word 文件转换为 HTML 格式；
通过 pandos 和 openpyxl 将 Excel 文件转换为 HTML 格式；
通过 pptx 解析 PPT 文件；
通过 markdownify 将 HTML 转换为 Markdown；
通过 pdfminer.six 解析 PDF 文件；
通过 speech_recognition 对音频文件进行转译；

尽管 markitdown 支持这么多的文件格式，但是它对 PDF 的解析效果并不好，它是直接使用 pdfminer.high_level.extract_text() 提取 PDF 中的文本的，所以标题、表格、图片等格式都丢失了，期待 markitdown 能稍微加强下对 PDF 的支持，能做到和 pymupdf4llm 一样的效果就完美了。

markitdown 的另一大特色是对图片的处理，不同于其他库喜欢用 Tesseract 做 OCR 识别，它通过多模态大模型（比如 gpt-4o、Qwen-VL 等）为图片生成详细描述：

from openai import Client
client = Client()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("./pdfs/example.jpg")
print(result.text_content)

gptpdf

gptpdf 是另一个使用多模态大模型来解析 PDF 的库，它的核心思想非常简单：将 PDF 文件的每一页转换为图片，然后丢给大模型，让它将图片中识别到的文字转换为 Markdown 格式输出。它的核心代码不过 300 行，但几乎可以完美地解析排版、数学公式、表格、图片、图表等。

内置的 Prompt 也很简单：

使用markdown语法，将图片中识别到的文字转换为markdown格式输出。你必须做到：
1. 输出和使用识别到的图片的相同的语言，例如，识别到英语的字段，输出的内容必须是英语。
2. 不要解释和输出无关的文字，直接输出图片中的内容。例如，严禁输出 “以下是我根据图片内容生成的markdown文本：”这样的例子，而是应该直接输出markdown。
3. 内容不要包含在```markdown ```中、段落公式使用 $$ $$ 的形式、行内公式使用 $ $ 的形式、忽略掉长直线、忽略掉页码。
再次强调，不要解释和输出无关的文字，直接输出图片中的内容。

gptpdf 使用了作者自己开发的 GeneralAgent 库来调用大模型，支持 GPT-4o、Qwen-VL、GLM-4V、Yi-VL 等：

from gptpdf import parse_pdf

content, image_paths = parse_pdf(
    pdf_path = "./pdfs/text+image.pdf", 
    output_dir = "./out",
    model = "gpt-4o",
)
print(content)

上面的代码运行成功后，会将输出结果写入到 out 目录下的 output.md 文件。

如果 PDF 中含有图片，gptpdf 的处理方式稍微有些不一样，它会首先使用 PyMuPDF 将图片区域用一个红色的框标记出来，像下面这样：

然后将这个区域裁剪成子图保存起来，并让大模型在识别到这个图片时使用 Markdown 的图片语法 ![]() 替换该位置，内置的 Prompt 会加上如下内容：

图片中用红色框和名称(%s)标注出了一些区域。如果区域是表格或者图片，使用 ![]() 的形式插入到输出内容中，否则直接输出文字内容。
0_0.png, 0_1.png

参考

January 24, 2025

使用 GraalVM 构建 Java 原生应用

随着云原生技术的普及，Java 应用在云环境中的臃肿问题变得更加突出，比如：

镜像体积大：传统的 Java 应用容器镜像通常包含完整的 JVM 和依赖库，导致镜像体积庞大，增加了存储和传输的成本；
启动速度慢：传统的 Java 应用依赖于 JVM 的 即时编译（JIT） 机制，启动时需要加载大量类库和依赖，导致启动时间较长；
内存占用高：JVM 需要为运行时分配大量内存，包括堆内存、元空间（Metaspace）等，导致资源浪费和成本增加；

在云原生环境中，尤其是微服务架构下，快速启动和弹性伸缩是核心需求，这也是云原生的基本理念：轻量、快速、弹性。很显然，Java 的这些问题和这个理念是相冲突的，而 GraalVM 正是解决这些问题的关键技术之一。

GraalVM 是由 Oracle 实验室于 2011 年启动的一个研究项目。项目初期主要专注于编译器 Graal Compiler 的开发，目标是创建一个高性能的 Java 编译器，以替代传统的 HotSpot JVM 中的 C2 编译器；2017 年，推出了 Truffle 框架，支持多语言互操作，扩展了 GraalVM 的多语言能力，以超强性能运行 JavaScript、Python、Ruby 以及其他语言；不过这时的 GraalVM 还不温不火，只有少部分研究人员和早期尝鲜者在使用，直到 2018 年，GraalVM 1.0 正式发布，推出了 原生镜像（Native Image） 功能，标志着其正式进入主流市场。

GraalVM 的原生镜像功能通过 提前编译（AOT） 机制，显著改善了 Java 在云原生环境中的表现。GraalVM 可以将 Java 应用编译为独立的可执行文件，无需依赖 JVM，大幅减小了镜像体积；而且这种方式消除了 JIT 编译的开销，使启动时间从秒级降低到毫秒级；此外，原生镜像运行时仅加载必要的类库和资源，内存占用也比传统 Java 应用少得多。

快速上手

这一节我们将学习 GraalVM 的安装以及 Native Image 的基本使用。

GraalVM 的安装

GraalVM 支持常见的操作系统，包括 Linux、macOS 和 Windows。

在 Linux 和 macOS 下，推荐使用 SDKMAN! 来安装 GraalVM。首先我们安装 SDKMAN!：

$ curl -s "https://get.sdkman.io" | bash

安装完成后，使用 sdk list java 列出当前系统可用的 JDK 版本：

也可以使用 sdk install java [TAB] 列出所有可用版本。

================================================================================
Available Java Versions for macOS ARM 64bit
================================================================================
 Vendor        | Use | Version      | Dist    | Status     | Identifier
--------------------------------------------------------------------------------
 Corretto      |     | 23.0.1       | amzn    |            | 23.0.1-amzn         
               |     | 21.0.5       | amzn    |            | 21.0.5-amzn         
               |     | 17.0.13      | amzn    |            | 17.0.13-amzn        
               |     | 11.0.25      | amzn    |            | 11.0.25-amzn        
               |     | 8.0.432      | amzn    |            | 8.0.432-amzn        
 Gluon         |     | 22.1.0.1.r17 | gln     |            | 22.1.0.1.r17-gln    
 GraalVM CE    |     | 23.0.1       | graalce |            | 23.0.1-graalce      
               | >>> | 21.0.2       | graalce | installed  | 21.0.2-graalce      
               |     | 17.0.9       | graalce | installed  | 17.0.9-graalce      
 GraalVM Oracle|     | 25.ea.4      | graal   |            | 25.ea.4-graal       
               |     | 24.ea.27     | graal   |            | 24.ea.27-graal      
               |     | 23.0.1       | graal   |            | 23.0.1-graal        
               |     | 21.0.5       | graal   |            | 21.0.5-graal        
               |     | 17.0.12      | graal   |            | 17.0.12-graal       
 Java.net      |     | 25.ea.5      | open    |            | 25.ea.5-open        
               |     | 24.ea.31     | open    |            | 24.ea.31-open       
               |     | 23           | open    |            | 23-open             
               |     | 21.0.2       | open    |            | 21.0.2-open         
 JetBrains     |     | 21.0.5       | jbr     |            | 21.0.5-jbr          
               |     | 17.0.12      | jbr     |            | 17.0.12-jbr         
               |     | 11.0.14.1    | jbr     |            | 11.0.14.1-jbr       
 Liberica      |     | 23.0.1       | librca  |            | 23.0.1-librca       
               |     | 21.0.5       | librca  |            | 21.0.5-librca       
               |     | 17.0.13      | librca  |            | 17.0.13-librca      
               |     | 11.0.25      | librca  |            | 11.0.25-librca      
               |     | 8.0.432      | librca  |            | 8.0.432-librca      
 Liberica NIK  |     | 24.1.1.r23   | nik     |            | 24.1.1.r23-nik      
               |     | 23.1.5.r21   | nik     |            | 23.1.5.r21-nik      
               |     | 22.3.5.r17   | nik     |            | 22.3.5.r17-nik      
 Mandrel       |     | 24.1.1.r23   | mandrel |            | 24.1.1.r23-mandrel  
               |     | 23.1.5.r21   | mandrel |            | 23.1.5.r21-mandrel  
 Microsoft     |     | 21.0.5       | ms      |            | 21.0.5-ms           
               |     | 17.0.13      | ms      |            | 17.0.13-ms          
               |     | 11.0.25      | ms      |            | 11.0.25-ms          
 Oracle        |     | 23.0.1       | oracle  |            | 23.0.1-oracle       
               |     | 22.0.2       | oracle  |            | 22.0.2-oracle       
               |     | 21.0.5       | oracle  |            | 21.0.5-oracle       
               |     | 17.0.12      | oracle  |            | 17.0.12-oracle      
 SapMachine    |     | 23.0.1       | sapmchn |            | 23.0.1-sapmchn      
               |     | 21.0.5       | sapmchn |            | 21.0.5-sapmchn      
               |     | 17.0.13      | sapmchn |            | 17.0.13-sapmchn     
               |     | 11.0.25      | sapmchn |            | 11.0.25-sapmchn     
 Semeru        |     | 21.0.5       | sem     |            | 21.0.5-sem          
               |     | 17.0.13      | sem     |            | 17.0.13-sem         
               |     | 11.0.25      | sem     |            | 11.0.25-sem         
 Temurin       |     | 23.0.1       | tem     |            | 23.0.1-tem          
               |     | 21.0.5       | tem     |            | 21.0.5-tem          
               |     | 17.0.13      | tem     |            | 17.0.13-tem         
               |     | 11.0.25      | tem     |            | 11.0.25-tem         
 Tencent       |     | 21.0.5       | kona    |            | 21.0.5-kona         
               |     | 17.0.13      | kona    |            | 17.0.13-kona        
               |     | 11.0.25      | kona    |            | 11.0.25-kona        
               |     | 8.0.432      | kona    |            | 8.0.432-kona        
 Zulu          |     | 23.0.1       | zulu    |            | 23.0.1-zulu         
               |     | 21.0.5       | zulu    |            | 21.0.5-zulu         
               |     | 17.0.13      | zulu    |            | 17.0.13-zulu        
               |     | 11.0.25      | zulu    |            | 11.0.25-zulu        
               |     | 8.0.432      | zulu    |            | 8.0.432-zulu        
================================================================================
Omit Identifier to install default version 21.0.5-tem:
    $ sdk install java
Use TAB completion to discover available versions
    $ sdk install java [TAB]
Or install a specific version by Identifier:
    $ sdk install java 21.0.5-tem
Hit Q to exit this list view
================================================================================

其中 GraalVM 有两个，GraalVM CE 是由社区维护，是开源的，基于 OpenJDK 开发；而 GraalVM Oracle 是由 Oracle 发布，基于 Oracle JDK 开发，我们这里安装社区版：

$ sdk install java 21.0.2-graalce

使用 java -version 确认安装是否成功：

$ java -version
openjdk version "21.0.2" 2024-01-16
OpenJDK Runtime Environment GraalVM CE 21.0.2+13.1 (build 21.0.2+13-jvmci-23.1-b30)
OpenJDK 64-Bit Server VM GraalVM CE 21.0.2+13.1 (build 21.0.2+13-jvmci-23.1-b30, mixed mode, sharing)

Native Image 的基本使用

接下来，我们将通过最简单的 Hello World 例子了解 Native Image 的基本使用。

首先，我们创建一个 Hello.java 文件，如下：

class Hello {
    public static void main(String[] args) {
        System.out.println("Hello");
    }
}

直接使用 java 命令运行，确保程序没有错误：

$ java Hello.java
Hello

然后使用 javac 将 .java 文件编译成 .class 文件：

$ javac Hello.java

此时，当前目录下会生成一个 Hello.class 文件。接下来使用 native-image 命令，将 .class 文件打包成可执行程序：

$ native-image Hello
========================================================================================================================
GraalVM Native Image: Generating 'hello' (executable)...
========================================================================================================================
[1/8] Initializing...                                                                                    (7.2s @ 0.10GB)
 Java version: 21.0.2+13, vendor version: GraalVM CE 21.0.2+13.1
 Graal compiler: optimization level: 2, target machine: armv8-a
 C compiler: cc (apple, arm64, 15.0.0)
 Garbage collector: Serial GC (max heap size: 80% of RAM)
 1 user-specific feature(s):
 - com.oracle.svm.thirdparty.gson.GsonFeature
------------------------------------------------------------------------------------------------------------------------
Build resources:
 - 12.09GB of memory (75.6% of 16.00GB system memory, determined at start)
 - 8 thread(s) (100.0% of 8 available processor(s), determined at start)
[2/8] Performing analysis...  [****]                                                                     (5.6s @ 0.32GB)
    3,225 reachable types   (72.5% of    4,450 total)
    3,810 reachable fields  (50.1% of    7,606 total)
   15,653 reachable methods (45.6% of   34,359 total)
    1,059 types,    87 fields, and   678 methods registered for reflection
       57 types,    57 fields, and    52 methods registered for JNI access
        4 native libraries: -framework Foundation, dl, pthread, z
[3/8] Building universe...                                                                               (1.3s @ 0.29GB)
[4/8] Parsing methods...      [*]                                                                        (0.6s @ 0.29GB)
[5/8] Inlining methods...     [***]                                                                      (0.5s @ 0.46GB)
[6/8] Compiling methods...    [**]                                                                       (4.9s @ 0.34GB)
[7/8] Layouting methods...    [*]                                                                        (0.7s @ 0.50GB)
[8/8] Creating image...       [*]                                                                        (1.5s @ 0.47GB)
   5.08MB (39.25%) for code area:     8,896 compilation units
   7.48MB (57.87%) for image heap:   97,240 objects and 76 resources
 381.68kB ( 2.88%) for other data
  12.93MB in total
------------------------------------------------------------------------------------------------------------------------
Top 10 origins of code area:                                Top 10 object types in image heap:
   3.80MB java.base                                            1.58MB byte[] for code metadata
 936.91kB svm.jar (Native Image)                               1.29MB byte[] for java.lang.String
 108.35kB java.logging                                       976.00kB java.lang.String
  56.84kB org.graalvm.nativeimage.base                       748.94kB java.lang.Class
  43.64kB jdk.proxy1                                         328.26kB byte[] for general heap data
  42.03kB jdk.proxy3                                         277.15kB com.oracle.svm.core.hub.DynamicHubCompanion
  21.98kB org.graalvm.collections                            244.27kB java.util.HashMap$Node
  19.52kB jdk.internal.vm.ci                                 219.04kB java.lang.Object[]
  10.46kB jdk.proxy2                                         184.95kB java.lang.String[]
   8.04kB jdk.internal.vm.compiler                           155.52kB byte[] for reflection metadata
   2.95kB for 2 more packages                                  1.55MB for 905 more object types
------------------------------------------------------------------------------------------------------------------------
Recommendations:
 INIT: Adopt '--strict-image-heap' to prepare for the next GraalVM release.
 HEAP: Set max heap for improved and more predictable memory usage.
 CPU:  Enable more CPU features with '-march=native' for improved performance.
------------------------------------------------------------------------------------------------------------------------
                        1.3s (5.7% of total time) in 115 GCs | Peak RSS: 0.93GB | CPU load: 4.04
------------------------------------------------------------------------------------------------------------------------
Produced artifacts:
 /Users/aneasystone/Codes/github/weekly-practice/notes/week058-java-native-app-with-graalvm/demo/hello (executable)
========================================================================================================================
Finished generating 'hello' in 22.6s.

上面可以看到 native-image 详情的运行过程，最终生成一个 hello 文件，可以直接执行：

$ ./hello 
Hello

native-image 不仅可以将类文件转换为可执行文件，也支持输入 JAR 文件或模块（Java 9 及更高版本），参考这里和这里；除了可以编译可执行文件，native-image 还可以将类文件编译成共享库（native shared library）。

构建复杂应用

上一节我们演示了如何将单个 Java 文件编译成可执行文件，不过在日常工作中，我们的项目可没这么简单，一般会使用 Maven 来对代码进行组织，在微服务盛行的今天，更多的项目是使用一些微服务框架来开发，如何将这些复杂应用编译成可执行文件也是一个值得学习的课题。

一个简单的 Maven 项目

GraalVM 提供了 Maven 插件，方便我们在 Maven 项目中使用 Native Image 构建原生应用。

GraalVM 同时也支持 Gradle 插件，如果你使用的是 Gradle 管理项目，可以参考 Gradle 插件文档。

首先，我们用 mvn archetype:generate 生成一个 Maven 项目：

$ mvn archetype:generate \
    -DgroupId=com.example \
    -DartifactId=hello \
    -DarchetypeArtifactId=maven-archetype-quickstart \
    -DinteractiveMode=false

这里选择的项目脚手架为 maven-archetype-quickstart，关于项目脚手架的使用，可以参考我之前写的这篇笔记。

生成项目的目录结构如下所示：

hello
├── pom.xml
└── src
    ├── main
    │   └── java
    │       └── com
    │           └── example
    │               └── App.java
    └── test
        └── java
            └── com
                └── example
                    └── AppTest.java

打开 pom.xml 文件，添加如下两个 Maven 插件，用于编译和打包：

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.12.1</version>
            <configuration>
                <fork>true</fork>
            </configuration>
        </plugin>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-jar-plugin</artifactId>
            <version>3.3.0</version>
            <configuration>
                <archive>
                    <manifest>
                        <mainClass>com.example.App</mainClass>
                        <addClasspath>true</addClasspath>
                    </manifest>
                </archive>
            </configuration>
        </plugin>
    </plugins>
</build>

此时我们就可以使用 mvn clean package 命令，将项目打包成可执行的 JAR 文件了：

$ mvn clean package

使用 java -jar 运行 JAR 文件：

$ java -jar ./target/hello-1.0-SNAPSHOT.jar 
Hello World!

接下来我们可以使用 native-image -jar 将 JAR 文件转换为可执行文件，或者我们可以更进一步，在 pom.xml 文件中添加如下配置：

<profiles>
    <profile>
        <id>native</id>
        <build>
            <plugins>
                <plugin>
                    <groupId>org.graalvm.buildtools</groupId>
                    <artifactId>native-maven-plugin</artifactId>
                    <version>0.10.4</version>
                    <extensions>true</extensions>
                    <executions>
                        <execution>
                            <id>build-native</id>
                            <goals>
                                <goal>compile-no-fork</goal>
                            </goals>
                            <phase>package</phase>
                        </execution>
                        <execution>
                            <id>test-native</id>
                            <goals>
                                <goal>test</goal>
                            </goals>
                            <phase>test</phase>
                        </execution>
                    </executions>
                </plugin>
            </plugins>
        </build>
    </profile>
</profiles>

注意，从 JDK 21 开始，Native Image Maven Plugin 改成了 org.graalvm.buildtools:native-maven-plugin，之前的版本中使用的是 org.graalvm.nativeimage:native-image-maven-plugin，参考这里。

然后执行如下命令：

$ mvn clean package -Pnative -DskipTests=true

这样不仅可以将项目打包成 JAR 文件，同时也会生成一个可执行文件：

$ ./target/hello 
Hello World!

注意在上面的命令中我们加了一个忽略测试的参数 -DskipTests=true，如果不加的话，可能会报错：

[ERROR] Failed to execute goal org.graalvm.buildtools:native-maven-plugin:0.10.4:test (test-native) on project hello: 
Execution test-native of goal org.graalvm.buildtools:native-maven-plugin:0.10.4:test failed: Test configuration file wasn't found.

根据 Testing support 部分的说明，目前插件只支持 JUnit 5.8.1 以上的版本，而通过 maven-archetype-quickstart 脚手架生成的项目里用的是 JUnit 3.8.1，所以我们可以将依赖改为：

<dependency>
    <groupId>org.junit.jupiter</groupId>
    <artifactId>junit-jupiter-api</artifactId>
    <version>5.10.5</version>
    <scope>test</scope>
</dependency>

同时将测试类替换成 JUnit 5 的写法：

package com.example;

import static org.junit.jupiter.api.Assertions.assertEquals;

import org.junit.jupiter.api.*;

public class AppTest
{
    @Test
    public void testApp()
    {
        assertEquals( "hello".length(), 5 );
    }
}

这时就可以去掉 -DskipTests=true 参数了：

$ mvn clean package -Pnative

注意，从构建输出上可以看出来，单元测试运行了两遍，第一遍是标准的 surefire:test，第二遍是 Native Image 的 native:test，这两次运行的目的和场景是不一样的，surefire:test 在 JVM 上运行，验证代码在 JVM 环境下的正确性，native:test 在 Native Image 构建的上下文中运行，验证代码在 Native Image 环境下的正确性。如果你的代码在两种环境下的行为可能不同（如反射、动态类加载等），可能需要都运行，否则只运行 surefire:test 即可，可以通过 -DskipNativeTests=true 跳过 native:test。

一个简单的 Spring Boot 项目

这一节将演示如何从 Spring Boot 应用程序构建一个本地可执行文件，Spring Boot 从 3.0 开始支持原生镜像，可以更轻松地配置项目，并显著提高 Spring Boot 应用程序的性能。

其他主流的微服务框架均已支持 GraalVM 的原生镜像功能，如：Quarkus、Helidon SE、Micronaut 等。

首先，我们需要一个测试的 Spring Boot 应用，有很多快速创建 Spring Boot 脚手架的方法，可以参考我之前写的这篇笔记，我最喜欢的方法有两种：Spring Initializr 和 Spring Boot CLI，这里通过 Spring Boot CLI 来创建：

可以使用 SDKMAN! 安装 Spring Boot CLI：

$ sdk install springboot
$ spring --version
Spring CLI v3.4.1

安装完毕后，执行如下命令生成：

$ spring init --name hello \
    --artifact-id hello \
    --group-id com.example \
    --language java \
    --java-version 21 \
    --boot-version 3.4.1 \
    --type maven-project \
    --dependencies web,native \
    hello

打开 pom.xml 文件可以发现，生成的代码中已经自动为我们加了 native-maven-plugin 依赖。

这时，我们可以执行 mvn clean package 将程序打成 JAR 包并运行，也可以执行 mvn spring-boot:run 直接运行：

$ mvn spring-boot:run
...
2025-01-17T08:56:17.206+08:00  INFO 33037 --- [hello] [           main] o.s.b.w.embedded.tomcat.TomcatWebServer  : Tomcat started on port 8080 (http) with context path '/'
2025-01-17T08:56:17.210+08:00  INFO 33037 --- [hello] [           main] com.example.hello.HelloApplication       : Started HelloApplication in 0.548 seconds (process running for 0.662)

如果要将程序打包成可执行文件，可以执行如下命令：

$ mvn native:compile -Pnative

然后运行之：

$ ./target/hello
...
2025-01-17T09:02:19.732+08:00  INFO 33935 --- [hello] [           main] o.s.b.w.embedded.tomcat.TomcatWebServer  : Tomcat started on port 8080 (http) with context path '/'
2025-01-17T09:02:19.733+08:00  INFO 33935 --- [hello] [           main] com.example.hello.HelloApplication       : Started HelloApplication in 0.054 seconds (process running for 0.071)

可以看到启动速度是 JAR 文件的 10 倍。

容器化

在云原生环境下，所有服务都被打包成镜像，这也被称为 容器化（Containerize）。我在很早以前写过一篇博客介绍了如何编写 Dockerfile 将 Spring Boot 应用构建成 Docker 镜像，针对 GraalVM 原生应用，我们一样可以照葫芦画瓢。

将 JAR 打包成镜像

最简单的方式是基于 JDK 基础镜像，直接将 JAR 文件拷贝进去即可，新建 Dockerfile.jvm 文件，内容如下：

FROM ghcr.io/graalvm/jdk-community:21

EXPOSE 8080
COPY ./target/hello-0.0.1-SNAPSHOT.jar app.jar
CMD ["java","-jar","app.jar"]

之前说过 GraalVM 也可以作为普通的 JDK 使用，所以这里直接使用 GraalVM 的 JDK 镜像。首先通过 mvn package 正常将项目打成 JAR 包，然后执行如下命令构建镜像：

$ docker build -f Dockerfile.jvm -t hello:jvm .

运行该镜像：

$ docker run --rm -p 8080:8080 hello:jvm

这种方式虽然简单，但是每次构建镜像之前先得 mvn package 一下，可以使用多阶段构建（Multi-stage builds）的技巧，将两步合成一步。新建 Dockerfile.jvm.ms 文件，内容如下：

FROM ghcr.io/graalvm/native-image-community:21 AS builder

WORKDIR /build
COPY . /build
RUN ./mvnw --no-transfer-progress package -DskipTests=true

FROM ghcr.io/graalvm/jdk-community:21

EXPOSE 8080
COPY --from=builder /build/target/hello-0.0.1-SNAPSHOT.jar app.jar
CMD ["java","-jar","app.jar"]

整个 Dockerfile 分为两个构建阶段，第一阶段使用 mvn package 生成 JAR 文件，第二阶段和 Dockerfile.jvm 几乎是一样的，只不过是从第一阶段的构建结果中拷贝 JAR 文件。

直接执行如下命令构建镜像：

$ docker build -f Dockerfile.jvm.ms -t hello:jvm.ms .

运行该镜像：

$ docker run --rm -p 8080:8080 hello:jvm.ms

将二进制文件打包成镜像

有了上面的基础，我们可以更进一步，直接将二进制文件打包成镜像，这样可以省去 JDK，大大减小镜像体积。我们可以基于某个系统镜像，比如 alpine 或 almalinux，新建 Dockerfile.native 文件如下：

FROM almalinux:9

EXPOSE 8080
COPY target/hello app
ENTRYPOINT ["/app"]

然后执行如下命令构建镜像：

$ docker build -f Dockerfile.native -t hello:native .

运行该镜像：

$ docker run --rm -p 8080:8080 hello:native

不过这一次没有那么顺利，运行报错了：

exec /app: exec format error

这里就不得不提可执行文件格式的概念了。我们知道 GraalVM 的原生镜像功能是将 Java 代码编译成二进制文件，但是要注意的是，这个二进制文件是平台相关的，在不同的操作系统下，可执行文件的格式大相径庭。常见的可执行文件格式有以下几种：

ELF 格式（Executable and Linkable Format）：是一种通用的可执行文件格式，广泛用于类 UNIX 系统，如 Linux 和 BSD；
Mach-O 格式（Mach Object）：是苹果公司开发的可执行文件格式，用于 macOS 和 iOS 系统；
PE 格式（Portable Executable）：Windows 系统下的 .exe 文件就是这种格式。

Docker 容器基于 Linux 内核开发，所以只能运行 ELF 格式的文件，而上面的二进制文件是我在 Mac 电脑上构建的，所以复制到容器里无法运行。

如果你使用的是 Linux 开发环境，可能就不会遇到这个问题；但是如果你和我一样，使用的是 Mac 或 Windows 操作系统，建议还是使用多阶段构建的技巧。新建 Dockerfile.native.ms 文件如下：

FROM ghcr.io/graalvm/native-image-community:21 AS builder

WORKDIR /build
COPY . /build
RUN ./mvnw --no-transfer-progress native:compile -Pnative -DskipTests=true

FROM almalinux:9

EXPOSE 8080
COPY --from=builder /build/target/hello app
ENTRYPOINT ["/app"]

构建镜像：

$ docker build -f Dockerfile.native.ms -t hello:native.ms .

运行镜像：

$ docker run --rm -p 8080:8080 hello:native.ms

在实验过程中还有一点值得特别注意，那就是 GLIBC 的兼容性问题，可以使用 ldd --version 确认构建和运行使用的两个基础镜像中 GLIBC 版本。

查看 ghcr.io/graalvm/native-image-community:21 的 GLIBC 版本：

$ docker run --rm --entrypoint sh ghcr.io/graalvm/native-image-community:21 ldd --version
ldd (GNU libc) 2.34
Copyright (C) 2021 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.

查看 almalinux:9 的 GLIBC 版本：

$ docker run --rm --entrypoint sh almalinux:9 ldd --version
ldd (GNU libc) 2.34
Copyright (C) 2021 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.

可以看出这两个基础镜像的 GLIBC 是一致的。如果我们将 almalinux:9 换成 centos:7：

$ docker run --rm --entrypoint sh centos:7 ldd --version
ldd (GNU libc) 2.17
Copyright (C) 2012 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.

运行时就可能报下面这样的报错：

/app: /lib64/libc.so.6: version `GLIBC_2.32' not found (required by /app)
/app: /lib64/libc.so.6: version `GLIBC_2.34' not found (required by /app)

使用 CNB 构建镜像

CNB（Cloud Native Buildpacks）是一种用于构建和打包应用程序的技术，旨在简化应用程序的开发、部署和运行，使用 CNB 开发人员无需编写 Dockerfile 就可以构建容器镜像。它会自动检测应用程序的类型和所需的环境，根据检测结果，下载必要的依赖项，并将它们与应用程序代码打包，最终生成一个符合 OCI 标准的容器镜像。

Spring Boot 的 Maven 插件 spring-boot-maven-plugin 已经集成了 CNB，它使用 Paketo Java Native Image buildpack 来生成包含本地可执行文件的轻量级容器镜像。

针对上面的 Spring Boot 应用，我们可以直接运行下面的命令：

$ mvn spring-boot:build-image -Pnative
...
[INFO] Successfully built image 'docker.io/library/hello:0.0.1-SNAPSHOT'
...

构建之前，请确保有一个兼容 Docker-API 的容器运行时，比如 Rancher Desktop、Docker 或 Podman 等。

使用 docker run 运行：

$ docker run --rm -p 8080:8080 hello:0.0.1-SNAPSHOT

生成的镜像名默认为 docker.io/library/${project.artifactId}:${project.version}，可以通过下面的配置进行修改：

<plugin>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-maven-plugin</artifactId>
    <configuration>
        <image>
            <name>docker.io/library/aneasystone/${project.artifactId}:${project.version}</name>
        </image>
    </configuration>
</plugin>

更多构建参数可以参考 Spring Boot 官方文档 Packaging OCI Images。

GraalVM 的局限性

软件行业有一句名言：没有银弹（No Silver Bullet），对于 GraalVM 技术也同样如此，它虽然具有镜像体积小、启动速度快、内存消耗低等优势，但是同时它也带来了一些新问题：

编译速度慢：GraalVM 通过 AOT 技术对整个应用程序及其依赖进行静态分析，以确保所有代码路径都被覆盖，这种静态编译方式需要处理更多的复杂性，因而编译速度也更慢；
平台相关性：编译出来的二进制文件是平台相关的，也就是说软件开发人员需要针对不同的平台编译不同的二进制文件，增加了软件分发的复杂性；
调试监控难：由于运行的程序由 Java 程序变成了本地程序，传统面向 Java 程序的调试、监控、Agent 等技术均不再适用，只能使用 GDB 调试；
封闭性假设：这是 AOT 编译的基本原则，即程序在编译期必须掌握运行时所需的所有信息，在运行时不能出现任何编译器未知的内容，这会导致 Java 程序中的很多动态特性无法继续使用，例如：资源、反射、动态类加载、动态代理、JCA 加密机制（内部依赖了反射）、JNI、序列化等。

针对每个新问题也都有对应的解决方案。比如引入 CI/CD 流水线自动化构建，让开发人员降低编译速度慢的感知；比如通过 Docker 容器镜像统一软件的分发方式；GraalVM 目前也在不断优化，增加传统 Java 调试和监控工具的支持，如 JFR 和 JMX 等；对于程序中的动态特性，也可以通过额外的适配工作来解决。

下面针对最后一个问题进行更进一步的实践。

资源文件

资源文件是项目开发中经常遇到的一种场景，但是默认情况下， native-image 工具不会将资源文件集成到可执行文件中。首先，我们准备两个文件，App.java 为主程序，app.res 为资源文件：

├── App.java
└── app.res

App.java 中的代码非常简单，读取并输出 app.res 中的内容：

public class App {
    
    public static void main( String[] args ) throws IOException {
        String message = readResource("app.res");
        System.out.println(message);
    }

    public static String readResource(String fileName) throws IOException {
        StringBuilder content = new StringBuilder();
        try (
            InputStream inputStream = App.class.getClassLoader().getResourceAsStream(fileName);
            BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, StandardCharsets.UTF_8))) {
            String line;
            while ((line = reader.readLine()) != null) {
                content.append(line).append(System.lineSeparator());
            }
        }
        return content.toString();
    }
}

我们使用 native-image 生成可执行文件：

$ javac App.java && native-image App

运行这个文件会抛出如下的空指针异常：

$ ./app
Exception in thread "main" java.lang.NullPointerException
        at java.base@21.0.2/java.io.Reader.<init>(Reader.java:168)
        at java.base@21.0.2/java.io.InputStreamReader.<init>(InputStreamReader.java:123)
        at App.readResource(App.java:18)
        at App.main(App.java:10)

根据异常信息推断，getResourceAsStream 返回了空指针，也就是说没有读到 app.res 资源文件，可以看出 native-image 确实没有把资源文件集成到可执行文件中。

为了让 native-image 知道资源文件的存在，我们新建一个 META-INF/native-image 目录，目录下新建一个 resource-config.json 文件，目录结构如下所示：

├── App.java
├── META-INF
│   └── native-image
│       └── resource-config.json
└── app.res

resource-config.json 文件的内容如下：

{
    "resources": {
        "includes": [
            {
                "pattern": "app.res"
            }
        ]
    },
    "bundles": []
}

重新运行 native-image 进行构建：

$ javac App.java && native-image App

native-image 会自动扫描 META-INF/native-image 目录下的配置文件，将资源文件集成到可执行文件中，此时就可以正常运行这个文件了：

$ ./app                             
Hello message from the resource file.

反射

接下来，我们再看一个反射的例子。反射是 Java 中一项非常重要的特性，可以根据字符串来动态地加载类和方法，native-image 如果得不到足够的上下文信息，可能编译时就会缺少这些反射的类和方法。不过 native-image 也是足够聪明的，如果在调用某些反射方法时使用了常量，native-image 也能自动编译这些常量对应的类和方法，比如：

Class.forName("java.lang.Integer")
Class.forName("java.lang.Integer", true, ClassLoader.getSystemClassLoader())
Class.forName("java.lang.Integer").getMethod("equals", Object.class)
Integer.class.getDeclaredMethod("bitCount", int.class)
Integer.class.getConstructor(String.class)
Integer.class.getDeclaredConstructor(int.class)
Integer.class.getField("MAX_VALUE")
Integer.class.getDeclaredField("value")

下面我们构造一个 native-image 无法推断反射信息的示例，比如根据命令行参数来动态的调用某个类的某个方法：

public class App {
    
    public static void main( String[] args ) throws Exception {
        if (args.length != 4) {
            System.out.println("Usage: ./app clz method a b");
            return;
        }
        Integer result = callReflection(args[0], args[1], Integer.parseInt(args[2]), Integer.parseInt(args[3]));
        System.out.println(result);
    }

    public static Integer callReflection(String clz, String method, Integer a, Integer b) throws Exception {
        Class<?> clazz = Class.forName(clz);
        return (Integer) clazz.getMethod(method, Integer.class, Integer.class).invoke(null, a, b);
    }
}

我们定义一个 Calculator 类，实现加减乘除四则运算：

public class Calculator {

    public static Integer add(Integer a, Integer b) {
        return a + b;
    }

    public static Integer sub(Integer a, Integer b) {
        return a - b;
    }

    public static Integer mul(Integer a, Integer b) {
        return a * b;
    }

    public static Integer div(Integer a, Integer b) {
        return a / b;
    }
}

然后将两个类编译成 class 文件：

$ javac App.java Calculator.java

运行测试：

$ java App Calculator add 2 2
4
$ java App Calculator sub 2 2
0
$ java App Calculator mul 2 2
4
$ java App Calculator div 2 2
1

我们使用 native-image 生成可执行文件：

$ native-image App --no-fallback

此时的文件运行会报错：

$ ./app Calculator add 2 2
Exception in thread "main" java.lang.ClassNotFoundException: Calculator
        at org.graalvm.nativeimage.builder/com.oracle.svm.core.hub.ClassForNameSupport.forName(ClassForNameSupport.java:122)
        at org.graalvm.nativeimage.builder/com.oracle.svm.core.hub.ClassForNameSupport.forName(ClassForNameSupport.java:86)
        at java.base@21.0.2/java.lang.Class.forName(DynamicHub.java:1356)
        at java.base@21.0.2/java.lang.Class.forName(DynamicHub.java:1319)
        at java.base@21.0.2/java.lang.Class.forName(DynamicHub.java:1312)
        at App.callReflection(App.java:13)
        at App.main(App.java:8)

可以看出 native-image 通过静态分析，是不知道程序会使用 Calculator 类的，所以构建二进制文件时并没有包含在里面。为了让 native-image 知道 Calculator 类的存在，我们新建一个 META-INF/native-image/reflect-config.json 配置文件：

[
    {
        "name": "Calculator",
        "methods": [
            {
                "name": "add",
                "parameterTypes": [
                    "java.lang.Integer",
                    "java.lang.Integer"
                ]
            }
        ]
    }
]

重新编译后，运行正常：

$ ./app Calculator add 2 2      
4

由于配置文件里我只加了 add 方法，所以运行其他方法时，依然会报错：

$ ./app Calculator mul 2 2
Exception in thread "main" java.lang.NoSuchMethodException: Calculator.mul(java.lang.Integer, java.lang.Integer)
        at java.base@21.0.2/java.lang.Class.checkMethod(DynamicHub.java:1075)
        at java.base@21.0.2/java.lang.Class.getMethod(DynamicHub.java:1060)
        at App.callReflection(App.java:14)
        at App.main(App.java:8)

将所有方法都加到配置文件中即可。

注意这里的 --no-fallback 参数，防止 native-image 开启回退模式（fallback image）。native-image 检测到反射时会自动开启回退模式，生成的可执行文件也是可以执行的，但是必须依赖 JDK：
% native-image App 
...
Warning: Reflection method java.lang.Class.getMethod invoked at App.callReflection(App.java:14)
Warning: Aborting stand-alone image build due to reflection use without configuration.
...
Generating fallback image...
Warning: Image 'app' is a fallback image that requires a JDK for execution (use --no-fallback to suppress fallback image generation and to print more detailed information why a fallback image was necessary).

Reachability Metadata 和 Tracing Agent

上面的 resource-config.json 和 reflect-config.json 文件也被称为可达性元数据（Reachability Metadata），一般位于 META-INF/native-image/<group.id>/<artifact.id> 目录下，元数据文件有以下几种类型，每一种类型的元数据配置放在对应的 <feature>-config.json 文件中：

resource-config.json - 资源和资源包允许加载应用程序中存在的任意文件
reflect-config.json - Java 反射使 Java 代码能够在运行时检查自己的类、方法、字段和属性
proxy-config.json - 动态代理会根据需要创建类，这些类实现了给定的接口列表
jni-config.json - JNI 允许本地代码在运行时访问类、方法、字段及其属性
predefined-classes-config.json - 预定义类为动态生成的类提供支持
serialization-config.json - 序列化使 Java 对象可以写入和从流中读取

值得注意的是，最新版本的 Reachability Metadata 配置文件格式有所调整，所有的配置都统一放在 META-INF/native-image/reachability-metadata.json 文件中，在查看在线文档时要特别留意，区分 GraalVM 的版本。

但是手工编写元数据文件非常繁琐，而且容易出错，为此，GraalVM 提供了名为 Tracing Agent 的工具，帮我们自动生成元数据文件。

这个工具可以在 $GRAALVM_HOME/lib 目录下找到。

它的用法非常简单，使用 java App 正常运行程序，同时加上 -agentlib 参数即可：

$ java -agentlib:native-image-agent=config-output-dir=META-INF/native-image App

程序运行结束后，META-INF/native-image 目录下会自动生成如下文件：

├── App.java
├── META-INF
│   └── native-image
│       ├── agent-extracted-predefined-classes
│       ├── jni-config.json
│       ├── predefined-classes-config.json
│       ├── proxy-config.json
│       ├── reflect-config.json
│       ├── resource-config.json
│       └── serialization-config.json
└── app.res

我们可以打开 resource-config.json 文件进行查看，内容如下：

{
  "resources":{
  "includes":[{
    "pattern":"\\Qapp.res\\E"
  }]},
  "bundles":[]
}

这和上面我们写的差不多，有了元数据文件之后，再通过 native-image 就可以编译出带资源文件的可执行文件了。

细心的同学可能已经发现，这里的写法和我们的写法不太一样，自动生成的配置是 \\Qapp.res\\E，而我们写的配置是 app.res；其实，自动生成的是更为严谨的写法，\\Q 和 \\E 是特殊的正则表达式语法，表示从 \\Q 到 \\E 之间的所有字符都应被视为普通字符，不会被解释为正则表达式的特殊符号，而我们写的 app.res 包含 . 会被当成是任意字符。

对于反射的示例，可以用一样的方式运行：

$ java -agentlib:native-image-agent=config-output-dir=META-INF/native-image App Calculator add 1 1

这时也会生成 reflect-config.json 文件，内容和我们的写法一样。

不过 Tracing Agent 有个不好的地方，每次运行会覆盖之前生成的元数据文件，所以当我们运行 java -agentlib:... App Calculator sub 1 1 时，生成的 sub 方法会把第一次生成的 add 方法覆盖掉，如果能自动合并就好了。

在 Maven 项目中使用 Tracing Agent

如果要在 Maven 项目中使用 Tracing Agent，我们需要对上面的 Maven 项目做两点修改：

第一点，在 native-maven-plugin 插件中新增如下配置：

<configuration>
    <fallback>false</fallback>
    <agent>
        <enabled>true</enabled>
    </agent>
</configuration>

<fallback> 部分表示关闭回退模式；<agent> 部分表示开启 Tracing Agent，这一部分也可以通过命令行参数 -Dagent=true 开启。

第二点，新增 org.codehaus.mojo:exec-maven-plugin 插件，添加一个 id 为 java-agent 的执行块，要执行的命令就是用 java 运行当前项目。

修改完的完整配置如下：

<profiles>
    <profile>
        <id>native</id>
        <build>
            <plugins>
                <plugin>
                    <groupId>org.graalvm.buildtools</groupId>
                    <artifactId>native-maven-plugin</artifactId>
                    <version>0.10.4</version>
                    <extensions>true</extensions>
                    <executions>
                        <execution>
                            <id>build-native</id>
                            <goals>
                                <goal>compile-no-fork</goal>
                            </goals>
                            <phase>package</phase>
                        </execution>
                        <execution>
                            <id>test-native</id>
                            <goals>
                                <goal>test</goal>
                            </goals>
                            <phase>test</phase>
                        </execution>
                    </executions>
                    <!-- NEW -->
                    <configuration>
                        <fallback>false</fallback>
                        <agent>
                            <enabled>true</enabled>
                        </agent>
                    </configuration>
                </plugin>
                <!-- NEW -->
                <plugin>
                    <groupId>org.codehaus.mojo</groupId>
                    <artifactId>exec-maven-plugin</artifactId>
                    <version>3.1.1</version>
                    <executions>
                        <execution>
                            <id>java-agent</id>
                            <goals>
                                <goal>exec</goal>
                            </goals>
                            <configuration>
                                <executable>java</executable>
                                <workingDirectory>${project.build.directory}</workingDirectory>
                                <arguments>
                                    <argument>-classpath</argument>
                                    <classpath />
                                    <argument>com.example.App</argument>
                                </arguments>
                            </configuration>
                        </execution>
                    </executions>
                </plugin>
            </plugins>
        </build>
    </profile>
</profiles>

然后执行如下命令正常打包：

$ mvn clean package

接着是关键一步，执行如下命令运行 java-agent 执行块：

$ mvn exec:exec@java-agent -Pnative

由于上面开启了 Agent 模式，native-maven-plugin 插件会自动将 -agentlib:... 参数注入到 exec-maven-plugin 的参数列表中，从而在 target/native/agent-output/main 目录下生成元数据文件。如果 target 目录下没有文件生成，请检查 pom.xml 配置是否正常。

最后，生成可执行文件：

$ mvn package -Pnative

这里比较有意思的一点是，native-maven-plugin 插件是如何将 Agent 参数注入到 exec-maven-plugin 的参数列表里的？我们从 pom.xml 配置中看不出任何线索，关键藏在 native-maven-plugin 的源码里：

这个类实现了 AbstractMavenLifecycleParticipant 的 afterProjectsRead 方法，这个方法是 Maven 的一个重要的扩展点，允许开发者在 Maven 读取完所有项目配置后，但在构建项目依赖图之前，插入自定义逻辑，比如这里的逻辑就是查找 exec-maven-plugin 插件中 id 为 java-agent 的执行块，并将 Agent 参数注入到 <arguments> 列表中。

参考

原生应用相比于传统的 Java 应用，在服务监控、问题排查、日志调试、性能优化等方面要麻烦一点，GraalVM 也提供了一些指南供参考。

监控

调试

优化

October 7, 2024

基于 LangGraph 创建智能体应用

早在年初的时候，LangChain 发布了 v0.1.0 稳定版本，版本公告里通过大量的篇幅对功能特性做了全面的介绍，最后，在公告的结尾，提到了一个不那么显眼的库，那就是 LangGraph。尽管看上去不那么显眼，但是它却非常重要，所以后来官方又发表了一篇博客来单独介绍它，这是一个面向当前大模型领域最火热的智能体应用的库，是 LangChain 在智能体开发，特别是复杂的多智能体系统方面的一次重大尝试。

在之前的 LangChain 版本中，我们可以通过 AgentExecutor 实现智能体，在大模型应用开发框架 LangChain 学习笔记（二）中，我们曾经学习过 AgentExecutor 的用法，实现了包括 Zero-shot ReAct Agent、Conversational ReAct Agent、ReAct DocStore Agent、Self-Ask Agent、OpenAI Functions Agent 和 Plan and execute Agent 这些不同类型的智能体。但是这种方式过于黑盒，所有的决策过程都隐藏在 AgentExecutor 的背后，缺乏更精细的控制能力，在构建复杂智能体的时候非常受限。

LangGraph 提供了对应用程序的流程和状态更精细的控制，它允许定义包含循环的流程，并使用 状态图（State Graph） 来表示 AgentExecutor 的黑盒调用过程。

下面是 LangGraph 的关键特性：

循环和分支（Cycles and Branching）：支持在应用程序中实现循环和条件语句；
持久性（Persistence）：自动保存每一步的执行状态，支持在任意点暂停和恢复，以实现错误恢复、人机协同、时间旅行等功能；
人机协同（Human-in-the-Loop）：支持在行动执行前中断执行，允许人工介入批准或编辑；
流支持（Streaming Support）：图中的每个节点都支持实时地流式输出；
与 LangChain 的集成（Integration with LangChain）：LangGraph 与 LangChain 和 LangSmith 无缝集成，但并不强依赖于它们。

快速开始

我们从一个最简单的例子开始：

### 定义状态图

from langgraph.graph import StateGraph, MessagesState

graph_builder = StateGraph(MessagesState)

### 定义模型和 chatbot 节点

from langchain_openai import ChatOpenAI

llm = ChatOpenAI()

def chatbot(state: MessagesState):
    return {"messages": [llm.invoke(state["messages"])]}

### 构建和编译图

from langgraph.graph import END, START

graph_builder.add_node("chatbot", chatbot)
graph_builder.add_edge(START, "chatbot")
graph_builder.add_edge("chatbot", END)
graph = graph_builder.compile()

### 运行

from langchain_core.messages import HumanMessage

response = graph.invoke(
    {"messages": [HumanMessage(content="合肥今天天气怎么样？")]}
)
response["messages"][-1].pretty_print()

在这个例子中，我们使用 LangGraph 定义了一个只有一个节点的图：

基本概念

上面的示例非常简单，还称不上什么智能体，尽管如此，它却向我们展示了 LangGraph 中的几个重要概念：

图（Graph） 是 LangGraph 中最为重要的概念，它将智能体的工作流程建模为图结构。大学《数据结构》课程学过，图由 节点（Nodes） 和 边（Edges） 构成，在 LangGraph 中也是如此，此外，LangGraph 中还增加了 状态（State） 这个概念；
状态（State） 表示整个图运行过程中的状态数据，可以理解为应用程序当前快照，为图中所有节点所共享，它可以是任何 Python 类型，但通常是 TypedDict 类型或者 Pydantic 的 BaseModel 类型；
节点（Nodes） 表示智能体的具体执行逻辑，它接收当前的状态作为输入，执行某些计算，并返回更新后的状态；节点不一定非得是调用大模型，可以是任意的 Python 函数；
边（Edges） 表示某个节点执行后，接下来要执行哪个节点；边的定义可以是固定的，也可以是带条件的；如果是条件边，我们还需要定义一个 路由函数（Routing function），根据当前的状态来确定接下来要执行哪个节点。

通过组合节点和边，我们可以创建复杂的循环工作流，随着节点的执行，不断更新状态。简而言之：节点用于执行动作，边用于指示下一步动作。

LangGraph 的实现采用了消息传递（Message passing）的机制。其灵感源自 Google 的 Pregel 和 Apache 的 Beam 系统，当一个节点完成其操作后，它会沿着一条或多条边向其他节点发送消息。这些接收节点随后执行其功能，将生成的消息传递给下一组节点，如此循环往复。

代码详解

了解这些基本概念后，再回过头来看下上面的代码，脉络就很清楚了。

首先我们通过 StateGraph 定义了状态图：

graph_builder = StateGraph(MessagesState)

它接受状态的 Schema 作为构造参数，在这里直接使用了内置的 MessagesState 类，它的定义如下：

class MessagesState(TypedDict):
    messages: Annotated[list[AnyMessage], add_messages]

MessagesState 很简单，仅包含一个 LangChain 格式的消息列表，一般在构造聊天机器人或示例代码时使用，在正式环境中用的并不多，因为大多数应用程序需要的状态比消息列表更为复杂。

后面的 add_messages 被称为 规约函数（Reducers），表示当节点执行后状态如何更新。当没有定义规约函数时，默认是覆盖的逻辑，比如下面这样的状态 Schema：

from typing import TypedDict

class State(TypedDict):
    foo: int
    bar: list[str]

假设图的输入为 {"foo": 1, "bar": ["hi"]}，接着假设第一个节点返回 {"foo": 2}，这时状态被更新为 {"foo": 2, "bar": ["hi"]}，注意，节点无需返回整个状态对象，只有返回的字段会被更新，再接着假设第二个节点返回 {"bar": ["bye"]}，这时状态将变为 {"foo": 2, "bar": ["bye"]}。

当定义了规约函数，更新逻辑就不一样了，比如对上面的状态 Schema 稍作修改：

from typing import TypedDict, Annotated
from operator import add

class State(TypedDict):
    foo: int
    bar: Annotated[list[str], add]

仍然假设图的输入为 {"foo": 1, "bar": ["hi"]}，接着假设第一个节点返回 {"foo": 2}，这时状态被更新为 {"foo": 2, "bar": ["hi"]}，再接着假设第二个节点返回 {"bar": ["bye"]}，这时状态将变为 {"foo": 2, "bar": ["hi", "bye"]}。

定义了图之后，我们接下来就要定义节点，这里我们只定义了一个 chatbot 节点：

def chatbot(state: MessagesState):
    return {"messages": [llm.invoke(state["messages"])]}

节点就是普通的 Python 函数，在这里调用大模型得到回复，也可以是任意其他的逻辑，函数的入参就是上面所定义的状态对象，我们可以从状态中取出最新的值，函数的出参也是状态对象，节点执行后，根据规约函数，返回值会被更新到状态中。

定义节点后，我们就可以使用 add_node 方法将其添加到图中：

graph_builder.add_node("chatbot", chatbot)

然后再使用 add_edge 方法添加两条边，一条边从 START 节点到 chatbot 节点，一个边从 chatbot 节点到 END 结束：

graph_builder.add_edge(START, "chatbot")
graph_builder.add_edge("chatbot", END)

START 和 END 是两个特殊节点，START 表示开始节点，接受用户的输入，是整个图的入口，END 表示结束节点，执行到它之后就没有后续动作了。

值得注意的是，这里构建图的接口形式借鉴了 NetworkX 的设计理念。整个图构建好后，我们还需要调用 compile 方法编译图：

graph = graph_builder.compile()

只有编译后的图才能使用。编译是一个相当简单的步骤，它会对图的结构进行一些基本检查，比如无孤立节点等，也可以在编译时设置一些运行时参数，比如检查点、断点等。

编译后的图是一个 Runnable 对象，所以我们可以使用 invoke/ainvoke 来调用它：

response = graph.invoke(
    {"messages": [HumanMessage(content="合肥今天天气怎么样？")]}
)
response["messages"][-1].pretty_print()

也可以使用 stream/astream 来调用它：

for event in graph.stream({"messages": ("user", "合肥今天天气怎么样？")}):
    for value in event.values():
        value["messages"][-1].pretty_print()

输出结果如下：

================================== Ai Message ==================================

对不起，我无法提供实时天气信息。您可以通过天气预报应用程序或网站来获取合肥今天的天气情况。

工具调用

可以看到，现在这个程序只是对大模型进行了一层包装，还谈不上是智能体。Lilian Weng 在 LLM Powered Autonomous Agents 这篇博客中总结到，智能体至少要包含三个核心组件：规划（Planning）、记忆（Memory） 和 工具使用（Tool use）。

其中，规划和记忆好比人的大脑，可以储存历史知识，对问题进行分析思考，现在的大模型都或多或少具备这样的能力；工具使用好比人的五官和手脚，可以感知世界，与外部源（例如知识库或环境）进行交互，以获取额外信息，并执行动作。工具的使用是人类区别于其他动物的重要特征，也是智能体区别于其他应用程序的重要特征。

这一节我们将对上面的 LangGraph 示例做些修改，使其具备工具调用的能力。首先，我们定义一个天气查询的工具：

### 定义工具

from pydantic import BaseModel, Field
from langchain_core.tools import tool

class GetWeatherSchema(BaseModel):
    city: str = Field(description = "城市名称，如合肥、北京、上海等")
    date: str = Field(description = "日期，如今天、明天等")

@tool(args_schema = GetWeatherSchema)
def get_weather(city: str, date: str):
    """查询天气"""
    if city == "合肥":
        return "今天晴天，气温30度。"
    return "今天有小雨，气温25度。"

这里使用了 LangChain 的 @tool 注解将一个方法定义成工具，并使用了 pydantic 对工具的参数做一些说明，在这篇博客中我还介绍了一些其他定义工具的方法，也可以使用。

接下来，和之前的示例一样，我们仍然需要定义一个状态图：

### 定义状态图

from langgraph.graph import StateGraph, MessagesState

graph_builder = StateGraph(MessagesState)

再接下来定义节点：

### 定义 tools 节点

from langgraph.prebuilt import ToolNode

tools = [get_weather]
tool_node = ToolNode(tools)

### 定义模型和 chatbot 节点

from langchain_openai import ChatOpenAI

llm = ChatOpenAI()
llm = llm.bind_tools(tools)

def chatbot(state: MessagesState):
    return {"messages": [llm.invoke(state["messages"])]}

这和之前的示例有两点区别：

多了一个 tools 节点，我们使用 LangGraph 内置的 ToolNode 来定义，一个工具节点中可以包含多个工具方法；
在 chatbot 节点 中，我们的大模型需要绑定这些工具，通过 llm.bind_tools() 实现；

再接下来，将节点添加到图中，并在节点和节点之间连上线：

### 构建和编译图

from langgraph.graph import END, START
from langgraph.prebuilt import tools_condition

graph_builder.add_node("chatbot", chatbot)
graph_builder.add_node("tools", tool_node)
graph_builder.add_edge(START, "chatbot")
graph_builder.add_edge("tools", 'chatbot')
graph_builder.add_conditional_edges("chatbot", tools_condition)
graph = graph_builder.compile()

构建出的图如下所示：

可以看到这里有两条比较特别的连线，是虚线，这被称为 条件边（Conditional Edges），LangGraph 通过调用某个函数来确定下一步将执行哪个节点，这里使用了内置的 tools_condition 函数，当大模型返回 tool_calls 时执行 tools 节点，否则则执行 END 节点。

此时，一个简单的智能体就构建好了，我们再次运行之：

### 运行

for event in graph.stream({"messages": ("user", "合肥今天天气怎么样？")}):
    for value in event.values():
        value["messages"][-1].pretty_print()

运行结果如下：

================================== Ai Message ==================================
Tool Calls:
  get_weather (call_Jjp7SNIQkJWpLUdTL4uL1h1O)
 Call ID: call_Jjp7SNIQkJWpLUdTL4uL1h1O
  Args:
    city: 合肥
    date: 今天
================================= Tool Message =================================
Name: get_weather

今天晴天，气温30度。
================================== Ai Message ==================================

合肥今天是晴天，气温30度。

完整的代码参考这里。

深入 Tool Call 的原理

从上面的运行结果中可以看出，用户消息首先进入 chatbot 节点，也就是调用大模型，大模型返回 tool_calls 响应，因此进入 tools 节点，接着调用我们定义的 get_weather 函数，得到合肥的天气，然后再次进入 chatbot 节点，将函数结果送给大模型，最后大模型就可以回答出用户的问题了。

这个调用的流程图如下：

OpenAI 官方文档中有一张更详细的流程图：

其中要注意的是，第二次调用大模型时，可能仍然会返回 tool_calls 响应，这时可以循环处理。

为了更好的理解 LangGraph 是如何调用工具的，我们不妨深入接口层面一探究竟。总的来说，LangGraph 利用大模型的 Tool Call 功能，实现动态的选择工具，提取工具参数，执行工具函数，并根据工具运行结果回答用户问题。

有很多大模型具备 Tool Call 功能，比如 OpenAI、Anthropic、Gemini、Mistral AI 等，我们可以通过 llm.bind_tools(tools) 给大模型绑定可用的工具，实际上，绑定工具就是在请求大模型的时候，在入参中多加一个 tools 字段：

{
    "model": "gpt-4",
    "messages": [
        {
            "role": "user",
            "content": "合肥今天天气怎么样？"
        }
    ],
    "stream": false,
    "n": 1,
    "temperature": 0.7,
    "tools": [
        {
            "type": "function",
            "function": {
                "name": "get_weather",
                "description": "查询天气",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "city": {
                            "type": "string",
                            "description": "城市名称，如合肥、北京、上海等"
                        },
                        "date": {
                            "type": "string",
                            "description": "日期，如今天、明天等"
                        }
                    },
                    "required": [
                        "city",
                        "date"
                    ]
                }
            }
        }
    ],
    "tool_choice": "auto"
}

这时大模型返回的结果类似于下面这样，也就是上面所说的 tool_calls 响应：

{
    "id": "chatcmpl-ABDVbXhhQLF8yN3xZV5FpW10vMQpP",
    "object": "chat.completion",
    "created": 1727236899,
    "model": "gpt-4-0613",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "call_aZaHgkaSmzq7kWX5f73h7nGg",
                        "type": "function",
                        "function": {
                            "name": "get_weather",
                            "arguments": "{\n  \"city\": \"合肥\",\n  \"date\": \"今天\"\n}"
                        }
                    }
                ]
            },
            "finish_reason": "tool_calls"
        }
    ],
    "usage": {
        "prompt_tokens": 91,
        "completion_tokens": 25,
        "total_tokens": 116
    },
    "system_fingerprint": ""
}

我们只需要判断大模型返回的结果中是否有 tool_calls 字段就能知道下一步是不是要调用工具，这其实就是 tools_condition 这个条件函数的逻辑：

def tools_condition(
    state: Union[list[AnyMessage], dict[str, Any]],
) -> Literal["tools", "__end__"]:

    if isinstance(state, list):
        ai_message = state[-1]
    elif messages := state.get("messages", []):
        ai_message = messages[-1]
    else:
        raise ValueError(f"No messages found in input state to tool_edge: {state}")
    if hasattr(ai_message, "tool_calls") and len(ai_message.tool_calls) > 0:
        return "tools"
    return "__end__"

tools_condition 函数判断 messages 中如果有 tool_calls 字段且不为空，则返回 tools，也就是工具节点，否则返回 __end__ 也就是结束节点。

工具节点的执行，我们使用的是 LangGraph 内置的 ToolNode 类，它的实现比较复杂，感兴趣的可以翻看下它的源码，但是大体流程可以用下面几行代码表示：

tools_by_name = {tool.name: tool for tool in tools}
def tool_node(state: dict):
    result = []
    for tool_call in state["messages"][-1].tool_calls:
        tool = tools_by_name[tool_call["function"]["name"]]
        observation = tool.invoke(tool_call["function"]["arguments"])
        result.append(ToolMessage(content=observation, tool_call_id=tool_call["id"]))
    return {"messages": result}

工具节点遍历 tool_calls 数组，根据大模型返回的函数名 name 和函数参数 arguments 依次调用工具，并将工具结果以 ToolMessage 形式附加到 messages 中。这样再次进入 chatbot 节点时，向大模型发起的请求就如下所示（多了一个角色为 tool 的消息）：

{
    "model": "gpt-4",
    "messages": [
        {
            "role": "user",
            "content": "合肥今天天气怎么样？"
        },
        {
            "role": "assistant",
            "content": "",
            "tool_calls": [
                { 
                    "id": "call_aZaHgkaSmzq7kWX5f73h7nGg",
                    "type": "function",
                    "function": {
                        "name": "get_weather",
                        "arguments": "{\n  \"city\": \"合肥\",\n  \"date\": \"今天\"\n}" 
                    }
                }
            ]
        },
        {
            "role": "tool",
            "content": "晴，27度",
            "tool_call_id": "call_aZaHgkaSmzq7kWX5f73h7nGg"
        }
    ],
    "stream": false,
    "n": 1,
    "temperature": 0.7,
    "tools": [
        ...
    ],
    "tool_choice": "auto"
}

大模型返回消息如下：

{
    "id": "chatcmpl-ABDeUc21mx3agWVPmIEHndJbMmYTP",
    "object": "chat.completion",
    "created": 1727237450,
    "model": "gpt-4-0613",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "合肥今天的天气是晴朗，气温为27度。"
            },
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 129,
        "completion_tokens": 24,
        "total_tokens": 153
    },
    "system_fingerprint": ""
}

此时 messages 中没有 tool_calls 字段，因此，进入 END 节点，这一轮的会话就结束了。

适配 Function Call 接口

经过上面的学习，我们知道，LangGraph 默认会使用大模型接口的 Tool Call 功能。Tool Call 是 OpenAI 推出 Assistants API 时引入的一种新特性，它相比于传统的 Function Call 来说，控制更灵活，比如支持一次返回多个函数，从而可以并发调用。

目前大多数大模型产商的接口都已经紧跟 OpenAI 的规范，推出了 Tool Call 功能，但是也有部分产商或开源模型只支持 Function Call，对于这些模型如何在 LangGraph 中适配呢？

Function Call 和 Tool Call 的区别在于，请求的参数中是 functions 而不是 tools，如下所示：

{
    "messages": [
        {
            "role": "user",
            "content": "合肥今天天气怎么样？"
        }
    ],
    "model": "gpt-4",
    "stream": false,
    "n": 1,
    "temperature": 0.7,
    "functions": [
        {
            "name": "get_weather",
            "description": "查询天气",
            "parameters": {
                "properties": {
                    "city": {
                        "description": "城市名称，如合肥、北京、上海等",
                        "type": "string"
                    },
                    "date": {
                        "description": "日期，如今天、明天等",
                        "type": "string"
                    }
                },
                "required": [
                    "city",
                    "date"
                ],
                "type": "object"
            }
        }
    ]
}

LangChain 提供了 llm.bind_functions(tools) 方法来给大模型绑定可用的工具，这里的工具定义和 llm.bind_tools(tools) 是一模一样的：

### 定义模型和 chatbot 节点

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4")
llm = llm.bind_functions(tools)

def chatbot(state: MessagesState):
    return {"messages": [llm.invoke(state["messages"])]}

大模型返回结果如下，messages 中会包含 function_call 字段而不是 tool_calls：

{
    "id": "chatcmpl-ACcnVWbuWbyxuO0eWqQrKBE0dB921",
    "object": "chat.completion",
    "created": 1727572437,
    "model": "gpt-4-0613",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "",
                "function_call": {
                    "name": "get_weather",
                    "arguments": "{\"city\":\"合肥\",\"date\":\"今天\"}"
                }
            },
            "finish_reason": "function_call"
        }
    ],
    "usage": {
        "prompt_tokens": 91,
        "completion_tokens": 21,
        "total_tokens": 112
    },
    "system_fingerprint": "fp_5b26d85e12"
}

因此我们条件边的判断函数就不能以 tool_calls 来作为判断依据了，我们对其稍加修改：

def tools_condition(
    state: MessagesState,
) -> Literal["tools", "__end__"]:

    if isinstance(state, list):
        ai_message = state[-1]
    elif messages := state.get("messages", []):
        ai_message = messages[-1]
    else:
        raise ValueError(f"No messages found in input state to tool_edge: {state}")
    if "function_call" in ai_message.additional_kwargs:
        return "tools"
    return "__end__"

注意 LangChain 将 function_call 放在消息的额外字段 additional_kwargs 里。

最后是工具节点的实现，上面我们使用的是 LangGraph 内置的 ToolNode 类，它的实现比较复杂，要考虑工具的异步执行和并发执行等情况，我们不用实现和它完全一样的功能。最简单的做法是自定义一个 BasicToolNode 类，并实现一个 __call__ 方法：

import json
from langchain_core.messages import FunctionMessage

class BasicToolNode:

    def __init__(self, tools: list) -> None:
        self.tools_by_name = {tool.name: tool for tool in tools}

    def __call__(self, inputs: dict):
        if messages := inputs.get("messages", []):
            message = messages[-1]
        else:
            raise ValueError("No message found in input")
        outputs = []
        if "function_call" in message.additional_kwargs:
            tool_call = message.additional_kwargs["function_call"]
            tool_result = self.tools_by_name[tool_call["name"]].invoke(
                json.loads(tool_call["arguments"])
            )
            outputs.append(
                FunctionMessage(
                    content=json.dumps(tool_result),
                    name=tool_call["name"]
                )
            )
        return {"messages": outputs}

tools = [get_weather]
tool_node = BasicToolNode(tools=tools)

我们从 function_call 字段中提取出工具名称 name 和工具参数 arguments，然后调用相应的工具，最后最重要的一步是将工具调用结果包装成一个 FunctionMessage 并附加到 messages 中。当程序流程再次进入 chatbot 节点时，向大模型发起的请求就如下所示（多了一个角色为 function 的消息）：

{
    "messages": [
        {
            "role": "user",
            "content": "合肥今天天气怎么样？"
        },
        {
            "role": "assistant",
            "content": "",
            "function_call": {
                "name": "get_weather",
                "arguments": "{\"city\":\"合肥\",\"date\":\"今天\"}"
            }
        },
        {
            "role": "function",
            "content": "晴，27度",
            "name": "get_weather"
        }
    ],
    "model": "gpt-4",
    "stream": false,
    "n": 1,
    "temperature": 0.7,
    "functions": [
        ...
    ]
}

至此，我们就通过 Function Call 实现了 LangGraph 的调用逻辑，完整的代码参考这里。

可以看出其中有三步是关键：

给大模型绑定工具，可以通过 llm.bind_tools() 或 llm.bind_functions() 实现，对于不支持 Function Call 的模型，甚至可以通过自定义 Prompt 来实现；
解析大模型的返回结果，根据返回的结果中是否有 tool_calls 或 function_call 字段，判断是否需要使用工具；
根据大模型的返回结果，调用一个或多个工具方法。

记忆

我们的智能体现在可以使用工具来回答用户的问题，但它不记得先前互动的上下文，这限制了它进行多轮对话的能力。比如我们接着上面的问题后面再问一个与之相关问题：

for event in graph.stream({"messages": ("user", "合肥今天天气怎么样？")}):
    for value in event.values():
        value["messages"][-1].pretty_print()

for event in graph.stream({"messages": ("user", "要带伞吗？")}):
    for value in event.values():
        value["messages"][-1].pretty_print()

智能体的回复如下：

================================== Ai Message ==================================

请问您在哪个城市以及哪一天需要查询天气情况呢？

很显然，这个智能体还不具备记忆功能，而上一节我们曾提到，记忆（Memory） 是智能体必须具备的三大核心组件之一，所以这一节我们就来学习如何使用 LangGraph 实现它。

LangGraph 通过持久化检查点（persistent checkpointing）) 实现记忆。首先，我们在编译图时设置检查点（checkpointer）参数：

from langgraph.checkpoint.memory import MemorySaver

memory = MemorySaver()
graph = graph_builder.compile(checkpointer=memory)

然后在调用图时提供一个额外的线程 ID 配置：

config = {"configurable": {"thread_id": "1"}}

for event in graph.stream({"messages": ("user", "合肥今天天气怎么样？")}, config):
    for value in event.values():
        value["messages"][-1].pretty_print()

for event in graph.stream({"messages": ("user", "要带伞吗？")}, config):
    for value in event.values():
        value["messages"][-1].pretty_print()

LangGraph 在第一次运行时自动保存状态，当再次使用相同的线程 ID 调用图时，图会加载其保存的状态，使得智能体可以从停下的地方继续。这一次，智能体的回复如下：

================================== Ai Message ==================================

不需要带伞，今天是晴天哦。

可以看出智能体记住了上一轮的对话内容，现在我们可以和它进行多轮对话了。

持久化数据库

在上面的例子中，我们使用了 MemorySaver 这个检查点，这是一个简单的内存检查点，所有的对话历史都保存在内存中。对于一个正式的应用来说，我们需要将对话历史持久化到数据库中，可以考虑使用 SqliteSaver 或 PostgresSaver 等，LangGraph 也支持自定义检查点，实现其他数据库的持久化，比如 MongoDB 或 Redis。

这一节我们将使用 PostgresSaver 来将智能体的记忆持久化到数据库。

首先，安装 PostgresSaver 所需的依赖：

$ pip3 install "psycopg[binary,pool]" langgraph-checkpoint-postgres

然后使用 Docker 启动一个 Postgre 实例：

$ docker run --name my-postgres -e POSTGRES_PASSWORD=123456 -p 5432:5432 -d postgres:latest

然后将上一节代码中的 MemorySaver 检查点替换成 PostgresSaver 如下：

from langgraph.checkpoint.postgres import PostgresSaver

DB_URI = "postgresql://postgres:123456@localhost:5432/postgres?sslmode=disable"
with PostgresSaver.from_conn_string(DB_URI) as checkpointer:
    
    # 第一次运行时初始化
    checkpointer.setup()
    
    graph = graph_builder.compile(checkpointer=checkpointer)
    config = {"configurable": {"thread_id": "1"}}
    for event in graph.stream({"messages": ("user", "合肥今天天气怎么样？")}, config):
        for value in event.values():
            value["messages"][-1].pretty_print()
    for event in graph.stream({"messages": ("user", "要带伞吗？")}, config):
        for value in event.values():
            value["messages"][-1].pretty_print()

第一次运行时，我们需要使用 checkpointer.setup() 来初始化数据库，新建必须的库和表，后续运行可以省略这一步。后面的代码和上一节是完全一样的，设置线程 ID 进行两轮问答，只不过现在问答记录存到数据库里了。感兴趣的同学可以打开 checkpoints 表看看数据结构：

注意这里我们直接基于连接字符串创建连接，这种方法简单方便，非常适用于快速测试验证，我们也可以创建一个 Connection 对象，设置一些额外的连接参数：

from psycopg import Connection

connection_kwargs = {
    "autocommit": True,
    "prepare_threshold": 0,
}
with Connection.connect(DB_URI, **connection_kwargs) as conn:
    checkpointer = PostgresSaver(conn)
    graph = graph_builder.compile(checkpointer=checkpointer)
    ...

在正式环境下，我们往往会复用数据库的连接，这时可以使用连接池 ConnectionPool 对象：

from psycopg_pool import ConnectionPool

with ConnectionPool(conninfo=DB_URI, max_size=20, kwargs=connection_kwargs) as pool:
    checkpointer = PostgresSaver(pool)
    graph = graph_builder.compile(checkpointer=checkpointer)
    ...

使用 LangSmith 调试智能体会话

当智能体的工具和节点不断增多，我们将会面临大量的问题，比如运行结果出乎意料，智能体出现死循环，反应速度比预期慢，运行花费了多少令牌，等等，这时如何调试智能体将变成一件棘手的事情。

一种简单的方法是使用这里介绍的包装类：

class Wrapper:
    ''' 包装类，用于调试 OpenAI 接口的原始入参和出参
    '''
    def __init__(self, wrapped_class):
        self.wrapped_class = wrapped_class

    def __getattr__(self, attr):
        original_func = getattr(self.wrapped_class, attr)

        def wrapper(*args, **kwargs):
            print(f"Calling function: {attr}")
            print(f"Arguments: {args}, {kwargs}")
            result = original_func(*args, **kwargs)
            print(f"Response: {result}")
            return result
        return wrapper

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4")
llm.client = Wrapper(llm.client)
llm = llm.bind_functions(tools)

这种方法相当于给大模型接口增加了一个切面，用于记录接口的原始入参和出参，方便我们调试。

另一种更专业的做法是使用 LangSmith。

LangSmith 是 LangChain 开发的一个用于构建生产级 LLM 应用程序的平台，允许你调试、测试、评估和监控基于任何 LLM 框架构建的程序，无论是 LangChain 开发的链，还是 LangGraph 开发的智能体。

要使用 LangSmith，我们首先登录平台并注册一个账号，然后进入 Settings -> API Keys 页面，点击 Create API Key 按钮创建一个 API Key，然后设置如下环境变量：

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=lsv2_pt_xxx
export LANGCHAIN_ENDPOINT=https://api.smith.langchain.com
export LANGCHAIN_PROJECT=default

其中，LANGCHAIN_TRACING_V2=true 表示开启日志跟踪模式；LANGCHAIN_API_KEY 就是上一步创建的 API Key；LANGCHAIN_ENDPOINT 表示 LangSmith 端点地址，一般来说不用配置，由于 LangSmith 是一个开源项目，我们可以私有化部署，这时才需要配置；LANGCHAIN_PROJECT 表示将日志保存到哪个 LangSmith 项目，如果不设置，默认使用的 default 项目。

设置好环境变量，整个工作就完成了，代码无需任何变动，完全没有侵入性。此时，我们再次运行之前的代码，就可以在 LangSmith 平台上看到相应的记录了：

Runs 列表表示智能体每次的运行记录，也可以切换到 Threads 列表查看所有的会话线程：

点击进入记录详情，可以很直观地看到 LangGraph 的调用顺序，每一步的耗时和令牌数一目了然：

每一步还可以继续展开，查看该步骤更为详细的入参和出参，便于我们排查问题。

除了调试，我们还可以在 LangSmith 平台上将某一步的结果添加到 测试数据集（Dataset） 或 标注队列（Annotation Queue） 用于后续的测试和评估。还可以对 LLM 的调用情况进行监控分析：

高级特性

通过检查点我们实现了智能体的记忆功能，从而可以让智能体支持多轮对话。实际上，检查点远比我们想象的更强大，通过它可以在任何时候保存和恢复智能体运行过程中的状态，从而实现错误恢复、人机交互、时间旅行等高级特性。

人机交互（Human-in-the-loop）

基于 LLM 的应用程序可能会不可靠，有时需要人类的输入才能成功完成任务；对于某些操作，比如预定机票、支付订单等，可能在运行之前要求人工批准，以确保一切都按照预期运行。LangGraph 支持一种被称为 Human-in-the-loop 的工作流程，允许我们在执行工具节点之前停下来，等待人类的介入。

首先我们将上面代码中的工具改为 book_ticket，用于预定机票：

class BookTicketSchema(BaseModel):
    from_city: str = Field(description = "出发城市名称，如合肥、北京、上海等")
    to_city: str = Field(description = "到达城市名称，如合肥、北京、上海等")
    date: str = Field(description = "日期，如今天、明天等")

@tool(args_schema = BookTicketSchema)
def book_ticket(from_city: str, to_city: str, date: str):
    """预定机票"""
    return "您已成功预定 %s 从 %s 到 %s 的机票" % (date, from_city, to_city)

再将用户的问题改为：

for event in graph.stream({"messages": ("user", "帮我预定一张明天从合肥到北京的机票")}, config):
    for value in event.values():
        value["messages"][-1].pretty_print()

运行得到结果：

================================== Ai Message ==================================
Tool Calls:
  book_ticket (call_WGzlRnbPXbN8YvwjIkIMNDS1)
 Call ID: call_WGzlRnbPXbN8YvwjIkIMNDS1
  Args:
    date: 明天
    from_city: 合肥
    to_city: 北京
================================= Tool Message =================================
Name: book_ticket

您已成功预定 明天 从 合肥 到 北京 的机票
================================== Ai Message ==================================

您已成功预定 明天从合肥到北京的机票。祝您旅途愉快！如果还需要帮助，请随时告诉我。

接下来我们稍微对代码做些修改，在编译图的时候设置 interrupt_before 参数：

graph = graph_builder.compile(
    checkpointer=memory,
    interrupt_before=["tools"]
)

这样在执行到工具节点时，整个流程就会中断，重新运行结果如下：

================================== Ai Message ==================================
Tool Calls:
  book_ticket (call_1jQtm6czoPrNhbRIR5FzyN47)
 Call ID: call_1jQtm6czoPrNhbRIR5FzyN47
  Args:
    date: 明天
    from_city: 合肥
    to_city: 北京

可以看到工具并没有执行，此时我们可以使用 graph.get_state(config) 获取流程图的当前状态，从当前状态里我们可以拿到上一步的消息和下一步将要执行的节点：

snapshot = graph.get_state(config)
print(snapshot.values["messages"][-1])
print(snapshot.next)

向用户展示当前状态，以便用户对工具的执行进行确认，如果用户确认无误，则继续流程图的运行，直接传入 None 即可：

### 继续运行

for event in graph.stream(None, config):
    for value in event.values():
        value["messages"][-1].pretty_print()

运行结果如下：

================================= Tool Message =================================
Name: book_ticket

您已成功预定 明天 从 合肥 到 北京 的机票
================================== Ai Message ==================================

好的，已为您成功预定一张明天从合肥到北京的机票。

手动更新状态

在上一节中，我们学习了如何在执行工具之前中断，以便我们可以检查和确认，如果确认没问题，就继续运行，但如果确认有问题，这时我们就要手动更新状态，改变智能体的行为方向。

书接上回，我们仍然使用机票预定的例子，假设用户确认时，希望将日期从明天改为后天。我们可以使用下面的代码：

snapshot = graph.get_state(config)
existing_message = snapshot.values["messages"][-1]
new_tool_call = existing_message.tool_calls[0].copy()
new_tool_call["args"]["date"] = "后天"
new_message = AIMessage(
    content=existing_message.content,
    tool_calls=[new_tool_call],
    # Important! The ID is how LangGraph knows to REPLACE the message in the state rather than APPEND this messages
    id=existing_message.id,
)
graph.update_state(config, {"messages": [new_message]})

这里我们首先获取当前状态，从当前状态中获取最后一条消息，我们知道最后一条消息是 tool_call 消息，于是将 tool_call 复制了一份，并修改 date 参数，然后重新构造 AIMessage 对象，并使用 graph.update_state() 来更新状态。值得注意的是，AIMessage 中的 id 参数非常重要，LangGraph 会从状态中找到和 id 匹配的消息，如果找到就更新，否则就是新增。

这样就实现了状态的更新，我们传入 None 参数继续运行之：

### 继续运行

for event in graph.stream(None, config):
    for value in event.values():
        value["messages"][-1].pretty_print()

运行结果如下：

================================= Tool Message =================================
Name: book_ticket

您已成功预定 后天 从 合肥 到 北京 的机票
================================== Ai Message ==================================

您已成功预定 后天从合肥到北京的机票。祝您旅途愉快！如果还需要帮助，请随时告诉我。

除了修改工具的参数之外，LangGraph 还支持我们修改状态中的任意消息，比如手动构造工具执行的结果以及大模型的回复：

snapshot = graph.get_state(config)
existing_message = snapshot.values["messages"][-1]
new_messages = [
    # The LLM API expects some ToolMessage to match its tool call. We'll satisfy that here.
    ToolMessage(content="预定失败", tool_call_id=existing_message.tool_calls[0]["id"]),
    # And then directly "put words in the LLM's mouth" by populating its response.
    AIMessage(content="预定失败"),
]
graph.update_state(config, {"messages": new_messages})

完整的代码参考这里，更多内容，参考 LangGraph 文档：

LangGraph 应用场景

官网文档提供了很多 LangGraph 的应用场景，包括聊天机器人、RAG、智能体架构、评估分析等。

Chatbots

聊天机器人是智能体最常见的应用场景。

RAG

检索增强生成（Retrieval-Augmented Generation，简称 RAG） 通过引入外部信息源实现知识问答，解决大模型缺乏领域知识、无法获取实时信息以及生成虚假内容等问题。我们在这篇博客中学习了不少高级 RAG 技巧，通过 LangGraph 可以将智能体和 RAG 相结合，实现更好的问答效果。

Agent Architectures

ReAct 是最常见的智能体架构，这个词出自论文 ReAct: Synergizing Reasoning and Acting in Language Models，它是由 Reason 和 Act 两个词组合而成，表示一种将推理和行动与大模型相结合的通用范式。上面我们学习的 LangGraph 示例，其实就是参考了 ReAct 的思路，方便起见，LangGraph 将其内置在 SDK 中，我们可以直接使用 create_react_agent 方法来创建一个 ReAct 智能体：

from langchain_openai import ChatOpenAI
from langgraph.checkpoint.memory import MemorySaver
from langgraph.prebuilt import create_react_agent

llm = ChatOpenAI()
memory = MemorySaver()
tools = [get_weather]
graph = create_react_agent(llm, tools=tools, checkpointer=memory)

除 ReAct 之外，还有不少其他的智能体架构，比如多智能体、规划型智能体、智能体的反思和批判。

Multi-Agent Systems

Planning Agents

Reflection & Critique

Evaluation & Analysis

使用智能体评估智能体。

Experimental

这里列举一些 LangGraph 的实验特性。

参考

LangGraph Blogs

Cobus Greyling

中文资料

June 29, 2024

高级 RAG 技术学习笔记

随着大模型技术的发展，基于大模型开发的应用也越来越多，比如类似 ChatGPT 的对话服务，将搜索引擎与大模型相结合的问答服务，等等。但在这些应用中，我们也面临着大量的问题，包括缺乏领域知识、无法获取实时信息以及生成虚假内容。检索增强生成（Retrieval-Augmented Generation，简称 RAG） 通过引入外部信息源，为这些问题提供了一种有效的缓解策略。

RAG 在生成式人工智能应用中被广泛采用，演变成了一门类似 提示工程 的学科，可以说它是 2023 年最受欢迎的基于大模型的开发架构。它的流行甚至推动了向量搜索领域的炒作，像 Chroma、Weavaite 和 Pinecone 这样的向量数据库初创公司都因此火了一把。

RAG 之所以如此流行，原因有几个：

它利用了大模型的上下文学习的能力（In-Context Learning，ICL），增强了上下文理解，有助于减少幻觉；
它提供了一种非梯度方法（Non-Gradient Approach，所谓梯度方法就是微调或训练等方法），允许自定义 Prompt 而无需对模型进行微调，这种方法也能更好地适应不同的模型；
它提供了很好的可观察性和可检查性，可以对用户输入、检索的上下文和模型生成的回复进行比对，而微调过程是不透明的；
它更容易维护，对知识库持续更新的过程比较简单，而不需要专业人员；

我们在之前的笔记中已经学习过不少和 RAG 相关的内容，比如在使用 Embedding 技术打造本地知识库助手这篇笔记中，我们学习了如何打造一个针对本地文档的问答系统，在基于结构化数据的文档问答这篇笔记中，我们继续探索了如何针对结构化的数据进行问答。不过这些内容都比较简单，只是对 RAG 原理的入门级讲解，本篇博客将对 RAG 的高级技巧进行深入学习，并结合 LangChain 和 LlamaIndex 对各个技巧一一进行实战。

RAG 概述

RAG 的本质是搜索 + LLM 提示（Search + LLM prompting），根据用户的问题，通过一定的搜索算法找到相关的信息，将其注入到大模型的提示中，然后令大模型基于上下文来回答用户的问题。其工作流程如下图所示：

在这里，用户向大模型提出了一个近期新闻相关的问题，由于大模型依赖于预训练数据，无法提供最新的信息。RAG 通过从外部数据库中获取和整合知识来弥补这一信息差，它收集与用户查询相关的新闻文章，这些文章与原始问题结合起来，形成一个全面的提示，使大模型能够生成一个见解丰富的答案。

图中展示了 RAG 框架的四个基本组成部分：

输入（Input）：即用户输入的问题，如果不使用 RAG，问题直接由大模型回答；
索引（Indexing）：系统首先将相关的文档切分成段落，计算每个段落的 Embedding 向量并保存到向量库中；在进行查询时，用户问题也会以相似的方式计算 Embedding 向量；
检索（Retrieval）：从向量库中找到和用户问题最相关的段落；
生成（Generation）：将找到的文档段落与原始问题合并，作为大模型的上下文，令大模型生成回复，从而回答用户的问题；

RAG 范式的演变和发展

RAG 近年来发展迅速，随着对 RAG 的研究不断深入，各种 RAG 技术被开发出来。Yunfan Gao 等人在 Retrieval-Augmented Generation for Large Language Models: A Survey 这篇论文中详细考察了 RAG 范式的演变和发展，将其分成三个阶段：朴素 RAG、高级 RAG 和模块化 RAG：

其中朴素 RAG 最早出现，在 ChatGPT 爆火后不久就开始受到关注，它包括索引、检索和生成三部分，参考上一节所介绍的基本流程。朴素 RAG 简单易懂，但是也面临着不少问题：

首先，在检索阶段，精确性和召回率往往是一个难题，既要避免选择无关片段，又要避免错过关键信息；
其次，如何将检索到的信息整合在一起也是一个挑战，面对复杂问题，单个检索可能不足以获取足够的上下文信息；对检索的结果，我们要确定段落的重要性和相关性，对段落进行排序，并对冗余段落进行处理；
最后，在生成回复时，模型可能会面临幻觉问题，即产生与检索到的上下文不符的内容；此外，模型可能会过度依赖上下文信息，导致只生成检索到的内容，而缺乏自己的见解；同时我们又要尽量避免模型输出不相关、有毒或有偏见的信息。

为了解决朴素 RAG 遗留的问题，高级 RAG 引入了一些改进措施，增加了 预检索过程（Pre-Retrieval Process） 和 后检索过程（Post-Retrieval Process） 两个阶段，提高检索质量：

在预检索过程这个阶段，主要关注的是 索引优化（index optimization） 和 查询优化（query optimization）；索引优化的目标是提高被索引内容的质量，常见的方法有：提高数据粒度（enhancing data granularity）、优化索引结构（optimizing index structures）、添加元数据（adding metadata）、对齐优化（alignment optimization） 和 混合检索（mixed retrieval）；而查询优化的目标是使用户的原始问题更清晰、更适合检索任务，常见的方法有：查询重写（query rewriting）、查询转换（query transformation）、查询扩展（query expansion） 等技术；
后检索过程关注的是，如何将检索到的上下文有效地与查询整合起来。直接将所有相关文档输入大模型可能会导致信息过载，使关键细节与无关内容混淆，为了减轻这种情况，后检索过程引入的方法包括：重新排序块（rerank chunks） 和 上下文压缩（context compressing） 等；

可以看出，尽管高级 RAG 在检索前和检索后提出了多种优化策略，但是它仍然遵循着和朴素 RAG 一样的链式结构，架构的灵活性仍然收到限制。模块化 RAG 的架构超越了前两种 RAG 范式，增强了其适应性和功能性，可以灵活地引入特定功能模块或替换现有模块，整个过程不仅限于顺序检索和生成，还包括迭代和自适应检索等方法。

关于这些 RAG 技术的细节，推荐研读 Yunfan Gao 等人的论文，写的非常详细。

开发 RAG 系统面临的 12 个问题

上一节我们学习了 RAG 范式的发展，并介绍了 RAG 系统中可能会面临的问题，Scott Barnett 等人在 Seven Failure Points When Engineering a Retrieval Augmented Generation System 这篇论文中对此做了进一步的梳理，整理了 7 个常见的问题：

缺失内容（Missing Content）

当用户的问题无法从文档库中检索到时，可能会导致大模型的幻觉现象。理想情况下，RAG 系统可以简单地回复一句 “抱歉，我不知道”，然而，如果用户问题能检索到文档，但是文档内容和用户问题无关时，大模型还是可能会被误导。

错过超出排名范围的文档（Missed Top Ranked）

由于大模型的上下文长度限制，我们从文档库中检索时，一般只返回排名靠前的 K 个段落，如果问题答案所在的段落超出了排名范围，就会出现问题。

不在上下文中（Not In Context）

包含答案的文档已经成功检索出来，但却没有包含在大模型所使用的上下文中。当从数据库中检索到多个文档，并且使用合并过程提取答案时，就会出现这种情况。

未提取（Not Extracted）

答案在提供的上下文中，但是大模型未能准确地提取出来，这通常发生在上下文中存在过多的噪音或冲突信息时。

错误的格式（Wrong Format）

问题要求以特定格式提取信息，例如表格或列表，然而大模型忽略了这个指示。

不正确的具体性（Incorrect Specificity）

尽管大模型正常回答了用户的提问，但不够具体或者过于具体，都不能满足用户的需求。不正确的具体性也可能发生在用户不确定如何提问，或提问过于笼统时。

不完整的回答（Incomplete Answers）

考虑一个问题，“文件 A、B、C 包含哪些关键点？”，直接使用这个问题检索得到的可能只是每个文件的部分信息，导致大模型的回答不完整。一个更有效的方法是分别针对每个文件提出这些问题，以确保全面覆盖。

Wenqi Glantz 在他的博客 12 RAG Pain Points and Proposed Solutions 中又扩充了另 5 个问题：

数据摄入的可扩展性问题（Data Ingestion Scalability）

当数据规模增大时，系统可能会面临如数据摄入时间过长、系统过载、数据质量下降以及可用性受限等问题，这可能导致性能瓶颈甚至系统故障。

结构化数据的问答（Structured Data QA）

根据用户的问题准确检索出所需的结构化数据是一项挑战，尤其是当用户的问题比较复杂或比较模糊时。这是由于文本到 SQL 的转换不够灵活，当前大模型在处理这类任务上仍然存在一定的局限性。

从复杂 PDF 文档提取数据（Data Extraction from Complex PDFs）

复杂的 PDF 文档中可能包含有表格、图片等嵌入内容，在对这种文档进行问答时，传统的检索方法往往无法达到很好的效果。我们需要一个更高效的方法来处理这种复杂的 PDF 数据提取需求。

备用模型（Fallback Model(s)）

在使用单一大模型时，我们可能会担心模型遇到问题，比如遇到 OpenAI 模型的访问频率限制错误。这时候，我们需要一个或多个模型作为备用，以防主模型出现故障。

大语言模型的安全性（LLM Security）

如何有效地防止恶意输入、确保输出安全、保护敏感信息不被泄露等问题，都是我们需要面对的重要挑战。

在 Wenqi Glantz 的博客中，他不仅整理了这些问题，而且还对每个问题给出了对应的解决方案，整个 RAG 系统的蓝图如下：

LlamaIndex 实战

通过上面的学习，我们了解了 RAG 的基本原理和发展历史，以及开发 RAG 系统时可能遇到的一些问题。这一节我们将学习 LlamaIndex 框架，这是一个和 LangChain 齐名的基于大模型的应用开发框架，我们将使用它快速实现一个简单的 RAG 程序。

LlamaIndex 快速入门

LlamaIndex 是一个由 Jerry Liu 创建的 Python 库，用于开发基于大模型的应用程序，类似于 LangChain，但它更偏向于 RAG 系统的开发。使用 LlamaIndex，开发人员可以很方便地摄取、结构化和访问私有或领域特定数据，以便将这些数据安全可靠地注入大模型中，从而实现更准确的文本生成。

正如 LlamaIndex 的名字所暗示的，索引（Index） 是 RAG 系统中的核心概念，它是大模型和用户数据之间的桥梁，无论是数据库类的结构化数据，还是文档类的非结构化数据，抑或是程序类的 API 数据，都是通过索引来查询的，查询出来的内容作为上下文和用户的问题一起发送给大模型，得到响应：

LlamaIndex 将 RAG 分为五个关键阶段：

加载（Loading）：用于导入各种用户数据，无论是文本文件、PDF、另一个网站、数据库还是 API；LlamaHub 提供了数百个的加载器；
索引（Indexing）：可以是 Embedding 向量，也可以是其他元数据策略，方便我们准确地找到上下文相关的数据；
存储（Storing）：对索引持久化存储，以免重复索引；
查询（Querying）：对给定的索引策略进行查询，包括子查询、多步查询和混合策略；
评估（Evaluation）：提供客观的度量标准，用于衡量查询响应的准确性、忠实度和速度；

可以看到这些阶段几乎都和索引有关，为了对这些阶段有个更感性的认识，我们参考 LlamaIndex 官方文档中的 Starter Tutorial 来快速入门。

首先，我们使用 pip 安装 LlamaIndex：

$ pip3 install llama-index

通过 LlamaIndex 提供的高级 API，初学者只需 5 行代码即可实现一个简单的 RAG 程序：

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
documents = SimpleDirectoryReader("data").load_data()
index = VectorStoreIndex.from_documents(documents)
query_engine = index.as_query_engine()
response = query_engine.query("What did the author do growing up?")

示例中使用了保罗·格雷厄姆的文章 What I Worked On 作为测试数据，我们将其下载并保存到 data 目录，运行程序，得到下面的输出：

The author worked on writing and programming before college.

LlamaIndex 核心概念

上面的代码中展示了 加载 -> 索引 -> 查询 这几个阶段，其中有几个概念需要特别说明下：

Documents and Nodes
- Documents 对应任何数据源的容器，比如 PDF 文档，API 接口的输出，或从数据库中检索数据；
- 我们可以手动构造 Document 对象，也可以使用所谓的数据连接器（Data Connectors）来加载数据，示例中使用的 SimpleDirectoryReader 就是一个数据连接器；
- 由于加载的数据可能很大，Document 通常不直接使用，在 LlamaIndex 中，会将 Document 切分成很多很多的小块，这些文档的分块被称为 Node，它是 LlamaIndex 中数据的原子单位；Node 中包含一些元数据，比如属于哪个文档，和其他 Node 的关联等；
- 将 Document 切分成 Nodes 是由 Node Parser 或 Text Splitters 完成的，示例代码中并没有明确指定，用的默认的 SentenceSplitter，可以通过 Settings.text_splitter 来修改；
Indexes
- 一旦完成了数据的读取，LlamaIndex 就可以帮我们对数据进行索引，便于快速检索用户查询的相关上下文；Index 是一种数据结构，它是 LlamaIndex 打造 RAG 的核心基础；
- LlamaIndex 内置了几种不同的 Index 实现，如 Summary Index，Vector Store Index、Tree Index 和 Keyword Table Index，How Each Index Works 这篇文档介绍了不同 Index 的实现原理；
- 可以看到示例代码中使用了 VectorStoreIndex，这也是目前最常用的 Index；默认情况下 VectorStoreIndex 将 Index 数据保存到内存中，可以通过 StorageContext 的 persist() 方法将 Index 持久化到本地磁盘，或指定 Vector Store 将 Index 保存到向量数据库中，LlamaIndex 集成了大量的 Vector Store 实现；
- LlamaIndex 有一套完善的存储体系，除了 Vector Store，还支持 Document Store、Index Store、Graph Store 和 Chat Store 等，具体内容可以参考官方文档；
- 此外，在使用 VectorStoreIndex 生成向量索引时，会使用 Embeddings 模型，它使用复杂的向量来表示文档内容，通过向量的距离来表示文本的语义相似性，默认的 Embedding 模型为 OpenAIEmbedding，可以通过 Settings.embed_model 来修改；
Query Engines
- 加载完文档，构造完索引，我们就来到 RAG 中最重要的一环：Querying；根据用户的问题，或者是一个总结请求，或者一个更复杂的指令，检索出相关文档从而实现对数据的问答和聊天；
- 查询引擎（Query Engines） 是最基础也是最常见的检索方式，通过 Index 的 as_query_engine() 方法可以构建查询引擎，查询引擎是无状态的，不能跟踪历史对话，如果要实现类似 ChatGPT 的对话场景，可以通过 as_chat_engine() 方法构建聊天引擎（Chat Engines）；
- LlamaIndex 将查询分为三个步骤：第一步 Retrieval 是指从 Index 中找到并返回与用户查询最相关的文档；第二步 Node Postprocessing 表示后处理，这是在检索到结果后对其进行重排序、转换或过滤的过程；第三步 Response Synthesis 是指将用户查询、最相关的文档片段以及提示组合在一起发送到大模型以生成响应；查询的每个步骤 LlamaIndex 都内置了多种不同的策略，也可以完全由用户定制；
- LlamaIndex 还支持多种不同的查询结合使用，它通过路由器（Routers）来做选择，确定要使用哪个查询，从而满足更多的应用场景。

通过上面的学习，我们对 LlamaIndex 中的各个组件的概念已经有了一个大致的了解，可以结合官网的 Learn、Use Cases 和 Component Guides 等文档学习 LlamaIndex 的更多功能。

高级 RAG 技巧

基于 LlamaIndex，我们只用了 5 行代码就实现了一个简单的 RAG 系统，可以看出，这是朴素 RAG 的基本思路。这一节我们将继续学习高级 RAG 技巧，争取对每一种技巧都进行实战验证，带大家一窥 RAG 的技术全貌。

下图展示了高级 RAG 涉及的核心步骤和算法：

LangChain 的这篇博客对这些步骤进行详细的讨论。

查询转换（Query Transformations）

RAG 系统面临的第一个问题就是如何处理用户输入，我们知道，RAG 的基本思路是根据用户输入检索出最相关的内容，但是用户输入是不可控的，可能存在冗余、模糊或歧义等情况，如果直接拿着用户输入去检索，效果可能不理想。

查询转换（Query Transformations） 是一组旨在修改用户输入以改善检索的方法，使检索对用户输入的变化具有鲁棒性。可参考 LangChain 的这篇博客和 LlamaIndex 的这份文档或这份指南。

查询扩展（Query Expansion）

假设你的知识库中包含了各个公司的基本信息，考虑这样的用户输入：微软和苹果哪一个成立时间更早？ 要获得更好的检索效果，我们可以将其拆解成两个用户输入：微软的成立时间 和 苹果的成立时间，这种将用户输入分解为多个子问题的方法被称为 查询扩展（Query Expansion）。

再考虑另一个用户输入：哪个国家赢得了 2023 年的女子世界杯？该国的 GDP 是多少？，和上面的例子一样，我们也需要通过查询扩展将其拆分成两个子问题，只不过这两个子问题是有依赖关系的，我们需要先查出第一个子问题的答案，然后才能查第二个子问题。也就是说，上面的例子中我们可以并行查询，而这个例子需要串行查询。

查询扩展有多种不同的实现，比如：

多查询检索器（Multi Query Retriever）

MultiQueryRetriever 是 LangChain 中的一个类，可根据用户输入生成子问题，然后依次进行检索，最后将检索到的文档合并返回。

MultiQueryRetriever 不仅可以从原始问题中拆解出子问题，还可以对同一问题生成多个视角的提问，比如用户输入：What are the approaches to Task Decomposition?，大模型可以对这个问题生成多个角度的提问，比如：

How can Task Decomposition be approached?
What are the different methods for Task Decomposition?
What are the various approaches to decomposing tasks?

MultiQueryRetriever 默认使用的 Prompt 如下：

You are an AI language model assistant. Your task is 
to generate 3 different versions of the given user 
question to retrieve relevant documents from a vector  database. 
By generating multiple perspectives on the user question, 
your goal is to help the user overcome some of the limitations 
of distance-based similarity search. Provide these alternative 
questions separated by newlines. Original question: {question}

我们可以在此基础上稍作修改，就可以实现子问题拆解：

你是一个 AI 语言助手，你的任务是将用户的问题拆解成多个子问题便于检索，多个子问题以换行分割，保证每行一个。
用户的原始问题为：{question}

在 LlamaIndex 中可以通过 Multi-Step Query Engine 或 Sub Question Query Engine 实现类似的多查询检索。

RAG 融合（RAG Fusion）

RAG Fusion 和 MultiQueryRetriever 基于同样的思路，生成子问题并检索，它对检索结果执行 倒数排名融合（Reciprocal Rank Fusion，RRF） 算法，使得检索效果更好。它的大致流程如下：

可以分为四个步骤：

首先，通过大模型将用户的问题转换为相似但不同的问题，例如，“气候变化的影响” 生成的问题可能包括 “气候变化的经济后果”、“气候变化和公共卫生” 等角度；
其次，对原始问题和新生成的问题执行并发的向量搜索；
接着，使用 RRF 算法聚合和细化所有结果；
最后，将所有的问题和重新排序的结果丢给大模型，引导大模型进行有针对性的输出。

其中生成问题的逻辑和 MultiQueryRetriever 别无二致，聚合和重排序的逻辑我们在后处理部分再做讨论。

这里是 RAG Fusion 原作者的基本实现，这里是基于 LangChain 的实现。

后退提示（Step-Back Prompting）

后退提示（Step-Back Prompting） 是 Google DeepMind 团队在论文 Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models 中提出的一种新的提示技术，我在之前的笔记中已经介绍过后退提示的基本原理。总的来说，它基于用户的原始问题生成一个后退问题，后退问题相比原始问题具有更高级别的概念或原则，从而提高解决复杂问题的效果，例如一个关于物理学的问题可以后退为一个关于该问题背后的物理原理的问题，然后对原始问题和后退问题进行检索。

很显然，后退提示也可以在 RAG 中作为一种查询扩展的方法，这里是基于后退提示实现 RAG 问答的一个示例，其中生成后退问题的 Prompt 如下：

You are an expert of world knowledge. I am going to ask you a question. \
Your response should be comprehensive and not contradicted with the following \
context if they are relevant. Otherwise, ignore them if they are not relevant.

{normal_context}
{step_back_context}

Original Question: {question}
Answer:

假设性文档嵌入（Hypothetical Document Embeddings，HyDE）

当我们使用基于相似性的向量检索时，在原始问题上进行检索可能效果不佳，因为它们的嵌入可能与相关文档的嵌入不太相似，但是，如果让大模型生成一个假设的相关文档，然后使用它来执行相似性检索可能会得到意想不到的结果。这就是 假设性文档嵌入（Hypothetical Document Embeddings，HyDE） 背后的关键思想。

HyDE 是 Luyu Gao 在 Precise Zero-Shot Dense Retrieval without Relevance Labels 这篇论文中提出的一种方法，它的思路非常有意思，首先通过大模型为用户问题生成答案，不管答案是否正确，然后计算生成的答案的嵌入，并进行向量检索，生成的答案虽然可能是错误的，但是通过它却可能比原问题更好地检索出正确的答案片段。

这里是 LangChain 通过 HyDE 生成假设性文档的示例。

LlamaIndex 也提供了一个类 HyDEQueryTransform 来实现 HyDE，这里是示例代码，同时文档也提到了使用 HyDE 可能出现的两个失败场景：

在没有上下文的情况下，HyDE 可能会对原始问题产出误解，导致检索出误导性的文档；比如用户问题是 “What is Bel?”，由于大模型缺乏上下文，并不知道 Bel 指的是 Paul Graham 论文中提到的一种编程语言，因此生成的内容和论文完全没有关系，导致检索出和用户问题没有关系的文档；
对开放式的问题，HyDE 可能产生偏见；比如用户问题是 “What would the author say about art vs. engineering?”，这时大模型会随意发挥，生成的内容可能带有偏见，从而导致检索的结果也带有偏见；

通过查询扩展不仅可以将用户冗余的问题拆解成多个子问题，便于更精确的检索；而且可以基于用户的问题生成更多角度的提问，这意味着对用户问题进行全方位分析，加大了搜索范围，所以会检索出更多优质内容。

但是查询扩展的最大缺点是太慢，而且费钱，因为需要大模型来生成子问题，这属于时间换效果，而且生成多个问题容易产生漂移，导致大模型输出的内容过于详细甚至偏题。

查询重写（Query Rewriting）

用户输入可能表达不清晰或措辞不当，一个典型的例子是用户输入中包含大量冗余的信息，看下面这个例子：

hi there! I want to know the answer to a question. is that okay? 
lets assume it is. my name is harrison, the ceo of langchain. 
i like llms and openai. who is maisie peters?

我们想要回答的真正问题是 “who is maisie peters?”，但用户输入中有很多分散注意力的文本，如果直接拿着原始文本去检索，可能检索出很多无关的内容。为解决这个问题，我们可以不使用原始输入，而是从用户输入生成搜索查询。Xinbei Ma 等人提出了一种 Rewrite-Retrieve-Read 的方法，对用户的输入进行改写，以改善检索效果，这里是论文地址，实现方法其实很简单，通过下面的 Prompt 让大模型基于用户的输入给出一个更好的查询：

template = """Provide a better search query for \
web search engine to answer the given question, end \
the queries with ’**’. Question: \
{x} Answer:"""
rewrite_prompt = ChatPromptTemplate.from_template(template)

具体实现可以参考 LangChain 的这个 cookbook。

除了处理表达不清的用户输入，查询重写还经常用于处理聊天场景中的 后续问题（Follow Up Questions）。比如用户首先问 “合肥有哪些好玩的地方？”，接着用户又问 “那里有什么好吃的？”，如果直接用最后一句话进行嵌入和检索，就会丢失 “合肥” 这样的重要信息，这时，我们就可以用大模型来做问题重写来解决这个问题。

在开源网页搜索助手 WebLangChain 中，使用了如下的 Prompt 来实现问题重写：

Given the following conversation and a follow up question, rephrase the follow up \
question to be a standalone question.

Chat History:
{chat_history}
Follow Up Input: {question}
Standalone Question:

查询压缩（Query Compression）

在一些 RAG 应用程序中，用户可能是以聊天对话的形式与系统交互的，为了正确回答用户的问题，我们需要考虑完整的对话上下文，为了解决这个问题，可以将聊天历史压缩成最终问题以便检索，可以参考这个 Prompt。

查询路由（Routing）

在经过第一步查询转换后，我们已经将用户问题转换成易于检索的形式，接下来我们就要开始检索了。但是从哪里检索呢？有很多 RAG 示例都是从单一数据存储中检索。但是为了更好的组织数据，我们通常会将不同的数据存储在不同的库中；在真正的生产环境中，情况可能会更复杂，数据甚至可能存储在多个不同种类的库中，比如，向量数据库，关系型数据库，图数据库，甚至是 API 接口。这时我们需要对传入的用户问题进行动态路由，根据不同的用户问题检索不同的库。

这篇教程介绍了 LangChain 中实现路由的两种方式，第一种方式是使用大模型将用户问题路由到一组自定义的子链，这些子链可以是不同的大模型，也可以是不同的向量存储，LangChain 提供了 RunnableLambda 和 RunnableBranch 两个类帮助我们快速实现这个功能，其中 RunnableLambda 是推荐的做法，用户可以在 route 方法中自定义路由逻辑：

def route(info):
    if "anthropic" in info["topic"].lower():
        return anthropic_chain
    elif "langchain" in info["topic"].lower():
        return langchain_chain
    else:
        return general_chain

from langchain_core.runnables import RunnableLambda

full_chain = {"topic": chain, "question": lambda x: x["question"]} | RunnableLambda(
    route
)
print(full_chain.invoke({"question": "how do I use Anthropic?"}))

另一种方法是计算用户问题和子链 Prompt 的嵌入向量，将最相似的子链作为下一步路由：

def prompt_router(input):
    query_embedding = embeddings.embed_query(input["query"])
    similarity = cosine_similarity([query_embedding], prompt_embeddings)[0]
    most_similar = prompt_templates[similarity.argmax()]
    print("Using MATH" if most_similar == math_template else "Using PHYSICS")
    return PromptTemplate.from_template(most_similar)

可以看到 LangChain 的路由功能非常地原始，连路由的 Prompt 都需要用户自己定义。相比来说，LlamaIndex 的路由器显得就要高级得多，它可以根据用户的输入从一堆带有元数据的选项中动态地选择一个或多个。

LlamaIndex 将动态选择的过程抽象为选择器，并且内置了一些选择器，比如 LLMSingleSelector 和 LLMMultiSelector 通过 Prompt 让大模型返回一个或多个选项，PydanticSingleSelector 和 PydanticMultiSelector 则是通过 Function Call 功能来实现的。这里选择的选项可以是 查询引擎（Query Engines） 或 检索器（Retrievers），甚至是任何用户自定义的东西，下面的代码演示了如何使用 LlamaIndex 的 RouterQueryEngine 实现根据用户的输入在多个查询引擎中动态选择其中一个：

# convert query engines to tools
list_tool = QueryEngineTool.from_defaults(
    query_engine=list_query_engine,
    description="Useful for summarization questions related to Paul Graham eassy on What I Worked On.",
)

vector_tool = QueryEngineTool.from_defaults(
    query_engine=vector_query_engine,
    description="Useful for retrieving specific context from Paul Graham essay on What I Worked On.",
)

# routing engine tools with a selector
query_engine = RouterQueryEngine(
    selector=PydanticSingleSelector.from_defaults(),
    query_engine_tools=[
        list_tool,
        vector_tool,
    ],
)

response = query_engine.query("What is the summary of the document?")

和 RouterQueryEngine 类似，使用 RouterRetriever 可以根据用户的输入动态路由到不同的检索器。此外，LlamaIndex 官方还有一些路由器的其他示例，比如 SQL Router Query Engine 这个示例演示了自定义路由器来路由到 SQL 数据库或向量数据库；Retriever Router Query Engine 这个示例演示了使用 ToolRetrieverRouterQueryEngine 来解决选项过多可能导致超出大模型 token 限制的问题。

查询构造（Query Construction）

我们面临的第三个问题是：使用什么语法来检索数据？在上一步中，我们知道数据可能存储在关系型数据库或图数据库中，根据数据的类型，我们将其分为结构化、半结构化和非结构化三大类：

结构化数据：主要存储在 SQL 或图数据库中，结构化数据的特点是具有预定义的模式，并且以表格或关系的形式组织，使其适合进行精确的查询操作；
半结构化数据：半结构化数据将结构化元素（例如文档中的表格或关系数据库）与非结构化元素（例如文本或关系数据库中的嵌入列）相结合；
非结构化数据：通常存储在向量数据库中，非结构化数据由没有预定义模型的信息组成，通常伴随着结构化元数据，以便进行过滤。

将自然语言与各种类型的数据无缝连接是一件极具挑战的事情。要从这些库中检索数据，必须使用特定的语法，而用户问题通常都是用自然语言提出的，所以我们需要将自然语言转换为特定的查询语法。这个过程被称为 查询构造（Query Construction）。

根据数据存储和数据类型的不同，查询构造可以分为以下几种常见的场景：

Text-to-SQL

将自然语言翻译成 SQL 是一个非常热门的话题，已经有不少人对此展开了研究。通过向 LLM 提供一个自然语言问题以及相关的数据库表信息，可以轻松地完成文本到 SQL 的转换。

这个过程虽然简单，不过也有不少值得注意的问题和小技巧：

大模型擅长写 SQL，但是写出来的 SQL 往往出现表名或字段名对应不上的情况；

解决方法是将你的数据库信息详细地告诉大模型，包括数据表的描述信息，有哪些字段，字段类型分别是什么，表中有什么样的数据，等等。Nitarshan Rajkumar 等人在 Evaluating the Text-to-SQL Capabilities of Large Language Models 这篇论文中发现，对于 OpenAI Codex 模型来说，使用 CREATE TABLE 语句来描述数据库表信息可以得到最佳性能，此外，在 CREATE TABLE 语句后通过一条 SELECT 语句附加 3 行表中的数据样本，可以进一步改善大模型生成 SQL 的效果。

LangChain 提供的 SQLDatabase 类可以方便地得到这些信息：

db = SQLDatabase.from_uri(
    "sqlite:///Chinook.db",
    include_tables=['Track'],
    sample_rows_in_table_info=3
)
print(db.table_info)

输出结果如下：

CREATE TABLE "Track" (
  "TrackId" INTEGER NOT NULL,
  "Name" NVARCHAR(200) NOT NULL,
  "AlbumId" INTEGER,
  "MediaTypeId" INTEGER NOT NULL,
  "GenreId" INTEGER,
  "Composer" NVARCHAR(220),
  "Milliseconds" INTEGER NOT NULL,
  "Bytes" INTEGER,
  "UnitPrice" NUMERIC(10, 2) NOT NULL,
  PRIMARY KEY ("TrackId"),
  FOREIGN KEY("MediaTypeId") REFERENCES "MediaType" ("MediaTypeId"),
  FOREIGN KEY("GenreId") REFERENCES "Genre" ("GenreId"),
  FOREIGN KEY("AlbumId") REFERENCES "Album" ("AlbumId")
)
SELECT * FROM 'Track' LIMIT 3;
TrackId    Name    AlbumId    MediaTypeId    GenreId    Composer    Milliseconds    Bytes    UnitPrice
1    For Those About To Rock (We Salute You)    1    1    1    Angus Young, Malcolm Young, Brian Johnson    343719    11170334    0.99
2    Balls to the Wall    2    2    1    None    342562    5510424    0.99
3    Fast As a Shark    3    2    1    F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman    230619    3990994    0.99

有时候，前 3 行数据不足以完整地表达出表中数据的样貌，这时我们可以手工构造数据样本；有时候，表中数据存在敏感信息，我们也可以使用伪造的假数据来代替真实情况。

使用 LangChain 提供的 create_sql_query_chain 可以方便地实现 Text-to-SQL 功能：

from langchain_community.utilities import SQLDatabase
from langchain_openai import ChatOpenAI
from langchain.chains import create_sql_query_chain

db = SQLDatabase.from_uri("sqlite:///./sqlite/Chinook.db")
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
chain = create_sql_query_chain(llm, db)
response = chain.invoke({"question": "How many employees are there"})

使用 LangChain 提供的 create_sql_agent 可以实现更智能的 Text-to-SQL 功能，包括 SQL 的生成，检查，执行，重试等：

from langchain_community.utilities import SQLDatabase
from langchain_openai import ChatOpenAI
from langchain_community.agent_toolkits import create_sql_agent

db = SQLDatabase.from_uri("sqlite:///./sqlite/Chinook.db")
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
agent_executor = create_sql_agent(llm, db=db, agent_type="openai-tools", verbose=True)
response = agent_executor.invoke({
    "input": "List the total sales per country. Which country's customers spent the most?"
})

具体内容可以参考 LangChain 的文档 Q&A over SQL + CSV。

LlamaIndex 的 NLSQLTableQueryEngine 同样可以实现类似的 Text-to-SQL 功能：

from llama_index.llms.openai import OpenAI
from sqlalchemy import create_engine
from llama_index.core import SQLDatabase
from llama_index.core.query_engine import NLSQLTableQueryEngine

llm = OpenAI(temperature=0.1, model="gpt-3.5-turbo")

engine = create_engine("sqlite:///./sqlite/Chinook.db")
sql_database = SQLDatabase(engine, include_tables=["Employee"])

query_engine = NLSQLTableQueryEngine(
    sql_database=sql_database, tables=["Employee"], llm=llm
)
response = query_engine.query("How many employees are there?")

数据库表过多，或查询结果过多，超出大模型的限制；

为了大模型能生成准确的 SQL，我们必须将数据库表的信息完整的送入大模型的上下文中，如果数据库表或列过多，就会超出大模型的 token 限制。这时，我们必须找到方法，动态地仅插入最相关的信息到提示中。我们可以使用 LangChain 内置的 create_extraction_chain_pydantic 链来实现这点，它通过 OpenAI 的 funtion call 功能动态地挑出和用户问题最相关的表，然后再基于这些表生成 SQL 语句；LlamaIndex 的 SQLTableRetrieverQueryEngine 也实现了同样的功能，它通过为每个表生成一个嵌入向量来实现这一点。

此外，生成 SQL 并执行后，我们通常需要将执行结果送到大模型的上下文中，以便它能回答用户的问题。但是如果查询结果过多，同样会超出大模型的 token 限制。因此，我们要对 SQL 输出的大小合理地进行限制，比如让大模型尽可能少地使用列并限制返回行数来实现这一点。

大模型编写的 SQL 可能存在语法错误无法执行；

如果在执行大模型生成的 SQL 时出现语法错误，可以参考我们人类自己是如何解决这类问题的。通常我们会查看报错信息，然后去查询关于报错信息的资料，以便对错误的语法进行纠正。这篇博客介绍了如何通过 Prompt 让大模型自动地做到这一点，将原始查询和报错信息发送给大模型，并要求它纠正，大模型就可以理解出了什么问题，从而生成更加精准的 SQL 查询。下面是作者所使用的 Prompt：

error_prompt = f"""{query.sql}

The query above produced the following error:

{query.error}

Rewrite the query with the error fixed:"""

这里是基于 LangChain 的实现。

以上三点是处理 Text-to-SQL 时要面对的基本问题和解决思路，还有一些优化方法可以进一步地提高 Text-to-SQL 的效果：

使用少样本示例

在 Nitarshan Rajkumar 等人的研究中，他们发现给大模型一些问题和对应 SQL 查询的示例，可以提高 SQL 生成的准确性；LangChain 的这个示例中介绍了如何构造 SQL 查询的少样本示例，以及如何通过 SemanticSimilarityExampleSelector 根据用户的问题动态的选择不同的少样本示例。

使用子查询

一些用户发现，让大模型将问题分解成多个子查询，有助于得到正确答案，如果让大模型对每个子查询进行注释，效果更好，这有点类似于之前学习过的 CoT 或 PoT 等提示技术，将一个大问题拆分成多个子查询，会迫使大模型按逻辑逐步思考，而且每一步相对来说更简单，从而出错概率降低。

处理高基数列（High-cardinality columns）

高基数列（High-cardinality columns） 是指一个数据列中包含的不同数值的个数较多，即列中数据的唯一性较高，重复率较低，比如姓名、地址、歌曲名称等这些专有名词的列。如果生成的 SQL 语句中包含这样的列，我们首先需要仔细检查拼写，以确保能正确地过滤数据，因为用户输入这些名称时往往会使用一些别名或拼写错误。

由于高基数列中的数据基本上不重复或者重复率非常低，所以我们可以想办法将用户的输入关联到正确的名称上，从而实现准确的查询。最简单的做法是创建一个向量存储，将数据库中存在的所有专有名词的向量存储进去，然后就可以计算和用户输入最接近的专有名词。这里和这里是基于 LangChain 的代码示例。

Text-to-SQL + Semantic

通过 Text-to-SQL 可以很好的回答关于结构化数据的问题，比如：公司一共有多少员工，公司里男女员工比例是多少，等等；但是有些用户问题不仅要对结构化字段进行过滤查询，还需要对非结构化字段进行语义检索，比如：1980 年上映了哪些有关外星人的电影？我们不仅要使用 year == 1980 对电影的上映年份进行过滤，还需要根据 外星人 从电影名称或描述中进行语义检索。

在关系型数据库中添加向量支持是实现混合数据检索的关键，这种混合类型的数据被称为 半结构化数据（semi-structured data），也就是说既有结构化数据，也有非结构化数据。比如使用 PostgreSQL 的 Pgvector 扩展可以在表中增加向量列，这让我们可以使用自然语言与这些半结构化数据进行交互，将 SQL 的表达能力与语义检索相结合。

Pgvector 通过 <-> 运算符在向量列上进行相似性检索，比如下面的 SQL 用于查询名称最为伤感的 3 首歌曲：

SELECT * FROM tracks ORDER BY name_embedding <-> {sadness_embedding} LIMIT 3;

也可以将语义检索和正常的 SQL 查询结合，比如下面的 SQL 用于查询 1980 年上映的有关外星人的电影：

SELECT * FROM movies WHERE year == 1980 ORDER BY name_embedding <-> {aliens_embedding} LIMIT 5;

Pgvector 也支持内积（<#>）、余弦距离（<=>）和 L1 距离（<+>）等运算符。

为了让大模型准确使用 Pgvector 的向量运算符，我们需要在 Prompt 里将 Pgvector 的语法告诉大模型，可以参考 Incoporating semantic similarity in tabular databases 这篇教程里的实现：

...

You can use an extra extension which allows you to run semantic similarity using <-> operator 
on tables containing columns named "embeddings".
<-> operator can ONLY be used on embeddings columns.
The embeddings value for a given row typically represents the semantic meaning of that row.
The vector represents an embedding representation of the question, given below. 
Do NOT fill in the vector values directly, but rather specify a `[search_word]` placeholder, 
which should contain the word that would be embedded for filtering.
For example, if the user asks for songs about 'the feeling of loneliness' the query could be:
'SELECT "[whatever_table_name]"."SongName" FROM "[whatever_table_name]" ORDER BY "embeddings" <-> '[loneliness]' LIMIT 5'

...

这篇教程详细介绍了如何使用 LangChain 实现基于 Pgvector 的语义检索，并将 Text-to-SQL + Semantic 总结为三种场景：

基于向量列的语义过滤：比如 查询名称最为伤感的 3 首歌曲；
结合普通列的过滤和向量列的语义过滤：比如 查询 1980 年上映的有关外星人的电影；
结合多个向量列的语义过滤：比如：从名称可爱的专辑中获取 5 首伤感的歌曲；

在 LlamaIndex 中，也有一个 PGVectorSQLQueryEngine 类用于实现 Pgvector 的语义检索，参考 Text-to-SQL with PGVector 这篇教程。

Text-to-metadata filters

很多向量数据库都具备 元数据过滤（metadata filters） 的功能，这和关系型数据库的半结构化数据很像（参考上面的 Text-to-SQL + Semantic 一节），可以把带元数据的向量数据库看成有一个向量列的关系型数据表。下面是 Chroma 的一个带元数据过滤的查询示例：

collection.query(
    query_texts=["query1", "query2"],
    n_results=10,
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
)

Chroma 不仅支持 query_texts 参数实现语义检索，还支持 where 参数实现类似 SQL 的结构化过滤，为了生成这样的查询语法，我们可以使用 LangChain 提供的自查询检索器（Self Query Retriever）：

document_content_description = "Brief summary of a movie"
metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string or list[string]"),
    AttributeInfo(name="year", description="The year the movie was released", type="integer" ),
    AttributeInfo(name="director", description="The name of the movie director", type="string" ),
    AttributeInfo(name="rating", description="A 1-10 rating for the movie", type="float"),
]

retriever = SelfQueryRetriever.from_llm(
    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
)
response = retriever.invoke("What are some movies about dinosaurs")

首先我们对整个文档以及文档包含的元数据字段做一个大致的描述，然后通过 SelfQueryRetriever.from_llm() 构造自查询检索器，检索器可以对自然语言问题进行解释，将问题转换成用于语义检索的查询语句（被称为 Query）和用于元数据过滤的过滤器语法（被称为 Filters），由于 LangChain 集成了大量的向量数据库，每个向量数据库的过滤器语法都可能不一样，所以 LangChain 设计了一套中间语法，让大模型根据这套语法规则生成过滤器语句，然后通过 StructuredQueryOutputParser 将过滤器语句解析为 StructuredQuery 对象（使用 lark-parser 实现），再由各个向量数据库的 structured_query_translator 将其转换为各自的查询语法。

如果对这套中间语法感兴趣，可以使用 get_query_constructor_prompt() 查看 SelfQueryRetriever 内置的 Prompt:

from langchain.chains.query_constructor.base import get_query_constructor_prompt

prompt = get_query_constructor_prompt(document_content_description, metadata_field_info)
print(prompt.format(query="dummy question"))

通过这个 Prompt 我们可以手动构造 StructuredQuery 对象：

from langchain.chains.query_constructor.base import StructuredQueryOutputParser

output_parser = StructuredQueryOutputParser.from_components()
query_constructor = prompt | llm | output_parser

response = query_constructor.invoke({
 "query": "Songs by Taylor Swift or Katy Perry about teenage romance under 3 minutes long in the dance pop genre"
})

生成的过滤器语法类似于下面这样：

and(
    or(
        eq("artist", "Taylor Swift"), 
        eq("artist", "Katy Perry")
    ), 
    lt("length", 180), 
    eq("genre", "pop")
)

具体内容可以参考这里，除此之外，Building hotel room search with self-querying retrieval 这篇教程使用自查询检索器实现了酒店数据的问答，感兴趣的同学可以一并参考。

同样，在 LlamaIndex 中也支持对向量数据库进行元数据过滤，这个功能被叫做 Auto-Retrieval，并抽象成 VectorIndexAutoRetriever 类，同时，LlamaIndex 也对不少的向量数据库做了集成，比如 Pinecone、Chroma、Elasticsearch、Vectara、Lantern、BagelDB 等。

下面是 VectorIndexAutoRetriever 的使用示例，和 SelfQueryRetriever 很像：

from llama_index.core.vector_stores.types import MetadataInfo, VectorStoreInfo
from llama_index.core.retrievers import VectorIndexAutoRetriever

vector_store_info = VectorStoreInfo(
    content_info="brief biography of celebrities",
    metadata_info=[
        MetadataInfo(name="category", type="str", description="Category of the celebrity, one of [Sports, Entertainment, Business, Music]"),
        MetadataInfo(name="country", type="str", description="Country of the celebrity, one of [United States, Barbados, Portugal]"),
    ],
)

retriever = VectorIndexAutoRetriever(
    index, vector_store_info=vector_store_info
)

response = retriever.retrieve("Tell me about Sports celebrities from United States")

和 Text-to-SQL 一样，元数据过滤也面临着大模型生成的过滤条件可能和库中的元数据无法完全匹配的问题，比如：库中的字段是大写，而用户的输入是小写，库中的字段是全称，而用户的输入是简称，这时我们也可以借鉴 Text-to-SQL 中的优化手段，比如自定义 Prompt 或根据用户输入动态选择样本，这里是 LlamaIndex 的示例。此外，LlamaIndex 官网还有一篇使用元数据过滤实现多文档检索（或者叫结构化分层检索）) 的示例。

Text-to-Cypher

向量数据库可以轻松处理非结构化数据，但它们无法理解向量之间的关系；SQL 数据库可以建模表之间的关系，但是却不擅长建模数据之间的关系，特别是多对多关系或难以在表格形式中表示的层次结构的数据；图数据库可以通过建模数据之间的关系并扩展关系类型来解决这些挑战。

和 SQL 一样，Cypher) 是一种对图数据库进行查询的结构化查询语言。LangChain 中提供的 GraphCypherQAChain 让我们可以方便地将自然语言翻译成 Cypher 语言，从而实现基于图数据库的问答：

from langchain_openai import ChatOpenAI
from langchain.chains import GraphCypherQAChain

chain = GraphCypherQAChain.from_llm(
    ChatOpenAI(temperature=0), graph=graph, verbose=True
)
response = chain.invoke({"query": "Who played in Top Gun?"})

值得注意的是，Cypher 是最流行的图数据库查询语言之一，可以用在很多不同的图数据库中，比如 Neo4j、Amazon Neptune 等等，但是还有很多图数据库使用了其他的查询语言，比如 Nebula Graph 使用的是 nGQL，HugeGraph 使用的是 Gremlin 等等，我们在编写 Prompt 的时候也要稍加区别。

和 LangChain 一样，LlamaIndex 也支持图数据库的问答，我们可以使用 KnowledgeGraphRAGRetriever 来实现，它的用法如下：

from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.retrievers import KnowledgeGraphRAGRetriever
graph_rag_retriever = KnowledgeGraphRAGRetriever(storage_context=storage_context, verbose=True)
query_engine = RetrieverQueryEngine.from_args(
    graph_rag_retriever,
)

不过要注意的是，这里对图数据库的查询实现和 LangChain 是不同的，KnowledgeGraphRAGRetriever 通过从用户问题中提取相关 实体（Entity），然后在图数据库中查询和这些实体有关联的子图（默认深度为 2，查询的模式可以是 embedding 或 keyword），从而构建出上下文，大模型基于查询出的子图来回答用户问题，所以这也被称为 (Sub)Graph RAG。

LlamaIndex 也支持 Text-to-Cypher 方式基于用户问题生成图查询语句，我们可以使用 KnowledgeGraphQueryEngine 来实现：

from llama_index.core.query_engine import KnowledgeGraphQueryEngine
query_engine = KnowledgeGraphQueryEngine(
    storage_context=storage_context,
    llm=llm,
    graph_query_synthesis_prompt=graph_query_synthesis_prompt,
    verbose=True,
)

不过当前的版本（0.10.25）支持得还不是很好，用户必须编写出合适的 Prompt 来能生成正确的 Cypher 语句。

LlamaIndex 也集成了不同的图数据库，比如 Neo4j Graph Store 或 Nebula Graph Store。

索引（Indexing）

上面三步都是关于检索的，包括从哪里检索以及如何检索。第四个要考虑的问题是怎么存储我的数据？怎么设计我的索引？通过上面的学习我们知道，可以将数据存储到向量数据库、SQL 数据库或者图数据库中，针对这些不同的存储方式，我们又可以使用不同的索引策略。

构建向量索引

构建向量索引是打造 RAG 系统中的关键步骤之一。在上面的 LlamaIndex 实战一节，我们使用 VectorStoreIndex 快速将文档构建成向量索引：

from llama_index.core import VectorStoreIndex
index = VectorStoreIndex.from_documents(documents)

默认情况下 VectorStoreIndex 将向量保存到内存中，可以通过 StorageContext 指定 Vector Store 将向量保存到向量数据库中，LlamaIndex 集成了大量的 Vector Store 实现，比如下面是集成 Chroma 的示例：

import chromadb
chroma_client = chromadb.EphemeralClient()
chroma_collection = chroma_client.create_collection("quickstart")

from llama_index.core import StorageContext
from llama_index.vector_stores.chroma import ChromaVectorStore
storage_context = StorageContext.from_defaults(
    vector_store=ChromaVectorStore(chroma_collection=chroma_collection)
)

from llama_index.core import VectorStoreIndex
index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context
)

很多向量数据库还支持元数据功能，我们可以将元数据与向量一起存储，然后使用元数据过滤器搜索某些日期或来源的信息，这在上面的 Text-to-metadata filters 一节中已经介绍过，此处略过。

LangChain 中没有 Index 和 StorageContext 概念，只有 Vector Store 的概念，所以 LangChain 构建向量索引的步骤看上去要精简的多：

from langchain_chroma import Chroma
db = Chroma.from_documents(documents, OpenAIEmbeddings())

构建向量索引有两个绕不开的话题，分块（Chunking）和嵌入（Embedding），下面将分节介绍。

分块策略（Chunking）

几乎所有的大模型或嵌入模型，输入长度都是受限的，因此，你需要将文档进行分块，通过分块不仅可以确保我们嵌入的内容尽可能少地包含噪音，同时保证嵌入内容和用户查询之间具有更高的语义相关性。有很多种不同的分块策略，比如你可以按长度进行分割，保证每个分块大小适中，你也可以按句子或段落进行分割，防止将完整的句子切成两半。每种分块策略可能适用于不同的情况，我们要仔细斟酌这些策略的优点和缺点，确定他们的适用场景，这篇博客对常见的分块策略做了一个总结。

文档分块是索引构建中的关键步骤，无论是 LangChain 还是 LlamaIndex 都提供了大量的文档分块的方法，可以参考 LangChain 的 Text Splitters 或 LlamaIndex 的 Node Parser 或 Text Splitters 文档。

固定大小分块（Fixed-size chunking）

这是最常见也是最直接的分块策略，文档被分割成固定大小的分块，分块之间可以保留一些重叠，以确保不会出现语义相关的内容被不自然地拆分的情况。在大多数情况下，固定大小分块都是最佳选择，与其他形式的分块相比，它既廉价又简单易用，而且不需要使用任何自然语言处理库。

分块大小是一个需要深思熟虑的参数，它取决于你所使用的嵌入模型的 token 容量，比如，基于 BERT 的 sentence-transformer 最多只能处理 512 个 token，而 OpenAI 的 ada-002 能够处理 8191 个；另外这里也需要权衡大模型的 token 限制，由于分块大小直接决定了我们加载到大模型上下文窗口中的信息量，这篇博客中对不同的分块大小进行了实验，可以看到不同的分块大小可以得到不同的性能表现。

在 LangChain 中，我们可以使用 CharacterTextSplitter 和 RecursiveCharacterTextSplitter 实现固定大小分块：

from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 256,
    chunk_overlap  = 20
)
docs = text_splitter.create_documents([text])

可以看到，分块参数中除了分块大小（chunk_size）和分块间的重叠（chunk_overlap）两个配置之外，还有一个分隔符（separator）参数，CharacterTextSplitter 首先会按照分隔符进行分割，再对分割后的内容按大小分割，默认的分隔符是 \n\n，这样可以保证不同的段落会被划分到不同的分块里，提高分块的效果。

RecursiveCharacterTextSplitter 被称为 递归分块（Recursive chunking），和 CharacterTextSplitter 的区别是它可以接受一组分隔符，比如 ["\n\n", "\n", " ", ""]，它首先使用第一个分隔符对文本进行分块，如果第一次分块后长度仍然超出分块大小，则使用第二个，以此类推，通过这种递归迭代的过程，直到达到所需的块大小。

LlamaIndex 中的 TokenTextSplitter 和 SentenceSplitter 实现类似的功能，不过它没有递归分块的功能，只是简单的将分隔符分成单词间分隔符和段落间分隔符两个参数：

from llama_index.core.node_parser import SentenceSplitter
node_parser = SentenceSplitter(
    separator=" ",
    paragraph_separator="\n\n",
    chunk_size=512, 
    chunk_overlap=0
)
nodes = node_parser.get_nodes_from_documents(docs, show_progress=False)

此外，使用固定大小分块时有一点要注意的是，大模型的上下文限制是 token 数量，而不是文本长度，因此当我们将文本分成块时，建议计算分块的 token 数量，比如使用 OpenAI 的 tiktoken 库。LangChain 中可以使用 TokenTextSplitter 或 CharacterTextSplitter.from_tiktoken_encoder() 来保证分块大小不超过 token 限制：

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding="cl100k_base", chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(state_of_the_union)

句子拆分（Sentence splitting）

很多模型都针对句子级内容的嵌入进行了优化，所以，如果我们能将文本按句子拆分，可以得到很好的嵌入效果。常见的句子拆分方法有下面几种：

直接按英文句号（.）、中文句号（。）或换行符等进行分割

这种方法快速简单，但这种方法不会考虑所有可能的边缘情况，可能会破坏句子的完整性。使用上面所介绍的 CharacterTextSplitter 或 TokenTextSplitter 就可以实现。

使用 NLTK 库

NLTK 是一个流行的自然语言工具包，它提供了一个句子分词器（sentence tokenizer），可以将文本分割成句子，有助于创建更有意义的块。LangChain 中的 NLTKTextSplitter 就是基于 NLTK 实现的。

另外，LlamaIndex 中的 SentenceSplitter 和 SentenceWindowNodeParser 也可以实现句子拆分，默认也是基于 NLTK 实现的。

使用 spaCy 库

spaCy 是另一个强大的用于自然语言处理任务的 Python 库，它提供了复杂的句子分割功能，可以高效地将文本分割成单独的句子，从而在生成的块中更好地保留上下文。LangChain 中的 SpacyTextSplitter 就是基于 spaCy 实现的。

LangChain 的 Split by tokens 这篇文档还介绍了一些其他方法可供参考。

特定格式分块（Specialized chunking）

有很多文本文件具有特定的结构化内容，比如 Markdown、LaTeX、HTML 或各种源码文件等，针对这种格式的内容可以使用一些专门的分块方法。

Markdown 格式

Markdown 是一种轻量级标记语言，通常用于格式化文本，通过识别 Markdown 语法（例如标题、列表和代码块），可以根据其结构和层次智能地划分内容，从而产生更具语义一致性的块。LangChain 的 MarkdownHeaderTextSplitter 就是基于这一想法实现的分块方法，它通过 Markdown 的标题来组织分组，然后再在特定标题组中创建分块。

LlamaIndex 的 MarkdownNodeParser 和 MarkdownElementNodeParser 提供了更精细化的分块，可以实现代码块或表格等元素的抽取。

HTML 格式

HTML 是另一种流行的标记语言，我们也可以根据 HTML 中的特殊标记（例如 <h1>、<h2>、<table> 等）对其进行分块，和 MarkdownHeaderTextSplitter 类似，LangChain 中的 HTMLHeaderTextSplitter 根据标题来实现 HTML 的分块，HTMLSectionSplitter 能够在元素级别上分割文本，它基于指定的标签和字体大小进行分割，将具有相同元数据的元素组合在一起，以便将相关文本语义地分组，并在文档结构中保留丰富的上下文信息。

LlamaIndex 的 HTMLNodeParser 使用 Beautiful Soup 解析 HTML，它使用一些预定义的标签来对 HTML 进行分块。

LaTeX 格式

LaTeX 是一种常用于学术论文和技术文档的文档准备系统和标记语言，通过解析 LaTeX 可以创建符合内容逻辑组织的块（例如章节、子章节和方程式），从而产生更准确和上下文相关的结果。LangChain 的 LatexTextSplitter 实现了 LaTex 格式的分块。

JSON 格式

JSON 格式的分块需要考虑嵌套的 JSON 对象的完整性，通常按照深度优先的方式遍历 JSON 对象，并构建出较小的 JSON 块，参考 LangChain 的 RecursiveJsonSplitter 和 LlamaIndex 的 JSONNodeParser。

其他代码格式

除了上面所说的 Markdown、HTML、JSON 等结构化文本，还有很多代码格式的文件，不同的编程语言拥有不同的关键字和语法，分块方式也略有区别。LangChain 为每种编程语言预定义了对应的分隔符，我们可以直接使用 RecursiveCharacterTextSplitter.from_language() 为特定语言创建文本分割器：

python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)
python_docs = python_splitter.create_documents([PYTHON_CODE])

SweepAI 的 Kevin Lu 提出了一种更加优雅的代码拆分解决方案，使用 AST 对代码语法进行解析，LlamaIndex 的 CodeSplitter 就是基于这种方案实现的。

语义分块（Semantic chunking）

这是一种实验性地分块技术，最初由 Greg Kamradt 提出，它在 The 5 Levels Of Text Splitting For Retrieval 这个视频中将分块技术划分为 5 个等级，其中 语义分块（Semantic chunking） 是第 4 级。它的基本原理如下：

首先将文本划分成一个个句子，并计算第一个句子的向量；
接着计算第二个句子的向量，并和第一个句子进行比较，得到相似度；
接着计算第三个句子的向量，并和第二个句子进行比较，得到相似度，以此类推；
当句子之间的相似度高于某个阈值时，说明这里的话题可能存在转折，可以将这个地方作为分块的临界点。

这里是对应的代码实现。

LangChain 的 SemanticChunker 和 LlamaIndex 的 SemanticSplitterNodeParser 都实现了语义分块。

嵌入策略（Embedding）

分块完成后，我们接下来就要为每个分块计算 Embedding 向量，这里有很多嵌入模型可供选择，比如 BAAI 的 bge-large，微软的 multilingual-e5-large，OpenAI 的 text-embedding-3-large 等，可以在 MTEB 排行榜上了解最新的模型更新情况。

词嵌入技术经历了一个从静态到动态的发展过程，静态嵌入为每个单词使用单一向量，而动态嵌入根据单词的上下文进行调整，可以捕获上下文理解。排行榜上排名靠前的基本上都是动态嵌入模型。

此外，关于嵌入模型的优化，通常围绕着嵌入模型的微调展开，将嵌入模型定制为特定领域的上下文，特别是对于术语不断演化或罕见的领域，可以参考下面的一些教程：

值得一提的是，嵌入不仅仅限于文本，我们还可以创建图像或音频的嵌入，并将其与文本嵌入进行比较，这个概念适用于强大的图像或音频搜索、分类、描述等系统。

构建图谱

在上面的查询构造一节，我们学习了如何实现 Text-to-Cypher，根据用户的问题生成图查询语句，从而实现图数据库的问答。查询构造依赖的是现有的图数据库，如果用户没有图数据库，数据散落在各种非结构化文档中，那么我们在查询之前可能还需要先对文档进行预处理，LlamaIndex 和 LangChain 都提供了相应的方法，让我们可以快速从杂乱的文档中构建出图谱数据。

LlamaIndex 可以通过 KnowledgeGraphIndex 实现：

from llama_index.core import KnowledgeGraphIndex
index = KnowledgeGraphIndex.from_documents(
    documents,
    storage_context=storage_context,
    max_triplets_per_chunk=10,
    space_name=space_name,
    edge_types=edge_types,
    rel_prop_names=rel_prop_names,
    tags=tags,
    include_embeddings=True,
)

KnowledgeGraphIndex 默认使用大模型自动从文档中抽取出实体以及他们之间的关系，也就是所谓的 三元组（Triplet），并将抽取出来的关系存入图数据库中，这个构建的过程可能会很长，构建完成后，就可以通过 index.as_query_engine() 将其转换为 RetrieverQueryEngine 来实现问答：

query_engine = index.as_query_engine(
    include_text=True, response_mode="tree_summarize"
)
response = query_engine.query("Tell me more about Interleaf")

此外，KnowledgeGraphIndex 还提供了一个 kg_triplet_extract_fn 参数，可以让用户自定义抽取三元组的逻辑：

index = KnowledgeGraphIndex.from_documents(
    documents, 
    kg_triplet_extract_fn=extract_triplets, 
    service_context=service_context
)

我们可以结合一些传统 NLP 里的关系抽取模型，比如 REBEL 来实现图谱构建，参考 Rebel + LlamaIndex Knowledge Graph Query Engine 和 Knowledge Graph Construction w/ WikiData Filtering 这两个示例。

其中，documents 也可以设置成一个空数组，这样也可以实现基于现有的图数据库来问答，和 KnowledgeGraphRAGRetriever 的效果一样：
index = KnowledgeGraphIndex.from_documents([], storage_context=storage_context)

LangChain 也提供了一个类似的类 LLMGraphTransformer 来实现图谱构建：

from langchain_experimental.graph_transformers import LLMGraphTransformer

llm_transformer = LLMGraphTransformer(llm=llm)
graph_documents = llm_transformer.convert_to_graph_documents(documents)
graph.add_graph_documents(graph_documents)

其他索引策略

除了上面所介绍的向量索引（VectorStoreIndex）和图谱索引（KnowledgeGraphIndex），LlamaIndex 还提供了一些其他的索引策略，比如 SummaryIndex、TreeIndex、KeywordTableIndex 等。

在我看来，索引其实就是文档的组织方式，不同的索引代表不同的存储形式或数据结构，比如 VectorStoreIndex 以向量形式存储，KnowledgeGraphIndex 以图谱形式存储，SummaryIndex 以链表形式存储，TreeIndex 以树形式存储，KeywordTableIndex 以倒排索引形式存储。How Each Index Works 这份指南对不同索引的工作原理用图文的方式进行了通俗的讲解。

检索策略（Retrieval）

构建索引的目的是为了更快的检索，无论是 LlamaIndex 还是 LangChain 都提供了大量的 检索器（Retriever）。检索器可以针对单个索引，在 LlamaIndex 中这被称为 索引检索（Index Retrievers），不同的索引又可以有不同的检索模式；检索器也可以组合不同检索技术，比如上面所学习的查询转换、查询路由、查询构造也都需要配合相应的检索策略来进行，下面还会学习一些其他的检索策略，比如父文档检索、混合检索等。

索引检索（Index Retrievers）

上面学习了很多了索引，从索引中检索是最简单也最基础的检索策略。LlamaIndex 中的所有 Index 都有一个 as_retriever() 方法，方便从索引中快速检索出想要的内容：

retriever = index.as_retreiver()
nodes = retriever.retrieve("<user question>")

在 LlamaIndex 中，不同的 Index 还可以有不同的检索模式，比如使用 SummaryIndex 的 llm 模式：

retriever = summary_index.as_retriever(
    retriever_mode="llm"
)

LangChain 中的 Vector Store 也有一个 as_retriever() 方法用于检索，这被称为 Vector store-backed retriever：

retriever = db.as_retriever()
docs = retriever.invoke("<user question>")

父文档检索（Parent Document Retrieval）

当我们对文档进行分块的时候，我们可能希望每个分块不要太长，因为只有当文本长度合适，嵌入才可以最准确地反映它们的含义，太长的文本嵌入可能会失去意义；但是在将检索内容送往大模型时，我们又希望有足够长的文本，以保留完整的上下文。为了实现二者的平衡，我们可以在检索过程中，首先获取小的分块，然后查找这些小分块的父文档，并返回较大的父文档，这里的父文档指的是小分块的来源文档，可以是整个原始文档，也可以是一个更大的分块。LangChain 提供的父文档检索器（Parent Document Retriever）和 LlamaIndex 提供的自动合并检索器（Auto Merging Retriever）就是使用了这种策略；这种将嵌入的内容（用于检索）和送往大模型的内容（用于答案生成）分离的做法是索引设计中最简单且最有用的想法之一，它的核心理念是，检索更小的块以获得更好的搜索质量，同时添加周围的上下文以获取更好的推理结果。

除了对文档进行分割获取小块，我们也可以使用大模型对文档进行摘要，然后对摘要进行嵌入和检索，这种方法对处理包含大量冗余细节的文本非常有效，这里的原始文档就相当于摘要的父文档。另一种思路是通过大模型为每个文档生成 假设性问题（Hypothetical Questions），然后对问题进行嵌入和检索，也可以结合问题和原文档一起检索，这种方法提高了搜索质量，因为与原始文档相比，用户查询和假设性问题之间的语义相似性更高。我们可以使用 LlamaIndex 提供的 SummaryExtractor 和 QuestionsAnsweredExtractor 来生成摘要和问题。

下图展示了这三种检索方法和原始检索方法的一个对比：

在这篇文章中，作者综合使用了 Neo4j 的向量搜索和图搜索能力，对上面三种检索方法进行了实现，可供参考。首先，作者对原始文档依次进行分块、总结和生成假设性问题，并将生成的子文档和父文档存储在 Neo4j 图数据库中：

其中，紫色节点是父文档，长度为 512 个 token，每个父文档都有多个子节点：橙色节点包含将父文档切分成更小的子文档；蓝色节点包含针对父文档生成的假设性问题；红色节点包含父文档的摘要。

然后通过下面的代码对子文档进行检索：

parent_query = """
MATCH (node)<-[:HAS_CHILD]-(parent)
WITH parent, max(score) AS score // deduplicate parents
RETURN parent.text AS text, score, {} AS metadata LIMIT 1
"""

parent_vectorstore = Neo4jVector.from_existing_index(
    OpenAIEmbeddings(),
    index_name="parent_document",
    retrieval_query=parent_query,
)

层级检索（Hierarchical Retrieval）

假设我们有大量的文档需要检索，为了高效地在其中找到相关信息，一种高效的方法是创建两个索引：一个由摘要组成，另一个由文档块组成，然后分两步搜索，首先通过摘要筛选出相关文档，然后再在筛选出的文档中搜索。

这在 LlamaIndex 中被称为 Hierarchical Retrieval。

在上面的父文档检索中我们也举了一个检索摘要的例子，和这里的层级检索很相似，其区别在于父文档检索只检索一次摘要，然后由摘要扩展出原始文档，而层级检索是通过检索摘要筛选出一批文档，然后在筛选出的文档中执行二次检索。

混合检索（Fusion Retrieval）

在上面学习查询扩展策略时，有提到 RAG 融合（RAG Fusion） 技术，它根据用户的原始问题生成意思相似但表述不同的子问题并检索。其实，我们还可以结合不同的检索策略，比如最常见的做法是将基于关键词的老式搜索和基于语义的现代搜索结合起来，基于关键词的搜索又被称为 稀疏检索器（sparse retriever），通常使用 BM25、TF-IDF 等传统检索算法，基于语义的搜索又被称为 密集检索器（dense retriever），使用的是现在流行的 embedding 算法。

在 LangChain 中，可以使用 EnsembleRetriever 来实现混合检索，LlamaIndex 中的 QueryFusionRetriever 也能实现类似的功能，Simple Fusion Retriever 和 Reciprocal Rerank Fusion Retriever 是两个基于 QueryFusionRetriever 实现混合检索的示例。

混合检索将两种或多种互补的检索策略结合在一起，通常能得到更好的检索结果，其实现并不复杂，它的关键技巧是如何正确地将不同的检索结果结合起来，这个问题通常是通过 倒数排名融合（Reciprocal Rank Fusion，RRF） 算法来解决的，RRF 算法对检索结果重新进行排序从而获得最终的检索结果。

RRF 是滑铁卢大学和谷歌合作开发的一种算法，它可以将具有不同相关性指标的多个结果集组合成单个结果集，这里是它的论文地址，其中最关键的部分就是下面这个公式：

其中，D 表示文档集，R 是从 1 到 |D| 的排列，k 是一个常量，默认值为 60.

为了对这个公式有个更直观的理解，我们不妨执行下 RAG Fusion 开源的代码，执行结果如下：

Initial individual search result ranks:
For query '1. Effects of climate change on biodiversity': {'doc7': 0.89, 'doc8': 0.79, 'doc5': 0.72}
For query '2. Economic consequences of climate change': {'doc9': 0.85, 'doc7': 0.79}
For query '3. Health impacts of climate change': {'doc1': 0.8, 'doc10': 0.76}
For query '4. Solutions to mitigate the impact of climate change': {'doc7': 0.85, 'doc10': 0.8, 'doc1': 0.74, 'doc9': 0.71}
Updating score for doc7 from 0 to 0.016666666666666666 based on rank 0 in query '1. Effects of climate change on biodiversity'
Updating score for doc8 from 0 to 0.01639344262295082 based on rank 1 in query '1. Effects of climate change on biodiversity'
Updating score for doc5 from 0 to 0.016129032258064516 based on rank 2 in query '1. Effects of climate change on biodiversity'
Updating score for doc9 from 0 to 0.016666666666666666 based on rank 0 in query '2. Economic consequences of climate change'
Updating score for doc7 from 0.016666666666666666 to 0.03306010928961749 based on rank 1 in query '2. Economic consequences of climate change'
Updating score for doc1 from 0 to 0.016666666666666666 based on rank 0 in query '3. Health impacts of climate change'
Updating score for doc10 from 0 to 0.01639344262295082 based on rank 1 in query '3. Health impacts of climate change'
Updating score for doc7 from 0.03306010928961749 to 0.04972677595628415 based on rank 0 in query '4. Solutions to mitigate the impact of climate change'
Updating score for doc10 from 0.01639344262295082 to 0.03278688524590164 based on rank 1 in query '4. Solutions to mitigate the impact of climate change'
Updating score for doc1 from 0.016666666666666666 to 0.03279569892473118 based on rank 2 in query '4. Solutions to mitigate the impact of climate change'
Updating score for doc9 from 0.016666666666666666 to 0.032539682539682535 based on rank 3 in query '4. Solutions to mitigate the impact of climate change'
Final reranked results: {'doc7': 0.04972677595628415, 'doc1': 0.03279569892473118, 'doc10': 0.03278688524590164, 'doc9': 0.032539682539682535, 'doc8': 0.01639344262295082, 'doc5': 0.016129032258064516}
Final output based on ['1. Effects of climate change on biodiversity', '2. Economic consequences of climate change', '3. Health impacts of climate change', '4. Solutions to mitigate the impact of climate change'] and reranked documents: ['doc7', 'doc1', 'doc10', 'doc9', 'doc8', 'doc5']

首先针对原始问题生成四个不同的问题，然后针对不同的问题分别执行检索得到不同的文档排名：

问题 1 检索结果排名：{'doc7': 0.89, 'doc8': 0.79, 'doc5': 0.72}
问题 2 检索结果排名：{'doc9': 0.85, 'doc7': 0.79}
问题 3 检索结果排名：{'doc1': 0.8, 'doc10': 0.76}
问题 4 检索结果排名：{'doc7': 0.85, 'doc10': 0.8, 'doc1': 0.74, 'doc9': 0.71}

可以看到每次检索出来的文档都不一样，就算是相同文档，得分也不一样。为了计算每个文档的最终排名，我们使用 RRF 公式对每个文档计算 RRF 分数，这里以 doc7 为例，该文档一共出现了三次，在问题 1 的检索中排名第一，问题 2 的检索中排名第二，问题 4 的检索中排名第一，所以它的得分计算如下：

RRF7 = 1/(1+60) + 1/(2+60) + 1/(1+60) = 0.049

使用类似的方法计算其他文档的得分，最终得到所有文档的最终排名。

从 RRF 分数的计算中，我们可以看出，RRF 不依赖于每次检索分配的绝对分数，而是依赖于相对排名，这使得它非常适合组合来自可能具有不同分数尺度或分布的查询结果。

值得注意的是，现在有很多数据库都原生支持混合检索了，比如 Milvus、Qdrant、OpenSearch、Pinecone 等，Elasticsearch 的最新版本中也支持 RRF 检索。对于这些支持混合检索的数据库，LlamaIndex 提供了一种简单的方式：

query_engine = index.as_query_engine(
    ...,
    vector_store_query_mode="hybrid", 
    alpha=0.5,  # 指定向量搜索和关键字搜索之间的加权
    ...
)

多向量检索（Multi-Vector Retrieval）

对于同一份文档，我们可以有多种嵌入方式，也就是为同一份文档生成几种不同的嵌入向量，这在很多情况下可以提高检索效果，这被称为多向量检索器（Multi-Vector Retriever）。为同一份文档生成不同的嵌入向量有很多策略可供选择，上面所介绍的父文档检索就是比较典型的方法。

除此之外，当我们处理包含文本和表格的半结构化文档时，多向量检索器也能派上用场，在这种情况下，可以提取每个表格，为表格生成适合检索的摘要，但生成答案时将原始表格送给大模型。有些文档不仅包含文本和表格，还可能包含图片，随着多模态大模型的出现，我们可以为图像生成摘要和嵌入。

LangChain 的这篇博客对多向量检索做了一个全面的描述，并提供了大量的示例，用于表格或图片等多模任务的检索：

后处理

这是打造 RAG 系统的最后一个问题，如何将检索出来的信息丢给大模型？检索出来的信息可能过长，或者存在冗余（比如从多个来源进行检索），我们可以在后处理步骤中对其进行压缩、排序、去重等。LangChain 中并没有专门针对后处理的模块，文档也是零散地分布在各个地方，比如 Contextual compression、Cohere reranker 等；而 LlamaIndex 对此有一个专门的 Postprocessor 模块，学习起来相对更体系化一点。

过滤策略

当检索结果太多时，与查询相关性最高的信息可能被埋在大量的无关文档中，如果将所有这些文档都传递到大模型，可能导致更昂贵的调用费用，生成的响应也更差。对检索结果进行过滤，是最容易想到的一种后处理方式。LlamaIndex 提供了下面这些过滤策略：

SimilarityPostprocessor

为每个检索结果按相似度打分，然后通过设置一个分数阈值进行过滤。

KeywordNodePostprocessor

使用 spacy 的 短语匹配器（PhraseMatcher） 对检索结果进行检查，按包含或不包含特定的关键字进行过滤。

Sentence Embedding Optimizer

使用 nltk.tokenize 对检索出的每一条结果进行分句，然后通过计算每个分句和用户输入的相似性来过滤和输入不相干的句子，有两种过滤方式：threshold_cutoff 是根据相似度阈值来过滤（比如只保留相似度 0.75 以上的句子），percentile_cutoff 是根据百分位阈值来过滤（比如只保留相似度高的前 50% 的句子）。这种后处理方法可以极大地减少 token 的使用。

FixedRecencyPostprocessor

假设检索结果中有时间字段，我们可以按时间排序，然后取 topK 结果，这种策略对回答一些有关最近信息的问题非常有效。

EmbeddingRecencyPostprocessor

和 FixedRecencyPostprocessor 类似，也是根据检索结果中的时间字段排序，只不过它不是取 topK，而是将旧文档和新文档比较，将相似度很高的旧文档过滤掉。

TimeWeightedPostprocessor

这种策略通过 时间加权（Time Weighted） 的方法对检索结果重新排序，然后再取 topK。每次检索时，对每一条检索结果设置一个最后访问时间，再通过下面的公式重新计算相似度分数：

hours_passed = (now - last_accessed) / 3600
time_similarity = (1 - time_decay) ** hours_passed
similarity = score + time_similarity

其中 hours_passed 指的是自上次访问以来经过的小时数，而 time_decay 是一个 0 到 1 之间的数值，该值由用户配置，值越低，表示记忆将会 “记住” 更长时间，值越高，记忆越容易 “遗忘”。可以看出 hours_passed 越大，time_similarity 就越小，这意味着经常访问的对象可以保持 “新鲜”，对于从没访问过的对象，hours_passed 为 0，这时 time_similarity 最大，这意味着检索更偏向于返回尚未查询过的信息。LangChain 也提供了 Time-weighted vector store retriever 实现相似的功能。

LongContextReorder

根据 Nelson F. Liu 等人在 Lost in the Middle: How Language Models Use Long Contexts 这篇论文中的研究，当前的大模型并没有充分利用上下文中的信息：当相关信息出现在上下文的开头或结尾时，性能往往最高，而当模型必须在长上下文的中间访问相关信息时，性能会显著下降。

基于这个结论，我们可以将检索出的最相关的片段分布在上下文的开头和结尾，而不是直接按相关性排序，比如检索结果是 1 2 3 4 5 6 7 8 9，重排序后可以是 1 3 5 7 9 8 6 4 2，这就是 Long-Context Reorder 的核心思路。

LangChain 也支持 Long-Context Reorder。

此外，LangChain 中的 ContextualCompressionRetriever 也支持一些不同的过滤策略：

LLMChainExtractor

这个过滤器依次将检索文档丢给大模型，让大模型从文档中抽取出和用户问题相关的片段，从而实现过滤的功能。

LLMChainFilter

这个过滤器相比 LLMChainExtractor 稍微简单一点，它直接让大模型判断文档和用户问题是否相关，而不是抽取片段，这样做不仅消耗更少的 token，而且处理速度更快，而且可以防止大模型对文档原始内容进行篡改。

EmbeddingsFilter

和 LlamaIndex 的 SimilarityPostprocessor 类似，计算每个文档和用户问题的相似度分数，然后通过设置一个分数阈值进行过滤。

EmbeddingsRedundantFilter

这个过滤器虽然名字和 EmbeddingsFilter 类似，但是实现原理是不一样的，它不是计算文档和用户问题之间的相似度，而是计算文档之间的相似度，然后把相似的文档过滤掉，有点像 LlamaIndex 的 EmbeddingRecencyPostprocessor。

重排序

在上面的过滤策略中，我们经常会用到 Embedding 来计算文档的相似性，然后根据相似性来对文档进行排序，这里的排序被称为粗排，我们还可以使用一些专门的排序引擎对文档进一步排序和过滤，这被称为精排。LlamaIndex 支持下面这些重排序策略：

CohereRerank

Cohere AI 是一家加拿大初创公司，提供自然语言处理模型，帮助公司改善人机交互。可以使用 Cohere 提供的 Rerank API 来对文档进行相关性重排，过滤不相干的内容从而达到压缩的效果。

使用之前需要先申请和配置 COHERE_API_KEY，并安装 Python 依赖 pip install llama-index-postprocessor-cohere-rerank。

LangChain 也集成了 Cohere 的 Rerank API，参考这里。

JinaRerank

Jina AI 总部位于柏林，是一家领先的 AI 公司，提供一流的嵌入、重排序和提示优化服务，实现先进的多模态人工智能。可以使用 Jina 提供的 Rerank API 来对文档进行精排。

使用之前需要先申请和配置 JINAAI_API_KEY，并安装 Python 依赖 pip install llama-index-postprocessor-jinaai-rerank。

SentenceTransformerRerank

除了使用商业服务，我们也可以使用一些本地模型来实现重排序。比如 sentence-transformer 包中的 交叉编码器（Cross Encoder） 可以用来重新排序节点。

LlamaIndex 默认使用的是 cross-encoder/ms-marco-TinyBERT-L-2-v2 模型，这个是速度最快的。为了权衡模型的速度和准确性，请参考 sentence-transformer 文档，以获取更完整的模型列表。

Colbert Reranker

另一种实现本地重排序的是 ColBERT 模型，它是一种快速准确的检索模型，可以在几十毫秒内对大文本集合进行基于 BERT 的搜索。

使用时需要安装 Python 依赖 pip install llama-index-postprocessor-colbert-rerank。

LLM Rerank

我们还可以使用大模型来做重排序，将文档丢给大模型，然后让大模型对文档的相关性进行评分，从而实现文档的重排序。下面是 LlamaIndex 内置的用于重排序的 Prompt：

DEFAULT_CHOICE_SELECT_PROMPT_TMPL = (
    "A list of documents is shown below. Each document has a number next to it along "
    "with a summary of the document. A question is also provided. \n"
    "Respond with the numbers of the documents "
    "you should consult to answer the question, in order of relevance, as well \n"
    "as the relevance score. The relevance score is a number from 1-10 based on "
    "how relevant you think the document is to the question.\n"
    "Do not include any documents that are not relevant to the question. \n"
    "Example format: \n"
    "Document 1:\n<summary of document 1>\n\n"
    "Document 2:\n<summary of document 2>\n\n"
    "...\n\n"
    "Document 10:\n<summary of document 10>\n\n"
    "Question: <question>\n"
    "Answer:\n"
    "Doc: 9, Relevance: 7\n"
    "Doc: 3, Relevance: 4\n"
    "Doc: 7, Relevance: 3\n\n"
    "Let's try this now: \n\n"
    "{context_str}\n"
    "Question: {query_str}\n"
    "Answer:\n"
)

RankGPT

RankGPT 是 Weiwei Sun 等人在论文 Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents 中提出的一种基于大模型的 zero-shot 重排方法，它采用了排列生成方法和滑动窗口策略来高效地对段落进行重排序，具体内容可以参考 RankGPT 的源码。

使用时需要安装 Python 依赖 pip install llama-index-postprocessor-rankgpt-rerank。

RankLLMRerank

RankLLM 和 RankGPT 类似，也是利用大模型来实现重排，只不过它的重点放在与 FastChat 兼容的开源大模型上，比如 Vicuna 和 Zephyr 等，并且对这些开源模型专门为重排任务进行了微调，比如 RankVicuna 和 RankZephyr 等。

当前 RankLLM 依赖于 CUDA，且需要安装 JDK、PyTorch、Faiss 等依赖，使用时还需要安装 Python 依赖 pip install llama-index-postprocessor-rankllm-rerank。

句子窗口检索（Sentence Window Retrieval）

除了对检索结果进行压缩过滤，我们也可以对检索结果进行增强。在上面的父文档检索一节中，我们提到，通过检索更小的块可以获得更好的搜索质量，然后通过扩大上下文范围可以获取更好的推理结果，句子窗口检索 使用的也是这个思想。它首先将文档分割成一个个句子，一句话相比于一段话来说，语义可能要更接近于用户的问题；每个句子包含一个窗口，也就是前后几句话，当检索出语义相近的句子后，将每个句子替换为包含前后句子的窗口。可以看到整个过程和父文档检索几乎是一样的，但是 LlamaIndex 为了区别其实现方式，将其放在了后处理模块，而不是检索模块。

LlamaIndex 的文档中有一个示例 Metadata Replacement + Node Sentence Window 演示了句子窗口检索的实现，首先使用 SentenceWindowNodeParser 将文档分割为 Node 列表，每个 Node 对应一个句子，并将前后 3 个句子放在 Node 的元数据中：

from llama_index.core.node_parser import SentenceWindowNodeParser

node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="window",
    original_text_metadata_key="original_text",
)
nodes = node_parser.get_nodes_from_documents(documents)

然后对分割后的句子构建向量索引和查询引擎，最后将 MetadataReplacementNodePostProcessor 设置为查询引擎的后处理模块即可：

from llama_index.core import VectorStoreIndex
from llama_index.core.postprocessor import MetadataReplacementPostProcessor

sentence_index = VectorStoreIndex(nodes)
query_engine = sentence_index.as_query_engine(
    similarity_top_k=2,
    node_postprocessors=[
        MetadataReplacementPostProcessor(target_metadata_key="window")
    ],
)

句子窗口检索通过扩大上下文范围来获取更好的推理结果，其实，LlamaIndex 中还有另外两个后处理器也使用了这种策略：PrevNextNodePostprocessor 和 AutoPrevNextNodePostprocessor，他们将检索结果的前后内容也一并送往大模型，所以也被称为前向/后向增强（Forward/Backward Augmentation），这在回答一些关于某个时间点之前或之后的问题时非常有用。

如上图所示，用户的问题是 “作者在 YC 之后的时间里都做了啥？”，如果使用传统的检索方法，可能只检索到作者在 YC 期间的活动，很显然我们可以将文档后面的内容都带出来，更利于大模型的回答。PrevNextNodePostprocessor 通过手动设定向前或向后增强，而 AutoPrevNextNodePostprocessor 通过大模型自动判断是否要向前或向后增强。

敏感信息处理

检索的文档中可能含有如用户名、身份证、手机号等敏感信息，这类信息统称为 PII（Personal Identifiable Information、个人可识别信息），如果将这类信息丢给大模型生成回复，可能存在一定的安全风险，所以需要在后处理步骤中将 PII 信息删除。LlamaIndex 提供了两种方式来删除 PII 信息：使用大模型（PIINodePostprocessor）和使用专用的 NER 模型（NERPIINodePostprocessor）。

引用来源

一个基于 RAG 的应用不仅要提供答案，还要提供答案的引用来源，这样做有两个好处，首先，用户可以打开引用来源对大模型的回复进行验证，其次，方便用户对特定主体进行进一步的深入研究。

这里是 Perplexity 泄露出来的 Prompt 可供参考，这里是 WebLangChain 对其修改后的实现。在这个 Prompt 中，要求大模型在生成内容时使用 [N] 格式表示来源，然后在客户端解析它并将其呈现为超链接。

总结

这篇博客断断续续地写了将近三个月，最初想写 RAG 这个主题是因为在网上看到 IVAN ILIN 大神的 Advanced RAG Techniques: an Illustrated Overview 这篇博客，看完之后我深受启发，感叹 RAG 技巧之多之杂，于是打算写一篇笔记记录总结一下。我是一个实践狂，在写的过程中，想着把每种技巧都一一实践一遍，由点到线，由线到面，这才发现自己掉入了一个大坑，关于 RAG 的内容远远不是一篇笔记能概括的，于是越陷越深，发现自己不懂的东西也越来越多，笔记的篇幅也越来越长。

RAG 是一门实践学科，它参考了大量的传统搜索技术，比如上面学习的 RAG 融合、查询重写等，都是 Google 多少年之前玩剩下的。学习之余，不得不佩服前人的智慧，同时也提醒我们学习传统技术的重要性，有很多新技术都是基于传统技术的再包装。

这篇博客几乎包括了打造 RAG 系统的方方面面，综合了 LlamaIndex 和 LangChain 两个著名的 LLM 开发框架，对 RAG 中的各种高级技巧进行了详细讲解和实践。尽管如此，还是有很多内容没有介绍到，比如 LlamaIndex 最近比较火的 Agentic RAG 概念，如何对 RAG 的效果进行评估，模型的微调（这包括 Embedding 的微调、Re-ranking 的微调、LLM 的微调），等等这些话题。

博客篇幅较长，难免疏漏，如果有任何问题，欢迎留言指正。这篇博客仅仅作为一个引子，希望拓宽读者对 RAG 领域的视野，并引导读者踏上一场 RAG 的探索之旅。如果探索过程中有任何发现，也欢迎与我分享！

参考

Advanced RAG Learning Series | Akash Mathur

Self-RAG | Florian June

Knowledge Graph RAG

RAG Eval

Advanced RAG Eval

Agentic RAG

Recursive Retrieval

September 20, 2023

使用 Arthas 排查线上问题

Arthas 是阿里开源的一款 Java 应用诊断工具，可以在线排查问题，动态跟踪 Java 代码，以及实时监控 JVM 状态。这个工具的大名我早有耳闻，之前一直听别人推荐，却没有使用过。最近在线上遇到了一个问题，由于开发人员在异常处理时没有将线程堆栈打印出来，只是简单地抛出了一个系统错误，导致无法确定异常的具体来源；因为是线上环境，如果要修改代码重新发布，流程会非常漫长，所以只能通过分析代码来定位，正当我看着繁复的代码一筹莫展的时候，突然想到了 Arthas 这个神器，于是尝试着使用 Arthas 来排查这个问题，没想到轻松几步就定位到了原因，上手非常简单，着实让我很吃惊。正所谓 “工欲善其事，必先利其器”，这话果真不假，于是事后花了点时间对 Arthas 的各种用法学习了一番，此为总结。

快速入门

如果你处于联网环境，可以直接使用下面的命令下载并运行 Arthas：

$ wget https://arthas.aliyun.com/arthas-boot.jar
$ java -jar arthas-boot.jar

程序会显示出系统中所有正在运行的 Java 进程，Arthas 为每个进程分配了一个序号：

[INFO] JAVA_HOME: C:\Program Files\Java\jdk1.8.0_351\jre
[INFO] arthas-boot version: 3.7.1
[INFO] Found existing java process, please choose one and input the serial number of the process, eg : 1. Then hit ENTER.
* [1]: 9400 .\target\demo-0.0.1-SNAPSHOT.jar
  [2]: 13964 org.eclipse.equinox.launcher_1.6.500.v20230717-2134.jar
  [3]: 6796 org.springframework.ide.vscode.boot.app.BootLanguageServerBootApp

从这个列表中找到出问题的那个 Java 进程，并输入相应的序号，比如这里我输入 1，然后按下回车，Arthas 就会自动下载完整的包，并 Attach 到目标进程，输出如下：

[INFO] Start download arthas from remote server: https://arthas.aliyun.com/download/3.7.1?mirror=aliyun
[INFO] Download arthas success.
[INFO] arthas home: C:\Users\aneasystone\.arthas\lib\3.7.1\arthas
[INFO] Try to attach process 9400
[INFO] Attach process 9400 success.
[INFO] arthas-client connect 127.0.0.1 3658
  ,---.  ,------. ,--------.,--.  ,--.  ,---.   ,---.  
 /  O  \ |  .--. ''--.  .--'|  '--'  | /  O  \ '   .-' 
|  .-.  ||  '--'.'   |  |   |  .--.  ||  .-.  |`.  `-. 
|  | |  ||  |\  \    |  |   |  |  |  ||  | |  |.-'    |
`--' `--'`--' '--'   `--'   `--'  `--'`--' `--'`-----' 

wiki       https://arthas.aliyun.com/doc
tutorials  https://arthas.aliyun.com/doc/arthas-tutorials.html
version    3.7.1
main_class
pid        9400                                                                 
time       2023-09-06 07:16:31

[arthas@9400]$

下载的 Arthas 包位于 ~/.arthas 目录，如果你没有联网，需要提前下载完整的包。
Arthas 偶尔会出现 Attach 不上目标进程的情况，可以查看 ~/logs/arthas 目录下的日志进行排查。

查看所有命令

使用 help 可以查看 Arthas 支持的所有子命令：

[arthas@9400]$ help
 NAME         DESCRIPTION
 help         Display Arthas Help
 auth         Authenticates the current session
 keymap       Display all the available keymap for the specified connection.
 sc           Search all the classes loaded by JVM
 sm           Search the method of classes loaded by JVM
 classloader  Show classloader info
 jad          Decompile class
 getstatic    Show the static field of a class
 monitor      Monitor method execution statistics, e.g. total/success/failure count, average rt, fail rate, etc.
 stack        Display the stack trace for the specified class and method
 thread       Display thread info, thread stack
 trace        Trace the execution time of specified method invocation.
 watch        Display the input/output parameter, return object, and thrown exception of specified method invocation
 tt           Time Tunnel
 jvm          Display the target JVM information
 memory       Display jvm memory info.
 perfcounter  Display the perf counter information.
 ognl         Execute ognl expression.
 mc           Memory compiler, compiles java files into bytecode and class files in memory.
 redefine     Redefine classes. @see Instrumentation#redefineClasses(ClassDefinition...)
 retransform  Retransform classes. @see Instrumentation#retransformClasses(Class...)
 dashboard    Overview of target jvm's thread, memory, gc, vm, tomcat info.
 dump         Dump class byte array from JVM
 heapdump     Heap dump
 options      View and change various Arthas options
 cls          Clear the screen
 reset        Reset all the enhanced classes
 version      Display Arthas version
 session      Display current session information
 sysprop      Display and change the system properties.
 sysenv       Display the system env.
 vmoption     Display, and update the vm diagnostic options.
 logger       Print logger info, and update the logger level
 history      Display command history
 cat          Concatenate and print files
 base64       Encode and decode using Base64 representation
 echo         write arguments to the standard output
 pwd          Return working directory name
 mbean        Display the mbean information
 grep         grep command for pipes.
 tee          tee command for pipes.
 profiler     Async Profiler. https://github.com/jvm-profiling-tools/async-profiler
 vmtool       jvm tool
 stop         Stop/Shutdown Arthas server and exit the console.

这些命令根据功能大抵可以分为以下几类：

与 JVM 相关的命令
与类加载、类、方法相关的命令
统计和观测命令
类 Linux 命令
其他命令

与 JVM 相关的命令

这些命令主要与 JVM 相关，用于查看或修改 JVM 的相关属性，查看 JVM 线程、内存、CPU、GC 等信息：

jvm - 查看当前 JVM 的信息；
sysenv - 查看 JVM 的环境变量；
sysprop - 查看 JVM 的系统属性；
vmoption - 查看或修改 JVM 诊断相关的参数；
memory - 查看 JVM 的内存信息；
heapdump - 将 Java 进程的堆快照导出到某个文件中，方便我们对堆内存进行分析；
thread - 查看所有线程的信息，包括线程名称、线程组、优先级、线程状态、CPU 使用率、堆栈信息等；
dashboard - 查看当前系统的实时数据面板，包括了线程、内存、GC 和 Runtime 等信息；可以把它看成是 thread、memory、jvm、sysenv、sysprop 几个命令的综合体；
perfcounter - 查看当前 JVM 的 Perf Counter 信息；
logger - 查看应用日志信息，支持动态更新日志级别；
mbean - 查看或实时监控 Mbean 的信息；
vmtool - 利用 JVMTI 接口，实现查询内存对象，强制 GC 等功能；

与类加载、类、方法相关的命令

这些命令主要与类加载、类或方法相关，比如在 JVM 中搜索类或类的方法，查看类的静态属性，编译或反编译，对类进行热更新等：

classloader - 查看 JVM 中所有的 Classloader 信息；
dump - 将指定类导出成 .class 字节码文件；
jad - 将指定类反编译成 Java 源码；
mc - 内存编译器，将 Java 源码编译成 .class 字节码文件；
redefine / retransform - 这两个命令都可以对已加载的类进行热更新，但是 redefine 和 jad / watch / trace / monitor / tt 等命令会冲突，而且 redefine 后的原来的类不能恢复，所以推荐使用 retransform 命令，关于 JDK 中 Redefine 和 Retransform 机制的区别可以参考这里；
sc - Search Class，搜索 JVM 中的类；
sm - Search Method，搜索 JVM 中的类的方法；
getstatic - 查看类的静态属性；
ognl - 执行 ognl 表达式；ognl 非常灵活，可以实现很多功能，比如上面的查看或修改系统属性，查看类的静态属性都可以通过 ognl 实现；

统计和观测

这些命令可以对类方法的执行情况进行统计和监控，是排查线上问题的利器：

monitor - 对给定的类方法进行监控，统计其调用次数，调用耗时以及成功率等；
stack - 查看一个方法的执行调用堆栈；
trace - 对给定的类方法进行监控，输出该方法的调用耗时，和 monitor 的区别在于，它还能跟踪一级方法的调用链路和耗时，帮助快速定位性能问题；
watch - 观测指定方法的执行数据，包括方法的入参、返回值、抛出的异常等；
tt - 和 watch 命令一样，tt 也可以观测指定方法的执行数据，但 tt 是将每次的执行情况都记录下来，然后再针对每次调用进行排查和分析，所以叫做 Time Tunnel；
reset - 上面这些与统计观测相关的命令都是通过 字节码增强技术 来实现的，会在指定类的方法中插入一些切面代码，因此在生产环境诊断结束后，记得执行 reset 命令重置增强过的类（或执行 stop 命令）；
profiler - 使用 async-profiler 对应用采样，并将采样结果生成火焰图；
jfr - 动态开启关闭 JFR 记录，生成的 jfr 文件可以通过 JDK Mission Control 进行分析；

Arthas 命令与 JDK 工具的对比

在细数 JDK 自带的那些调试和诊断工具这篇笔记中我总结了很多 JDK 自带的诊断工具，其实有很多 Arthas 命令和那些 JDK 工具的功能是类似的，只是 Arthas 在输出格式上做了优化，让输出的内容更加美观和易读，而且在功能上做了增强。

Arthas 命令	JDK 工具	对比
`sysprop`	`jinfo -sysprops`	都可以查看 JVM 的系统属性，但是 `sysprop` 比 `jinfo` 强的是，它还能修改系统属性
`vmoption`	`jinfo -flag`	都可以查看 JVM 参数，但是 `vmoption` 只显示诊断相关的参数，比如 `HeapDumpOnOutOfMemoryError`、`PrintGC` 等
`memory`	`jmap -heap`	都可以查看 JVM 的内存信息，但是 `memory` 以表格形式显示，方便用户阅读
`heapdump`	`jmap -dump`	都可以导出进程的堆内存，只是它在使用上更加简洁
`thread`	`jstack`	都可以列出 JVM 的所有线程，但是 `thread` 以表格形式显示，方便用户阅读，而且增加了 CPU 使用率的功能，可以方便我们快速找出当前最忙的线程
`perfcounter`	`jcmd PerfCounter.print`	都可以查看 JVM 进程的性能统计信息
`classloader`	`jmap -clstats`	都可以查看 JVM 的 Classloader 统计信息，但是 `classloader` 命令还支持以树的形式查看，另外它还支持查看每个 Classloader 实际的 URL，通过 Classloader 查找资源等
`jfr`	`jcmd JFR.start`	都可以开启或关闭 JFR 记录，并生成的 jfr 文件

类 Linux 命令

除了上面那些用于问题诊断的命令，Arthas 还提供了一些类 Linux 命令，方便我们在 Arthas 终端中使用，比如：

base64 - 执行 base64 编码和解码；
cat - 打印文件内容；
cls - 清空当前屏幕区域；
echo - 打印参数；
grep - 使用字符串或正则表达式搜索文本，并输出匹配的行；
history - 输出历史命令；
pwd - 输出当前的工作目录；
tee - 从 stdin 读取数据，并同时输出到 stdout 和文件；
wc - 暂时只支持 wc -l，统计输出的行数；

此外，Arthas 还支持在后台运行任务，仿照 Linux 中的相关命令，我们可以使用 & 在后台运行任务，使用 jobs 列出所有后台任务，使用 Ctrl + Z 暂停任务，使用 bg 和 fg 将暂停的任务转到后台或前台继续运行，使用 kill 终止任务。具体内容可以参考 Arthas 后台异步任务。

其他命令

还有一些与 Arthas 本身相关的命令，比如查看 Arthas 的版本号、配置、会话等信息：

version - 查看 Arthas 版本号；
options - 查看或修改 Arthas 全局配置；
keymap - 查看当前所有绑定的快捷键，可以通过 ~/.arthas/conf/inputrc 文件自定义快捷键；
session - 查看当前会话信息；
auth - 验证当前会话；
quit - 退出当前 Arthas 客户端，其他 Arthas 客户端不受影响；
stop - 关闭 Arthas 服务端，所有 Arthas 客户端全部退出；这个命令会重置掉所有的增强类（除了 redefine 的类）；

线上问题排查

了解了 Arthas 的命令之后，接下来总结一些使用 Arthas 对常见问题的排查思路。

使用 `watch` 监听方法出入参和异常

相信不少人见过类似下面这样的代码，在遇到异常情况时直接返回系统错误，而没有将异常信息和堆栈打印出来：

@PostMapping("/add")
public String add(@RequestBody DemoAdd demoAdd) {
  try {
    Integer result = demoService.add(demoAdd);
    return String.valueOf(result);
  } catch (Exception e) {
    return "系统错误！";
  }
}

有时候只打印了异常信息 e.getMessage()，但是一看日志全是 NullPointerException，一旦出现异常，根本不知道是哪行代码出了问题。这时，Arthas 的 watch 命令就可以派上用场了：

$ watch com.example.demo.service.DemoService add -x 2
Press Q or Ctrl+C to abort.
Affect(class count: 1 , method count: 1) cost in 143 ms, listenerId: 1

我们对 demoService.add() 方法进行监听，当遇到正常请求时：

$ curl -X POST -H "Content-Type: application/json" -d '{"x":1,"y":2}' http://localhost:8080/add
3

watch 的输出如下：

method=com.example.demo.service.DemoService.add location=AtExit
ts=2023-09-11 08:00:46; [cost=1.4054ms] result=@ArrayList[
    @Object[][
        @DemoAdd[DemoAdd(x=1, y=2)],
    ],
    @DemoService[
    ],
    @Integer[3],
]

location=AtExit 表示这个方法正常结束，result 表示方法在结束时的变量值，默认只监听方法的入参、方法所在的实例对象、以及方法的返回值。

当遇到异常请求时：

$ curl -X POST -H "Content-Type: application/json" -d '{"x":1}' http://localhost:8080/add
系统错误！

watch 的输出如下：

method=com.example.demo.service.DemoService.add location=AtExceptionExit
ts=2023-09-11 08:05:20; [cost=0.1402ms] result=@ArrayList[
    @Object[][
        @DemoAdd[DemoAdd(x=1, y=null)],
    ],
    @DemoService[
    ],
    null,
]

可以看到 location=AtExceptionExit 表示这个方法抛出了异常，同样地，result 默认只监听方法的入参、方法所在的实例对象、以及方法的返回值。那么能不能拿到具体的异常信息呢？当然可以，通过自定义观察表达式可以轻松实现。

默认情况下，watch 命令使用的观察表达式为 {params, target, returnObj}，所以输出结果里并没有异常信息，我们将观察表达式改为 {params, target, returnObj, throwExp} 重新监听：

$ watch com.example.demo.service.DemoService add "{params, target, returnObj, throwExp}" -x 2

此时就可以输出具体的异常信息了：

method=com.example.demo.service.DemoService.add location=AtExceptionExit
ts=2023-09-11 08:11:19; [cost=0.0961ms] result=@ArrayList[
    @Object[][
        @DemoAdd[DemoAdd(x=1, y=null)],
    ],
    @DemoService[
    ],
    null,
    java.lang.NullPointerException
        at com.example.demo.service.DemoService.add(DemoService.java:11)
        at com.example.demo.controller.DemoController.add(DemoController.java:20)
    ,
]

观察表达式其实是一个 ognl 表达式，可以观察的维度也比较多，参考表达式核心变量。

从上面的例子可以看到，使用 watch 命令有一个很不方便的地方，我们需要提前写好观察表达式，当忘记写表达式或表达式写得不对时，就有可能没有监听到我们的调用，或者虽然监听到调用却没有得到我们想要的内容，这样我们就得反复调试。所以 Arthas 又推出了一个 tt 命令，名为 时空隧道（Time Tunnel）。

使用 tt 命令时大多数情况下不用太关注观察表达式，直接监听类方法即可：

$ tt -t com.example.demo.service.DemoService add

tt 会自动地将所有调用都保存下来，直到用户按下 Ctrl+C 结束监听；注意如果方法的调用非常频繁，记得用 -n 参数限制记录的次数，防止记录太多导致内存爆炸：

$ tt -t com.example.demo.service.DemoService add -n 10

当监听结束后，使用 -l 参数查看记录列表：

$ tt -l
 INDEX  TIMESTAMP            COST(ms)  IS-RET  IS-EXP  OBJECT       CLASS                    METHOD                   
------------------------------------------------------------------------------------------------------------
 1000   2023-09-15 07:51:10  0.8111     true   false  0x62726348   DemoService              add
 1001   2023-09-15 07:51:16  0.1017     false  true   0x62726348   DemoService              add

其中 INDEX 列非常重要，我们可以使用 -i 参数指定某条记录查看它的详情：

$ tt -i 1000
 INDEX          1000
 GMT-CREATE     2023-09-15 07:51:10
 COST(ms)       0.8111
 OBJECT         0x62726348
 CLASS          com.example.demo.service.DemoService
 METHOD         add
 IS-RETURN      true
 IS-EXCEPTION   false
 PARAMETERS[0]  @DemoAdd[
                    x=@Integer[1],
                    y=@Integer[2],
                ]
 RETURN-OBJ     @Integer[3]
Affect(row-cnt:1) cost in 0 ms.

从输出中可以看到方法的入参和返回值，如果方法有异常，异常信息也不会丢了：

$ tt -i 1001
 INDEX            1001                                                                                      
 GMT-CREATE       2023-09-15 07:51:16
 COST(ms)         0.1017
 OBJECT           0x62726348
 CLASS            com.example.demo.service.DemoService                                                      
 METHOD           add
 IS-RETURN        false
 IS-EXCEPTION     true
 PARAMETERS[0]    @DemoAdd[
                      x=@Integer[1],                                                                        
                      y=null,
                  ]
                        at com.example.demo.service.DemoService.add(DemoService.java:21)
                        at com.example.demo.controller.DemoController.add(DemoController.java:21)
                        ...
Affect(row-cnt:1) cost in 13 ms.

tt 命令记录了所有的方法调用，方便我们回溯，所以被称为时空隧道，而且，由于它保存了当时调用的所有现场信息，所以我们还可以主动地对一条历史记录进行重做，这在复现某些不常见的 BUG 时非常有用：

$ tt -i 1000 -p
 RE-INDEX       1000
 GMT-REPLAY     2023-09-15 07:52:31
 OBJECT         0x62726348
 CLASS          com.example.demo.service.DemoService
 METHOD         add
 PARAMETERS[0]  @DemoAdd[
                    x=@Integer[1],
                    y=@Integer[2],
                ]
 IS-RETURN      true
 IS-EXCEPTION   false
 COST(ms)       0.1341
 RETURN-OBJ     @Integer[3]
Time fragment[1000] successfully replayed 1 times.

另外，由于 tt 保存了当前环境的对象引用，所以我们甚至可以通过这个对象引用来调用它的方法：

$ tt -i 1000 -w 'target.properties()' -x 2
@DemoProperties[
    title=@String[demo title],
]
Affect(row-cnt:1) cost in 148 ms.

使用 `logger` 动态更新日志级别

在 Spring Boot 生产就绪特性 Actuator 这篇笔记中，我们学习过 Spring Boot Actuator 内置了一个 /loggers 端点，可以查看或修改 logger 的日志等级，比如下面这个 POST 请求将 com.example.demo 的日志等级改为 DEBUG：

$ curl -s -X POST -d '{"configuredLevel": "DEBUG"}' \
  -H "Content-Type: application/json" \
  http://localhost:8080/actuator/loggers/com.example.demo

使用这种方法修改日志级别可以不重启目标程序，这在线上问题排查时非常有用，但是有时候我们会遇到一些没有开启 Actuator 功能的 Java 程序，这时就可以使用 Arthas 的 logger 命令，实现类似的效果。

直接输入 logger 命令，查看程序所有的 logger 信息：

$ logger
 name                    ROOT
 class                   ch.qos.logback.classic.Logger
 classLoader             org.springframework.boot.loader.LaunchedURLClassLoader@6433a2
 classLoaderHash         6433a2
 level                   INFO
 effectiveLevel          INFO
 additivity              true
 codeSource              jar:file:/D:/demo/target/demo-0.0.1-SNAPSHOT.jar!/BOOT
                         -INF/lib/logback-classic-1.2.10.jar!/
 appenders               name            CONSOLE
                         class           ch.qos.logback.core.ConsoleAppender
                         classLoader     org.springframework.boot.loader.LaunchedURLClassLoader@6433a2
                         classLoaderHash 6433a2
                         target          System.out

默认情况下只会打印有 appender 的 logger 信息，可以加上 --include-no-appender 参数打印所有的 logger 信息，不过这个输出会很长，通常使用 -n 参数打印指定 logger 的信息：

$ logger -n com.example.demo
 name                    com.example.demo
 class                   ch.qos.logback.classic.Logger
 classLoader             org.springframework.boot.loader.LaunchedURLClassLoader@6433a2
 classLoaderHash         6433a2
 level                   null
 effectiveLevel          INFO
 additivity              true
 codeSource              jar:file:/D:/demo/target/demo-0.0.1-SNAPSHOT.jar!/BOOT 
                         -INF/lib/logback-classic-1.2.10.jar!/

可以看到 com.example.demo 的日志级别是 null，说明并没有设置，我们可以使用 -l 参数来修改它：

$ logger -n com.example.demo -l debug
Update logger level fail. Try to specify the classloader with the -c option. 
Use `sc -d CLASSNAME` to find out the classloader hashcode.

需要注意的是，默认情况下，logger 命令会在 SystemClassloader 下执行，如果应用是传统的 war 应用，或者是 Spring Boot 的 fat jar 应用，那么需要指定 classloader。在上面执行 logger -n 时，输出中的 classLoader 和 classLoaderHash 这两行很重要，我们可以使用 -c <classLoaderHash> 来指定 classloader：

$ logger -n com.example.demo -l debug -c 6433a2
Update logger level success.

也可以直接使用 --classLoaderClass <classLoader> 来指定 classloader：

$ logger -n com.example.demo -l debug --classLoaderClass org.springframework.boot.loader.LaunchedURLClassLoader
Update logger level success.

使用 `ognl` 查看系统属性和应用配置

有时候我们会在线上环境遇到一些莫名奇妙的问题：比如明明数据库地址配置得好好的，但是程序却报数据库连接错误；又或者明明在配置中心对配置进行了修改，但是程序中却似乎始终不生效；这时我们不确定到底是程序本身逻辑的问题，还是程序没有加载到正确的配置，如果能将程序加载的配置信息打印出来，这个问题就很容易排查了。

如果程序使用了 System.getenv() 来获取环境变量，我们可以使用 sysenv 来进行确认：

$ sysenv JAVA_HOME
 KEY                          VALUE 
---------------------------------------------------------------
 JAVA_HOME                    C:\Program Files\Java\jdk1.8.0_351

如果程序使用了 System.getProperties() 来获取系统属性，我们可以使用 sysprop 来进行确认：

$ sysprop file.encoding
 KEY                          VALUE  
-----------------------------------
 file.encoding                GBK

如果发现系统属性的值有问题，可以使用 sysprop 对其动态修改：

$ sysprop file.encoding UTF-8
Successfully changed the system property.
 KEY                          VALUE  
-----------------------------------
 file.encoding                UTF-8

实际上，无论是 sysenv 还是 sysprop，我们都可以使用 ognl 命令实现：

$ ognl '@System@getenv("JAVA_HOME")'
@String[C:\Program Files\Java\jdk1.8.0_351]
$ 
$ ognl '@System@getProperty("file.encoding")'
@String[UTF-8]

OGNL 是 Object Graphic Navigation Language 的缩写，表示对象图导航语言，它是一种表达式语言，用于访问对象属性、调用对象方法等，它被广泛集成在各大框架中，如 Struts2、MyBatis、Thymeleaf、Spring Web Flow 等。

除了环境变量和系统属性，应用程序本身的配置文件也常常需要排查，在 Spring Boot 程序中，应用配置非常灵活，当存在多个配置文件时，往往搞不清配置是否生效了。这时我们也可以通过 ognl 命令来查看配置，不过使用 ognl 有一个限制，它只能访问静态方法，所以我们在代码中要实现一个 SpringUtils.getBean() 静态方法，这个方法通过 ApplicationContext 来获取 Spring Bean：

@Component
public class SpringUtils implements ApplicationContextAware {

    private static ApplicationContext CONTEXT;

    @Override
    public void setApplicationContext(ApplicationContext applicationContext) throws BeansException {
        CONTEXT = applicationContext;
    }
    
    public static Object getBean(String beanName) {
        return CONTEXT.getBean(beanName);
    }
}

这样我们就可以通过 ognl 来查看应用程序的配置类了：

$ ognl '@com.example.demo.utils.SpringUtils@getBean("demoProperties")'
@DemoProperties[
    title=@String[demo title],
]

那么如果我们的代码中没有 SpringUtils.getBean() 这样的静态方法怎么办呢？

在上面我们学到 Arthas 里有一个 tt 命令，可以记录方法调用的所有现场信息，并可以使用 ognl 表达式对现场信息进行查看；这也就意味着我们可以调用监听目标对象的方法，如果监听目标对象有类似于 getBean() 或 getApplicationContext() 这样的方法，那么我们就可以间接地获取到 Spring Bean。在 Spring MVC 程序中，RequestMappingHandlerAdapter 就是这样绝佳的一个监听对象，每次处理请求时都会调用它的 invokeHandlerMethod() 方法，我们对这个方法进行监听：

$ tt -t org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter invokeHandlerMethod
Press Q or Ctrl+C to abort.
Affect(class count: 1 , method count: 1) cost in 43 ms, listenerId: 2
 INDEX  TIMESTAMP            COST(ms)  IS-RET  IS-EXP  OBJECT       CLASS                    METHOD
------------------------------------------------------------------------------------------------------------
 1002   2023-09-15 07:59:27  3.5448     true   false   0x57023e7    RequestMappingHandlerAd  invokeHandlerMethod

因为这个对象有 getApplicationContext() 方法，所以可以通过 tt -w 来调用它，从而获取配置 Bean 的内容：

$ tt -i 1002 -w 'target.getApplicationContext().getBean("demoProperties")'
@DemoProperties[
    title=@String[demo title],
]
Affect(row-cnt:1) cost in 3 ms.

使用 `jad/sc/retransform` 热更新代码

有时候我们排查出问题原因后，发现只需一个小小的改动就可以修复问题，可能是加一行判空处理，或者是修复一处逻辑错误；又或者问题太复杂一时排查不出结果，需要加几行调试代码来方便问题的定位；如果修改代码，再重新发布到生产环境，耗时会非常长，而且重启服务也可能会影响到当前的用户。在比较紧急的情况下，热更新功能就可以排上用场了，不用重启服务就能在线修改代码逻辑。

热更新代码一般分为下面四个步骤：

第一步，使用 jad 命令将要修改的类反编译成 .java 文件：

$ jad --source-only com.example.demo.service.DemoService > /tmp/DemoService.java

第二步，修改代码：

$ vi /tmp/DemoService.java

比如我们在 add() 方法中加入判空处理：

           public Integer add(DemoAdd demoAdd) {
                if (demoAdd.getX() == null) {
                    demoAdd.setX(0);
                }
                if (demoAdd.getY() == null) {
                    demoAdd.setY(0);
                }
/*20*/         log.debug("x = {}, y = {}", (Object)demoAdd.getX(), (Object)demoAdd.getY());
/*21*/         return demoAdd.getX() + demoAdd.getY();
           }

第三步，使用 mc 命令将修改后的 .java 文件编译成 .class 字节码文件：

$ mc /tmp/DemoService.java -d /tmp
Memory compiler output:
D:\tmp\com\example\demo\service\DemoService.class
Affect(row-cnt:1) cost in 1312 ms.

mc 命令有时会失败，这时我们可以在本地开发环境修改代码，并编译成 .class 文件，再上传到服务器上。

最后一步，使用 redefine 或 retransform 对类进行热更新：

$ retransform /tmp/com/example/demo/service/DemoService.class
retransform success, size: 1, classes:
com.example.demo.service.DemoService

redefine 和 retransform 都可以热更新，但是 redefine 和 jad / watch / trace / monitor / tt 等命令冲突，所以推荐使用 retransform 命令。热更新成功后，使用异常请求再请求一次，现在不会报系统错误了：

$ curl -X POST -H "Content-Type: application/json" -d '{"x":1}' http://localhost:8080/add
1

如果要还原所做的修改，那么只需要删除这个类对应的 retransform entry，然后再重新触发 retransform 即可：

$ retransform --deleteAll
$ retransform --classPattern com.example.demo.service.DemoService

不过要注意的是，Arthas 的热更新也并非无所不能，它也有一些限制，比如不能修改、添加、删除类的字段和方法，只能在原来的方法上修改逻辑。
另外，在生产环境热更新代码并不是很好的行为，而且还非常危险，一定要严格地控制，上线规范也同样重要。

其他使用场景

Arthas 的使用非常灵活，有时候甚至还会有一些意想不到的功能，除了上面这些使用场景，Arthas 的 Issues 中还收集了一些用户案例，其中有几个案例对我印象很深，非常有启发性，可供参考。

参考

深入 Arthas 实现原理

April 25, 2023

使用 Google Colab 体验 AI 绘画

AIGC 的全称为 AI Generated Content，是指利用人工智能技术来生成内容，被认为是继 PGC（Professionally Generated Content，专业生成内容）和 UGC（User Generated Content，用户生成内容）之后的一种新型内容创作方式。目前，这种创作方式一般可分为两大派别：一个是以 OpenAI 的 ChatGPT 和 GPT-4、Facebook 的 LLaMA、斯坦福的 Alpaca 等 大语言模型 技术为代表的文本生成派，另一个是以 Stability AI 的 Stable Diffusion、Midjourney、OpenAI 的 DALL·E 2 等 扩散模型 技术为代表的图片生成派。

在文本生成方面，目前 AI 已经可以和用户聊天，回答各种问题，而且可以基于用户的要求进行文本创作，比如写文案、写邮件、写小说等；在图片生成方面，AI 的绘画水平也突飞猛进，目前 AI 已经可以根据用户的提示词创作出各种不同风格的绘画作品，而且可以对图片进行风格迁移、自动上色、缺损修复等，AI 生成的作品几乎可以媲美专业画师，生成作品的效率越来越高，而生成作品的成本却越来越低，这让 AI 绘画技术得以迅速普及，让普通用户也可以体验专业画师的感觉，我从小就很特别羡慕那些会画画的人，现在就可以借助 AI 技术让我实现一个画家的梦。

AI 绘画的发展历史

2014 年 10 月，Ian J. Goodfellow 等人发表了一篇论文《Generative Adversarial Networks》，在论文中提出了一种新的深度学习算法 GAN（生成式对抗网络），这个算法包含两个模型：生成模型（Generative Model，简称 G 模型）和 判别模型（Discriminative Model，简称 D 模型），在训练过程中，G 模型的目标是尽量生成以假乱真的图片去欺骗 D 模型，而 D 模型的目标是判断 G 模型生成的图片是不是真实的，这样，G 模型和 D 模型就构成了一个动态的博弈过程，仿佛老顽童周伯通的左右手互搏一样，当 D 模型无法判断输入的图片是 G 模型生成的还是真实的时候，G 模型和 D 模型的训练就达到了平衡，这时我们得到的 G 模型就可以生成以假乱真的图片了。

不过由于 GAN 算法包含了两个模型，稳定性较差，可能出现有趣的 海奥维提卡现象（the helvetica scenario），如果 G 模型发现了一个能够骗过 D 模型的 bug，它就会开始偷懒，一直用这张图片来欺骗 D 模型，导致整个平衡的无效。在 2020 年，Jonathan Ho 等人发表论文《Denoising Diffusion Probabilistic Models》，提出了一种新的 扩散模型（Diffusion Model），相比 GAN 来说，扩散模型的训练更稳定，而且能够生成更多样的样本，一时间扩散模型在 AI 圈里迅速起飞，2021 年 11 月 OpenAI 推出 DALL·E，2022 年 3 月，David Holz 推出 Midjourney，5 月 Google Brain 推出 Imagen，都是基于扩散模型实现的。

到了 2022 年 8 月，Stability AI 开发出 Stable Diffusion 模型，相比于之前的商业产品，Stable Diffusion 是一个完全开源的模型，无论是代码还是权重参数库都对所有人开放使用，而且 Stable Diffusion 对资源的消耗大幅降低，消费级显卡就可以驱动，大大降低了 AI 绘画的门槛，普通人也可以在他们的电脑上体验 AI 绘画的乐趣。到了 10 月，游戏设计师 Jason Allen 使用 AI 绘画工具 Midjourney 生成的一幅名为《太空歌剧院》的作品在美国科罗拉多州举办的艺术博览会上获得数字艺术类冠军，引起了一波不小的争论，也让 AI 绘画再一次成为热门话题，之后各大公司和团队纷纷入局，各种 AI 绘画工具如雨后春笋般冒了出来。

正因为如此，有人将 2022 年称为 AI 绘画元年。

选择 GPU

虽说 Stable Diffusion 的门槛已经被大大降低了，但还是有一定门槛的，因为运行 Stable Diffusion 要配备一张 GPU 显卡，可以使用 NVIDIA 卡（俗称 N 卡）或 AMD 卡（俗称 A 卡），不过主流的推理框架都使用了 NVIDIA 的 CUDA 工具包，所以一般都推荐使用 N 卡。GPU 显卡价格不菲，可以参考驱动之家的桌面显卡性能天梯图进行选购，除非你是资深的游戏玩家或者深度学习的爱好者，大多数家用电脑上都不具备这个条件。

也可以使用各大公有云厂商推出的 GPU 云服务器，比如阿里云，腾讯云，华为云，百度智能云等，但是价格也都不便宜，比较适合中小企业，对于那些刚对深度学习感兴趣，希望尝试一些深度学习项目的小白个人用户来说，就不划算了。

好在网上有很多白嫖 GPU 的攻略，国外的有 Google Colab 和 Kaggle，它们都提供了 V100、P100、T4 等主流显卡，可以免费使用 12 个小时，超时之后会自动清理；国内的有阿里的天池，相比来说磁盘和使用时间稍短一点，不过对于新人入门来说也足够了；另外还有百度的 AI Studio 和趋动云等产品，它们可以通过打卡做任务等形式赚取 GPU 算力，在 GPU 不够用时不妨一试。下面是网上找的一些使用教程，供参考：

Google Colab 入门

综合对比下来，Google Colab 的使用体验最好，Google Colab 又叫作 Colaboratory，简称 Colab，中文意思是 合作实验室，正如其名，它可以帮助用户在浏览器中编写和执行 Python 代码，无需任何配置就可以进行一些数据科学或机器学习的实验，借助 Jupyter 交互式笔记本，实验过程和结果也可以轻松分享给其他用户。很多开源项目都提供了 Colab 脚本，可以直接运行体验，这一节将以 Colab 为例，介绍它的基本使用方法。

首先在浏览器输入 colab.research.google.com 访问 Colab 首页：

首页上对 Colab 有个简单的介绍，还提供了一些数据科学和机器学习的入门例子和学习资源。我们通过左上角的 文件 -> 新建笔记本 菜单项创建一个新的笔记本：

然后点击 修改 -> 笔记本设置 将硬件加速器调整为 GPU：

然后点击右上角的 连接 按钮，Google 会动态地为我们分配计算资源，稍等片刻，我们就相当于拥有了一台 12.7 G 内存，78.2 G 磁盘，且带 GPU 显卡的主机了：

Colab 的基本使用

在这个笔记本中，我们可以编写 Markdown 文档，也可以编写和执行 Python 代码：

甚至可以在命令前加个 ! 来执行 Shell 命令：

这个环境里内置了很多常用的数据科学或机器学习的 Python 库，比如 numpy、pandas、matplotlib、scikit-learn、tensorflow 等：

另外，由于这是一台 GPU 主机，我们还可以使用 nvidia-smi 来查看显卡信息：

可以看到，我们免费得到了一张 Tesla T4 的显卡，显存大约 15G 左右。

测试 GPU 速度

接下来，我们测试下这个 GPU 的速度。首先通过 TensorFlow 的 tf.test.gpu_device_name() 获取 GPU 设备的名称：

然后编写两个方法：

这两个方法所做的事情是一样的，只不过一个使用 CPU 来运行，另一个使用 GPU 来运行。在这个方法中，先使用 tf.random.normal((100, 100, 100, 3)) 随机生成一个 100*100*100*3 的四维张量，然后使用 tf.keras.layers.Conv2D(32, 7)(random_image_cpu) 对这个张量计算卷积，卷积过滤器数量 filters 为 32，卷积窗口 kernel_size 为 7*7，最后使用 tf.math.reduce_sum(net_cpu) 对卷积结果求和。

接下来第一次执行，并使用 timeit 来计时：

可以看到，在 GPU 上的执行速度比 CPU 上的要慢一点，这是因为 TensorFlow 第一次运行时默认会使用 cuDNN 的 autotune 机制对计算进行预热。

我们再执行第二次：

这时，在 GPU 上的执行速度明显快多了，相比于 CPU 来说，速度有着 50 多倍的提升。

这里是这一节的完整代码。

在 Google Colab 里运行 Stable Diffusion

2023 年 4 月 21 日，Google Colab 官方发了一份声明，由于 Stable Diffusion 太火了，消耗了 Google Colab 大量的 GPU 资源，导致预算不够，现在已经被封了，只有付费用户才能运行，免费用户运行会有警告：

对 Google Colab 有一定了解后，我们就可以免费使用它的 GPU 来做很多有趣的事情了，比如我想要运行 Stable Diffusion 来体验 AI 绘画。

camenduru/stable-diffusion-webui-colab 这个项目整理了大量 Stable Diffusion 的 Colab 脚本，基于 AUTOMATIC1111/stable-diffusion-webui 实现了可视化 Web 页面，集成了 Hugging Face 和 Civitai 上热门的模型和插件，我们随便选择一个，点击左侧的 stable 打开 Colab 页面执行即可：

运行成功后，在控制台中可以看到打印了几个随机生成的外网链接：

随便选择一个链接打开，进入 Stable Diffusion WebUI 页面：

接下来，开始你的 AI 绘画之旅吧！

参考

文本生成派

图片生成派

April 13, 2023

使用 RSSHub 为任意网址生成订阅源

最近在学习 APISIX 时，发现它的官方博客有不少的干货内容，于是想着能在我的阅读器里订阅这个博客的更新，不过找了半天都没有找到这个博客的订阅入口，后来在博客的页面代码里找到了 rss.xml 和 atom.xml 两个订阅链接，不过打开一看全都是 404 Page Not Found。

其实遇到这种情况，也有不少的解决方法，有很多网站提供了 RSS 生成的功能，比如 RSS.app、FetchRSS 或 feed43 等都提供了免费的 RSS 源转换功能，不过这些工具要么使用起来不太好用，要么访问速度巨慢，要么就是有各种各样的限制。于是便想实现一个自己的 RSS 生成服务，正好前几天看到了一个叫做 RSSHub 的项目，这是一个开源、简单易用、易于扩展的 RSS 生成器，口号是 万物皆可 RSS，可以给任何奇奇怪怪的内容生成 RSS 订阅源，而且看社区也挺活跃，于是就利用周末时间折腾一下，使用 RSSHub 搭建了一个自己的 RSS 生成服务。

快速开始

RSSHub 和那些在线的 RSS 生成服务不一样，它是通过编写扩展的方式来添加新的 RSS 订阅源。不过在编写自己的扩展之前，可以先到官网上搜索一下，看看有没有其他人已经写过了，官网上目前已经适配了数百家网站的上千项内容。由于我要订阅的 APSIX 博客比较小众，目前还没有人写过，所以就只能自己动手了。

RSSHub 是基于 Node.js 实现的，所以先确保机器上已经安装了 Node.js 运行环境：

$ node -v
v16.14.2

以及包管理器 Npm 或 Yarn，我这里使用的是 Npm：

$ npm -v
8.5.0

然后，下载 RSSHub 的源码：

$ git clone https://github.com/DIYgod/RSSHub.git

进入 RSSHub 的根目录，运行以下命令安装依赖：

$ cd RSSHub
$ npm install

依赖安装成功后，运行以下命令在本地启动 RSSHub：

$ npm run dev

启动成功后，在浏览器中打开 http://localhost:1200 就可以看到 RSSHub 的首页了：

新建路由

此时 RSSHub 内置的上千个订阅源，都可以在本地访问，比如通过 /bilibili/ranking/0/3/1 这个地址可以订阅 B 站三天内的排行榜。这个订阅源的格式一般分为三个部分：

/命名空间/路由/参数

新建命名空间

命名空间应该和 RSS 源网站的二级域名相同，所以 B 站的命名空间为 bilibili，而我们要新建的 APISIX 博客地址为 apisix.apache.org/zh/blog，所以命名空间应该为 apache。

每个命名空间对应 lib/v2 目录下的一个子文件夹，所以我们在这个目录下创建一个 apache 子文件夹：

$ mkdir lib/v2/apache

注册路由

第二步，我们需要在命名空间子文件夹下按照 RSSHub 的路由规范来组织文件，一个典型的文件夹结构如下：

├───lib/v2
│   ├───furstar
│       ├─── templates
│           ├─── description.art
│       ├─── router.js
│       ├─── maintainer.js
│       ├─── radar.js
│       └─── someOtherJs.js

其中，每个文件的作用如下：

router.js - 注册路由
maintainer.js - 提供路由维护者信息
radar.js - 为每个路由提供对应 RSSHub Radar 规则
someOtherJs.js - 一些其他的代码文件，一般用于实现路由规则
templates - 该目录下是以 .art 结尾的模版文件，它使用 art-template 进行排版，用于渲染自定义 HTML 内容

编写 `router.js` 文件

其中最重要的一个文件是 router.js，它用于注册路由信息，我们创建该文件，内容如下：

module.exports = (router) => {
    router.get('/apisix/blog', require('./apisix/blog'));
};

RSSHub 使用 @koa/router 来定义路由，在上面的代码中，我们通过 router.get() 定义了一个 HTTP GET 的路由，第一个参数是路由路径，它需要符合 path-to-regexp 语法，第二个参数指定由哪个文件来实现路由规则。

在路由路径中，我们还可以使用参数，比如上面 bilibili 的路由如下：

router.get('/ranking/:rid?/:day?/:arc_type?/:disableEmbed?', require('./ranking'));

其中 :rid、:days、:arc_type 和 :disableEmbed 都是路由的参数，每个参数后面的 ? 表示这是一个可选参数。路由参数可以从 ctx.params 对象中获取。

编写 `maintainer.js` 文件

maintainer.js 文件用于提供路由维护者信息，当用户遇到 RSS 路由的问题时，他们可以联系此文件中列出的维护者：

module.exports = {
    '/apisix/blog': ['aneasystone'],
};

编写路由规则

接下来我们就可以实现路由规则了。首先我们需要访问指定网址来获取数据，RSSHub 提供了两种方式来获取数据：

对于一些简单的 API 接口或网页，可以直接使用 got 发送 HTTP 请求获取数据；
对于某些反爬策略很严的网页，可能需要使用 puppeteer 模拟浏览器打开网页来获取数据。

这其实就是爬虫技术，我们获取的数据通常是 JSON 或 HTML 格式，如果是 HTML 格式，RSSHub 提供了 cheerio 方便我们进一步处理。

上面在注册路由时我们指定了路由规则文件为 ./apisix/blog，所以接下来，创建 ./apisix/blog.js 文件。路由规则实际上就是生成 ctx.state.data 对象，这个对象包含三个字段：

title - 源标题
link - 源链接
item - 源文章

我们先编写一个最简单的路由规则，文件内容如下：

module.exports = async (ctx) => {
    ctx.state.data = {
        title: `Blog | Apache APISIX`,
        link: `https://apisix.apache.org/zh/blog/`,
        item: [{}],
    };
};

这时虽然源文章列表还是空的，但是我们已经可以通过 http://localhost:1200/apache/apisix/blog 地址来访问我们创建的 RSS 源了：

只不过源文章中的 title 和 description 都是 undefined。

接下来要做的事情就是如何获取源文章了，很显然，我们需要访问 APISIX 的博客，并从页面 HTML 中解析出源文章。首先使用 got 发送 HTTP 请求获取页面 HTML：

const url = 'https://apisix.apache.org/zh/blog/';
const { data: res } = await got(url);

得到 HTML 之后，使用 cheerio 对其进行解析：

const $ = cheerio.load(res);

cheerio 有点类似于 jQuery，可以通过 CSS 选择器对 HTML 进行解析和提取，我们可以很方便地在页面中提取出源文章列表：

const articles = $('section.sec_gjjg').eq(1).find('article');
const results = [];
articles.each((i, elem) => {
    const a = $(elem).find('header > a');
    const time = $(elem).find('footer').find('time').text();
    const author = $(elem).find('footer').find('img').attr('src');
    results.push({
        title: a.find('h2').text(),
        description: a.find('p').text(),
        link: a.attr('href'),
        pubDate: timezone(parseDate(time, 'YYYY年M月D日'), +8),
        author,
    });
});
return results;

每个源文章包含以下几个字段：

title - 文章标题
link - 文章链接
description - 文章正文
pubDate - 文章发布日期
author - 文章作者（可选）
category - 文章分类（可选）

至此，我们的路由规则就创建好了，可以在浏览器中对我们的路由进行验证和调试。我们这里的路由规则比较简单，稍微复杂一点的例子可以参考 RSSHub 官方文档制作自己的 RSSHub 路由，使用缓存和日期处理。另外，lib/v2 目录下有很多其他人编写的路由规则，也是很好的参考资料。

其他工作

实现自己的订阅源之后，还可以编写 radar.js 文件，为每个路由提供对应 RSSHub Radar 规则。RSSHub Radar 是 RSSHub 的一款浏览器插件，方便用户查找某个网站是否存在 RSS 订阅源。最后为你的路由添加相应的文档，一个订阅源就开发完成了。

不过如果只是自己部署使用，这些工作也可以跳过。

部署

最后，将 RSSHub 部署到自己的服务器上，官方提供了几种部署方式，比较推荐的是 Docker 或 Docker Compose 部署。

我这里使用 Docker 来简化部署流程。由于我希望将 Redis 作为我的 RSSHub 缓存，这样可以保证每次重启 RSSHub 之后缓存不会失效。首先启动一个 Redis 实例：

$ docker run -d -p 6379:6379 redis:alpine

然后启动 RSSHub 即可：

$ docker run --name rsshub \
    -d -p 1200:1200 \
    -e NODE_ENV=production \
    -e CACHE_TYPE=redis \
    -e REDIS_URL=redis://172.18.0.1:6379/ \
    -v /root/rsshub/v2:/app/lib/v2 \
    diygod/rsshub

注意我们将 lib/v2 目录挂载进容器，这样才能让我们的订阅源生效。我制作了三个 RSS 订阅源，有需要的小伙伴可以自取：

参考

March 25, 2023

实战 APISIX 服务发现

在 APISIX 使用小记中，我们通过 APISIX 官方提供的入门示例学习了 APISIX 的基本概念，并使用 Admin API 和 Dashboard 两种方法创建路由。在创建路由时，我们必须明确地知道服务的 IP 和端口，这给运维人员带来了一定的负担，因为服务的重启或扩缩容都可能会导致服务的 IP 和端口发生变化，当服务数量非常多的时候，维护成本将急剧升高。

APISIX 集成了多种服务发现机制来解决这个问题，通过服务注册中心，APISIX 可以动态地获取服务的实例信息，这样我们就不用在路由中写死固定的 IP 和端口了。

如下图所示，一个标准的服务发现流程大致包含了三大部分：

服务启动时将自身的一些信息，比如服务名、IP、端口等信息上报到注册中心；各个服务与注册中心使用一定机制（例如心跳）通信，如果注册中心与服务长时间无法通信，就会注销该实例；当服务下线时，会删除注册中心的实例信息；
网关会准实时地从注册中心获取服务实例信息；
当用户通过网关请求服务时，网关从注册中心获取的实例列表中选择一个进行代理；

目前市面上流行着很多注册中心，比如 Eureka、Nacos、Consul 等，APISIX 内置了下面这些服务发现机制：

基于 Eureka 的服务发现

Eureka 是 Netflix 开源的一款注册中心服务，它也被称为 Spring Cloud Netflix，是 Spring Cloud 全家桶中的核心成员。本节将演示如何让 APISIX 通过 Eureka 来实现服务发现，动态地获取下游服务信息。

启动 Eureka Server

我们可以直接运行官方的示例代码 spring-cloud-samples/eureka 来启动一个 Eureka Server：

$ git clone https://github.com/spring-cloud-samples/eureka.git
$ cd eureka && ./gradlew bootRun

或者也可以直接使用官方制作好的镜像：

$ docker run -d -p 8761:8761 springcloud/eureka

启动之后访问 http://localhost:8761/ 看看 Eureka Server 是否已正常运行。

启动 Eureka Client

如果一切顺利，我们再准备一个简单的 Spring Boot 客户端程序，引入 spring-cloud-starter-netflix-eureka-client 依赖，再通过 @EnableEurekaClient 注解将服务信息注册到 Eureka Server：

@EnableEurekaClient
@SpringBootApplication
@RestController
public class EurekaApplication {

    public static void main(String[] args) {
        SpringApplication.run(EurekaApplication.class, args);
    }

    @RequestMapping("/")
    public String home() {
        return String.format("Hello, I'm eureka client.");
    }
}

在配置文件中设置服务名称和服务端口：

spring.application.name=eureka-client
server.port=8081

默认注册的 Eureka Server 地址是 http://localhost:8761/eureka/，可以通过下面的参数修改：

eureka.client.serviceUrl.defaultZone=http://localhost:8761/eureka/

默认情况下，Eureka Client 是将该服务所在的主机名注册到 Eureka Server，这在某些情况下可能会导致其他服务调不通该服务，我们可以通过下面的参数，让 Eureka Client 注册 IP 地址：

eureka.instance.prefer-ip-address=true
eureka.instance.ip-address=192.168.1.40

启动后，在 Eureka 页面的实例中可以看到我们注册的服务：

APISIX 集成 Eureka 服务发现

接下来，我们要让 APISIX 通过 Eureka Server 找到我们的服务。首先，在 APISIX 的配置文件 config.yaml 中添加如下内容：

discovery:
  eureka:
    host:
      - "http://192.168.1.40:8761"
    prefix: /eureka/

然后重启 APISIX，接着向 APISIX 中添加如下路由：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/11 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/eureka",
    "plugins": {
        "proxy-rewrite" : {
            "regex_uri": ["/eureka", "/"]
        }
    },
    "upstream": {
        "type": "roundrobin",
        "discovery_type": "eureka",
        "service_name": "EUREKA-CLIENT"
    }
}'

之前创建路由时，我们在 upstream 中通过 nodes 参数表示上游服务器节点，这里我们不再需要写死服务器节点信息，而是通过 "discovery_type": "eureka" 和 "service_name": "EUREKA-CLIENT" 来让 APISIX 使用 eureka 服务发现机制，上游的服务名称为 EUREKA-CLIENT。

值得注意的是，虽然上面的 Eureka Client 的 spring.application.name 是小写，但是注册到 Eureka Server 的服务名称是大写，所以这里的 service_name 参数必须是大写。此外，这里我们还使用了 proxy-rewrite 插件，它相当于 Nginx 中的路径重写功能，当多个上游服务的接口地址相同时，通过路径重写可以将它们区分开来。

访问 APISIX 的 /eureka 地址验证一下：

$ curl http://127.0.0.1:9080/eureka
Hello, I'm eureka client.

我们成功通过 APISIX 访问到了我们的服务。

关于 APISIX 集成 Eureka 的更多信息，可以参考官方文档集成服务发现注册中心和官方博客 API 网关 Apache APISIX 集成 Eureka 作为服务发现。

基于 Nacos 的服务发现

Nacos 是阿里开源的一款集服务发现、配置管理和服务管理于一体的管理平台，APISIX 同样支持 Nacos 的服务发现机制。

启动 Nacos Server

首先，我们需要准备一个 Nacos Server，Nacos 官网提供了多种部署方式，可以通过源码或安装包安装、通过 Docker 安装或通过 Kubernetes 安装，我们这里直接使用 docker 命令启动一个本地模式的 Nacos Server：

$ docker run -e MODE=standalone -p 8848:8848 -p 9848:9848 -d nacos/nacos-server:v2.2.0

不知道为什么，有时候启动会报这样的错误：com.alibaba.nacos.api.exception.runtime.NacosRuntimeException: errCode: 500, errMsg: load derby-schema.sql error，多启动几次又可以了。

启动成功后，访问 http://localhost:8848/nacos/ 进入 Nacos 管理页面，默认用户名和密码为 nacos/nacos：

启动 Nacos Client

接下来，我们再准备一个简单的 Spring Boot 客户端程序，引入 nacos-discovery-spring-boot-starter 依赖，并通过它提供的 NameService 将服务信息注册到 Nacos Server：

@SpringBootApplication
@RestController
public class NacosApplication implements CommandLineRunner {

    @Value("${spring.application.name}")
    private String applicationName;

    @Value("${server.port}")
    private Integer serverPort;
    
    @NacosInjected
    private NamingService namingService;
    
    public static void main(String[] args) {
        SpringApplication.run(NacosApplication.class, args);
    }

    @Override
    public void run(String... args) throws Exception {
        namingService.registerInstance(applicationName, "192.168.1.40", serverPort);
    }

    @RequestMapping("/")
    public String home() {
        return String.format("Hello, I'm nacos client.");
    }
}

在配置文件中设置服务名称和服务端口：

spring.application.name=nacos-client
server.port=8082

以及 Nacos Server 的地址：

nacos.discovery.server-addr=127.0.0.1:8848

启动后，在 Nacos 的服务管理页面中就可以看到我们注册的服务了：

APISIX 集成 Nacos 服务发现

接下来，我们要让 APISIX 通过 Nacos Server 找到我们的服务。首先，在 APISIX 的配置文件 config.yaml 中添加如下内容：

discovery:
  nacos:
    host:
      - "http://192.168.1.40:8848"
    prefix: "/nacos/v1/"

然后重启 APISIX，接着向 APISIX 中添加如下路由：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/22 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/nacos",
    "plugins": {
        "proxy-rewrite" : {
            "regex_uri": ["/nacos", "/"]
        }
    },
    "upstream": {
        "type": "roundrobin",
        "discovery_type": "nacos",
        "service_name": "nacos-client"
    }
}'

和上面 Eureka 服务发现的例子一样，我们也使用 proxy-rewrite 插件实现了路径重写功能，访问 APISIX 的 /nacos 地址验证一下：

$ curl http://127.0.0.1:9080/nacos
Hello, I'm nacos client.

我们成功通过 APISIX 访问到了我们的服务。

关于 APISIX 集成 Nacos 的更多信息，可以参考官方文档基于 Nacos 的服务发现和官方博客 Nacos 在 API 网关中的服务发现实践。

基于 Consul 的服务发现

Consul 是由 HashiCorp 开源的一套分布式系统的解决方案，同时也可以作为一套服务网格解决方案，提供了丰富的控制平面功能，包括：服务发现、健康检查、键值存储、安全服务通信、多数据中心等。

启动 Consul Server

Consul 使用 Go 语言编写，安装和部署都非常简单，官方提供了 Consul 的多种安装方式，包括二进制安装、Kubernetes 安装或 HCP 安装。这里我们使用最简单的二进制安装方式，这种方式只需要执行一个可执行文件即可，首先，我们从 Install Consul 页面找到对应操作系统的安装包并下载：

$ curl -LO https://releases.hashicorp.com/consul/1.15.1/consul_1.15.1_linux_amd64.zip
$ unzip consul_1.15.1_linux_amd64.zip

下载并解压之后，Consul 就算安装成功了，使用 consul version 命令进行验证：

$ ./consul version
Consul v1.15.1
Revision 7c04b6a0
Build Date 2023-03-07T20:35:33Z
Protocol 2 spoken by default, understands 2 to 3 (agent will automatically use protocol >2 when speaking to compatible agents)

Consul 安装完成后，就可以启动 Consul Agent 了，Consul Agent 有 -server 和 -client 两种模式，-client 一般用于服务网格等场景，这里我们通过 -server 模式启动：

$ ./consul agent -server -ui -bootstrap-expect=1 -node=agent-one -bind=127.0.0.1 -client=0.0.0.0 -data-dir=./data_dir
==> Starting Consul agent...
              Version: '1.15.1'
           Build Date: '2023-03-07 20:35:33 +0000 UTC'
              Node ID: '8c1ccd5a-69b3-4c95-34c1-f915c19a3d08'
            Node name: 'agent-one'
           Datacenter: 'dc1' (Segment: '<all>')
               Server: true (Bootstrap: true)
          Client Addr: [0.0.0.0] (HTTP: 8500, HTTPS: -1, gRPC: -1, gRPC-TLS: 8503, DNS: 8600)
         Cluster Addr: 127.0.0.1 (LAN: 8301, WAN: 8302)
    Gossip Encryption: false
     Auto-Encrypt-TLS: false
            HTTPS TLS: Verify Incoming: false, Verify Outgoing: false, Min Version: TLSv1_2
             gRPC TLS: Verify Incoming: false, Min Version: TLSv1_2
     Internal RPC TLS: Verify Incoming: false, Verify Outgoing: false (Verify Hostname: false), Min Version: TLSv1_2

==> Log data will now stream in as it occurs:

其中 -ui 表示开启内置的 Web UI 管理界面，-bootstrap-expect=1 表示服务器希望以 bootstrap 模式启动，-node=agent-one 用于指定节点名称，-bind=127.0.0.1 这个地址用于 Consul 集群内通信，-client=0.0.0.0 这个地址用于 Consul 和客户端之间的通信，包括 HTTP 和 DNS 两种通信方式，-data-dir 参数用于设置数据目录。关于 consul agent 更多的命令行参数，可以参考 Agents Overview 和 Agents Command-line Reference。

简单起见，我们也可以使用 -dev 参数以开发模式启动 Consul Agent：
$ ./consul agent -dev

如果 Consul Agent 启动成功，访问 http://localhost:8500/ 进入 Consul 的管理页面，在服务列表可以看到 consul 这个服务：

在节点列表可以看到 agent-one 这个节点：

启动 Consul Client

让我们继续编写 Consul Client 程序，引入 spring-cloud-starter-consul-discovery 依赖，并通过 @EnableDiscoveryClient 注解将服务信息注册到 Consul Server：

@EnableDiscoveryClient
@SpringBootApplication
@RestController
public class ConsulApplication {
    
    public static void main(String[] args) {
        SpringApplication.run(ConsulApplication.class, args);
    }

    @RequestMapping("/")
    public String home() {
        return String.format("Hello, I'm consul client.");
    }
}

可以看到和 Eureka Client 的代码几乎是完全一样的，不过有一点要注意，我们还需要在 pom.xml 文件中引入 spring-boot-starter-actuator 依赖，开启 Actuator 端点，因为 Consul 默认是通过 /actuator/health 接口来对程序做健康检查的。

在配置文件中设置服务名称和服务端口：

spring.application.name=consul-client
server.port=8083

以及 Consul 相关的配置：

spring.cloud.consul.host=127.0.0.1
spring.cloud.consul.port=8500
spring.cloud.consul.discovery.service-name=${spring.application.name}
spring.cloud.consul.discovery.prefer-ip-address=true
spring.cloud.consul.discovery.ip-address=192.168.1.40

启动后，在 Consul 的服务管理页面中就可以看到我们注册的服务了：

APISIX 集成 Consul 服务发现

接下来，我们要让 APISIX 通过 Consul Server 找到我们的服务。首先，在 APISIX 的配置文件 config.yaml 中添加如下内容：

discovery:
  consul:
    servers:
      - "http://192.168.1.40:8500"

然后重启 APISIX，接着向 APISIX 中添加如下路由：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/33 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/consul",
    "plugins": {
        "proxy-rewrite" : {
            "regex_uri": ["/consul", "/"]
        }
    },
    "upstream": {
        "type": "roundrobin",
        "discovery_type": "consul",
        "service_name": "consul-client"
    }
}'

访问 APISIX 的 /consul 地址验证一下：

$ curl http://127.0.0.1:9080/consul
Hello, I'm consul client.

关于 APISIX 集成 Consul 的更多信息，可以参考官方文档基于 Consul 的服务发现。

基于 Consul KV 的服务发现

Consul 还提供了分布式键值数据库的功能，这个功能和 Etcd、ZooKeeper 类似，主要用于存储配置参数和元数据。基于 Consul KV 我们也可以实现服务发现的功能。

首先准备 consul-kv-client 客户端程序，它的地址为 192.168.1.40:8084，我们通过 Consul KV 的 HTTP API 手工注册服务：

$ curl -X PUT http://127.0.0.1:8500/v1/kv/upstreams/consul-kv-client/192.168.1.40:8084 -d ' {"weight": 1, "max_fails": 2, "fail_timeout": 1}'

其中，/v1/kv/ 后的路径按照 {Prefix}/{Service Name}/{IP}:{Port} 的格式构成。可以在 Consul 的 Key/Value 管理页面看到我们注册的服务：

然后在 APISIX 的配置文件 config.yaml 中添加如下内容：

discovery:
  consul_kv:
    servers:
      - "http://192.168.1.40:8500"
    prefix: "upstreams"

然后重启 APISIX，接着向 APISIX 中添加如下路由：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/44 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/consul_kv",
    "plugins": {
        "proxy-rewrite" : {
            "regex_uri": ["/consul_kv", "/"]
        }
    },
    "upstream": {
        "type": "roundrobin",
        "discovery_type": "consul_kv",
        "service_name": "http://192.168.1.40:8500/v1/kv/upstreams/consul-kv-client/"
    }
}'

注意这里的 service_name 参数需要设置为 KV 的 URL 路径，访问 APISIX 的 /consul_kv 地址验证一下：

$ curl http://127.0.0.1:9080/consul_kv
Hello, I'm consul_kv client.

另一点需要注意的是，这种方式注册的服务没有健康检查机制，服务退出后需要手工删除对应的 KV：

$ curl -X DELETE http://127.0.0.1:8500/v1/kv/upstreams/consul-kv-client/192.168.1.40:8084

关于 APISIX 集成 Consul KV 的更多信息，可以参考官方文档基于 Consul KV 的服务发现和官方博客 Apache APISIX 集成 Consul KV，服务发现能力再升级。

基于 DNS 的服务发现

Consul 不仅支持 HTTP API，而且还支持 DNS API，它内置了一个小型的 DNS 服务器，默认端口为 8600，我们以上面的 consul-client 为例，介绍如何在 APISIX 中集成 DNS 的服务发现。

注册到 Consul 中的服务默认会在 Consul DNS 中添加一条 <服务名>.service.consul 这样的域名记录，使用 dig 命令可以查询该域名的信息：

$ dig @192.168.1.40 -p 8600 consul-client.service.consul

; <<>> DiG 9.11.3-1ubuntu1.17-Ubuntu <<>> @192.168.1.40 -p 8600 consul-client.service.consul
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 32989
;; flags: qr aa rd; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 1
;; WARNING: recursion requested but not available

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;consul-client.service.consul.  IN      A

;; ANSWER SECTION:
consul-client.service.consul. 0 IN      A       192.168.1.40

;; Query time: 4 msec
;; SERVER: 192.168.1.40#8600(192.168.1.40)
;; WHEN: Tue Mar 21 07:17:40 CST 2023
;; MSG SIZE  rcvd: 73

上面的查询结果中只包含 A 记录，A 记录中只有 IP 地址，没有服务端口，如果用 A 记录来做服务发现，服务的端口必须得固定；好在 Consul 还支持 SRV 记录，SRV 记录中包含了服务的 IP 和端口信息：

$ dig @192.168.1.40 -p 8600 consul-client.service.consul SRV

; <<>> DiG 9.11.3-1ubuntu1.17-Ubuntu <<>> @192.168.1.40 -p 8600 consul-client.service.consul SRV
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 41141
;; flags: qr aa rd; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 3
;; WARNING: recursion requested but not available

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;consul-client.service.consul.  IN      SRV

;; ANSWER SECTION:
consul-client.service.consul. 0 IN      SRV     1 1 8083 c0a80128.addr.dc1.consul.

;; ADDITIONAL SECTION:
c0a80128.addr.dc1.consul. 0     IN      A       192.168.1.40
agent-one.node.dc1.consul. 0    IN      TXT     "consul-network-segment="

;; Query time: 3 msec
;; SERVER: 192.168.1.40#8600(192.168.1.40)
;; WHEN: Tue Mar 21 07:18:22 CST 2023
;; MSG SIZE  rcvd: 168

我们在 APISIX 的配置文件 config.yaml 中添加如下内容：

discovery:
  dns:
    servers:
      - "192.168.1.40:8600"

然后重启 APISIX，接着向 APISIX 中添加如下路由：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/55 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/dns",
    "plugins": {
        "proxy-rewrite" : {
            "regex_uri": ["/dns", "/"]
        }
    },
    "upstream": {
        "type": "roundrobin",
        "discovery_type": "dns",
        "service_name": "consul-client.service.consul"
    }
}'

访问 APISIX 的 /dns 地址验证一下：

$ curl http://127.0.0.1:9080/dns
Hello, I'm consul client.

关于 Consul DNS 的更多信息，可以参考官方文档 Discover services with DNS，除了 Consul DNS，我们也可以使用其他的 DNS 服务器来做服务发现，比如 CoreDNS 就是 Kubernetes 环境下的服务发现默认实现。

关于 APISIX 集成 DNS 的更多信息，可以参考官方文档基于 DNS 的服务发现和官方博客 API 网关 Apache APISIX 携手 CoreDNS 打开服务发现新大门。

基于 APISIX-Seed 架构的控制面服务发现

上面所介绍的所有服务发现机制都是在 APISIX 上进行的，我们需要修改 APISIX 的配置，并重启 APISIX 才能生效，这种直接在网关上实现的服务发现也被称为 数据面服务发现，APISIX 还支持另一种服务发现机制，称为 控制面服务发现。

控制面服务发现不直接对 APISIX 进行修改，而是将服务发现结果保存到 Etcd 中，APISIX 实时监听 Etcd 的数据变化，从而实现服务发现：

APISIX 通过 APISIX-Seed 项目实现了控制面服务发现，这样做有下面几个好处：

简化了 APISIX 的网络拓扑，APISIX 只需要关注 Etcd 的数据变化即可，不再和每个注册中心保持网络连接；
APISIX 不用额外存储注册中心的服务数据，减小内存占用；
APISIX 的配置变得简单，更容易管理；

虽然如此，目前 APISIX-Seed 还只是一个实验性的项目，从 GitHub 上的活跃度来看，官方似乎对它的投入并不是很高，目前只支持 ZooKeeper 和 Nacos 两种服务发现，而且官方也没有提供 APISIX-Seed 安装包的下载，需要我们自己通过源码来构建：

$ git clone https://github.com/api7/apisix-seed.git
$ make build

构建完成后，可以得到一个 apisix-seed 可执行文件，然后我们以上面的 Nacos 为例，介绍如何通过 APISIX-Seed 来实现控制面服务发现。

首先，我们将 APISIX 的配置文件中所有服务发现相关的配置都删掉，并重启 APISIX，接着打开 conf/conf.yaml 配置文件，文件中已经提前配置好了 Etcd、ZooKeeper、Nacos 等相关的配置，我们对其做一点裁剪，只保留下面这些信息：

etcd:
  host:
    - "http://127.0.0.1:2379"
  prefix: /apisix
  timeout: 30
    
log:
  level: warn
  path: apisix-seed.log
  maxage: 168h
  maxsize: 104857600
  rotation_time: 1h

discovery:
  nacos:
    host:
      - "http://127.0.0.1:8848"
    prefix: /nacos

然后启动 apisix-seed：

$ ./apisix-seed
panic: no discoverer with key: dns

goroutine 15 [running]:
github.com/api7/apisix-seed/internal/discoverer.GetDiscoverer(...)
        D:/code/apisix-seed/internal/discoverer/discovererhub.go:42
        D:/code/apisix-seed/internal/core/components/watcher.go:84 +0x1d4
created by github.com/api7/apisix-seed/internal/core/components.(*Watcher).Init
        D:/code/apisix-seed/internal/core/components/watcher.go:48 +0x2b6
panic: no discoverer with key: consul

goroutine 13 [running]:
github.com/api7/apisix-seed/internal/discoverer.GetDiscoverer(...)
        D:/code/apisix-seed/internal/discoverer/discovererhub.go:42
github.com/api7/apisix-seed/internal/core/components.(*Watcher).handleQuery(0x0?, 0xc000091200, 0x0?)
        D:/code/apisix-seed/internal/core/components/watcher.go:84 +0x1d4
created by github.com/api7/apisix-seed/internal/core/components.(*Watcher).Init
        D:/code/apisix-seed/internal/core/components/watcher.go:48 +0x2b6

不过由于上面我们在路由中添加了 dns、consul 这些服务发现类型，这些 APISIX-Seed 是不支持的，所以启动会报错，我们需要将这些路由删掉：

$ curl -X DELETE http://127.0.0.1:9180/apisix/admin/routes/11 -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1'
$ curl -X DELETE http://127.0.0.1:9180/apisix/admin/routes/33 -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1'
$ curl -X DELETE http://127.0.0.1:9180/apisix/admin/routes/44 -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1'
$ curl -X DELETE http://127.0.0.1:9180/apisix/admin/routes/55 -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1'

只保留一条 /nacos 的路由，然后重启 apisix-seed 即可：

$ ./apisix-seed
2023-03-22T07:49:53.849+0800    INFO    naming_client/push_receiver.go:80       udp server start, port: 55038

访问 APISIX 的 /nacos 地址验证一下：

$ curl http://127.0.0.1:9080/nacos
Hello, I'm nacos client.

关于 APISIX-Seed 的更多信息，可以参考官方文档基于 APISIX-Seed 架构的控制面服务发现和 APISIX-Seed 项目文档。

基于 Kubernetes 的服务发现

我们的服务还可能部署在 Kubernetes 集群中，这时，不用依赖外部的服务注册中心也可以实现服务发现，因为 Kubernetes 提供了强大而丰富的监听资源的接口，我们可以通过监听 Kubernetes 集群中 Services 或 Endpoints 等资源的实时变化来实现服务发现，APISIX 就是这样做的。

我们以 Kubernetes 使用小记中的 kubernetes-bootcamp 为例，体验一下 APISIX 基于 Kubernetes 的服务发现。

首先在 Kubernetes 集群中创建对应的 Deployment 和 Service：

$ kubectl create deployment kubernetes-bootcamp --image=jocatalin/kubernetes-bootcamp:v1
deployment.apps/kubernetes-bootcamp created

$ kubectl expose deployment/kubernetes-bootcamp --type="NodePort" --port 8080
service/kubernetes-bootcamp exposed

通过 kubectl get svc 获取 NodePort 端口，并验证服务能正常访问：

$ kubectl get svc
NAME                  TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)          AGE
kubernetes            ClusterIP   10.96.0.1       <none>        443/TCP          115d
kubernetes-bootcamp   NodePort    10.101.31.128   <none>        8080:32277/TCP   59s

$ curl http://192.168.1.40:32277
Hello Kubernetes bootcamp! | Running on: kubernetes-bootcamp-857b45f5bb-jtzs4 | v=1

接下来，为了让 APISIX 能查询和监听 Kubernetes 的 Endpoints 资源变动，我们需要创建一个 ServiceAccount：

kind: ServiceAccount
apiVersion: v1
metadata:
 name: apisix-test
 namespace: default

以及一个具有集群级查询和监听 Endpoints 资源权限的 ClusterRole：

kind: ClusterRole
apiVersion: rbac.authorization.k8s.io/v1
metadata:
  name: apisix-test
rules:
- apiGroups: [ "" ]
  resources: [ endpoints ]
  verbs: [ get,list,watch ]

再将这个 ServiceAccount 和 ClusterRole 关联起来：

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: apisix-test
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: apisix-test
subjects:
  - kind: ServiceAccount
    name: apisix-test
    namespace: default

然后我们需要获取这个 ServiceAccount 的 token 值，如果 Kubernetes 是 v1.24 之前的版本，可以通过下面的方法获取 token 值：

$ kubectl get secrets | grep apisix-test
$ kubectl get secret apisix-test-token-c64cv -o jsonpath={.data.token} | base64 -d

Kubernetes 从 v1.24 版本开始，不能再通过 kubectl get secret 获取 token 了，需要使用 TokenRequest API 来获取，首先开启代理：

$ kubectl proxy --port=8001
Starting to serve on 127.0.0.1:8001

然后调用 TokenRequest API 生成一个 token：

$ curl 'http://127.0.0.1:8001/api/v1/namespaces/default/serviceaccounts/apisix-test/token' \
  -H "Content-Type:application/json" -X POST -d '{}'
{
  "kind": "TokenRequest",
  "apiVersion": "authentication.k8s.io/v1",
  "metadata": {
    "name": "apisix-test",
    "namespace": "default",
    "creationTimestamp": "2023-03-22T23:57:20Z",
    "managedFields": [
      {
        "manager": "curl",
        "operation": "Update",
        "apiVersion": "authentication.k8s.io/v1",
        "time": "2023-03-22T23:57:20Z",
        "fieldsType": "FieldsV1",
        "fieldsV1": {
          "f:spec": {
            "f:expirationSeconds": {}
          }
        },
        "subresource": "token"
      }
    ]
  },
  "spec": {
    "audiences": [
      "https://kubernetes.default.svc.cluster.local"
    ],
    "expirationSeconds": 3600,
    "boundObjectRef": null
  },
  "status": {
    "token": "eyJhbGciOiJSUzI1NiIsImtpZCI6ImtLdHRyVzFmNTRHWGFVUjVRS3hrLVJMSElNaXM4aENLMnpfSGk1SUJhbVkifQ.eyJhdWQiOlsiaHR0cHM6Ly9rdWJlcm5ldGVzLmRlZmF1bHQuc3ZjLmNsdXN0ZXIubG9jYWwiXSwiZXhwIjoxNjc5NTMzMDQwLCJpYXQiOjE2Nzk1Mjk0NDAsImlzcyI6Imh0dHBzOi8va3ViZXJuZXRlcy5kZWZhdWx0LnN2Yy5jbHVzdGVyLmxvY2FsIiwia3ViZXJuZXRlcy5pbyI6eyJuYW1lc3BhY2UiOiJkZWZhdWx0Iiwic2VydmljZWFjY291bnQiOnsibmFtZSI6ImFwaXNpeC10ZXN0IiwidWlkIjoiMzVjZWJkYTEtNGZjNC00N2JlLWIxN2QtZDA4NWJlNzU5ODRlIn19LCJuYmYiOjE2Nzk1Mjk0NDAsInN1YiI6InN5c3RlbTpzZXJ2aWNlYWNjb3VudDpkZWZhdWx0OmFwaXNpeC10ZXN0In0.YexM_VoumpdwZNbSkwh6IbEu59PCtZrG1lkTnCqG24G-TC0U1sGxgbXf6AnUQ5ybh-CHWbJ7oewhkg_J4j7FiSAnV_yCcEygLkaCveGIQbWldB3phDlcJ52f8YDpHFtN2vdyVTm79ECwEInDsqKhn4n9tPY4pgTodI6D9j-lcK0ywUdbdlL5VHiOw9jlnS7b60fKWBwCPyW2uohX5X43gnUr3E1Wekgpo47vx8lahTZQqnORahTdl7bsPsu_apf7LMw40FLpspVO6wih-30Ke8CNBxjpORtX2n3oteE1fi2vxYHoyJSeh1Pro_Oykauch0InFUNyEVI4kJQ720glOw",
    "expirationTimestamp": "2023-03-23T00:57:20Z"
  }
}

默认的 token 有效期只有一个小时，可以通过参数改为一年：

$ curl 'http://127.0.0.1:8001/api/v1/namespaces/default/serviceaccounts/apisix-test/token' \
  -H "Content-Type:application/json" -X POST \
  -d '{"kind":"TokenRequest","apiVersion":"authentication.k8s.io/v1","metadata":{"name":"apisix-test","namespace":"default"},"spec":{"audiences":["https://kubernetes.default.svc.cluster.local"],"expirationSeconds":31536000}}'

我们在 APISIX 的配置文件 config.yaml 中添加如下内容（将上面生成的 token 填写到 token 字段）：

discovery:
  kubernetes:
    service:
      schema: https
      host: 127.0.0.1
      port: "6443"
    client:
      token: ...

这里有一个比较坑的地方，port 必须是字符串，否则会导致 APISIX 启动报错：
invalid discovery kubernetes configuration: object matches none of the required

然后重启 APISIX，接着向 APISIX 中添加如下路由：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/66 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/kubernetes",
    "plugins": {
        "proxy-rewrite" : {
            "regex_uri": ["/kubernetes", "/"]
        }
    },
    "upstream": {
        "type": "roundrobin",
        "discovery_type": "kubernetes",
        "service_name": "kubernetes-bootcamp"
    }
}'

访问 APISIX 的 /kubernetes 地址验证一下：

$ curl http://127.0.0.1:9080/kubernetes

不过，如果你的 APISIX 运行在 Kubernetes 集群之外，大概率是访问不通的，因为 APISIX 监听的 Endpoints 地址是 Kubernetes 集群内的 Pod 地址：

$ kubectl describe endpoints/kubernetes-bootcamp
Name:         kubernetes-bootcamp
Namespace:    default
Labels:       app=kubernetes-bootcamp
Annotations:  endpoints.kubernetes.io/last-change-trigger-time: 2023-03-25T00:31:43Z
Subsets:
  Addresses:          10.1.5.12
  NotReadyAddresses:  <none>
  Ports:
    Name     Port  Protocol
    ----     ----  --------
    <unset>  8080  TCP

Events:  <none>

所以想使用基于 Kubernetes 的服务发现，最佳做法是将 APISIX 部署在 Kubernetes 中，或者使用 APISIX Ingress，关于 APISIX 集成 Kubernetes 的更多信息，可以参考官方文档基于 Kubernetes 的服务发现和官方博客借助 APISIX Ingress，实现与注册中心的无缝集成。

参考

实现自定义服务发现

https://apisix.apache.org/zh/docs/apisix/discovery/

February 5, 2023

APISIX 使用小记

Apache APISIX 是基于 Nginx/OpenResty + Lua 方案打造的一款动态、实时、高性能 的 云原生 API 网关，提供了负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。APISIX 由国内初创公司支流科技于 2019 年 6 月开源，并于 7 月纳入 CNCF 全景图，10 月进入 Apache 孵化器，次年 7 月毕业，成为国内唯一一个由初创公司贡献的项目，也是中国最快毕业的 Apache 顶级项目。

入门示例初体验

学习一门技术最好的方法就是使用它。这一节，我们将通过官方的入门示例，对 APISIX 的概念和用法有个基本了解。

首先，我们下载 apisix-docker 仓库：

git clone https://github.com/apache/apisix-docker.git

这个仓库主要是用来指导用户如何使用 Docker 部署 APISIX 的，其中有一个 example 目录，是官方提供的入门示例，我们可以直接使用 docker-compose 运行它：

$ cd apisix-docker/example
$ docker-compose up -d
[+] Running 8/8
 - Network example_apisix                Created                         0.9s
 - Container example-web2-1              Started                         5.1s
 - Container example-web1-1              Started                         4.0s
 - Container example-prometheus-1        Started                         4.4s
 - Container example-grafana-1           Started                         5.8s
 - Container example-apisix-dashboard-1  Started                         6.0s
 - Container example-etcd-1              Started                         5.1s
 - Container example-apisix-1            Started                         7.5s

可以看到创建了一个名为 example_apisix 的网络，并在这个网络里启动了 7 个容器：

etcd - APISIX 使用 etcd 作为配置中心，它通过监听 etcd 的变化来实时更新路由
apisix - APISIX 网关
apisix-dashboard - APISIX 管理控制台，可以在这里对 APISIX 的 Route、Upstream、Service、Consumer、Plugin、SSL 等进行管理
prometheus - 这个例子使用了 APISIX 的 prometheus 插件，用于暴露 APISIX 的指标，Prometheus 服务用于采集这些指标
grafana - Grafana 面板以图形化的方式展示 Prometheus 指标
web1 - 测试服务
web2 - 测试服务

部署之后可以使用 APISIX 的 Admin API 检查其是否启动成功：

$ curl http://127.0.0.1:9180/apisix/admin/routes \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1'
{"list":[],"total":0}

目前我们还没有创建任何路由，所以 /apisix/admin/routes 接口返回的结果为空。我们可以使用 Admin API 和 Dashboard 两种方式来创建路由。

使用 Admin API 创建路由

路由（ Route ） 是 APISIX 中最基础和最核心的资源对象，APISIX 通过路由定义规则来匹配客户端请求，根据匹配结果加载并执行相应的插件，最后将请求转发到指定的上游服务。一条路由主要包含三部分信息：

匹配规则：比如 methods、uri、host 等，也可以根据需要自定义匹配规则，当请求满足匹配规则时，才会执行后续的插件，并转发到指定的上游服务；
插件配置：这是可选的，但也是 APISIX 最强大的功能之一，APISIX 提供了非常丰富的插件来实现各种不同的访问策略，比如认证授权、安全、限流限速、可观测性等；
上游信息：路由会根据配置的负载均衡信息，将请求按照规则转发到相应的上游。

所有的 Admin API 都采用了 Restful 风格，路由资源的请求地址为 /apisix/admin/routes/{id}，我们可以通过不同的 HTTP 方法来查询、新增、编辑或删除路由资源（官方示例）：

GET /apisix/admin/routes - 获取资源列表；
GET /apisix/admin/routes/{id} - 获取资源；
PUT /apisix/admin/routes/{id} - 根据 id 创建资源；
POST /apisix/admin/routes - 创建资源，id 将会自动生成；
DELETE /apisix/admin/routes/{id} - 删除指定资源；
PATCH /apisix/admin/routes/{id} - 标准 PATCH，修改指定 Route 的部分属性，其他不涉及的属性会原样保留；
PATCH /apisix/admin/routes/{id}/{path} - SubPath PATCH，通过 {path} 指定 Route 要更新的属性，全量更新该属性的数据，其他不涉及的属性会原样保留。

下面的例子将入门示例中的 web1 服务添加到路由中：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/1 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/web1",
    "upstream": {
        "type": "roundrobin",
        "nodes": {
            "web1:80": 1
        }
    }
}'

其中 X-API-KEY: edd1c9f034335f136f87ad84b625c8f1 是 Admin API 的访问 Token，可以在 APISIX 的配置文件 apisix_conf/config.yaml 中找到：

deployment:
  admin:
    allow_admin:
      - 0.0.0.0/0
    admin_key:
      - name: "admin"
        key: edd1c9f034335f136f87ad84b625c8f1
        role: admin
      - name: "viewer"
        key: 4054f7cf07e344346cd3f287985e76a2
        role: viewer

如果路由创建成功，将返回下面的 201 Created 信息：

HTTP/1.1 201 Created
Connection: close
Transfer-Encoding: chunked
Access-Control-Allow-Credentials: true
Access-Control-Allow-Origin: *
Access-Control-Expose-Headers: *
Access-Control-Max-Age: 3600
Content-Type: application/json
Date: Tue, 31 Jan 2023 00:19:03 GMT
Server: APISIX/3.1.0
X-Api-Version: v3

{"key":"\/apisix\/routes\/1","value":{"create_time":1675124057,"uri":"\/web1","status":1,"upstream":{"pass_host":"pass","scheme":"http","nodes":{"web1:80":1},"hash_on":"vars","type":"roundrobin"},"priority":0,"update_time":1675124057,"id":"1"}}

这个路由的含义是当请求的方法是 GET 且请求的路径是 /web1 时，APISIX 就将请求转发到上游服务 web1:80。我们可以通过这个路径来访问 web1 服务：

$ curl http://127.0.0.1:9080/web1
hello web1

如果上游信息需要在不同的路由中复用，我们可以先创建一个上游（Upstream）：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/upstreams/1 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "type": "roundrobin",
    "nodes": {
        "web1:80": 1
    }
}'

然后在创建路由时直接使用 upstream_id 即可：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/1 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/web1",
    "upstream_id": "1"
}'

另外，你可以使用下面的命令删除一条路由：

$ curl -X DELETE http://127.0.0.1:9180/apisix/admin/routes/1 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1'

使用 Dashboard 创建路由

APISIX 提供了一套图形化 Dashboard 用来对网关的路由、插件、上游等进行管理，在入门示例中已经自带部署了 Dashboard，通过浏览器 http://localhost:9000 即可访问：

默认的用户名和密码可以在 dashboard_conf/conf.yaml 文件中进行配置：

authentication:
  secret:
    secret     
  expire_time: 3600
  users:
    - username: admin
      password: admin
    - username: user
      password: user

登录成功后进入路由页面：

然后点击 “创建” 按钮创建一个路由：

看上去这里的路由信息非常复杂，但是实际上我们只需要填写 名称、路径、HTTP 方法 即可，其他的维持默认值，当我们对 APISIX 的路由理解更深刻的时候可以再回过头来看看这些参数。

点击 “下一步” 设置上游信息：

同样的，我们只关心目标节点的 主机名 和 端口 两个参数即可。

然后再点击 “下一步” 进入插件配置，这里暂时先跳过，直接 “下一步” 完成路由的创建。路由创建完成后，访问 /web2 来验证路由是否生效：

$ curl http://127.0.0.1:9080/web2
hello web2

使用 APISIX 插件

通过上面的示例，我们了解了 APISIX 的基本用法，学习了如何通过 Admin API 或 Dashboard 来创建路由，实现了网关最基础的路由转发功能。APISIX 不仅具有高性能且低延迟的特性，而且它强大的插件机制为其高扩展性提供了无限可能。我们可以在 APISIX 插件中心查看所有官方已经支持的插件，也可以使用 lua 语言开发自己的插件，如果你对 lua 不熟悉，还可以使用其他语言开发 External Plugin，APISIX 支持通过 Plugin Runner 以 sidecar 的形式来运行你的插件，APISIX 和 sidecar 之间通过 RPC 通信，不过这种方式对性能有一定的影响，如果你比较关注性能问题，那么可以使用你熟悉的语言开发 WebAssembly 程序，APISIX 也支持运行 wasm 插件。

这一节我们将通过几个官方插件来实现一些常见的网关需求。

在上面的学习中我们知道，一个路由是由匹配规则、插件配置和上游信息三个部分组成的，但是为了学习的递进性，我们有意地避免了插件配置部分。现在我们可以重新创建一个路由，并为其加上插件信息：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/3 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/web3",
    "plugins": {
        "limit-count": {
            "count": 2,
            "time_window": 60,
            "rejected_code": 503,
            "key": "remote_addr"
        },
        "prometheus": {}
    },
    "upstream": {
        "type": "roundrobin",
        "nodes": {
            "web1:80": 1
        }
    }
}'

上面的命令创建了一个 /web3 路由，并配置了两个插件：

limit-count - 该插件使用 固定窗口算法（Fixed Window algorithm） 对该路由进行限流，每分钟仅允许 2 次请求，超出时返回 503 错误码；
prometheus - 该插件将路由请求相关的指标暴露到 Prometheus 端点；

我们连续访问 3 次 /web3 路由：

$ curl http://127.0.0.1:9080/web3
hello web1
$ curl http://127.0.0.1:9080/web3
hello web1
$ curl http://127.0.0.1:9080/web3
<html>
<head><title>503 Service Temporarily Unavailable</title></head>
<body>
<center><h1>503 Service Temporarily Unavailable</h1></center>
<hr><center>openresty</center>
<p><em>Powered by <a href="https://apisix.apache.org/">APISIX</a>.</em></p></body>
</html>

可以看到 limit-count 插件的限流功能生效了，第 3 次请求被拒绝，返回了 503 错误码。另外，可以使用下面的命令查看 Prometheus 指标：

$ curl -i http://127.0.0.1:9091/apisix/prometheus/metrics

这个 Prometheus 指标地址可以在 apisix_conf/config.yaml 文件的 plugin_attr 中配置：

plugin_attr:
  prometheus:
    export_uri: /apisix/prometheus/metrics
    export_addr:
      ip: "0.0.0.0"
      port: 9091

APISIX 的插件可以动态的启用和禁用、自定义错误响应、自定义优先级、根据条件动态执行，具体内容可以参考官方的 Plugin 文档。此外，如果一个插件需要在多个地方复用，我们也可以创建一个 Plugin Config：

$ curl http://127.0.0.1:9180/apisix/admin/plugin_configs/1 \
  -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -X PUT -i -d '
{
    "desc": "enable limit-count plugin",
    "plugins": {
        "limit-count": {
            "count": 2,
            "time_window": 60,
            "rejected_code": 503
        }
    }
}'

然后在创建路由时，通过 plugin_config_id 关联：

$ curl -X PUT http://127.0.0.1:9180/apisix/admin/routes/1 \
    -H 'X-API-KEY: edd1c9f034335f136f87ad84b625c8f1' -i -d '
{
    "methods": ["GET"],
    "uri": "/web1",
    "upstream_id": "1",
    "plugin_config_id": "1"
}'

在 APISIX 的插件中心，我们可以看到 APISIX 将插件分成了下面几个大类：

General - 通用功能，比如 gzip 压缩配置、重定向配置等；
Transformation - 这类插件会对请求做一些转换操作，比如重写请求响应、gRPC 协议转换等；
Authentication - 提供一些常见的认证授权相关的功能，比如 API Key 认证、JWT 认证、Basic 认证、CAS 认证、LDAP 认证等；
Security - 安全相关的插件，比如开启 IP 黑白名单、开启 CORS、开启 CSRF 等；
Traffic - 这些插件对流量进行管理，比如限流、限速、流量镜像等；
Observability - 可观测性插件，支持常见的日志（比如 File-Logger、Http-Logger、Kafka-Logger、Rocketmq-Logger 等）、指标（比如 Prometheus、Datadog 等）和链路跟踪（比如 Skywalking、Zipkin、Opentelemetry 等）系统；
Serverless - 对接常见的 Serverless 平台，实现函数计算功能，比如 AWS Lambda、Apache OpenWhisk、CNCF Function 等；
Other Protocols - 这些插件用于支持 Dubbo、MQTT 等其他类型的协议；

参考

APISIX 的部署模式

APISIX 支持多种不同的部署模式，上面的示例中使用的是最常用的一种部署模式：traditional 模式，在这个模式下 APISIX 的控制平台和数据平面在一起：

我们也可以将 APISIX 部署两个实例，一个作为数据平面，一个作为控制平面，这被称为 decoupled 模式，这样可以提高 APISIX 的稳定性：

上面两种模式都依赖于从 etcd 中监听和获取配置信息，如果我们不想使用 etcd，我们还可以将 APISIX 部署成 standalone 模式，这个模式使用 conf/apisix.yaml 作为配置文件，并且每间隔一段时间自动检测文件内容是否有更新，如果有更新则重新加载配置。不过这个模式只能作为数据平面，无法使用 Admin API 等管理功能（这是因为 Admin API 是基于 etcd 实现的）：

deployment:
  role: data_plane
  role_data_plane:
    config_provider: yaml

将 APISIX 扩展为服务网格的边车

集成服务发现注册中心

August 15, 2022

使用 GitHub Actions 跟踪 GitHub 趋势项目

GitHub Actions 是 GitHub 于 2018 年 10 月推出的一款 CI/CD 服务。一个标准的 CI/CD 流程通常是一个工作流（workflow），工作流中包含了一个或多个作业（job），而每个作业都是由多个执行步骤（step）组成。

GitHub Actions 的创新之处在于它将 CI/CD 中的每个执行步骤划分成一个个原子的操作（action），这些操作可以是编译代码、调用某个接口、执行代码检查或是部署服务等。很显然这些原子操作是可以在不同的 CI/CD 流程中复用的，于是 GitHub 允许开发者将这些操作编写成脚本存在放 GitHub 仓库里，供其他人使用。GitHub 提供了一些官方的 actions，比如 actions/setup-python 用于初始化 Python 环境，actions/checkout 用于签出某个代码仓库。由于每个 action 都对应一个 GitHub 仓库，所以也可以像下面这样引用 action 的某个分支、某个标签甚至某个提交记录：

actions/setup-node@master  # 指向一个分支
actions/setup-node@v1.0    # 指向一个标签
actions/setup-node@74bc508 # 指向一个 commit

你可以在 GitHub Marketplace 中搜索你想使用的 action，另外，还有一份关于 GitHub Actions 的 awesome 清单 sdras/awesome-actions，也可以找到不少的 action。

GitHub Actions 入门示例

这一节我们将通过一个最简单的入门示例了解 GitHub Actions 的基本概念。首先我们在 GitHub 上创建一个 demo 项目 aneasystone/github-actions-demo（也可以直接使用已有的项目），然后打开 Actions 选项卡：

我们可以在这里手工创建工作流（workflow），也可以直接使用 GitHub Actions 提供的入门工作流，GitHub Actions 提供的工作流大体分为四种类型：

Continuous integration - 包含了各种编程语言的编译、打包、测试等流程
Deployment - 支持将应用部署到各种不同的云平台
Security - 对仓库进行代码规范检查或安全扫描
Automation - 一些自动化脚本

这些工作流的源码都可以在 actions/starter-workflows 这里找到。

GitHub 会自动分析代码并显示出可能适用于你的项目的工作流。由于是示例项目，这里我们直接使用一个最简单的工作流来进行测试，选择 Simple workflow 这个工作流，会在 .github/workflows 目录下创建一个 blank.yml 文件，文件内容如下：

# This is a basic workflow to help you get started with Actions

name: CI

# Controls when the workflow will run
on:
  # Triggers the workflow on push or pull request events but only for the "main" branch
  push:
    branches: [ "main" ]
  pull_request:
    branches: [ "main" ]

  # Allows you to run this workflow manually from the Actions tab
  workflow_dispatch:

# A workflow run is made up of one or more jobs that can run sequentially or in parallel
jobs:
  # This workflow contains a single job called "build"
  build:
    # The type of runner that the job will run on
    runs-on: ubuntu-latest

    # Steps represent a sequence of tasks that will be executed as part of the job
    steps:
      # Checks-out your repository under $GITHUB_WORKSPACE, so your job can access it
      - uses: actions/checkout@v3

      # Runs a single command using the runners shell
      - name: Run a one-line script
        run: echo Hello, world!

      # Runs a set of commands using the runners shell
      - name: Run a multi-line script
        run: |
          echo Add other actions to build,
          echo test, and deploy your project.

这个工作流没有任何用处，只是使用 echo 命令输出一行 Hello, world! 以及其他几行日志而已。

然后点击 Start commit 按钮提交文件即可：

由于这里我们指定了工作流在 push 的时候触发，所以提交完文件之后，这个工作流应该就开始执行了。重新打开 Actions 选项卡：

这里显示了项目中所有的工作流列表，我们可以在一个项目中创建多个工作流。可以看到我们已经成功创建了一个名为 CI 的工作流，并在右侧显示了该工作流的运行情况。点击查看详细信息：

这里是工作流包含的所有作业（job）的执行情况，我们这个示例中只使用了一个名为 build 的作业。点击作业，可以查看作业的执行日志：

详解 workflow 文件

在上一节中，我们通过在 .github/workflows 目录下新建一个 YAML 文件，创建了一个最简单的 GitHub Actions 工作流。这个 YAML 的文件名可以任意，但文件内容必须符合 GitHub Actions 的工作流程语法。下面是一些基本字段的解释。

`name`

出现在 GitHub 仓库的 Actions 选项卡中的工作流程名称。如果省略该字段，默认为当前 workflow 的文件名。

`on`

指定此工作流程的触发器。GitHub 支持多种触发事件，您可以配置工作流程在 GitHub 上发生特定活动时运行、在预定的时间运行，或者在 GitHub 外部的事件发生时运行。参见官方文档了解触发工作流程的所有事件。

在示例项目中，我们使用了几个最常用的触发事件。比如当 main 分支有 push 或 pull_request 时触发：

on:
  push:
    branches: [ "main" ]
  pull_request:
    branches: [ "main" ]

或者开启手工触发工作流：

on:
  workflow_dispatch:

这时会在工作流页面出现一个手工执行的按钮：

也可以使用定时任务来触发工作流：

on:
  schedule:
    - cron: "0 2 * * *"

`jobs`

一个工作流可以包含一个或多个作业，这些作业可以顺序执行或并发执行。下面定义了一个 ID 为 build 的作业：

jobs:
  build:
    ...

`jobs.<job-id>.runs-on`

为作业指定运行器（runner），运行器可以使用 GitHub 托管的（GitHub-hosted runners），也可以是自托管的（self-hosted runners）。GitHub 托管的运行器包括 Windows Server、Ubuntu、macOS 等操作系统，下面的例子将作业配置为在最新版本的 Ubuntu Linux 运行器上运行：

runs-on: ubuntu-latest

`jobs.<job-id>.steps`

作业中运行的所有步骤，步骤可以是一个 Shell 脚本，也可以是一个操作（action）。在我们的示例中一共包含了三个步骤，第一步使用了一个官方的操作 actions/checkout@v3：

# Checks-out your repository under $GITHUB_WORKSPACE, so your job can access it
- uses: actions/checkout@v3

这个操作将代码仓库签出到运行器上，这样你就可以对代码运行脚本或其他操作，比如编译、测试或构建打包等。

第二步，使用 echo 命令输出一句 Hello, world!：

# Runs a single command using the runners shell
- name: Run a one-line script
  run: echo Hello, world!

第三步，继续执行多条 echo 命令：

# Runs a set of commands using the runners shell
- name: Run a multi-line script
  run: |
    echo Add other actions to build,
    echo test, and deploy your project.

跟踪 GitHub 趋势项目

学习了 GitHub Actions 的基本知识后，我们就可以开始使用它了。除了常见的 CI/CD 任务，如自动构建和测试，打包和发布，部署等，还可以使用它来做很多有趣的事情。

GitHub 有一个 Trending 页面，可以在这里发现 GitHub 上每天、每周或每月最热门的项目，不过这个页面没有归档功能，无法追溯历史。如果我们能用爬虫每天自动爬取这个页面上的内容，并将结果保存下来，那么查阅起来就更方便了。要实现这个功能，必须满足三个条件：

能定时执行：可以使用 on:schedule 定时触发 GitHub Actions 工作流；
爬虫脚本：在工作流中可以执行任意的脚本，另外还可以通过 actions 安装各种语言的环境，比如使用 actions/setup-python 安装 Python 环境，使用 Python 来写爬虫最适合不过；
能将结果保存下来：GitHub 仓库天生就是一个数据库，可以用来存储数据，我们可以将爬虫爬下来的数据提交并保存到 GitHub 仓库。

可以看到，使用 GitHub Actions 完全可以实现这个功能，这个想法的灵感来自 bonfy/github-trending 项目，不过我在这个项目的基础上做了一些改进，比如将每天爬取的结果合并在同一个文件里，并且对重复的结果进行去重。

首先我们创建一个仓库 aneasystone/github-trending，然后和之前的示例项目一样，在 .github/workflows 目录下创建一个流水线文件，内容如下：

# This workflow will scrap GitHub trending projects daily.

name: Daily Github Trending

on:
  schedule:
    - cron: "0 2 * * *"

jobs:
  build:

    runs-on: ubuntu-latest

    steps:
    - name: Checkout
      uses: actions/checkout@v2
      
    - name: Set up Python 3.8
      uses: actions/setup-python@v2
      with:
        python-version: 3.8
    
    - name: Install dependencies
      run: |
        python -m pip install --upgrade pip
        pip install -r requirements.txt
        
    - name: Run Scraper
      run: |
        python scraper.py
    # Runs a set of commands using the runners shell
    - name: Push to origin master
      run: |
        echo start push
        git config --global user.name "aneasystone"
        git config --global user.email "aneasystone@gmail.com"
        
        git add -A
        git commit -m $(date '+%Y-%m-%d')
        git push

在这里我们使用了 on.schedule.cron: "0 2 * * *" 来定时触发工作流，这个 cron 表达式需符合 POSIX cron 语法，可以在 crontab guru 页面上对 cron 表达式进行调试。不过要注意的是，这里的时间为 UTC 时间，所以 0 2 * * * 对应的是北京时间 10 点整。

注：在实际运行的时候，我发现工作流并不是每天早上 10 点执行，而是到 11 点才执行，起初我以为是定时任务出现了延迟，但是后来我才意识到，现在正好是夏天，大多数北美洲、欧洲以及部分中东地区都在实施夏令时，所以他们的时间要比我们早一个小时。

工作流的各个步骤是比较清晰的，首先通过 actions/checkout@v2 签出仓库代码，然后使用 actions/setup-python@v2 安装 Python 环境，然后执行 pip install 安装 Python 依赖。环境准备就绪后，执行 python scraper.py，这就是我们的爬虫脚本，它会将 GitHub Trending 页面的内容爬取下来并更新到 README.md 文件中，我们可以根据参数爬取不同编程语言的项目清单：

languages = ['', 'java', 'python', 'javascript', 'go', 'c', 'c++', 'c#', 'html', 'css', 'unknown']
for lang in languages:
    results = scrape_lang(lang)
    write_markdown(lang, results)

数据爬取成功后，我们在工作流的最后通过 git commit & git push 将代码提交到 GitHub 仓库保存下来。你可以在这里 aneasystone/github-trending 查看完整的代码。

参考

GitHub Actions 文档
- GitHub Actions 快速入门 - 在 5 分钟或更短的时间内尝试 GitHub Actions 的功能。
- 了解 GitHub Actions - 学习 GitHub Actions 的基础知识，包括核心概念和基本术语。
- GitHub Actions 的工作流程语法 - 工作流程是可配置的自动化过程，由一个或多个作业组成。您必须创建 YAML 文件来定义工作流程配置。
GitHub Actions 入门教程 - 阮一峰的网络日志

其他示例

结合 GitHub Actions 的自动化功能，我们可以做很多有趣的事情。比如官方文档中还提供了其他几个示例，用于检测仓库中失效的链接。

另外，阮一峰在他的入门教程中介绍了一个示例，用于将 React 应用发布到 GitHub Pages。

在本地运行 GitHub Actions

https://github.com/nektos/act

分类 工具技巧 下的文章

分类工具技巧下的文章