跳到主要内容

如何通过迭代改进来总结文本

LLM 可以总结并从文本中提取所需的信息,包括大量文本。在许多情况下,尤其是在文本量与模型的上下文窗口大小相比很大时,将摘要任务分解为较小的组件会很有帮助(或有必要)。

迭代改进是总结长文本的一种策略。该策略如下:

  • 将文本拆分为较小的文档;
  • 总结第一个文档;
  • 根据下一个文档改进或更新结果;
  • 重复执行文档序列,直到完成。

请注意,此策略不是并行化的。当理解子文档依赖于先前的上下文时,它尤其有效——例如,当总结小说或具有内在顺序的文本主体时。

建立在 langchain-core 之上的 LangGraph 非常适合解决这个问题

  • LangGraph 允许流式传输各个步骤(例如连续的摘要),从而可以更好地控制执行;
  • LangGraph 的 检查点 支持错误恢复,通过人机协同工作流程进行扩展,并更容易地融入对话应用程序。
  • 因为它是由模块化组件组装而成,所以也很容易扩展或修改(例如,加入工具调用或其他行为)。

下面,我们将演示如何通过迭代改进来总结文本。

加载聊天模型

首先加载一个聊天模型

pip install -qU langchain-openai
import getpass
import os

if not os.environ.get("OPENAI_API_KEY"):
os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")

加载文档

接下来,我们需要一些文档来总结。下面,我们生成一些玩具文档以作说明。有关其他数据源,请参阅文档加载器的 操作指南集成页面摘要教程 还包括一个总结博客文章的示例。

from langchain_core.documents import Document

documents = [
Document(page_content="Apples are red", metadata={"title": "apple_book"}),
Document(page_content="Blueberries are blue", metadata={"title": "blueberry_book"}),
Document(page_content="Bananas are yelow", metadata={"title": "banana_book"}),
]
API 参考:Document

创建图

下面我们展示此过程的 LangGraph 实现

  • 我们为初始摘要生成一个简单的链,该链会提取第一个文档,将其格式化为提示并使用我们的 LLM 运行推理。
  • 我们生成第二个 refine_summary_chain,它对每个后续文档进行操作,从而改进初始摘要。

我们需要安装 langgraph

pip install -qU langgraph
import operator
from typing import List, Literal, TypedDict

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableConfig
from langgraph.constants import Send
from langgraph.graph import END, START, StateGraph

# Initial summary
summarize_prompt = ChatPromptTemplate(
[
("human", "Write a concise summary of the following: {context}"),
]
)
initial_summary_chain = summarize_prompt | llm | StrOutputParser()

# Refining the summary with new docs
refine_template = """
Produce a final summary.

Existing summary up to this point:
{existing_answer}

New context:
------------
{context}
------------

Given the new context, refine the original summary.
"""
refine_prompt = ChatPromptTemplate([("human", refine_template)])

refine_summary_chain = refine_prompt | llm | StrOutputParser()


# We will define the state of the graph to hold the document
# contents and summary. We also include an index to keep track
# of our position in the sequence of documents.
class State(TypedDict):
contents: List[str]
index: int
summary: str


# We define functions for each node, including a node that generates
# the initial summary:
async def generate_initial_summary(state: State, config: RunnableConfig):
summary = await initial_summary_chain.ainvoke(
state["contents"][0],
config,
)
return {"summary": summary, "index": 1}


# And a node that refines the summary based on the next document
async def refine_summary(state: State, config: RunnableConfig):
content = state["contents"][state["index"]]
summary = await refine_summary_chain.ainvoke(
{"existing_answer": state["summary"], "context": content},
config,
)

return {"summary": summary, "index": state["index"] + 1}


# Here we implement logic to either exit the application or refine
# the summary.
def should_refine(state: State) -> Literal["refine_summary", END]:
if state["index"] >= len(state["contents"]):
return END
else:
return "refine_summary"


graph = StateGraph(State)
graph.add_node("generate_initial_summary", generate_initial_summary)
graph.add_node("refine_summary", refine_summary)

graph.add_edge(START, "generate_initial_summary")
graph.add_conditional_edges("generate_initial_summary", should_refine)
graph.add_conditional_edges("refine_summary", should_refine)
app = graph.compile()

LangGraph 允许绘制图结构,以帮助可视化其功能

from IPython.display import Image

Image(app.get_graph().draw_mermaid_png())

调用图

我们可以按如下方式逐步执行,打印出改进后的摘要

async for step in app.astream(
{"contents": [doc.page_content for doc in documents]},
stream_mode="values",
):
if summary := step.get("summary"):
print(summary)
Apples are characterized by their red color.
Apples are characterized by their red color, while blueberries are known for their blue hue.
Apples are characterized by their red color, blueberries are known for their blue hue, and bananas are recognized for their yellow color.

最终的 step 包含从整个文档集中合成的摘要。

下一步

查看摘要的 操作指南 以了解其他摘要策略,包括那些为处理大量文本而设计的策略。

请参阅本教程,了解有关摘要的更多详细信息。

另请参阅 LangGraph 文档,了解有关使用 LangGraph 构建的详细信息。


此页面是否有帮助?