WikipediaRetriever

概述

维基百科是一部由志愿者社区（称为维基百科编辑）撰写和维护的多语言免费在线百科全书，通过开放式协作和使用名为 MediaWiki 的基于 wiki 的编辑系统。Wikipedia 是历史上最大、阅读量最多的参考作品。

此笔记本显示如何将维基百科页面从wikipedia.org检索到在下游使用的Document格式。

集成详情

检索器	来源	包
WikipediaRetriever	维基百科文章	langchain_community

设置

如果希望从单个工具的运行中获取自动跟踪，还可以通过取消以下注释来设置LangSmith API 密钥

# os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
# os.environ["LANGSMITH_TRACING"] = "true"

安装

集成位于langchain-community包中。我们还需要安装wikipedia python 包本身。

%pip install -qU langchain_community wikipedia

实例化

现在我们可以实例化我们的检索器

WikipediaRetriever 参数包括

可选lang：默认为“en”。使用它在维基百科的特定语言部分进行搜索
可选load_max_docs：默认为100。使用它来限制下载的文档数量。下载所有 100 个文档需要时间，因此在进行实验时使用较小的数字。目前硬性限制为 300。
可选load_all_available_meta：默认为 False。默认情况下，仅下载最重要的字段：Published（文档发布/最后更新的日期）、title、Summary。如果为 True，则也会下载其他字段。

get_relevant_documents() 有一个参数query：用于在维基百科中查找文档的自由文本

from langchain_community.retrievers import WikipediaRetriever

retriever = WikipediaRetriever()

API 参考：WikipediaRetriever

用法

docs = retriever.invoke("TOKYO GHOUL")

print(docs[0].page_content[:400])

Tokyo Ghoul (Japanese: 東京喰種（トーキョーグール）, Hepburn: Tōkyō Gūru) is a Japanese dark fantasy manga series written and illustrated by Sui Ishida. It was serialized in Shueisha's seinen manga magazine Weekly Young Jump from September 2011 to September 2014, with its chapters collected in 14 tankōbon volumes. The story is set in an alternate version of Tokyo where humans coexist with ghouls, beings who loo

在链中使用

与其他检索器一样，WikipediaRetriever 可以通过链集成到 LLM 应用程序中。

我们将需要一个 LLM 或聊天模型

pip install -qU langchain-openai

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")

pip install -qU langchain-anthropic

import getpass
import os

os.environ["ANTHROPIC_API_KEY"] = getpass.getpass()

from langchain_anthropic import ChatAnthropic

llm = ChatAnthropic(model="claude-3-5-sonnet-20240620")

pip install -qU langchain-openai

import getpass
import os

os.environ["AZURE_OPENAI_API_KEY"] = getpass.getpass()

from langchain_openai import AzureChatOpenAI

llm = AzureChatOpenAI(
    azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
    azure_deployment=os.environ["AZURE_OPENAI_DEPLOYMENT_NAME"],
    openai_api_version=os.environ["AZURE_OPENAI_API_VERSION"],
)

pip install -qU langchain-google-vertexai

import getpass
import os

os.environ["GOOGLE_API_KEY"] = getpass.getpass()

from langchain_google_vertexai import ChatVertexAI

llm = ChatVertexAI(model="gemini-1.5-flash")

pip install -qU langchain-cohere

import getpass
import os

os.environ["COHERE_API_KEY"] = getpass.getpass()

from langchain_cohere import ChatCohere

llm = ChatCohere(model="command-r-plus")

pip install -qU langchain-nvidia-ai-endpoints

import getpass
import os

os.environ["NVIDIA_API_KEY"] = getpass.getpass()

from langchain import ChatNVIDIA

llm = ChatNVIDIA(model="meta/llama3-70b-instruct")

pip install -qU langchain-fireworks

import getpass
import os

os.environ["FIREWORKS_API_KEY"] = getpass.getpass()

from langchain_fireworks import ChatFireworks

llm = ChatFireworks(model="accounts/fireworks/models/llama-v3p1-70b-instruct")

pip install -qU langchain-groq

import getpass
import os

os.environ["GROQ_API_KEY"] = getpass.getpass()

from langchain_groq import ChatGroq

llm = ChatGroq(model="llama3-8b-8192")

pip install -qU langchain-mistralai

import getpass
import os

os.environ["MISTRAL_API_KEY"] = getpass.getpass()

from langchain_mistralai import ChatMistralAI

llm = ChatMistralAI(model="mistral-large-latest")

pip install -qU langchain-openai

import getpass
import os

os.environ["TOGETHER_API_KEY"] = getpass.getpass()

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="https://api.together.xyz/v1",
    api_key=os.environ["TOGETHER_API_KEY"],
    model="mistralai/Mixtral-8x7B-Instruct-v0.1",
)

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

prompt = ChatPromptTemplate.from_template(
    """
    Answer the question based only on the context provided.
    Context: {context}
    Question: {question}
    """
)


def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)


chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

API 参考：StrOutputParser | ChatPromptTemplate | RunnablePassthrough

chain.invoke(
    "Who is the main character in `Tokyo Ghoul` and does he transform into a ghoul?"
)

'The main character in Tokyo Ghoul is Ken Kaneki, who transforms into a ghoul after receiving an organ transplant from a ghoul named Rize.'

API 参考

有关所有WikipediaRetriever功能和配置的详细文档，请访问API 参考。

检索器概念指南
检索器操作指南

WikipediaRetriever

概述

集成详情

设置

安装

实例化

用法

在链中使用

API 参考

此页面是否有帮助？

您也可以留下详细的反馈在 GitHub 上.

WikipediaRetriever

概述​

集成详情​

设置​

安装​

实例化​

用法​

在链中使用​

API 参考​

相关​

此页面是否有帮助？

您也可以留下详细的反馈 在 GitHub 上.

概述

集成详情

设置

安装

实例化

用法

在链中使用

API 参考

相关

您也可以留下详细的反馈在 GitHub 上.