跳到主要内容
Open on GitHub

Xorbits 推理 (Xinference)

本页面演示了如何在 LangChain 中使用 Xinference

Xinference 是一个功能强大且多功能的库,旨在提供 LLM、语音识别模型和多模态模型服务,甚至可以在您的笔记本电脑上运行。借助 Xorbits Inference,您只需一个命令即可轻松部署和提供您自己的或最先进的内置模型服务。

安装与设置

Xinference 可以通过 pip 从 PyPI 安装

pip install "xinference[all]"

LLM

Xinference 支持与 GGML 兼容的各种模型,包括 chatglm、baichuan、whisper、vicuna 和 orca。要查看内置模型,请运行以下命令

xinference list --all

Xinference 封装器

您可以通过运行以下命令启动 Xinference 的本地实例

xinference

您还可以将 Xinference 部署到分布式集群中。为此,请首先在您想要运行它的服务器上启动一个 Xinference 主管

xinference-supervisor -H "${supervisor_host}"

然后,在您想要运行 Xinference 工作节点的每台其他服务器上启动它们

xinference-worker -e "http://${supervisor_host}:9997"

您也可以通过运行以下命令启动 Xinference 的本地实例

xinference

一旦 Xinference 运行,就可以通过 CLI 或 Xinference 客户端访问端点进行模型管理。

对于本地部署,端点将是 https://:9997

对于集群部署,端点将是 http://${supervisor_host}:9997。

然后,您需要启动一个模型。您可以指定模型名称和其他属性,包括 model_size_in_billions 和 quantization。您可以使用命令行界面(CLI)来完成此操作。例如,

xinference launch -n orca -s 3 -q q4_0

将返回一个模型 UID。

使用示例

from langchain_community.llms import Xinference

llm = Xinference(
server_url="http://0.0.0.0:9997",
model_uid = {model_uid} # replace model_uid with the model UID return from launching the model
)

llm(
prompt="Q: where can we visit in the capital of France? A:",
generate_config={"max_tokens": 1024, "stream": True},
)

API 参考:Xinference

使用

欲了解更多信息和详细示例,请参阅Xinference LLM 示例

嵌入

Xinference 还支持嵌入查询和文档。有关更详细的演示,请参阅Xinference 嵌入示例

Xinference LangChain 合作包安装

使用以下命令安装集成包:

pip install langchain-xinference

聊天模型

from langchain_xinference.chat_models import ChatXinference

LLM

from langchain_xinference.llms import Xinference