Hugging Face 本地管道

Hugging Face 模型可以通过 HuggingFacePipeline 类在本地运行。

Hugging Face 模型中心托管了超过 120,000 个模型、20,000 个数据集和 50,000 个演示应用程序（空间），所有这些都是开源的，并且可公开访问，在一个在线平台上，人们可以轻松地协作并共同构建机器学习。

这些模型可以通过 LangChain 本地管道包装器或通过 HuggingFaceHub 类调用其托管推理端点来调用。

要使用这些模型，您应该安装 transformers python 包，以及 pytorch。您还可以安装 xformer 以获得更节省内存的注意力实现。

%pip install --upgrade --quiet transformers

模型加载

可以使用 from_model_id 方法通过指定模型参数来加载模型。

from langchain_huggingface.llms import HuggingFacePipeline

hf = HuggingFacePipeline.from_model_id(
    model_id="gpt2",
    task="text-generation",
    pipeline_kwargs={"max_new_tokens": 10},
)

API 参考：HuggingFacePipeline

它们也可以通过直接传递现有的 transformers 管道来加载。

from langchain_huggingface.llms import HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_id = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=10)
hf = HuggingFacePipeline(pipeline=pipe)

API 参考：HuggingFacePipeline

创建链

将模型加载到内存后，您可以将其与提示一起组合以形成一个链。

from langchain_core.prompts import PromptTemplate

template = """Question: {question}

Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)

chain = prompt | hf

question = "What is electroencephalography?"

print(chain.invoke({"question": question}))

API 参考：PromptTemplate

要获取不带提示的响应，您可以将 skip_prompt=True 与 LLM 绑定。

chain = prompt | hf.bind(skip_prompt=True)

question = "What is electroencephalography?"

print(chain.invoke({"question": question}))

流式响应。

for chunk in chain.stream(question):
    print(chunk, end="", flush=True)

GPU 推理

在具有 GPU 的机器上运行时，您可以指定 device=n 参数将模型放在指定的设备上。默认为 -1 表示 CPU 推理。

如果您有多个 GPU 以及/或者模型太大而无法放入单个 GPU，您可以指定 device_map="auto"，这需要并使用 Accelerate 库来自动确定如何加载模型权重。

注意：device 和 device_map 不应同时指定，因为它们可能导致意外行为。

gpu_llm = HuggingFacePipeline.from_model_id(
    model_id="gpt2",
    task="text-generation",
    device=0,  # replace with device_map="auto" to use the accelerate library.
    pipeline_kwargs={"max_new_tokens": 10},
)

gpu_chain = prompt | gpu_llm

question = "What is electroencephalography?"

print(gpu_chain.invoke({"question": question}))

批量 GPU 推理

如果在具有 GPU 的设备上运行，您也可以在 GPU 上以批量模式运行推理。

gpu_llm = HuggingFacePipeline.from_model_id(
    model_id="bigscience/bloom-1b7",
    task="text-generation",
    device=0,  # -1 for CPU
    batch_size=2,  # adjust as needed based on GPU map and model size.
    model_kwargs={"temperature": 0, "max_length": 64},
)

gpu_chain = prompt | gpu_llm.bind(stop=["\n\n"])

questions = []
for i in range(4):
    questions.append({"question": f"What is the number {i} in french?"})

answers = gpu_chain.batch(questions)
for answer in answers:
    print(answer)

使用 OpenVINO 后端进行推理

要使用 OpenVINO 部署模型，您可以指定 backend="openvino" 参数以触发 OpenVINO 作为后端推理框架。

如果您拥有英特尔 GPU，您可以指定 model_kwargs={"device": "GPU"} 在其上运行推理。

%pip install --upgrade-strategy eager "optimum[openvino,nncf]" --quiet

ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}

ov_llm = HuggingFacePipeline.from_model_id(
    model_id="gpt2",
    task="text-generation",
    backend="openvino",
    model_kwargs={"device": "CPU", "ov_config": ov_config},
    pipeline_kwargs={"max_new_tokens": 10},
)

ov_chain = prompt | ov_llm

question = "What is electroencephalography?"

print(ov_chain.invoke({"question": question}))

使用本地 OpenVINO 模型进行推理

可以使用 CLI 导出您的模型到 OpenVINO IR 格式，并从本地文件夹加载模型。

!optimum-cli export openvino --model gpt2 ov_model_dir

建议使用 --weight-format 应用 8 位或 4 位权重量化以减少推理延迟和模型占用空间。

!optimum-cli export openvino --model gpt2  --weight-format int8 ov_model_dir # for 8-bit quantization

!optimum-cli export openvino --model gpt2  --weight-format int4 ov_model_dir # for 4-bit quantization

ov_llm = HuggingFacePipeline.from_model_id(
    model_id="ov_model_dir",
    task="text-generation",
    backend="openvino",
    model_kwargs={"device": "CPU", "ov_config": ov_config},
    pipeline_kwargs={"max_new_tokens": 10},
)

ov_chain = prompt | ov_llm

question = "What is electroencephalography?"

print(ov_chain.invoke({"question": question}))

您可以通过以下 ov_config 启用激活的动态量化和 KV 缓存量化来获得额外的推理速度提升。

ov_config = {
    "KV_CACHE_PRECISION": "u8",
    "DYNAMIC_QUANTIZATION_GROUP_SIZE": "32",
    "PERFORMANCE_HINT": "LATENCY",
    "NUM_STREAMS": "1",
    "CACHE_DIR": "",
}

有关更多信息，请参阅 OpenVINO LLM 指南和 OpenVINO 本地管道笔记本。

LLM 概念指南
LLM 操作指南

Hugging Face 本地管道

模型加载

创建链

GPU 推理

批量 GPU 推理

使用 OpenVINO 后端进行推理

使用本地 OpenVINO 模型进行推理

此页面对您有帮助吗？

您也可以在 GitHub 上留下详细的反馈。.

Hugging Face 本地管道

模型加载​

创建链​

GPU 推理​

批量 GPU 推理​

使用 OpenVINO 后端进行推理​

使用本地 OpenVINO 模型进行推理​

相关​

此页面对您有帮助吗？

您也可以在 GitHub 上留下详细的反馈 。.

模型加载

创建链

GPU 推理

批量 GPU 推理

使用 OpenVINO 后端进行推理

使用本地 OpenVINO 模型进行推理

相关

您也可以在 GitHub 上留下详细的反馈。.