Huggingface Endpoints
Hugging Face Hub 是一个平台,拥有超过 12 万个模型、2 万个数据集和 5 万个演示应用 (Spaces),所有这些都是开源且公开可用的,在一个在线平台上,人们可以轻松协作并共同构建 ML。
Hugging Face Hub
还提供各种端点来构建 ML 应用程序。 此示例展示了如何连接到不同类型的端点。
特别是,文本生成推理由 Text Generation Inference 提供支持:一个定制构建的 Rust、Python 和 gRPC 服务器,用于实现极速文本生成推理。
from langchain_huggingface import HuggingFaceEndpoint
API 参考:HuggingFaceEndpoint
安装和设置
要使用,您应该安装 `huggingface_hub` python 包。
%pip install --upgrade --quiet huggingface_hub
# get a token: https://hugging-face.cn/docs/api-inference/quicktour#get-your-api-token
from getpass import getpass
HUGGINGFACEHUB_API_TOKEN = getpass()
import os
os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN
准备示例
from langchain_huggingface import HuggingFaceEndpoint
API 参考:HuggingFaceEndpoint
from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate
API 参考:LLMChain | PromptTemplate
question = "Who won the FIFA World Cup in the year 1994? "
template = """Question: {question}
Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)
示例
这是一个示例,说明如何访问免费 Serverless Endpoints API 的 HuggingFaceEndpoint
集成。
repo_id = "mistralai/Mistral-7B-Instruct-v0.2"
llm = HuggingFaceEndpoint(
repo_id=repo_id,
max_length=128,
temperature=0.5,
huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN,
)
llm_chain = prompt | llm
print(llm_chain.invoke({"question": question}))
专用端点
免费的 serverless API 使您能够立即实施解决方案并进行迭代,但对于重度使用场景,它可能会受到速率限制,因为负载与其他请求共享。
对于企业工作负载,最好使用 Inference Endpoints - Dedicated。 这提供了对完全托管的基础设施的访问权限,该基础设施提供更高的灵活性和速度。 这些资源提供持续的支持和正常运行时间保证,以及诸如 AutoScaling 之类的选项
# Set the url to your Inference Endpoint below
your_endpoint_url = "https://fayjubiy2xqn36z0.us-east-1.aws.endpoints.huggingface.cloud"
llm = HuggingFaceEndpoint(
endpoint_url=f"{your_endpoint_url}",
max_new_tokens=512,
top_k=10,
top_p=0.95,
typical_p=0.95,
temperature=0.01,
repetition_penalty=1.03,
)
llm("What did foo say about bar?")
流式处理
from langchain_core.callbacks import StreamingStdOutCallbackHandler
from langchain_huggingface import HuggingFaceEndpoint
llm = HuggingFaceEndpoint(
endpoint_url=f"{your_endpoint_url}",
max_new_tokens=512,
top_k=10,
top_p=0.95,
typical_p=0.95,
temperature=0.01,
repetition_penalty=1.03,
streaming=True,
)
llm("What did foo say about bar?", callbacks=[StreamingStdOutCallbackHandler()])
这个相同的 HuggingFaceEndpoint
类可以与本地 HuggingFace TGI 实例一起使用,为 LLM 提供服务。 查看 TGI 仓库以获取有关各种硬件(GPU、TPU、Gaudi...)支持的详细信息。
相关
- LLM 概念指南 conceptual guide
- LLM 使用指南 how-to guides