跳到主要内容
Open on GitHub

Databricks

Databricks 智能平台是世界首个由生成式 AI 驱动的数据智能平台。将 AI 融入您业务的方方面面。

Databricks 以多种方式拥抱 LangChain 生态系统

  1. 🚀 模型服务 (Model Serving) - 通过高可用性和低延迟的推理端点,访问 Databricks 模型服务 (Databricks Model Serving) 上最先进的 LLM,例如 DBRX、Llama3、Mixtral 或您微调的模型。 LangChain 提供了 LLM (Databricks)、聊天模型 (Chat Model) (ChatDatabricks) 和嵌入 (Embeddings) (DatabricksEmbeddings) 的实现,从而简化了将托管在 Databricks 模型服务上的模型与您的 LangChain 应用程序集成的过程。
  2. 📃 向量搜索 (Vector Search) - Databricks 向量搜索 (Databricks Vector Search) 是一个无服务器向量数据库,无缝集成在 Databricks 平台中。 使用 DatabricksVectorSearch,您可以将高度可扩展且可靠的相似性搜索引擎整合到您的 LangChain 应用程序中。
  3. 📊 MLflow - MLflow 是一个开源平台,用于管理完整的 ML 生命周期,包括实验管理、评估、追踪、部署等。 MLflow 的 LangChain 集成 简化了开发和运营现代复合 ML 系统的过程。
  4. 🌐 SQL 数据库 (SQL Database) - Databricks SQL 与 LangChain 中的 SQLDatabase 集成,使您可以访问自动优化、性能卓越的数据仓库。
  5. 💡 开放模型 (Open Models) - Databricks 开源模型,例如 DBRX,这些模型可以通过 Hugging Face Hub 获得。 这些模型可以直接与 LangChain 一起使用,并利用其与 transformers 库的集成。

安装

第一方 Databricks 集成现已在 databricks-langchain 合作伙伴包中提供。

pip install databricks-langchain

旧版 langchain-databricks 合作伙伴包仍然可用,但很快将被弃用。

聊天模型

ChatDatabricks 是一个聊天模型 (Chat Model) 类,用于访问托管在 Databricks 上的聊天端点,包括最先进的模型,如 Llama3、Mixtral 和 DBRX,以及您自己微调的模型。

from databricks_langchain import ChatDatabricks

chat_model = ChatDatabricks(endpoint="databricks-meta-llama-3-70b-instruct")

请参阅使用示例,以获得关于如何在您的 LangChain 应用程序中使用它的更多指导。

LLM

Databricks 是一个 LLM 类,用于访问托管在 Databricks 上的补全端点。

注意

文本补全模型已被弃用,最新和最流行的模型是聊天补全模型 (chat completion models)。 请改用 ChatDatabricks 聊天模型以使用这些模型和高级功能,例如工具调用 (tool calling)。

from langchain_community.llm.databricks import Databricks

llm = Databricks(endpoint="your-completion-endpoint")

请参阅使用示例,以获得关于如何在您的 LangChain 应用程序中使用它的更多指导。

嵌入

DatabricksEmbeddings 是一个嵌入 (Embeddings) 类,用于访问托管在 Databricks 上的文本嵌入端点,包括最先进的模型,如 BGE,以及您自己微调的模型。

from databricks_langchain import DatabricksEmbeddings

embeddings = DatabricksEmbeddings(endpoint="databricks-bge-large-en")

请参阅使用示例,以获得关于如何在您的 LangChain 应用程序中使用它的更多指导。

Databricks 向量搜索 (Databricks Vector Search) 是一种无服务器相似性搜索引擎,允许您将数据的向量表示(包括元数据)存储在向量数据库中。 通过向量搜索 (Vector Search),您可以从 Delta 表(由 Unity Catalog 管理)创建自动更新的向量搜索索引,并使用简单的 API 查询它们以返回最相似的向量。

from databricks_langchain import DatabricksVectorSearch

dvs = DatabricksVectorSearch(
endpoint="<YOUT_ENDPOINT_NAME>",
index_name="<YOUR_INDEX_NAME>",
index,
text_column="text",
embedding=embeddings,
columns=["source"]
)
docs = dvs.similarity_search("What is vector search?)

请参阅使用示例,了解如何设置向量索引并将它们与 LangChain 集成。

MLflow 集成

在 LangChain 集成的背景下,MLflow 提供了以下功能

  • 实验跟踪 (Experiment Tracking): 跟踪和存储来自您的 LangChain 实验的模型、工件和追踪信息。
  • 依赖管理 (Dependency Management): 自动记录依赖库,确保开发、暂存和生产环境之间的一致性。
  • 模型评估 (Model Evaluation) 提供评估 LangChain 应用程序的本机功能。
  • 追踪 (Tracing): 直观地追踪通过您的 LangChain 应用程序的数据流。

请参阅MLflow LangChain 集成,通过大量的代码示例和指南,了解将 MLflow 与 LangChain 一起使用的全部功能。

SQLDatabase

要连接到 Databricks SQL 或查询结构化数据,请参阅Databricks 结构化检索器工具文档,要使用上面创建的 SQL UDF 创建代理,请参阅 Databricks UC 集成

开放模型

要直接集成托管在 HuggingFace 上的 Databricks 开放模型,您可以使用 LangChain 的 HuggingFace 集成

from langchain_huggingface import HuggingFaceEndpoint

llm = HuggingFaceEndpoint(
repo_id="databricks/dbrx-instruct",
task="text-generation",
max_new_tokens=512,
do_sample=False,
repetition_penalty=1.03,
)
llm.invoke("What is DBRX model?")

此页是否对您有帮助?