Clarifai
Clarifai 是最早的深度学习平台之一,成立于 2013 年。Clarifai 提供了一个 AI 平台,拥有完整的 AI 生命周期,用于围绕图像、视频、文本和音频数据进行数据探索、数据标注、模型训练、评估和推理。在 LangChain 生态系统中,据我们所知,Clarifai 是唯一在一个生产规模平台上支持 LLM、嵌入和向量数据库的提供商,这使其成为运营 LangChain 实现的绝佳选择。
Clarifai
提供了数千个 AI 模型,适用于许多不同的用例。您可以在此处探索它们,找到最适合您用例的模型。这些模型包括由 OpenAI、Anthropic、Cohere、AI21 等其他提供商创建的模型,以及来自 Falcon、InstructorXL 等开源的最先进技术,以便您将最佳 AI 构建到您的产品中。您会发现这些模型按创建者的 user_id 组织,并分为我们称之为应用程序的项目,用 app_id 表示。除了 model_id 和可选的 version_id 之外,还需要这些 ID,因此在找到最适合您用例的模型后,请记下所有这些 ID!另请注意,鉴于有许多用于图像、视频、文本和音频理解的模型,您可以构建一些有趣的 AI 代理,利用各种 AI 模型作为专家来理解这些数据类型。
安装和设置
- 安装 Python SDK
pip install clarifai
注册 一个 Clarifai 账户,然后从您的安全设置中获取个人访问令牌以访问 Clarifai API,并将其设置为环境变量 (CLARIFAI_PAT
)。
LLMs (大语言模型)
要查找 Clarifai 平台中 LLMs 的选择,您可以在这里选择文本到文本模型类型。
from langchain_community.llms import Clarifai
llm = Clarifai(pat=CLARIFAI_PAT, user_id=USER_ID, app_id=APP_ID, model_id=MODEL_ID)
有关更多详细信息,关于 Clarifai LLM 封装器的文档提供了一个详细的演练。
嵌入模型
要查找 Clarifai 平台中嵌入模型的选择,您可以在这里选择文本到嵌入模型类型。
LangChain 中有一个 Clarifai 嵌入模型,您可以通过以下方式访问它
from langchain_community.embeddings import ClarifaiEmbeddings
embeddings = ClarifaiEmbeddings(pat=CLARIFAI_PAT, user_id=USER_ID, app_id=APP_ID, model_id=MODEL_ID)
请参阅使用示例。
向量数据库
Clarifai 的向量数据库于 2016 年推出,并经过优化以支持实时搜索查询。通过 Clarifai 平台中的工作流程,您的数据将由嵌入模型自动索引,并且可以选择使用其他模型来索引数据库中的信息以进行搜索。您不仅可以通过向量查询数据库,还可以通过元数据匹配、其他 AI 预测的概念进行过滤,甚至可以进行地理坐标搜索。只需创建一个应用程序,选择适合您数据类型的基本工作流程,然后上传它(通过 API,如此处文档所示,或通过 clarifai.com 上的 UI)。
您还可以直接从 LangChain 添加数据,自动索引将为您进行。您会注意到这与其他向量数据库略有不同,在其他向量数据库中,您需要在其构造函数中提供嵌入模型,并让 LangChain 协调从文本中获取嵌入并将它们写入索引。使用 Clarifai 的分布式云在后台完成所有索引不仅更方便,而且更具可扩展性。
from langchain_community.vectorstores import Clarifai
clarifai_vector_db = Clarifai.from_texts(user_id=USER_ID, app_id=APP_ID, texts=texts, pat=CLARIFAI_PAT, number_of_docs=NUMBER_OF_DOCS, metadatas = metadatas)
有关更多详细信息,关于 Clarifai 向量数据库的文档提供了一个详细的演练。