跳到主要内容

嵌入模型

前提条件
注意

此概念概述侧重于基于文本的嵌入模型。

嵌入模型也可以是多模态的,但 LangChain 目前不支持此类模型。

想象一下,能够将任何文本(一条推文、文档或书籍)的本质捕捉到一个简洁的表示中。这就是嵌入模型的力量,它是许多检索系统的核心。嵌入模型将人类语言转换为机器可以理解并快速准确地比较的格式。这些模型以文本作为输入,并生成一个固定长度的数字数组,即文本语义含义的数值指纹。嵌入使搜索系统不仅可以基于关键字匹配,还可以基于语义理解来查找相关文档。

关键概念

Conceptual Overview

(1) 将文本嵌入为向量:嵌入将文本转换为数值向量表示。

(2) 测量相似度:可以使用简单的数学运算来比较嵌入向量。

嵌入

历史背景

多年来,嵌入模型的格局发生了显著的变化。2018 年,谷歌推出了BERT(来自 Transformers 的双向编码器表示),这是一个关键时刻。BERT 应用 Transformer 模型将文本嵌入为简单的向量表示,这在各种 NLP 任务中带来了前所未有的性能。然而,BERT 并未针对高效生成句子嵌入进行优化。这种限制促使了 SBERT(Sentence-BERT) 的创建,它调整了 BERT 架构以生成语义丰富的句子嵌入,可以通过余弦相似度等相似度指标轻松比较,从而大大减少了查找相似句子等任务的计算开销。如今,嵌入模型生态系统非常多样化,许多提供商都提供自己的实现。为了应对这种多样性,研究人员和从业者经常求助于大规模文本嵌入基准 (MTEB) 此处等基准进行客观比较。

进一步阅读

接口

LangChain 提供了一个用于处理它们的通用接口,为常见操作提供标准方法。此通用接口通过两种中心方法简化了与各种嵌入提供商的交互

  • embed_documents:用于嵌入多个文本(文档)
  • embed_query:用于嵌入单个文本(查询)

这种区别很重要,因为某些提供商对文档(要搜索的文档)和查询(搜索输入本身)采用不同的嵌入策略。为了说明这一点,这里有一个使用 LangChain 的 .embed_documents 方法嵌入字符串列表的实际示例

from langchain_openai import OpenAIEmbeddings
embeddings_model = OpenAIEmbeddings()
embeddings = embeddings_model.embed_documents(
[
"Hi there!",
"Oh, hello!",
"What's your name?",
"My friends call me World",
"Hello World!"
]
)
len(embeddings), len(embeddings[0])
(5, 1536)
API 参考:OpenAIEmbeddings

为方便起见,您还可以使用 embed_query 方法嵌入单个文本

query_embedding = embeddings_model.embed_query("What is the meaning of life?")
进一步阅读

集成

LangChain 提供了许多嵌入模型集成,您可以在嵌入模型集成页面上找到。

测量相似度

每个嵌入本质上都是一组坐标,通常是在高维空间中。在这个空间中,每个点(嵌入)的位置反映了其对应文本的含义。正如相似的词在同义词词典中可能彼此接近一样,相似的概念最终也会在这个嵌入空间中彼此接近。这允许对不同的文本片段进行直观的比较。通过将文本简化为这些数值表示,我们可以使用简单的数学运算来快速测量两个文本片段的相似程度,而不管其原始长度或结构如何。一些常见的相似度指标包括

  • 余弦相似度:测量两个向量之间夹角的余弦值。
  • 欧几里得距离:测量两点之间的直线距离。
  • 点积:测量一个向量在另一个向量上的投影。

应根据模型选择相似度指标。例如,OpenAI 建议对其嵌入使用余弦相似度,这很容易实现

import numpy as np

def cosine_similarity(vec1, vec2):
dot_product = np.dot(vec1, vec2)
norm_vec1 = np.linalg.norm(vec1)
norm_vec2 = np.linalg.norm(vec2)
return dot_product / (norm_vec1 * norm_vec2)

similarity = cosine_similarity(query_result, document_result)
print("Cosine Similarity:", similarity)
进一步阅读
  • 请参阅 Simon Willison 关于嵌入和相似度指标的精彩博客文章和视频
  • 请参阅 Google 关于嵌入相似度指标的文档,以考虑使用嵌入。
  • 请参阅 Pinecone 关于相似度指标的博客文章
  • 请参阅 OpenAI 关于在 OpenAI 嵌入中使用何种相似度指标的常见问题解答

此页面是否对您有帮助?