跳到主要内容

文档加载器

DocumentLoader 将数据加载到标准的 LangChain Document 格式中。

每个 DocumentLoader 都有其特定的参数,但它们都可以使用 .load 方法以相同的方式调用。一个示例用例如下

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader

网页

以下文档加载器允许您加载网页。

有关入门,请参阅本指南:如何:加载网页

文档加载器描述包/API
Web使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
Unstructured使用 Unstructured 加载和解析网页
RecursiveURL从根 URL 递归抓取所有子链接
站点地图抓取给定站点地图上的所有页面
Firecrawl可以在本地部署的 API 服务,托管版本有免费额度。API

PDF

以下文档加载器允许您加载 PDF 文档。

有关入门,请参阅本指南:如何:加载 PDF 文件

文档加载器描述包/API
PyPDF使用 `pypdf` 加载和解析 PDF
Unstructured使用 Unstructured 的开源库加载 PDF
Amazon Textract使用 AWS API 加载 PDFAPI
MathPix使用 MathPix 加载 PDF
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PDFMiner使用 PDFMiner 加载 PDF 文件

云提供商

以下文档加载器允许您从您喜欢的云提供商加载文档。

文档加载器描述合作伙伴包API 参考
AWS S3 目录从 AWS S3 目录加载文档S3DirectoryLoader
AWS S3 文件从 AWS S3 文件加载文档S3FileLoader
Azure AI 数据从 Azure AI 服务加载文档AzureAIDataLoader
Azure Blob 存储容器从 Azure Blob 存储容器加载文档AzureBlobStorageContainerLoader
Azure Blob 存储文件从 Azure Blob 存储文件加载文档AzureBlobStorageFileLoader
Dropbox从 Dropbox 加载文档DropboxLoader
Google Cloud Storage 目录从 GCS 存储桶加载文档GCSDirectoryLoader
Google Cloud Storage 文件从 GCS 文件对象加载文档GCSFileLoader
Google 云端硬盘从 Google Drive 加载文档(仅限 Google 文档)GoogleDriveLoader
华为 OBS 目录从华为对象存储服务目录加载文档OBSDirectoryLoader
华为 OBS 文件从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从 Microsoft SharePoint 加载文档SharePointLoader
腾讯 COS 目录从腾讯云对象存储目录加载文档TencentCOSDirectoryLoader
腾讯 COS 文件从腾讯云对象存储文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

文档加载器API 参考
TwitterTwitterTweetLoader
RedditRedditPostsLoader

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

文档加载器API 参考
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook 聊天FacebookChatLoader
MastodonMastodonTootsLoader

生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

文档加载器API 参考
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常用文件类型

以下文档加载器允许您从常用的数据格式加载数据。

文档加载器数据类型
CSVLoaderCSV 文件
DirectoryLoader给定目录中的所有文件
Unstructured多种文件类型(请参阅 https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON 文件
BSHTMLLoaderHTML 文件

所有文档加载器

名称描述
acreomacreom 是一个以开发人员为中心的知识库,任务在本地标记上运行...
AirbyteLoaderAirbyte 是一个数据集成平台,用于来自 API 的 ELT 管道,d...
Airtable* 在此处获取您的 API 密钥。
阿里云 MaxCompute阿里云 MaxCompute(以前称为 ODPS)是一个通用目的...
Amazon TextractAmazon Textract 是一种机器学习 (ML) 服务,可自动...
Apify 数据集Apify Dataset 是一种可扩展的仅追加存储,具有顺序访问...
ArcGIS此笔记本演示了 langchaincommunity.document 的使用...
ArxivLoaderarXiv 是一个开放获取的档案,其中包含 200 万篇学术文章...
AssemblyAI 音频转录AssemblyAIAudioTranscriptLoader 允许转录音频文件 ...
AstraDBDataStax Astra DB 是一个基于 Cassandra 构建的无服务器、支持向量的数据库 ...
异步 ChromiumChromium 是 Playwright 支持的浏览器之一,Playwright 是一个用于 ... 的库。
AsyncHtmlAsyncHtmlLoader 从 URL 列表中并发加载原始 HTML。
AthenaAmazon Athena 是一种基于构建的无服务器、交互式分析服务。
AWS S3 目录Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务
AWS S3 文件Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务...
AZLyricsAZLyrics 是一个庞大的、合法的、每天都在增长的歌词集合。
Azure AI 数据Azure AI Studio 提供了将数据资产上传到云端的功能...
Azure Blob 存储容器Azure Blob Storage 是微软为云提供的对象存储解决方案...
Azure Blob 存储文件Azure Files 在云中提供完全托管的文件共享,这些文件共享可以...
Azure AI 文档智能Azure AI 文档智能(以前称为 Azure 表单识别器)...
BibTeXBibTeX 是一种文件格式和参考管理系统,通常用于...
BiliBiliBilibili 是中国最受欢迎的长视频网站之一。
BlackboardBlackboard Learn(以前的 Blackboard 学习管理系统)...
区块链概述
Box此笔记本提供了一个快速入门 Box 的概述 ...
Brave SearchBrave Search 是由 Brave Software 开发的搜索引擎。
BrowserbaseBrowserbase 是一个开发人员平台,用于可靠地运行、管理和监控 ...
BrowserlessBrowserless 是一项服务,允许您运行无头 Chrome 实例 ...
BSHTMLLoader此笔记本提供了一个快速入门 BeautifulSoup 的概述 ...
CassandraCassandra 是一个 NoSQL、面向行的、高度可扩展和高可用的 ...
ChatGPT 数据ChatGPT 是 OpenAI 开发的人工智能 (AI) 聊天机器人 ...
College ConfidentialCollege Confidential 提供有关 3,800 多所大学和学院的信息 ...
并发加载器与 GenericLoader 的工作方式相同,但对于那些选择 ... 的人来说是并发的。
ConfluenceConfluence 是一个 wiki 协作平台,可以保存和组织 ...
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修订版本。注释采用 ... 编码
复制粘贴此笔记本介绍了如何从您 ... 加载文档对象。
CouchbaseCouchbase 是一款屡获殊荣的分布式 NoSQL 云数据库,可提供 ...
CSV逗号分隔值 (CSV) 文件是一个分隔文本文件,使用 ...
Cube 语义层此笔记本演示了检索 Cube 数据模型的过程 ...
Datadog LogsDatadog 是一个用于云规模应用程序的监控和分析平台 ...
Dedoc此示例演示了 Dedoc 与 LangChain 结合使用的示例 ...
DiffbotDiffbot 是一套基于机器学习的产品,可以轻松构建结构 ...
DiscordDiscord 是一个 VoIP 和即时消息社交平台。 用户必须 ...
Docugami此笔记本介绍了如何从 Docugami 加载文档。它提供了...
DocusaurusDocusaurus 是一个静态站点生成器,它提供了开箱即用的 ...
DropboxDropbox 是一项文件托管服务,它将一切(传统的 ...)都集中在一起。
DuckDBDuckDB 是一个进程内的 SQL OLAP 数据库管理系统。
电子邮件此笔记本演示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m ...)
EPubEPUB 是一种电子书文件格式,使用“.epub”文件扩展名。此 ...
EtherscanEtherscan 是领先的区块链浏览器、搜索、API 和分析 ...
EverNoteEverNote 旨在存档和创建照片 ... 的笔记。
example_data
Facebook 聊天Messenger) 是一个美国专有的即时消息应用程序和平台 ...
FaunaFauna 是一个文档数据库。
FigmaFigma 是一个用于界面设计的协作 Web 应用程序。
FireCrawlFireCrawl 抓取并将任何网站转换为 LLM 就绪的数据。 它抓取 ...
GeopandasGeopandas 是一个开源项目,用于简化地理空间数据的处理 ...
GitGit 是一个分布式版本控制系统,用于跟踪 ... 中的更改。
GitBookGitBook 是一个现代文档平台,团队可以在其中记录 ...
GitHub此笔记本演示了如何加载问题和拉取请求 (PR) ...
Glue CatalogAWS Glue 数据目录是一个集中的元数据存储库,允许 ...
Google AlloyDB for PostgreSQLAlloyDB 是一种完全托管的关系数据库服务,可提供高 ...
Google BigQueryGoogle BigQuery 是一种无服务器且经济高效的企业数据仓库 ...
Google BigtableBigtable 是一个键值和宽列存储,非常适合快速访问 ...
Google Cloud SQL for SQL serverCloud SQL 是一项完全托管的关系数据库服务,可提供 ...
Google Cloud SQL for MySQLCloud SQL 是一项完全托管的关系数据库服务,可提供 ...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一项完全托管的数据库服务,可帮助 ...
Google Cloud Storage 目录Google Cloud Storage 是一项用于存储非结构化数据的托管服务 ...
Google Cloud Storage 文件Google Cloud Storage 是一项用于存储非结构化数据的托管服务 ...
Google Firestore in Datastore Mode数据存储模式中的 Firestore 是一个为自动 ... 构建的 NoSQL 文档数据库。
Google 云端硬盘Google Drive 是由 ... 开发的文件存储和同步服务。
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle Operator
Google Firestore (原生模式)Firestore 是一个无服务器的面向文档的数据库,可扩展到 ...
Google Memorystore for RedisGoogle Memorystore for Redis 是一项完全托管的服务,由 ... 提供支持。
Google SpannerSpanner 是一个高度可扩展的数据库,它结合了无限的可扩展性 ...
Google 语音转文本音频转录SpeechToTextLoader 允许使用 Google ... 转录音频文件。
GrobidGROBID 是一个机器学习库,用于提取、解析和重新 ...
GutenbergProject Gutenberg 是一个免费电子书的在线图书馆。
Hacker NewsHacker News(有时缩写为 HN)是一个面向 ... 的社交新闻网站。
华为 OBS 目录以下代码演示了如何从华为云加载对象 ...
华为 OBS 文件以下代码演示了如何从华为云加载对象 ...
HuggingFace 数据集Hugging Face Hub 拥有超过 5,000 个数据集,涵盖 100 多种 ...
iFixitiFixit 是网络上最大的开放维修社区。 该网站包含 ...
图像这介绍了如何将图像加载到我们可以使用的文档格式中 ...
图像标题默认情况下,加载程序使用预训练的 Salesforce BLIP 图像 ...
IMSDbIMSDb 是互联网电影剧本数据库。
IuguIugu 是一家巴西服务和软件即服务 (SaaS) 公司 ...
JoplinJoplin 是一个开源的笔记应用程序。 捕捉您的想法和 ...
JSONLoader此笔记本提供了一个快速入门 JSON 的概述 ...
Jupyter NotebookJupyter Notebook(以前的 IPython Notebook)是一个基于 Web 的交互式 ...
Kinetica此笔记本介绍了如何从 Kinetica 加载文档
lakeFSlakeFS 提供了数据湖上的可扩展版本控制,并使用 ...
LangSmith此笔记本提供了一个快速入门 ... 的概述
LarkSuite (飞书)LarkSuite 是字节跳动开发的协作平台 ...
LLM Sherpa此笔记本介绍了如何使用 LLM Sherpa 加载多种类型的文件 ...
MastodonMastodon 是一个联合的社交媒体和社交网络服务。
MathPixPDFLoader受 Daniel Gross 的代码片段的启发,网址://gist.github.com/danielgross/...
MediaWiki DumpMediaWiki XML 转储包含 wiki 的内容(包含所有 ... 的 wiki 页面)。
合并文档加载器合并从一组指定的数据加载器返回的文档。
mhtmlMHTML 既用于电子邮件,也用于存档网页。 MH ...
Microsoft ExcelUnstructuredExcelLoader 用于加载 Microsoft Excel 文件。 ...
Microsoft OneDriveMicrosoft OneDrive(以前的 SkyDrive)是一项由 ... 运营的文件托管服务。
Microsoft OneNote此笔记本介绍了如何从 OneNote 加载文档。
Microsoft PowerPointMicrosoft PowerPoint 是 Microsoft 的演示程序。
Microsoft SharePointMicrosoft SharePoint 是一个基于网站的协作系统,使用 ...
Microsoft WordMicrosoft Word 是 Microsoft 开发的文字处理器。
Near 区块链概述
Modern TreasuryModern Treasury 简化了复杂的支付操作。 这是一个统一 ...
MongoDBMongoDB 是一个 NoSQL、面向文档的数据库,支持类似 JSON 的 ...
Needle 文档加载器Needle 使您可以轻松地以最少的精力创建 RAG 管道。
新闻 URL这介绍了如何将 HTML 新闻文章从 URL 列表加载到 ...
Notion DB 2/2Notion 是一个带有修改后的 Markdown 支持的协作平台,它 ...
NucliaNuclia 可自动索引来自任何内部 ... 的非结构化数据。
ObsidianObsidian 是一个强大且可扩展的知识库
开放文档格式 (ODT)开放文档格式办公应用程序 (ODF),也称为 ...
开放城市数据Socrata 为城市开放数据提供 API。
Oracle Autonomous DatabaseOracle 自主数据库是一种云数据库,它使用机器学习 ...
Oracle AI 向量搜索:文档处理Oracle AI 向量搜索专为人工智能 (AI) ... 设计。
Org-modeOrg Mode 文档是一种文档编辑、格式化和组织 ...
Pandas DataFrame此笔记本介绍了如何从 pandas DataFrame 加载数据。
解析器
PDFMiner概述
PDFPlumber与 PyMuPDF 类似,输出的文档包含关于 th... 的详细元数据。
Pebblo 安全文档加载器Pebblo 使开发人员能够安全地加载数据并推广其 Gen A...。
Polars DataFrame此笔记本介绍了如何从 polars DataFrame 加载数据。
Psychic此笔记本介绍了如何从 Psychic 加载文档。请参阅此处了解更多信息...
PubMedPubMed®,由美国国家生物技术信息中心(National Center for Biotechnology Information, Nationa...)提供。
PyMuPDFPyMuPDF 针对速度进行了优化,并包含关于 ... 的详细元数据。
PyPDFDirectoryLoader此加载器从特定目录加载所有 PDF 文件。
PyPDFium2Loader此笔记本提供了 PyPD... 入门的快速概述。
PyPDFLoader此笔记本提供了 PyPD... 入门的快速概述。
PySpark此笔记本介绍了如何从 PySpark DataFrame 加载数据。
QuipQuip 是一款适用于移动设备和 Web 的协作生产力软件套件。
ReadTheDocs 文档Read the Docs 是一个开源的免费软件文档托管服务。
递归 URLRecursiveUrlLoader 允许你递归地抓取来自 ... 的所有子链接。
RedditReddit 是一个美国的社交新闻聚合、内容评级和讨论网站。
RoamROAM 是一款用于网络化思考的笔记工具,旨在创建 ...。
RocksetRockset 是一个实时分析数据库,可以在 ma... 上执行查询。
rspace此笔记本展示了如何使用 RSpace 文档加载器导入 r...。
RSS 订阅此部分介绍如何从 RSS feed URL 列表加载 HTML 新闻文章。
RSTreStructured Text (RST) 文件是一种用于文本数据的文件格式,用于...
scrapflyScrapFly
ScrapingAnt概述
站点地图SitemapLoader 继承自 WebBaseLoader,从 ... 加载站点地图。
SlackSlack 是一款即时通讯程序。
Snowflake此笔记本介绍了如何从 Snowflake 加载文档
源代码此笔记本介绍了如何使用特殊的 ap... 加载源代码文件。
SpiderSpider 是最快且最实惠的网络爬虫和抓取工具,它具有...
SpreedlySpreedly 是一项服务,允许您安全地存储信用卡 ...。
StripeStripe 是一家爱尔兰裔美国金融服务和软件即服务公司。
字幕SubRip 文件格式在 Matroska 多媒体容器上进行了描述。
SurrealDBSurrealDB 是一款端到端云原生数据库,专为现代 ... 设计。
TelegramTelegram Messenger 是一款全球可访问的免费增值、跨平台 ...。
腾讯 COS 目录腾讯云对象存储(COS)是一种分布式存储服务
腾讯 COS 文件腾讯云对象存储(COS)是一种分布式存储服务
TensorFlow 数据集TensorFlow Datasets 是一个随时可用的数据集集合,包含 Te...。
TiDBTiDB Cloud 是一种全面的数据库即服务(DBaaS)解决方案...
2Markdown2markdown 服务将网站内容转换为结构化 markdown ...。
TOMLTOML 是一种用于配置文件的文件格式。 它旨在易于 ...。
TrelloTrello 是一款基于 Web 的项目管理和协作工具,用于 ...。
TSV制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式 ...。
TwitterTwitter 是一种在线社交媒体和社交网络服务。
Unstructured此笔记本介绍了如何使用 Unstructured 文档加载器加载 ...。
UnstructuredMarkdownLoader此笔记本提供了 Unst... 入门的快速概述。
UnstructuredPDFLoader概述
Upstage此笔记本介绍了如何开始使用 UpstageDocumentParseLoad...。
URL此示例介绍了如何从 ... 中的 URL 列表加载 HTML 文档。
VsdxVisio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关联。
天气OpenWeatherMap 是一个开源天气服务提供商
WebBaseLoader此部分介绍如何使用 WebBaseLoader 从 HTML 网页加载所有文本 ...。
WhatsApp 聊天WhatsApp(也称为 WhatsApp Messenger)是一款免费的跨平台 ...。
Wikipedia维基百科是一个多语种的免费在线百科全书,由 ... 编写和维护。
UnstructuredXMLLoader此笔记本提供了 Unst... 入门的快速概述。
Xorbits Pandas DataFrame此笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。
YouTube 音频在 YouTube 视频上构建聊天或 QA 应用程序是一个高度关注的话题。
YouTube 字幕YouTube 是一个在线视频共享和社交媒体平台,由 ... 创建。
语雀语雀是一个专业的云端知识库,用于团队协作 ...。
ZeroxPDFLoader概述

此页面是否有帮助?