跳到主要内容
Open on GitHub

文档加载器

DocumentLoaders 将数据加载到标准的 LangChain 文档格式中。

每个 DocumentLoader 都有其特定的参数,但它们都可以使用 .load 方法以相同的方式调用。一个用例示例如下

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader

网页

以下文档加载器允许您加载网页。

请参阅本指南以了解入门:操作指南:加载网页

文档加载器描述包/API
Web使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
Unstructured使用 Unstructured 加载和解析网页
RecursiveURL从根 URL 递归抓取所有子链接
站点地图抓取给定站点地图上的所有页面
FirecrawlAPI 服务可以本地部署,托管版本有免费额度。API
Docling使用 Docling 加载和解析网页
Hyperbrowser用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站API
AgentQL使用 AgentQL 查询或自然语言提示从任何网页进行 Web 交互和结构化数据提取API

PDF

以下文档加载器允许您加载 PDF 文档。

请参阅本指南以了解入门:操作指南:加载 PDF 文件

文档加载器描述包/API
PyPDF使用 `pypdf` 加载和解析 PDF
Unstructured使用 Unstructured 的开源库加载 PDF
Amazon Textract使用 AWS API 加载 PDFAPI
MathPix使用 MathPix 加载 PDF
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PyMuPDF4LLM使用 PyMuPDF4LLM 将 PDF 内容加载到 Markdown
PDFMiner使用 PDFMiner 加载 PDF 文件
Upstage Document Parse Loader使用 UpstageDocumentParseLoader 加载 PDF 文件
Docling使用 Docling 加载 PDF 文件

云提供商

以下文档加载器允许您从您最喜欢的云提供商处加载文档。

文档加载器描述合作伙伴包API 参考
AWS S3 目录从 AWS S3 目录加载文档S3DirectoryLoader
AWS S3 文件从 AWS S3 文件加载文档S3FileLoader
Azure AI 数据从 Azure AI 服务加载文档AzureAIDataLoader
Azure Blob Storage 容器从 Azure Blob Storage 容器加载文档AzureBlobStorageContainerLoader
Azure Blob Storage 文件从 Azure Blob Storage 文件加载文档AzureBlobStorageFileLoader
Dropbox从 Dropbox 加载文档DropboxLoader
Google Cloud Storage 目录从 GCS 存储桶加载文档GCSDirectoryLoader
Google Cloud Storage 文件从 GCS 文件对象加载文档GCSFileLoader
Google Drive从 Google Drive 加载文档(仅限 Google Docs)GoogleDriveLoader
华为 OBS 目录从华为对象存储服务目录加载文档OBSDirectoryLoader
华为 OBS 文件从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从 Microsoft SharePoint 加载文档SharePointLoader
腾讯 COS 目录从腾讯云对象存储目录加载文档TencentCOSDirectoryLoader
腾讯 COS 文件从腾讯云对象存储文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

文档加载器API 参考
TwitterTwitterTweetLoader
RedditRedditPostsLoader

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

文档加载器API 参考
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook 聊天FacebookChatLoader
MastodonMastodonTootsLoader

生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

文档加载器API 参考
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常用文件类型

以下文档加载器允许您从常用的数据格式加载数据。

文档加载器数据类型
CSVLoaderCSV 文件
DirectoryLoader给定目录中的所有文件
Unstructured多种文件类型(请参阅 https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON 文件
BSHTMLLoaderHTML 文件
DoclingLoader各种文件类型(请参阅 https://ds4sd.github.io/docling/)

所有文档加载器

名称描述
acreomacreom 是一个开发者优先的知识库,任务在本地 mark... 上运行
AgentQLLoaderAgentQL 的文档加载器提供从 an... 中提取结构化数据的功能
AirbyteLoaderAirbyte 是一个数据集成平台,用于从 API、d... 进行 ELT 管道
Airtable* 在此处获取您的 API 密钥。
阿里云 MaxCompute阿里云 MaxCompute(以前称为 ODPS)是一个通用目的...
Amazon TextractAmazon Textract 是一种机器学习 (ML) 服务,可以自动...
Apify DatasetApify Dataset 是一个可扩展的仅追加存储,具有顺序访问...
ArcGIS此 notebook 演示了 langchaincommunity.document... 的用法
ArxivLoaderarXiv 是一个开放存取的档案库,收录了 t... 中 200 万篇学术文章
AssemblyAI 音频转录AssemblyAIAudioTranscriptLoader 允许转录音频文件...
AstraDBDataStax Astra DB 是一个在 Ca... 上构建的无服务器向量数据库
异步 ChromiumChromium 是 Playwright 支持的浏览器之一,Playwright 是一个库,us...
AsyncHtmlAsyncHtmlLoader 并发地从 URL 列表加载原始 HTML。
AthenaAmazon Athena 是一种无服务器交互式分析服务,构建于
AWS S3 目录Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务
AWS S3 文件Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务...
AZLyricsAZLyrics 是一个庞大、合法且每天都在增长的歌词合集。
Azure AI 数据Azure AI Studio 提供了将数据资产上传到 clou... 的能力
Azure Blob Storage 容器Azure Blob Storage 是微软为 clo... 提供的对象存储解决方案
Azure Blob Storage 文件Azure Files 在云中提供完全托管的文件共享,这些文件是 ac...
Azure AI 文档智能Azure AI 文档智能(以前称为 Azure Form Recogniz...
BibTeXBibTeX 是一种文件格式和参考文献管理系统,通常用于...
BiliBiliBilibili 是中国最受欢迎的长视频网站之一。
BlackboardBlackboard Learn(以前称为 Blackboard Learning Management Syste...
区块链概述
Boxlangchain-box 包提供了两种方法来索引您的文件 fr...
Brave SearchBrave Search 是 Brave Software 开发的搜索引擎。
BrowserbaseBrowserbase 是一个开发者平台,用于可靠地运行、管理和 moni...
BrowserlessBrowserless 是一项服务,允许您运行无头 Chrome insta...
BSHTMLLoader此 notebook 提供了快速入门 Beautiful... 的概述
CassandraCassandra 是一种 NoSQL、面向行、高度可扩展和高度可用的...
ChatGPT 数据ChatGPT 是 OpenAI 开发的人工智能 (AI) 聊天机器人...
College ConfidentialCollege Confidential 提供有关 3,800 多所学院和 univers... 的信息
并发加载器工作方式与 GenericLoader 完全相同,但对于那些 choo... 并发
ConfluenceConfluence 是一个 wiki 协作平台,用于保存和组织 ...
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修订版本。注释是 enc...
复制粘贴此 notebook 涵盖了如何从您... 的内容中加载文档对象
CouchbaseCouchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,d...
CSV逗号分隔值 (CSV) 文件是一种分隔文本文件,使用...
Cube 语义层此 notebook 演示了检索 Cube 数据模型的过程...
Datadog LogsDatadog 是一个用于云规模应用程序的监控和分析平台...
Dedoc此示例演示了 Dedoc 与 LangCha... 结合使用
DiffbotDiffbot 是一套基于 ML 的产品,可以轻松地 structur...
DiscordDiscord 是一个 VoIP 和即时消息社交平台。用户必须...
DoclingDocling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为丰富的 u...
Docugami此 notebook 涵盖了如何从 Docugami 加载文档。它提供...
DocusaurusDocusaurus 是一个静态站点生成器,它提供了开箱即用的 d...
DropboxDropbox 是一项文件托管服务,它带来了传统的一切...
DuckDBDuckDB 是一个进程内 SQL OLAP 数据库管理系统。
电子邮件此 notebook 显示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m...
EPubEPUB 是一种电子书文件格式,使用“.epub”文件扩展名。T...
EtherscanEtherscan 是领先的区块链浏览器、搜索、API 和 analyt...
EverNoteEverNote 旨在用于存档和创建笔记,其中包含照片...
example_data
Facebook 聊天Messenger) 是一款美国专有的即时通讯应用和 platf...
FaunaFauna 是一个文档数据库。
FigmaFigma 是一款用于界面设计的协作式 Web 应用程序。
FireCrawlFireCrawl 抓取并将任何网站转换为 LLM 就绪的数据。它 craw...
GeopandasGeopandas 是一个开源项目,旨在使处理地理空间 d...
GitGit 是一个分布式版本控制系统,用于跟踪 an... 中的更改
GitBookGitBook 是一个现代文档平台,团队可以在其中记录 e...
GitHub此 notebook 展示了如何加载问题和拉取请求 (PR) ...
Glue CatalogAWS Glue Data Catalog 是一个集中式元数据存储库,它 a...
Google AlloyDB for PostgreSQLAlloyDB 是一项完全托管的关系数据库服务,提供 hi...
Google BigQueryGoogle BigQuery 是一种无服务器且经济高效的企业数据 wa...
Google BigtableBigtable 是一个键值和宽列存储,非常适合快速访问 ...
Google Cloud SQL for SQL serverCloud SQL 是一项完全托管的关系数据库服务,提供 ...
Google Cloud SQL for MySQLCloud SQL 是一项完全托管的关系数据库服务,提供 ...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一项完全托管的数据库服务,可帮助 ...
Google Cloud Storage 目录Google Cloud Storage 是一项用于存储非结构化 da... 的托管服务
Google Cloud Storage 文件Google Cloud Storage 是一项用于存储非结构化 da... 的托管服务
Google Firestore in Datastore ModeFirestore in Datastore Mode 是一个为 au... 构建的 NoSQL 文档数据库
Google DriveGoogle Drive 是 Google 开发的文件存储和同步服务 ...
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle Operator
Google Firestore (原生模式)Firestore 是一个无服务器的面向文档的数据库,可以扩展到 m...
Google Memorystore for RedisGoogle Memorystore for Redis 是一项完全托管的服务,它具有强大的功能...
Google SpannerSpanner 是一个高度可扩展的数据库,它结合了无限的可扩展性...
Google Speech-to-Text 音频转录SpeechToTextLoader 允许使用 Goog... 转录音频文件
GrobidGROBID 是一个机器学习库,用于提取、解析和 re-...
GutenbergProject Gutenberg 是一个免费电子书在线图书馆。
Hacker NewsHacker News(有时缩写为 HN)是一个社交新闻网站,用于 ...
华为 OBS 目录以下代码演示了如何从华为 O... 加载对象
华为 OBS 文件以下代码演示了如何从华为... 加载对象
HuggingFace 数据集Hugging Face Hub 拥有超过 5,000 个数据集,超过 100 ...
HyperbrowserLoaderHyperbrowser 是一个用于运行和扩展无头浏览器的平台....
iFixitiFixit 是网络上最大的开放维修社区。该网站包含 ...
图像这涵盖了如何将图像加载到我们可以使用的文档格式中...
图像标题默认情况下,加载器使用预训练的 Salesforce BLIP 图像...
IMSDbIMSDb 是互联网电影剧本数据库。
IuguIugu 是一家巴西服务和软件即服务 (SaaS) 公司...
JoplinJoplin 是一款开源笔记应用程序。捕捉您的想法和 s...
JSONLoader此 notebook 提供了快速入门 JSON... 的概述
Jupyter NotebookJupyter Notebook(以前称为 IPython Notebook)是一个基于 Web 的交互式 ...
Kinetica此 notebook 介绍了如何从 Kinetica 加载文档
lakeFSlakeFS 提供对数据湖的可扩展版本控制,并使用 ...
LangSmith此 notebook 提供了快速入门 ... 的概述
LarkSuite (飞书)LarkSuite 是字节跳动开发的的企业协作平台...
LLM Sherpa此 notebook 涵盖了如何使用 LLM Sherpa 加载多种类型的文件...
MastodonMastodon 是一个联邦社交媒体和社交网络服务。
MathPixPDFLoader灵感来自 Daniel Gross 的代码片段 //gist.github.com/danielgross/...
MediaWiki DumpMediaWiki XML Dump 包含 wiki 的内容(包含所有内容的 wiki 页面...
合并文档加载器合并从一组指定的数据加载器返回的文档。
mhtmlMHTML 既用于电子邮件,也用于存档网页。MH...
Microsoft ExcelUnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th...
Microsoft OneDriveMicrosoft OneDrive(以前称为 SkyDrive)是一项文件托管服务,oper...
Microsoft OneNote此 notebook 涵盖了如何从 OneNote 加载文档。
Microsoft PowerPointMicrosoft PowerPoint 是微软的演示程序。
Microsoft SharePointMicrosoft SharePoint 是一个基于网站的协作系统,它使用 ...
Microsoft WordMicrosoft Word 是微软开发的文字处理器。
Near Blockchain概述
Modern TreasuryModern Treasury 简化了复杂的支付操作。它是一个统一的 ...
MongoDBMongoDB 是一个 NoSQL、面向文档的数据库,支持类似 JSON 的 ...
Needle 文档加载器Needle 使您可以轻松地以最少的精力创建 RAG 管道。
新闻 URL这涵盖了如何将 HTML 新闻文章从 URL 列表加载到 ...
Notion DB 2/2Notion 是一个协作平台,具有修改后的 Markdown 支持,tha...
NucliaNuclia 自动索引来自任何内部的非结构化数据...
ObsidianObsidian 是一个强大且可扩展的知识库
开放文档格式 (ODT)办公应用程序开放文档格式 (ODF),也称为...
开放城市数据Socrata 提供了一个用于城市开放数据的 API。
Oracle Autonomous DatabaseOracle 自治数据库是一个使用机器学习的云数据库...
Oracle AI Vector Search:文档处理Oracle AI 向量搜索专为人工智能 (AI) 而设计...
Org-modeOrg Mode 文档是一个文档编辑、格式化和组织工具...
Pandas DataFrame本笔记本介绍了如何从 pandas DataFrame 加载数据。
解析器
PDFMinerLoader本笔记本快速概述了 PDFM 的入门方法...
PDFPlumber与 PyMuPDF 类似,输出文档包含有关...的详细元数据。
Pebblo 安全文档加载器Pebblo 使开发者能够安全地加载数据并推广他们的 Gen A...
Polars DataFrame本笔记本介绍了如何从 polars DataFrame 加载数据。
Dell PowerScale 文档加载器Dell PowerScale 是一个企业级横向扩展存储系统,托管...
Psychic本笔记本介绍了如何从 Psychic 加载文档。请参阅此处了解...
PubMedPubMed®,由美国国家生物技术信息中心 (National Center for Biotechnology Information) ...
PullMdLoader使用 pull.md 服务将 URL 转换为 Markdown 的加载器。
PyMuPDFLoader本笔记本快速概述了 PyMuPDF 的入门方法...
PyMuPDF4LLM本笔记本快速概述了 PyMuPDF 的入门方法...
PyPDFDirectoryLoader此加载器从特定目录加载所有 PDF 文件。
PyPDFium2Loader本笔记本快速概述了 PyPDF 的入门方法...
PyPDFLoader本笔记本快速概述了 PyPDF 的入门方法...
PySpark本笔记本介绍了如何从 PySpark DataFrame 加载数据。
QuipQuip 是一款适用于移动设备和 Web 的协作生产力软件套件...
ReadTheDocs 文档Read the Docs 是一个开源的免费软件文档托管...
递归 URLRecursiveUrlLoader 允许您递归抓取来自...的所有子链接。
RedditReddit 是一个美国的社交新闻聚合、内容评级和讨论网站...
RoamROAM 是一款用于网络化思维的笔记工具,旨在创建...
RocksetRockset 是一个实时分析数据库,支持对...进行查询。
rspace本笔记本展示了如何使用 RSpace 文档加载器导入 r...
RSS 订阅本文介绍了如何从 RSS 订阅源 URL 列表加载 HTML 新闻文章。
RSTreStructured Text (RST) 文件是一种用于文本数据的文件格式,用于...
scrapflyScrapFly
ScrapingAnt概述
站点地图SitemapLoader 扩展自 WebBaseLoader,从...加载站点地图。
SlackSlack 是一款即时通讯程序。
Snowflake本笔记本介绍了如何从 Snowflake 加载文档。
源代码本笔记本介绍了如何使用特殊的应用程序加载源代码文件...
SpiderSpider 是最快且最经济实惠的网络爬虫和抓取工具,可以...
SpreedlySpreedly 是一项允许您安全存储信用卡的服务...
StripeStripe 是一家爱尔兰裔美国金融服务和软件即服务公司...
字幕SubRip 文件格式在 Matroska 多媒体容器中进行了描述...
SurrealDBSurrealDB 是一个端到端的云原生数据库,专为现代...设计。
TelegramTelegram Messenger 是一款全球可访问的免费增值、跨平台...即时通讯软件。
腾讯 COS 目录腾讯云对象存储 (COS) 是一种分布式...
腾讯 COS 文件腾讯云对象存储 (COS) 是一种分布式...
TensorFlow DatasetsTensorFlow Datasets 是一个即用型数据集集合,与 Te...
TiDBTiDB Cloud 是一个全面的数据库即服务 (DBaaS) 解决方案...
2Markdown2markdown 服务将网站内容转换为结构化 markdown...
TOMLTOML 是一种用于配置文件的文件格式。 它旨在易于...
TrelloTrello 是一款基于 Web 的项目管理和协作工具,可...
TSV制表符分隔值 (TSV) 文件是一种简单的、基于文本的文件格式...
TwitterTwitter 是一种在线社交媒体和社交网络服务。
Unstructured本笔记本介绍了如何使用 Unstructured 文档加载器加载...
UnstructuredMarkdownLoader本笔记本快速概述了 Unst... 的入门方法。
UnstructuredPDFLoader概述
Upstage本笔记本介绍了 UpstageDocumentParseLoad... 的入门方法。
URL本示例介绍了如何从 URL 列表中加载 HTML 文档,其中...
Vsdxvisio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关联...
WeatherOpenWeatherMap 是一个开源天气服务提供商。
WebBaseLoader本文介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本...
WhatsApp 聊天WhatsApp(也称为 WhatsApp Messenger)是一款免费软件、跨平台...即时通讯软件。
WikipediaWikipedia 是一个多语言的免费在线百科全书,由...编写和维护。
UnstructuredXMLLoader本笔记本快速概述了 Unst... 的入门方法。
Xorbits Pandas DataFrame本笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。
YouTube 音频在 YouTube 视频上构建聊天或问答应用程序是一个高度...的主题。
YouTube 字幕YouTube 是一个在线视频分享和社交媒体平台,由...创建。
YoutubeLoaderDL利用 yt-dlp 库的 Youtube 加载器。
YuqueYuque 是一个专业的基于云的知识库,用于团队协作...
ZeroxPDFLoader概述

此页是否对您有帮助?