文档加载器
DocumentLoaders 将数据加载到标准的 LangChain 文档格式中。
每个 DocumentLoader 都有其特定的参数,但它们都可以使用 .load 方法以相同的方式调用。一个用例示例如下
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader
网页
以下文档加载器允许您加载网页。
请参阅本指南以了解入门:操作指南:加载网页。
文档加载器 | 描述 | 包/API |
---|---|---|
Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
站点地图 | 抓取给定站点地图上的所有页面 | 包 |
Firecrawl | API 服务可以本地部署,托管版本有免费额度。 | API |
Docling | 使用 Docling 加载和解析网页 | 包 |
Hyperbrowser | 用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 | API |
AgentQL | 使用 AgentQL 查询或自然语言提示从任何网页进行 Web 交互和结构化数据提取 | API |
PDF
以下文档加载器允许您加载 PDF 文档。
请参阅本指南以了解入门:操作指南:加载 PDF 文件。
文档加载器 | 描述 | 包/API |
---|---|---|
PyPDF | 使用 `pypdf` 加载和解析 PDF | 包 |
Unstructured | 使用 Unstructured 的开源库加载 PDF | 包 |
Amazon Textract | 使用 AWS API 加载 PDF | API |
MathPix | 使用 MathPix 加载 PDF | 包 |
PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载到 Markdown | 包 |
PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
Docling | 使用 Docling 加载 PDF 文件 | 包 |
云提供商
以下文档加载器允许您从您最喜欢的云提供商处加载文档。
文档加载器 | 描述 | 合作伙伴包 | API 参考 |
---|---|---|---|
AWS S3 目录 | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
AWS S3 文件 | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
Azure AI 数据 | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
Azure Blob Storage 容器 | 从 Azure Blob Storage 容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob Storage 文件 | 从 Azure Blob Storage 文件加载文档 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
Google Cloud Storage 目录 | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
Google Cloud Storage 文件 | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
Google Drive | 从 Google Drive 加载文档(仅限 Google Docs) | ✅ | GoogleDriveLoader |
华为 OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
华为 OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
腾讯 COS 目录 | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
腾讯 COS 文件 | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
文档加载器 | API 参考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
文档加载器 | API 参考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook 聊天 | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用的生产力工具加载数据。
文档加载器 | API 参考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常用文件类型
以下文档加载器允许您从常用的数据格式加载数据。
文档加载器 | 数据类型 |
---|---|
CSVLoader | CSV 文件 |
DirectoryLoader | 给定目录中的所有文件 |
Unstructured | 多种文件类型(请参阅 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 文件 |
BSHTMLLoader | HTML 文件 |
DoclingLoader | 各种文件类型(请参阅 https://ds4sd.github.io/docling/) |
所有文档加载器
名称 | 描述 |
---|---|
acreom | acreom 是一个开发者优先的知识库,任务在本地 mark... 上运行 |
AgentQLLoader | AgentQL 的文档加载器提供从 an... 中提取结构化数据的功能 |
AirbyteLoader | Airbyte 是一个数据集成平台,用于从 API、d... 进行 ELT 管道 |
Airtable | * 在此处获取您的 API 密钥。 |
阿里云 MaxCompute | 阿里云 MaxCompute(以前称为 ODPS)是一个通用目的... |
Amazon Textract | Amazon Textract 是一种机器学习 (ML) 服务,可以自动... |
Apify Dataset | Apify Dataset 是一个可扩展的仅追加存储,具有顺序访问... |
ArcGIS | 此 notebook 演示了 langchaincommunity.document... 的用法 |
ArxivLoader | arXiv 是一个开放存取的档案库,收录了 t... 中 200 万篇学术文章 |
AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许转录音频文件... |
AstraDB | DataStax Astra DB 是一个在 Ca... 上构建的无服务器向量数据库 |
异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个库,us... |
AsyncHtml | AsyncHtmlLoader 并发地从 URL 列表加载原始 HTML。 |
Athena | Amazon Athena 是一种无服务器交互式分析服务,构建于 |
AWS S3 目录 | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务 |
AWS S3 文件 | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务... |
AZLyrics | AZLyrics 是一个庞大、合法且每天都在增长的歌词合集。 |
Azure AI 数据 | Azure AI Studio 提供了将数据资产上传到 clou... 的能力 |
Azure Blob Storage 容器 | Azure Blob Storage 是微软为 clo... 提供的对象存储解决方案 |
Azure Blob Storage 文件 | Azure Files 在云中提供完全托管的文件共享,这些文件是 ac... |
Azure AI 文档智能 | Azure AI 文档智能(以前称为 Azure Form Recogniz... |
BibTeX | BibTeX 是一种文件格式和参考文献管理系统,通常用于... |
BiliBili | Bilibili 是中国最受欢迎的长视频网站之一。 |
Blackboard | Blackboard Learn(以前称为 Blackboard Learning Management Syste... |
区块链 | 概述 |
Box | langchain-box 包提供了两种方法来索引您的文件 fr... |
Brave Search | Brave Search 是 Brave Software 开发的搜索引擎。 |
Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和 moni... |
Browserless | Browserless 是一项服务,允许您运行无头 Chrome insta... |
BSHTMLLoader | 此 notebook 提供了快速入门 Beautiful... 的概述 |
Cassandra | Cassandra 是一种 NoSQL、面向行、高度可扩展和高度可用的... |
ChatGPT 数据 | ChatGPT 是 OpenAI 开发的人工智能 (AI) 聊天机器人... |
College Confidential | College Confidential 提供有关 3,800 多所学院和 univers... 的信息 |
并发加载器 | 工作方式与 GenericLoader 完全相同,但对于那些 choo... 并发 |
Confluence | Confluence 是一个 wiki 协作平台,用于保存和组织 ... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版本。注释是 enc... |
复制粘贴 | 此 notebook 涵盖了如何从您... 的内容中加载文档对象 |
Couchbase | Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,d... |
CSV | 逗号分隔值 (CSV) 文件是一种分隔文本文件,使用... |
Cube 语义层 | 此 notebook 演示了检索 Cube 数据模型的过程... |
Datadog Logs | Datadog 是一个用于云规模应用程序的监控和分析平台... |
Dedoc | 此示例演示了 Dedoc 与 LangCha... 结合使用 |
Diffbot | Diffbot 是一套基于 ML 的产品,可以轻松地 structur... |
Discord | Discord 是一个 VoIP 和即时消息社交平台。用户必须... |
Docling | Docling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为丰富的 u... |
Docugami | 此 notebook 涵盖了如何从 Docugami 加载文档。它提供... |
Docusaurus | Docusaurus 是一个静态站点生成器,它提供了开箱即用的 d... |
Dropbox | Dropbox 是一项文件托管服务,它带来了传统的一切... |
DuckDB | DuckDB 是一个进程内 SQL OLAP 数据库管理系统。 |
电子邮件 | 此 notebook 显示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m... |
EPub | EPUB 是一种电子书文件格式,使用“.epub”文件扩展名。T... |
Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和 analyt... |
EverNote | EverNote 旨在用于存档和创建笔记,其中包含照片... |
example_data | |
Facebook 聊天 | Messenger) 是一款美国专有的即时通讯应用和 platf... |
Fauna | Fauna 是一个文档数据库。 |
Figma | Figma 是一款用于界面设计的协作式 Web 应用程序。 |
FireCrawl | FireCrawl 抓取并将任何网站转换为 LLM 就绪的数据。它 craw... |
Geopandas | Geopandas 是一个开源项目,旨在使处理地理空间 d... |
Git | Git 是一个分布式版本控制系统,用于跟踪 an... 中的更改 |
GitBook | GitBook 是一个现代文档平台,团队可以在其中记录 e... |
GitHub | 此 notebook 展示了如何加载问题和拉取请求 (PR) ... |
Glue Catalog | AWS Glue Data Catalog 是一个集中式元数据存储库,它 a... |
Google AlloyDB for PostgreSQL | AlloyDB 是一项完全托管的关系数据库服务,提供 hi... |
Google BigQuery | Google BigQuery 是一种无服务器且经济高效的企业数据 wa... |
Google Bigtable | Bigtable 是一个键值和宽列存储,非常适合快速访问 ... |
Google Cloud SQL for SQL server | Cloud SQL 是一项完全托管的关系数据库服务,提供 ... |
Google Cloud SQL for MySQL | Cloud SQL 是一项完全托管的关系数据库服务,提供 ... |
Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一项完全托管的数据库服务,可帮助 ... |
Google Cloud Storage 目录 | Google Cloud Storage 是一项用于存储非结构化 da... 的托管服务 |
Google Cloud Storage 文件 | Google Cloud Storage 是一项用于存储非结构化 da... 的托管服务 |
Google Firestore in Datastore Mode | Firestore in Datastore Mode 是一个为 au... 构建的 NoSQL 文档数据库 |
Google Drive | Google Drive 是 Google 开发的文件存储和同步服务 ... |
Google El Carro for Oracle Workloads | Google El Carro Oracle Operator |
Google Firestore (原生模式) | Firestore 是一个无服务器的面向文档的数据库,可以扩展到 m... |
Google Memorystore for Redis | Google Memorystore for Redis 是一项完全托管的服务,它具有强大的功能... |
Google Spanner | Spanner 是一个高度可扩展的数据库,它结合了无限的可扩展性... |
Google Speech-to-Text 音频转录 | SpeechToTextLoader 允许使用 Goog... 转录音频文件 |
Grobid | GROBID 是一个机器学习库,用于提取、解析和 re-... |
Gutenberg | Project Gutenberg 是一个免费电子书在线图书馆。 |
Hacker News | Hacker News(有时缩写为 HN)是一个社交新闻网站,用于 ... |
华为 OBS 目录 | 以下代码演示了如何从华为 O... 加载对象 |
华为 OBS 文件 | 以下代码演示了如何从华为... 加载对象 |
HuggingFace 数据集 | Hugging Face Hub 拥有超过 5,000 个数据集,超过 100 ... |
HyperbrowserLoader | Hyperbrowser 是一个用于运行和扩展无头浏览器的平台.... |
iFixit | iFixit 是网络上最大的开放维修社区。该网站包含 ... |
图像 | 这涵盖了如何将图像加载到我们可以使用的文档格式中... |
图像标题 | 默认情况下,加载器使用预训练的 Salesforce BLIP 图像... |
IMSDb | IMSDb 是互联网电影剧本数据库。 |
Iugu | Iugu 是一家巴西服务和软件即服务 (SaaS) 公司... |
Joplin | Joplin 是一款开源笔记应用程序。捕捉您的想法和 s... |
JSONLoader | 此 notebook 提供了快速入门 JSON... 的概述 |
Jupyter Notebook | Jupyter Notebook(以前称为 IPython Notebook)是一个基于 Web 的交互式 ... |
Kinetica | 此 notebook 介绍了如何从 Kinetica 加载文档 |
lakeFS | lakeFS 提供对数据湖的可扩展版本控制,并使用 ... |
LangSmith | 此 notebook 提供了快速入门 ... 的概述 |
LarkSuite (飞书) | LarkSuite 是字节跳动开发的的企业协作平台... |
LLM Sherpa | 此 notebook 涵盖了如何使用 LLM Sherpa 加载多种类型的文件... |
Mastodon | Mastodon 是一个联邦社交媒体和社交网络服务。 |
MathPixPDFLoader | 灵感来自 Daniel Gross 的代码片段 //gist.github.com/danielgross/... |
MediaWiki Dump | MediaWiki XML Dump 包含 wiki 的内容(包含所有内容的 wiki 页面... |
合并文档加载器 | 合并从一组指定的数据加载器返回的文档。 |
mhtml | MHTML 既用于电子邮件,也用于存档网页。MH... |
Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th... |
Microsoft OneDrive | Microsoft OneDrive(以前称为 SkyDrive)是一项文件托管服务,oper... |
Microsoft OneNote | 此 notebook 涵盖了如何从 OneNote 加载文档。 |
Microsoft PowerPoint | Microsoft PowerPoint 是微软的演示程序。 |
Microsoft SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,它使用 ... |
Microsoft Word | Microsoft Word 是微软开发的文字处理器。 |
Near Blockchain | 概述 |
Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的 ... |
MongoDB | MongoDB 是一个 NoSQL、面向文档的数据库,支持类似 JSON 的 ... |
Needle 文档加载器 | Needle 使您可以轻松地以最少的精力创建 RAG 管道。 |
新闻 URL | 这涵盖了如何将 HTML 新闻文章从 URL 列表加载到 ... |
Notion DB 2/2 | Notion 是一个协作平台,具有修改后的 Markdown 支持,tha... |
Nuclia | Nuclia 自动索引来自任何内部的非结构化数据... |
Obsidian | Obsidian 是一个强大且可扩展的知识库 |
开放文档格式 (ODT) | 办公应用程序开放文档格式 (ODF),也称为... |
开放城市数据 | Socrata 提供了一个用于城市开放数据的 API。 |
Oracle Autonomous Database | Oracle 自治数据库是一个使用机器学习的云数据库... |
Oracle AI Vector Search:文档处理 | Oracle AI 向量搜索专为人工智能 (AI) 而设计... |
Org-mode | Org Mode 文档是一个文档编辑、格式化和组织工具... |
Pandas DataFrame | 本笔记本介绍了如何从 pandas DataFrame 加载数据。 |
解析器 | |
PDFMinerLoader | 本笔记本快速概述了 PDFM 的入门方法... |
PDFPlumber | 与 PyMuPDF 类似,输出文档包含有关...的详细元数据。 |
Pebblo 安全文档加载器 | Pebblo 使开发者能够安全地加载数据并推广他们的 Gen A... |
Polars DataFrame | 本笔记本介绍了如何从 polars DataFrame 加载数据。 |
Dell PowerScale 文档加载器 | Dell PowerScale 是一个企业级横向扩展存储系统,托管... |
Psychic | 本笔记本介绍了如何从 Psychic 加载文档。请参阅此处了解... |
PubMed | PubMed®,由美国国家生物技术信息中心 (National Center for Biotechnology Information) ... |
PullMdLoader | 使用 pull.md 服务将 URL 转换为 Markdown 的加载器。 |
PyMuPDFLoader | 本笔记本快速概述了 PyMuPDF 的入门方法... |
PyMuPDF4LLM | 本笔记本快速概述了 PyMuPDF 的入门方法... |
PyPDFDirectoryLoader | 此加载器从特定目录加载所有 PDF 文件。 |
PyPDFium2Loader | 本笔记本快速概述了 PyPDF 的入门方法... |
PyPDFLoader | 本笔记本快速概述了 PyPDF 的入门方法... |
PySpark | 本笔记本介绍了如何从 PySpark DataFrame 加载数据。 |
Quip | Quip 是一款适用于移动设备和 Web 的协作生产力软件套件... |
ReadTheDocs 文档 | Read the Docs 是一个开源的免费软件文档托管... |
递归 URL | RecursiveUrlLoader 允许您递归抓取来自...的所有子链接。 |
Reddit 是一个美国的社交新闻聚合、内容评级和讨论网站... | |
Roam | ROAM 是一款用于网络化思维的笔记工具,旨在创建... |
Rockset | Rockset 是一个实时分析数据库,支持对...进行查询。 |
rspace | 本笔记本展示了如何使用 RSpace 文档加载器导入 r... |
RSS 订阅 | 本文介绍了如何从 RSS 订阅源 URL 列表加载 HTML 新闻文章。 |
RST | reStructured Text (RST) 文件是一种用于文本数据的文件格式,用于... |
scrapfly | ScrapFly |
ScrapingAnt | 概述 |
站点地图 | SitemapLoader 扩展自 WebBaseLoader,从...加载站点地图。 |
Slack | Slack 是一款即时通讯程序。 |
Snowflake | 本笔记本介绍了如何从 Snowflake 加载文档。 |
源代码 | 本笔记本介绍了如何使用特殊的应用程序加载源代码文件... |
Spider | Spider 是最快且最经济实惠的网络爬虫和抓取工具,可以... |
Spreedly | Spreedly 是一项允许您安全存储信用卡的服务... |
Stripe | Stripe 是一家爱尔兰裔美国金融服务和软件即服务公司... |
字幕 | SubRip 文件格式在 Matroska 多媒体容器中进行了描述... |
SurrealDB | SurrealDB 是一个端到端的云原生数据库,专为现代...设计。 |
Telegram | Telegram Messenger 是一款全球可访问的免费增值、跨平台...即时通讯软件。 |
腾讯 COS 目录 | 腾讯云对象存储 (COS) 是一种分布式... |
腾讯 COS 文件 | 腾讯云对象存储 (COS) 是一种分布式... |
TensorFlow Datasets | TensorFlow Datasets 是一个即用型数据集集合,与 Te... |
TiDB | TiDB Cloud 是一个全面的数据库即服务 (DBaaS) 解决方案... |
2Markdown | 2markdown 服务将网站内容转换为结构化 markdown... |
TOML | TOML 是一种用于配置文件的文件格式。 它旨在易于... |
Trello | Trello 是一款基于 Web 的项目管理和协作工具,可... |
TSV | 制表符分隔值 (TSV) 文件是一种简单的、基于文本的文件格式... |
Twitter 是一种在线社交媒体和社交网络服务。 | |
Unstructured | 本笔记本介绍了如何使用 Unstructured 文档加载器加载... |
UnstructuredMarkdownLoader | 本笔记本快速概述了 Unst... 的入门方法。 |
UnstructuredPDFLoader | 概述 |
Upstage | 本笔记本介绍了 UpstageDocumentParseLoad... 的入门方法。 |
URL | 本示例介绍了如何从 URL 列表中加载 HTML 文档,其中... |
Vsdx | visio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关联... |
Weather | OpenWeatherMap 是一个开源天气服务提供商。 |
WebBaseLoader | 本文介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本... |
WhatsApp 聊天 | WhatsApp(也称为 WhatsApp Messenger)是一款免费软件、跨平台...即时通讯软件。 |
Wikipedia | Wikipedia 是一个多语言的免费在线百科全书,由...编写和维护。 |
UnstructuredXMLLoader | 本笔记本快速概述了 Unst... 的入门方法。 |
Xorbits Pandas DataFrame | 本笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。 |
YouTube 音频 | 在 YouTube 视频上构建聊天或问答应用程序是一个高度...的主题。 |
YouTube 字幕 | YouTube 是一个在线视频分享和社交媒体平台,由...创建。 |
YoutubeLoaderDL | 利用 yt-dlp 库的 Youtube 加载器。 |
Yuque | Yuque 是一个专业的基于云的知识库,用于团队协作... |
ZeroxPDFLoader | 概述 |