文档加载器
文档加载器将数据加载到标准的 LangChain 文档格式中。
每个文档加载器都有其特定的参数,但它们都可以通过 .load 方法以相同的方式调用。以下是一个使用示例:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader
网页
以下文档加载器允许您加载网页。
有关入门指南,请参阅:如何:加载网页。
文档加载器 | 描述 | 包/API |
---|---|---|
Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
站点地图 | 抓取给定站点地图上的所有页面 | 包 |
Firecrawl | 可本地部署的 API 服务,托管版本提供免费额度。 | API |
Docling | 使用 Docling 加载和解析网页 | 包 |
Hyperbrowser | 用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 | API |
AgentQL | 使用 AgentQL 查询或自然语言提示从任何网页进行网页交互和结构化数据提取 | API |
PDF 文件
以下文档加载器允许您加载 PDF 文档。
有关入门指南,请参阅:如何:加载 PDF 文件。
文档加载器 | 描述 | 包/API |
---|---|---|
PyPDF | 使用 `pypdf` 加载和解析 PDF | 包 |
Unstructured | 使用 Unstructured 的开源库加载 PDF | 包 |
亚马逊 Textract | 使用 AWS API 加载 PDF | API |
MathPix | 使用 MathPix 加载 PDF | 包 |
PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown | 包 |
PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
Docling | 使用 Docling 加载 PDF 文件 | 包 |
云服务提供商
以下文档加载器允许您从您喜爱的云服务提供商加载文档。
文档加载器 | 描述 | 合作伙伴包 | API 参考 |
---|---|---|---|
AWS S3 目录 | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
AWS S3 文件 | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
Azure AI 数据 | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
Azure Blob 存储容器 | 从 Azure Blob 存储容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob 存储文件 | 从 Azure Blob 存储文件加载文档 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
谷歌云存储目录 | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
谷歌云存储文件 | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
谷歌云端硬盘 | 从 Google 云端硬盘加载文档(仅限 Google 文档) | ✅ | GoogleDriveLoader |
华为 OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
华为 OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
微软 OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
微软 SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
腾讯 COS 目录 | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
腾讯 COS 文件 | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
文档加载器 | API 参考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
文档加载器 | API 参考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook 聊天 | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用生产力工具加载数据。
文档加载器 | API 参考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常见文件类型
以下文档加载器允许您从常见数据格式加载数据。
文档加载器 | 数据类型 |
---|---|
CSVLoader | CSV 文件 |
DirectoryLoader | 给定目录中的所有文件 |
Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 文件 |
BSHTMLLoader | HTML 文件 |
DoclingLoader | 各种文件类型(参见 https://ds4sd.github.io/docling/) |
所有文档加载器
名称 | 描述 |
---|---|
acreom | acreom 是一个开发者优先的知识库,任务在本地 mark... 上运行 |
AgentQLLoader | AgentQL 的文档加载器提供了从 an... 结构化数据提取 |
AirbyteLoader | Airbyte 是一个数据集成平台,用于从 API、d... 的 ELT 管道 |
Airtable | * 在此处获取您的 API 密钥。 |
阿里云 MaxCompute | 阿里云 MaxCompute(前身为 ODPS)是一个通用目的... |
亚马逊 Textract | Amazon Textract 是一种机器学习 (ML) 服务,可自动... |
Apify 数据集 | Apify 数据集是一个可扩展的只追加存储,具有顺序访问... |
ArcGIS | 此 notebook 演示了 langchaincommunity.document... 的用法 |
ArxivLoader | arXiv 是一个开放获取的档案库,包含 200 万篇学术文章,涉及 t... |
AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许转录音频文件... |
AstraDB | DataStax Astra DB 是一个无服务器的 |
异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个库... |
异步 HTML | AsyncHtmlLoader 并发地从 URL 列表加载原始 HTML。 |
Athena | Amazon Athena 是一个无服务器、交互式分析服务 |
AWS S3 目录 | Amazon 简单存储服务 (Amazon S3) 是一种对象存储服务 |
AWS S3 文件 | Amazon 简单存储服务 (Amazon S3) 是一种对象存储服务... |
AZLyrics | AZLyrics 是一个大型、合法、每天都在增长的歌词集合。 |
Azure AI 数据 | Azure AI Studio 提供了将数据资产上传到云端的能力... |
Azure Blob 存储容器 | Azure Blob 存储是微软为云端提供的数据存储解决方案... |
Azure Blob 存储文件 | Azure 文件提供云中完全托管的文件共享,可访问... |
Azure AI 文档智能 | Azure AI 文档智能(前身为 Azure 表单识别器...) |
BibTeX | BibTeX 是一种常用的文件格式和参考管理系统... |
哔哩哔哩 | Bilibili 是中国最受欢迎的长视频网站之一。 |
Blackboard | Blackboard Learn(以前是 Blackboard 学习管理系统...) |
区块链 | 此 notebook 的目的是提供一种测试功能的方法... |
Box | langchain-box 包提供了两种索引文件的方法... |
Brave 搜索 | Brave Search 是由 Brave Software 开发的搜索引擎。 |
Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控... |
Browserless | Browserless 是一项服务,允许您运行无头 Chrome 实例... |
BSHTMLLoader | 此 notebook 提供了使用 Beau... 入门的快速概述 |
Cassandra | Cassandra 是一个 NoSQL、面向行、高度可扩展且高度可用... |
ChatGPT 数据 | ChatGPT 是由 OpenA... 开发的人工智能 (AI) 聊天机器人 |
College Confidential | College Confidential 提供 3,800 多所学院和大学的信息... |
并发加载器 | 功能与 GenericLoader 相同,但对于选择... 的人来说是并发的 |
Confluence | Confluence 是一个 wiki 协作平台,旨在保存和组织... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版。注释以 enc... 格式编码 |
复制粘贴 | 此 notebook 介绍了如何从您... 加载文档对象 |
Couchbase | Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,它 d... |
CSV | 逗号分隔值 (CSV) 文件是一种使用... 的分隔文本文件 |
Cube 语义层 | 此 notebook 演示了检索 Cube 数据模式的过程... |
Datadog Logs | Datadog 是一个用于云规模应用程序的监控和分析平台... |
Dedoc | 此示例演示了 Dedoc 与 LangCha... 结合使用 |
Diffbot | Diffbot 是一套基于 ML 的产品,可轻松结构化... |
Discord | Discord 是一个 VoIP 和即时消息社交平台。用户可以... |
Docling | Docling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为富文本... |
Docugami | 此 notebook 介绍了如何从 Docugami 加载文档。它提供了... |
Docusaurus | Docusaurus 是一个静态网站生成器,提供开箱即用... |
Dropbox | Dropbox 是一种文件托管服务,可将所有传统文件... |
DuckDB | DuckDB 是一个进程内 SQL OLAP 数据库管理系统。 |
电子邮件 | 此 notebook 展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m...) 文件 |
EPub | EPUB 是一种使用 ".epub" 文件扩展名的电子书文件格式。T... |
Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析... |
EverNote | EverNote 用于归档和创建包含照片的笔记... |
example_data | |
Facebook 聊天 | Messenger) 是一个美国专有即时消息应用程序和平台... |
Fauna | Fauna 是一个文档数据库。 |
Figma | Figma 是一个用于界面设计的协作式 Web 应用程序。 |
FireCrawl | FireCrawl 抓取并将任何网站转换为 LLM 可用的数据。它抓取... |
Geopandas | Geopandas 是一个开源项目,旨在简化地理空间数据处理... |
Git | Git 是一个分布式版本控制系统,用于跟踪 an... 中的更改 |
GitBook | GitBook 是一个现代文档平台,团队可以在其中记录 e... |
GitHub | 此 notebook 展示了如何加载问题和拉取请求 (PRs)... |
Glue Catalog | AWS Glue Data Catalog 是一个集中的元数据存储库,它 a... |
谷歌 AlloyDB for PostgreSQL | AlloyDB 是一个完全托管的关系数据库服务,提供高... |
谷歌 BigQuery | Google BigQuery 是一个无服务器且经济高效的企业数据仓库... |
谷歌 Bigtable | Bigtable 是一个键值和宽列存储,非常适合快速访问... |
谷歌云 SQL for SQL server | Cloud SQL 是一个完全托管的关系数据库服务,提供... |
谷歌云 SQL for MySQL | Cloud SQL 是一个完全托管的关系数据库服务,提供... |
谷歌云 SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一个完全托管的数据库服务,帮助... |
谷歌云存储目录 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
谷歌云存储文件 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
谷歌 Firestore(Datastore 模式) | 数据存储模式下的 Firestore 是一个为 au... 构建的 NoSQL 文档数据库 |
谷歌云端硬盘 | Google 云端硬盘是由... 开发的文件存储和同步服务 |
谷歌 El Carro for Oracle Workloads | Google El Carro Oracle 运算符 |
谷歌 Firestore(原生模式) | Firestore 是一个无服务器的面向文档的数据库,可扩展到 m... |
谷歌 Memorystore for Redis | Google Memorystore for Redis 是一个完全托管的服务,由 power... 提供支持 |
谷歌 Spanner | Spanner 是一个高度可扩展的数据库,结合了无限的可扩展性... |
谷歌语音转文本音频转录 | SpeechToTextLoader 允许使用 Goog... 转录音频文件 |
Grobid | GROBID 是一个机器学习库,用于提取、解析和重新... |
Gutenberg | 古腾堡计划是一个免费电子书在线图书馆。 |
Hacker News | Hacker News(有时缩写为 HN)是一个社交新闻网站,用于... |
华为 OBS 目录 | 以下代码演示了如何从华为 O... 加载对象 |
华为 OBS 文件 | 以下代码演示了如何从华为... 加载对象 |
HuggingFace 数据集 | Hugging Face Hub 拥有 100 多个... 中的 5,000 多个数据集 |
HyperbrowserLoader | Hyperbrowser 是一个用于运行和扩展无头浏览器的平台... |
iFixit | iFixit 是网络上最大的开放维修社区。该网站包含... |
图像 | 这介绍了如何将图像加载到我们可以使用的文档格式中... |
图像字幕 | 默认情况下,加载器利用预训练的 Salesforce BLIP 图像... |
IMSDb | IMSDb 是互联网电影剧本数据库。 |
Iugu | Iugu 是一家巴西服务和软件即服务 (SaaS) 公司... |
Joplin | Joplin 是一个开源笔记应用程序。捕捉您的想法和 s... |
JSONLoader | 此 notebook 提供了使用 JSON... 入门的快速概述 |
Jupyter Notebook | Jupyter Notebook(前身为 IPython Notebook)是一个基于 Web 的交互式... |
Kinetica | 此 notebook 介绍了如何从 Kinetica 加载文档 |
lakeFS | lakeFS 提供数据湖的可扩展版本控制,并使用... |
LangSmith | 此 notebook 提供了使用... 入门的快速概述 |
LarkSuite (飞书) | LarkSuite 是 ByteDa... 开发的企业协作平台 |
LLM Sherpa | 此 notebook 介绍了如何使用 LLM Sherpa 加载多种类型的文件... |
Mastodon | Mastodon 是一个联邦式社交媒体和社交网络服务。 |
MathPixPDFLoader | 灵感来自 Daniel Gross 的代码片段 here//gist.github.com/danielgross/... |
MediaWiki Dump | MediaWiki XML 转储包含 wiki 的内容(包含 al... 的 wiki 页面) |
合并文档加载器 | 合并一组指定数据加载器返回的文档。 |
mhtml | MHTML 既用于电子邮件也用于归档网页。MH... |
微软 Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th... |
微软 OneDrive | Microsoft OneDrive(前身为 SkyDrive)是 oper... 的文件托管服务 |
微软 OneNote | 此 notebook 介绍了如何从 OneNote 加载文档。 |
微软 PowerPoint | Microsoft PowerPoint 是微软开发的演示程序。 |
微软 SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,它使用... |
微软 Word | Microsoft Word 是微软开发的文字处理器。 |
Near 区块链 | 此 notebook 的目的是提供一种测试功能的方法... |
Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的... |
MongoDB | MongoDB 是一个 NoSQL、面向文档的数据库,支持 JSON-li... |
Needle 文档加载器 | Needle 使您能够以最少的努力轻松创建 RAG 管道。 |
新闻 URL | 这介绍了如何将 HTML 新闻文章从 URL 列表加载到 a... 中 |
Notion DB 2/2 | Notion 是一个协作平台,支持修改后的 Markdown,它... |
Nuclia | Nuclia 自动索引您来自任何内部... 的非结构化数据 |
Obsidian | Obsidian 是一个强大且可扩展的知识库 |
开放文档格式 (ODT) | Office 应用程序开放文档格式 (ODF),也称为... |
开放城市数据 | Socrata 提供城市开放数据的 API。 |
Oracle 自治数据库 | Oracle 自治数据库是一个使用机器学习... 的云数据库 |
Oracle AI 向量搜索:文档处理 | Oracle AI Vector Search 专为人工智能(AI)设计... |
Org-mode | Org Mode 文档是一种文档编辑、格式化和组织... |
Outline 文档加载器 | Outline 是一个开源协作知识库平台,旨在... |
Pandas DataFrame | 此 notebook 介绍了如何从 pandas DataFrame 加载数据。 |
解析器 | |
PDFMinerLoader | 此 notebook 提供了使用 PDFM... 入门的快速概述 |
PDFPlumber | 与 PyMuPDF 类似,输出文档包含有关 th... 的详细元数据 |
Pebblo 安全文档加载器 | Pebblo 使开发人员能够安全地加载数据并推广其 Gen A... |
Polars DataFrame | 此 notebook 介绍了如何从 polars DataFrame 加载数据。 |
戴尔 PowerScale 文档加载器 | Dell PowerScale 是一个企业级横向扩展存储系统,可托管... |
Psychic | 此 notebook 介绍了如何从 Psychic 加载文档。请参阅这里了解... |
PubMed | PubMed®,由美国国家生物技术信息中心,国家... |
PullMdLoader | 使用 pull.md 服务将 URL 转换为 Markdown 的加载器。 |
PyMuPDFLoader | 此 notebook 提供了使用 PyMu... 入门的快速概述 |
PyMuPDF4LLM | 此 notebook 提供了使用 PyMu... 入门的快速概述 |
PyPDFDirectoryLoader | 此加载器从指定目录加载所有 PDF 文件。 |
PyPDFium2Loader | 此 notebook 提供了使用 PyPD... 入门的快速概述 |
PyPDFLoader | 此 notebook 提供了使用 PyPD... 入门的快速概述 |
PySpark | 此 notebook 介绍了如何从 PySpark DataFrame 加载数据。 |
Quip | Quip 是一款用于移动和 We... 的协作生产力软件套件 |
ReadTheDocs 文档 | Read the Docs 是一个开源免费软件文档托管... |
递归 URL | RecursiveUrlLoader 允许您递归抓取 fr... 的所有子链接 |
Reddit 是一个美国社交新闻聚合、内容评级和 di... 平台 | |
Roam | ROAM 是一款用于网络化思维的笔记工具,旨在创建... |
Rockset | ⚠️ 弃用通知:Rockset 集成已禁用 |
rspace | 此 notebook 展示了如何使用 RSpace 文档加载器导入 r... |
RSS 源 | 这介绍了如何将 HTML 新闻文章从 RSS 订阅 URL 列表加载到... |
RST | reStructured Text (RST) 文件是一种用于文本数据的格式,它用于... |
scrapfly | ScrapFly 是一个带有无头浏览器功能的网络抓取 API,它 pr... |
ScrapingAnt | ScrapingAnt 是一个带有无头浏览器功能的网络抓取 API,它... |
SingleStore | SingleStoreLoader 允许您直接从 Si... 加载文档 |
站点地图 | SitemapLoader 扩展自 WebBaseLoader,它从 a... 加载站点地图 |
Slack | Slack 是一个即时消息程序。 |
Snowflake | 此 notebook 介绍了如何从 Snowflake 加载文档 |
源代码 | 此 notebook 介绍了如何使用特殊 ap... 加载源代码文件 |
Spider | Spider 是最快、最实惠的爬虫和抓取工具,它 re... |
Spreedly | Spreedly 是一项服务,允许您安全地存储信用卡... |
Stripe | Stripe 是一家爱尔兰裔美国金融服务和软件即服务公司... |
字幕 | SubRip 文件格式在 Matroska 多媒体 contai... 上有描述 |
SurrealDB | SurrealDB 是一个端到端的云原生数据库,专为现代... |
Telegram | Telegram Messenger 是一个全球可访问的免费增值、跨平台... |
腾讯 COS 目录 | 腾讯云对象存储 (COS) 是一种分布式 |
腾讯 COS 文件 | 腾讯云对象存储 (COS) 是一种分布式 |
TensorFlow 数据集 | TensorFlow Datasets 是一个可用的数据集集合,其中包含 Te... |
TiDB | TiDB Cloud 是一个全面的数据库即服务 (DBaaS) 解决方案... |
2Markdown | 2markdown 服务将网站内容转换为结构化 markdown... |
TOML | TOML 是一种配置文件格式。它旨在 e... |
Trello | Trello 是一个基于 Web 的项目管理和协作工具,它... |
TSV | 制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式... |
Twitter 是一个在线社交媒体和社交网络服务。 | |
Unstructured | 此 notebook 介绍了如何使用 Unstructured 文档加载器加载... |
UnstructuredMarkdownLoader | 此 notebook 提供了使用 Unst... 入门的快速概述 |
UnstructuredPDFLoader | Unstructured 支持一个通用接口,用于处理 unstructure... |
Upstage | 此 notebook 介绍了如何开始使用 UpstageDocumentParseLoad... |
URL | 此示例介绍了如何将 HTML 文档从 URL 列表加载到 in... |
Vsdx | Visio 文件(扩展名为 .vsdx)与 Microsoft Visi... 相关联 |
天气 | OpenWeatherMap 是一个开源天气服务提供商 |
WebBaseLoader | 这介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本... |
WhatsApp 聊天 | WhatsApp(也称为 WhatsApp Messenger)是一个免费软件、跨平台... |
维基百科 | 维基百科是一个多语言的免费在线百科全书,由... |
UnstructuredXMLLoader | 此 notebook 提供了使用 Unst... 入门的快速概述 |
Xorbits Pandas DataFrame | 此 notebook 介绍了如何从 xorbits.pandas DataFr... 加载数据 |
YouTube 音频 | 在 YouTube 视频上构建聊天或问答应用程序是一个高度... |
YouTube 字幕 | YouTube 是一个在线视频分享和社交媒体平台,由... 创建 |
YoutubeLoaderDL | 利用 yt-dlp 库的 YouTube 加载器。 |
语雀 | 语雀是一个专业的云端知识库,用于团队协作... |
ZeroxPDFLoader | ZeroxPDFLoader 是一个利用 Zerox 库的文档加载器... |