文档加载器
DocumentLoader 将数据加载到标准的 LangChain Document 格式中。
每个 DocumentLoader 都有其特定的参数,但它们都可以使用 .load 方法以相同的方式调用。一个示例用例如下
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader
网页
以下文档加载器允许您加载网页。
有关入门,请参阅本指南:如何:加载网页。
文档加载器 | 描述 | 包/API |
---|---|---|
Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
站点地图 | 抓取给定站点地图上的所有页面 | 包 |
Firecrawl | 可以在本地部署的 API 服务,托管版本有免费额度。 | API |
PDF
以下文档加载器允许您加载 PDF 文档。
有关入门,请参阅本指南:如何:加载 PDF 文件。
文档加载器 | 描述 | 包/API |
---|---|---|
PyPDF | 使用 `pypdf` 加载和解析 PDF | 包 |
Unstructured | 使用 Unstructured 的开源库加载 PDF | 包 |
Amazon Textract | 使用 AWS API 加载 PDF | API |
MathPix | 使用 MathPix 加载 PDF | 包 |
PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
云提供商
以下文档加载器允许您从您喜欢的云提供商加载文档。
文档加载器 | 描述 | 合作伙伴包 | API 参考 |
---|---|---|---|
AWS S3 目录 | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
AWS S3 文件 | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
Azure AI 数据 | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
Azure Blob 存储容器 | 从 Azure Blob 存储容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob 存储文件 | 从 Azure Blob 存储文件加载文档 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
Google Cloud Storage 目录 | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
Google Cloud Storage 文件 | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
Google 云端硬盘 | 从 Google Drive 加载文档(仅限 Google 文档) | ✅ | GoogleDriveLoader |
华为 OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
华为 OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
腾讯 COS 目录 | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
腾讯 COS 文件 | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
文档加载器 | API 参考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
文档加载器 | API 参考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook 聊天 | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用的生产力工具加载数据。
文档加载器 | API 参考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常用文件类型
以下文档加载器允许您从常用的数据格式加载数据。
文档加载器 | 数据类型 |
---|---|
CSVLoader | CSV 文件 |
DirectoryLoader | 给定目录中的所有文件 |
Unstructured | 多种文件类型(请参阅 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 文件 |
BSHTMLLoader | HTML 文件 |
所有文档加载器
名称 | 描述 |
---|---|
acreom | acreom 是一个以开发人员为中心的知识库,任务在本地标记上运行... |
AirbyteLoader | Airbyte 是一个数据集成平台,用于来自 API 的 ELT 管道,d... |
Airtable | * 在此处获取您的 API 密钥。 |
阿里云 MaxCompute | 阿里云 MaxCompute(以前称为 ODPS)是一个通用目的... |
Amazon Textract | Amazon Textract 是一种机器学习 (ML) 服务,可自动... |
Apify 数据集 | Apify Dataset 是一种可扩展的仅追加存储,具有顺序访问... |
ArcGIS | 此笔记本演示了 langchaincommunity.document 的使用... |
ArxivLoader | arXiv 是一个开放获取的档案,其中包含 200 万篇学术文章... |
AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许转录音频文件 ... |
AstraDB | DataStax Astra DB 是一个基于 Cassandra 构建的无服务器、支持向量的数据库 ... |
异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个用于 ... 的库。 |
AsyncHtml | AsyncHtmlLoader 从 URL 列表中并发加载原始 HTML。 |
Athena | Amazon Athena 是一种基于构建的无服务器、交互式分析服务。 |
AWS S3 目录 | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务 |
AWS S3 文件 | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务... |
AZLyrics | AZLyrics 是一个庞大的、合法的、每天都在增长的歌词集合。 |
Azure AI 数据 | Azure AI Studio 提供了将数据资产上传到云端的功能... |
Azure Blob 存储容器 | Azure Blob Storage 是微软为云提供的对象存储解决方案... |
Azure Blob 存储文件 | Azure Files 在云中提供完全托管的文件共享,这些文件共享可以... |
Azure AI 文档智能 | Azure AI 文档智能(以前称为 Azure 表单识别器)... |
BibTeX | BibTeX 是一种文件格式和参考管理系统,通常用于... |
BiliBili | Bilibili 是中国最受欢迎的长视频网站之一。 |
Blackboard | Blackboard Learn(以前的 Blackboard 学习管理系统)... |
区块链 | 概述 |
Box | 此笔记本提供了一个快速入门 Box 的概述 ... |
Brave Search | Brave Search 是由 Brave Software 开发的搜索引擎。 |
Browserbase | Browserbase 是一个开发人员平台,用于可靠地运行、管理和监控 ... |
Browserless | Browserless 是一项服务,允许您运行无头 Chrome 实例 ... |
BSHTMLLoader | 此笔记本提供了一个快速入门 BeautifulSoup 的概述 ... |
Cassandra | Cassandra 是一个 NoSQL、面向行的、高度可扩展和高可用的 ... |
ChatGPT 数据 | ChatGPT 是 OpenAI 开发的人工智能 (AI) 聊天机器人 ... |
College Confidential | College Confidential 提供有关 3,800 多所大学和学院的信息 ... |
并发加载器 | 与 GenericLoader 的工作方式相同,但对于那些选择 ... 的人来说是并发的。 |
Confluence | Confluence 是一个 wiki 协作平台,可以保存和组织 ... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版本。注释采用 ... 编码 |
复制粘贴 | 此笔记本介绍了如何从您 ... 加载文档对象。 |
Couchbase | Couchbase 是一款屡获殊荣的分布式 NoSQL 云数据库,可提供 ... |
CSV | 逗号分隔值 (CSV) 文件是一个分隔文本文件,使用 ... |
Cube 语义层 | 此笔记本演示了检索 Cube 数据模型的过程 ... |
Datadog Logs | Datadog 是一个用于云规模应用程序的监控和分析平台 ... |
Dedoc | 此示例演示了 Dedoc 与 LangChain 结合使用的示例 ... |
Diffbot | Diffbot 是一套基于机器学习的产品,可以轻松构建结构 ... |
Discord | Discord 是一个 VoIP 和即时消息社交平台。 用户必须 ... |
Docugami | 此笔记本介绍了如何从 Docugami 加载文档。它提供了... |
Docusaurus | Docusaurus 是一个静态站点生成器,它提供了开箱即用的 ... |
Dropbox | Dropbox 是一项文件托管服务,它将一切(传统的 ...)都集中在一起。 |
DuckDB | DuckDB 是一个进程内的 SQL OLAP 数据库管理系统。 |
电子邮件 | 此笔记本演示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m ...) |
EPub | EPUB 是一种电子书文件格式,使用“.epub”文件扩展名。此 ... |
Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析 ... |
EverNote | EverNote 旨在存档和创建照片 ... 的笔记。 |
example_data | |
Facebook 聊天 | Messenger) 是一个美国专有的即时消息应用程序和平台 ... |
Fauna | Fauna 是一个文档数据库。 |
Figma | Figma 是一个用于界面设计的协作 Web 应用程序。 |
FireCrawl | FireCrawl 抓取并将任何网站转换为 LLM 就绪的数据。 它抓取 ... |
Geopandas | Geopandas 是一个开源项目,用于简化地理空间数据的处理 ... |
Git | Git 是一个分布式版本控制系统,用于跟踪 ... 中的更改。 |
GitBook | GitBook 是一个现代文档平台,团队可以在其中记录 ... |
GitHub | 此笔记本演示了如何加载问题和拉取请求 (PR) ... |
Glue Catalog | AWS Glue 数据目录是一个集中的元数据存储库,允许 ... |
Google AlloyDB for PostgreSQL | AlloyDB 是一种完全托管的关系数据库服务,可提供高 ... |
Google BigQuery | Google BigQuery 是一种无服务器且经济高效的企业数据仓库 ... |
Google Bigtable | Bigtable 是一个键值和宽列存储,非常适合快速访问 ... |
Google Cloud SQL for SQL server | Cloud SQL 是一项完全托管的关系数据库服务,可提供 ... |
Google Cloud SQL for MySQL | Cloud SQL 是一项完全托管的关系数据库服务,可提供 ... |
Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一项完全托管的数据库服务,可帮助 ... |
Google Cloud Storage 目录 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务 ... |
Google Cloud Storage 文件 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务 ... |
Google Firestore in Datastore Mode | 数据存储模式中的 Firestore 是一个为自动 ... 构建的 NoSQL 文档数据库。 |
Google 云端硬盘 | Google Drive 是由 ... 开发的文件存储和同步服务。 |
Google El Carro for Oracle Workloads | Google El Carro Oracle Operator |
Google Firestore (原生模式) | Firestore 是一个无服务器的面向文档的数据库,可扩展到 ... |
Google Memorystore for Redis | Google Memorystore for Redis 是一项完全托管的服务,由 ... 提供支持。 |
Google Spanner | Spanner 是一个高度可扩展的数据库,它结合了无限的可扩展性 ... |
Google 语音转文本音频转录 | SpeechToTextLoader 允许使用 Google ... 转录音频文件。 |
Grobid | GROBID 是一个机器学习库,用于提取、解析和重新 ... |
Gutenberg | Project Gutenberg 是一个免费电子书的在线图书馆。 |
Hacker News | Hacker News(有时缩写为 HN)是一个面向 ... 的社交新闻网站。 |
华为 OBS 目录 | 以下代码演示了如何从华为云加载对象 ... |
华为 OBS 文件 | 以下代码演示了如何从华为云加载对象 ... |
HuggingFace 数据集 | Hugging Face Hub 拥有超过 5,000 个数据集,涵盖 100 多种 ... |
iFixit | iFixit 是网络上最大的开放维修社区。 该网站包含 ... |
图像 | 这介绍了如何将图像加载到我们可以使用的文档格式中 ... |
图像标题 | 默认情况下,加载程序使用预训练的 Salesforce BLIP 图像 ... |
IMSDb | IMSDb 是互联网电影剧本数据库。 |
Iugu | Iugu 是一家巴西服务和软件即服务 (SaaS) 公司 ... |
Joplin | Joplin 是一个开源的笔记应用程序。 捕捉您的想法和 ... |
JSONLoader | 此笔记本提供了一个快速入门 JSON 的概述 ... |
Jupyter Notebook | Jupyter Notebook(以前的 IPython Notebook)是一个基于 Web 的交互式 ... |
Kinetica | 此笔记本介绍了如何从 Kinetica 加载文档 |
lakeFS | lakeFS 提供了数据湖上的可扩展版本控制,并使用 ... |
LangSmith | 此笔记本提供了一个快速入门 ... 的概述 |
LarkSuite (飞书) | LarkSuite 是字节跳动开发的协作平台 ... |
LLM Sherpa | 此笔记本介绍了如何使用 LLM Sherpa 加载多种类型的文件 ... |
Mastodon | Mastodon 是一个联合的社交媒体和社交网络服务。 |
MathPixPDFLoader | 受 Daniel Gross 的代码片段的启发,网址://gist.github.com/danielgross/... |
MediaWiki Dump | MediaWiki XML 转储包含 wiki 的内容(包含所有 ... 的 wiki 页面)。 |
合并文档加载器 | 合并从一组指定的数据加载器返回的文档。 |
mhtml | MHTML 既用于电子邮件,也用于存档网页。 MH ... |
Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。 ... |
Microsoft OneDrive | Microsoft OneDrive(以前的 SkyDrive)是一项由 ... 运营的文件托管服务。 |
Microsoft OneNote | 此笔记本介绍了如何从 OneNote 加载文档。 |
Microsoft PowerPoint | Microsoft PowerPoint 是 Microsoft 的演示程序。 |
Microsoft SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,使用 ... |
Microsoft Word | Microsoft Word 是 Microsoft 开发的文字处理器。 |
Near 区块链 | 概述 |
Modern Treasury | Modern Treasury 简化了复杂的支付操作。 这是一个统一 ... |
MongoDB | MongoDB 是一个 NoSQL、面向文档的数据库,支持类似 JSON 的 ... |
Needle 文档加载器 | Needle 使您可以轻松地以最少的精力创建 RAG 管道。 |
新闻 URL | 这介绍了如何将 HTML 新闻文章从 URL 列表加载到 ... |
Notion DB 2/2 | Notion 是一个带有修改后的 Markdown 支持的协作平台,它 ... |
Nuclia | Nuclia 可自动索引来自任何内部 ... 的非结构化数据。 |
Obsidian | Obsidian 是一个强大且可扩展的知识库 |
开放文档格式 (ODT) | 开放文档格式办公应用程序 (ODF),也称为 ... |
开放城市数据 | Socrata 为城市开放数据提供 API。 |
Oracle Autonomous Database | Oracle 自主数据库是一种云数据库,它使用机器学习 ... |
Oracle AI 向量搜索:文档处理 | Oracle AI 向量搜索专为人工智能 (AI) ... 设计。 |
Org-mode | Org Mode 文档是一种文档编辑、格式化和组织 ... |
Pandas DataFrame | 此笔记本介绍了如何从 pandas DataFrame 加载数据。 |
解析器 | |
PDFMiner | 概述 |
PDFPlumber | 与 PyMuPDF 类似,输出的文档包含关于 th... 的详细元数据。 |
Pebblo 安全文档加载器 | Pebblo 使开发人员能够安全地加载数据并推广其 Gen A...。 |
Polars DataFrame | 此笔记本介绍了如何从 polars DataFrame 加载数据。 |
Psychic | 此笔记本介绍了如何从 Psychic 加载文档。请参阅此处了解更多信息... |
PubMed | PubMed®,由美国国家生物技术信息中心(National Center for Biotechnology Information, Nationa...)提供。 |
PyMuPDF | PyMuPDF 针对速度进行了优化,并包含关于 ... 的详细元数据。 |
PyPDFDirectoryLoader | 此加载器从特定目录加载所有 PDF 文件。 |
PyPDFium2Loader | 此笔记本提供了 PyPD... 入门的快速概述。 |
PyPDFLoader | 此笔记本提供了 PyPD... 入门的快速概述。 |
PySpark | 此笔记本介绍了如何从 PySpark DataFrame 加载数据。 |
Quip | Quip 是一款适用于移动设备和 Web 的协作生产力软件套件。 |
ReadTheDocs 文档 | Read the Docs 是一个开源的免费软件文档托管服务。 |
递归 URL | RecursiveUrlLoader 允许你递归地抓取来自 ... 的所有子链接。 |
Reddit 是一个美国的社交新闻聚合、内容评级和讨论网站。 | |
Roam | ROAM 是一款用于网络化思考的笔记工具,旨在创建 ...。 |
Rockset | Rockset 是一个实时分析数据库,可以在 ma... 上执行查询。 |
rspace | 此笔记本展示了如何使用 RSpace 文档加载器导入 r...。 |
RSS 订阅 | 此部分介绍如何从 RSS feed URL 列表加载 HTML 新闻文章。 |
RST | reStructured Text (RST) 文件是一种用于文本数据的文件格式,用于... |
scrapfly | ScrapFly |
ScrapingAnt | 概述 |
站点地图 | SitemapLoader 继承自 WebBaseLoader,从 ... 加载站点地图。 |
Slack | Slack 是一款即时通讯程序。 |
Snowflake | 此笔记本介绍了如何从 Snowflake 加载文档 |
源代码 | 此笔记本介绍了如何使用特殊的 ap... 加载源代码文件。 |
Spider | Spider 是最快且最实惠的网络爬虫和抓取工具,它具有... |
Spreedly | Spreedly 是一项服务,允许您安全地存储信用卡 ...。 |
Stripe | Stripe 是一家爱尔兰裔美国金融服务和软件即服务公司。 |
字幕 | SubRip 文件格式在 Matroska 多媒体容器上进行了描述。 |
SurrealDB | SurrealDB 是一款端到端云原生数据库,专为现代 ... 设计。 |
Telegram | Telegram Messenger 是一款全球可访问的免费增值、跨平台 ...。 |
腾讯 COS 目录 | 腾讯云对象存储(COS)是一种分布式存储服务 |
腾讯 COS 文件 | 腾讯云对象存储(COS)是一种分布式存储服务 |
TensorFlow 数据集 | TensorFlow Datasets 是一个随时可用的数据集集合,包含 Te...。 |
TiDB | TiDB Cloud 是一种全面的数据库即服务(DBaaS)解决方案... |
2Markdown | 2markdown 服务将网站内容转换为结构化 markdown ...。 |
TOML | TOML 是一种用于配置文件的文件格式。 它旨在易于 ...。 |
Trello | Trello 是一款基于 Web 的项目管理和协作工具,用于 ...。 |
TSV | 制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式 ...。 |
Twitter 是一种在线社交媒体和社交网络服务。 | |
Unstructured | 此笔记本介绍了如何使用 Unstructured 文档加载器加载 ...。 |
UnstructuredMarkdownLoader | 此笔记本提供了 Unst... 入门的快速概述。 |
UnstructuredPDFLoader | 概述 |
Upstage | 此笔记本介绍了如何开始使用 UpstageDocumentParseLoad...。 |
URL | 此示例介绍了如何从 ... 中的 URL 列表加载 HTML 文档。 |
Vsdx | Visio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关联。 |
天气 | OpenWeatherMap 是一个开源天气服务提供商 |
WebBaseLoader | 此部分介绍如何使用 WebBaseLoader 从 HTML 网页加载所有文本 ...。 |
WhatsApp 聊天 | WhatsApp(也称为 WhatsApp Messenger)是一款免费的跨平台 ...。 |
Wikipedia | 维基百科是一个多语种的免费在线百科全书,由 ... 编写和维护。 |
UnstructuredXMLLoader | 此笔记本提供了 Unst... 入门的快速概述。 |
Xorbits Pandas DataFrame | 此笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。 |
YouTube 音频 | 在 YouTube 视频上构建聊天或 QA 应用程序是一个高度关注的话题。 |
YouTube 字幕 | YouTube 是一个在线视频共享和社交媒体平台,由 ... 创建。 |
语雀 | 语雀是一个专业的云端知识库,用于团队协作 ...。 |
ZeroxPDFLoader | 概述 |