文档加载器
文档加载器将数据加载到标准的 LangChain 文档格式中。
每个文档加载器都有其特定的参数,但它们都可以通过 .load 方法以相同的方式调用。以下是一个使用示例:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader
网页
以下文档加载器允许您加载网页。
有关入门指南,请参阅:如何:加载网页。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
| Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
| RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
| 站点地图 | 抓取给定站点地图上的所有页面 | 包 |
| Firecrawl | 可本地部署的 API 服务,托管版本提供免费额度。 | API |
| Docling | 使用 Docling 加载和解析网页 | 包 |
| Hyperbrowser | 用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 | API |
| AgentQL | 使用 AgentQL 查询或自然语言提示从任何网页进行网页交互和结构化数据提取 | API |
PDF 文件
以下文档加载器允许您加载 PDF 文档。
有关入门指南,请参阅:如何:加载 PDF 文件。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PyPDF | 使用 `pypdf` 加载和解析 PDF | 包 |
| Unstructured | 使用 Unstructured 的开源库加载 PDF | 包 |
| 亚马逊 Textract | 使用 AWS API 加载 PDF | API |
| MathPix | 使用 MathPix 加载 PDF | 包 |
| PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
| PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
| PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
| PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
| PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown | 包 |
| PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
| Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
| Docling | 使用 Docling 加载 PDF 文件 | 包 |
云服务提供商
以下文档加载器允许您从您喜爱的云服务提供商加载文档。
| 文档加载器 | 描述 | 合作伙伴包 | API 参考 |
|---|---|---|---|
| AWS S3 目录 | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
| AWS S3 文件 | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
| Azure AI 数据 | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
| Azure Blob 存储容器 | 从 Azure Blob 存储容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
| Azure Blob 存储文件 | 从 Azure Blob 存储文件加载文档 | ❌ | AzureBlobStorageFileLoader |
| Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
| 谷歌云存储目录 | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
| 谷歌云存储文件 | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
| 谷歌云端硬盘 | 从 Google 云端硬盘加载文档(仅限 Google 文档) | ✅ | GoogleDriveLoader |
| 华为 OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
| 华为 OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
| 微软 OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
| 微软 SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
| 腾讯 COS 目录 | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
| 腾讯 COS 文件 | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
| 文档加载器 | API 参考 |
|---|---|
| TwitterTweetLoader | |
| RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
| 文档加载器 | API 参考 |
|---|---|
| Telegram | TelegramChatFileLoader |
| WhatsAppChatLoader | |
| Discord | DiscordChatLoader |
| Facebook 聊天 | FacebookChatLoader |
| Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用生产力工具加载数据。
| 文档加载器 | API 参考 |
|---|---|
| Figma | FigmaFileLoader |
| Notion | NotionDirectoryLoader |
| Slack | SlackDirectoryLoader |
| Quip | QuipLoader |
| Trello | TrelloLoader |
| Roam | RoamLoader |
| GitHub | GithubFileLoader |
常见文件类型
以下文档加载器允许您从常见数据格式加载数据。
| 文档加载器 | 数据类型 |
|---|---|
| CSVLoader | CSV 文件 |
| DirectoryLoader | 给定目录中的所有文件 |
| Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
| JSONLoader | JSON 文件 |
| BSHTMLLoader | HTML 文件 |
| DoclingLoader | 各种文件类型(参见 https://ds4sd.github.io/docling/) |
所有文档加载器
| 名称 | 描述 |
|---|---|
| acreom | acreom 是一个开发者优先的知识库,任务在本地 mark... 上运行 |
| AgentQLLoader | AgentQL 的文档加载器提供了从 an... 结构化数据提取 |
| AirbyteLoader | Airbyte 是一个数据集成平台,用于从 API、d... 的 ELT 管道 |
| Airtable | * 在此处获取您的 API 密钥。 |
| 阿里云 MaxCompute | 阿里云 MaxCompute(前身为 ODPS)是一个通用目的... |
| 亚马逊 Textract | Amazon Textract 是一种机器学习 (ML) 服务,可自动... |
| Apify 数据集 | Apify 数据集是一个可扩展的只追加存储,具有顺序访问... |
| ArcGIS | 此 notebook 演示了 langchaincommunity.document... 的用法 |
| ArxivLoader | arXiv 是一个开放获取的档案库,包含 200 万篇学术文章,涉及 t... |
| AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许转录音频文件... |
| AstraDB | DataStax Astra DB 是一个无服务器的 |
| 异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个库... |
| 异步 HTML | AsyncHtmlLoader 并发地从 URL 列表加载原始 HTML。 |
| Athena | Amazon Athena 是一个无服务器、交互式分析服务 |
| AWS S3 目录 | Amazon 简单存储服务 (Amazon S3) 是一种对象存储服务 |
| AWS S3 文件 | Amazon 简单存储服务 (Amazon S3) 是一种对象存储服务... |
| AZLyrics | AZLyrics 是一个大型、合法、每天都在增长的歌词集合。 |
| Azure AI 数据 | Azure AI Studio 提供了将数据资产上传到云端的能力... |
| Azure Blob 存储容器 | Azure Blob 存储是微软为云端提供的数据存储解决方案... |
| Azure Blob 存储文件 | Azure 文件提供云中完全托管的文件共享,可访问... |
| Azure AI 文档智能 | Azure AI 文档智能(前身为 Azure 表单识别器...) |
| BibTeX | BibTeX 是一种常用的文件格式和参考管理系统... |
| 哔哩哔哩 | Bilibili 是中国最受欢迎的长视频网站之一。 |
| Blackboard | Blackboard Learn(以前是 Blackboard 学习管理系统...) |
| 区块链 | 此 notebook 的目的是提供一种测试功能的方法... |
| Box | langchain-box 包提供了两种索引文件的方法... |
| Brave 搜索 | Brave Search 是由 Brave Software 开发的搜索引擎。 |
| Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控... |
| Browserless | Browserless 是一项服务,允许您运行无头 Chrome 实例... |
| BSHTMLLoader | 此 notebook 提供了使用 Beau... 入门的快速概述 |
| Cassandra | Cassandra 是一个 NoSQL、面向行、高度可扩展且高度可用... |
| ChatGPT 数据 | ChatGPT 是由 OpenA... 开发的人工智能 (AI) 聊天机器人 |
| College Confidential | College Confidential 提供 3,800 多所学院和大学的信息... |
| 并发加载器 | 功能与 GenericLoader 相同,但对于选择... 的人来说是并发的 |
| Confluence | Confluence 是一个 wiki 协作平台,旨在保存和组织... |
| CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版。注释以 enc... 格式编码 |
| 复制粘贴 | 此 notebook 介绍了如何从您... 加载文档对象 |
| Couchbase | Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,它 d... |
| CSV | 逗号分隔值 (CSV) 文件是一种使用... 的分隔文本文件 |
| Cube 语义层 | 此 notebook 演示了检索 Cube 数据模式的过程... |
| Datadog Logs | Datadog 是一个用于云规模应用程序的监控和分析平台... |
| Dedoc | 此示例演示了 Dedoc 与 LangCha... 结合使用 |
| Diffbot | Diffbot 是一套基于 ML 的产品,可轻松结构化... |
| Discord | Discord 是一个 VoIP 和即时消息社交平台。用户可以... |
| Docling | Docling 将 PDF、DOCX、PPTX、HTML 和其他格式解析为富文本... |
| Docugami | 此 notebook 介绍了如何从 Docugami 加载文档。它提供了... |
| Docusaurus | Docusaurus 是一个静态网站生成器,提供开箱即用... |
| Dropbox | Dropbox 是一种文件托管服务,可将所有传统文件... |
| DuckDB | DuckDB 是一个进程内 SQL OLAP 数据库管理系统。 |
| 电子邮件 | 此 notebook 展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m...) 文件 |
| EPub | EPUB 是一种使用 ".epub" 文件扩展名的电子书文件格式。T... |
| Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析... |
| EverNote | EverNote 用于归档和创建包含照片的笔记... |
| example_data | |
| Facebook 聊天 | Messenger) 是一个美国专有即时消息应用程序和平台... |
| Fauna | Fauna 是一个文档数据库。 |
| Figma | Figma 是一个用于界面设计的协作式 Web 应用程序。 |
| FireCrawl | FireCrawl 抓取并将任何网站转换为 LLM 可用的数据。它抓取... |
| Geopandas | Geopandas 是一个开源项目,旨在简化地理空间数据处理... |
| Git | Git 是一个分布式版本控制系统,用于跟踪 an... 中的更改 |
| GitBook | GitBook 是一个现代文档平台,团队可以在其中记录 e... |
| GitHub | 此 notebook 展示了如何加载问题和拉取请求 (PRs)... |
| Glue Catalog | AWS Glue Data Catalog 是一个集中的元数据存储库,它 a... |
| 谷歌 AlloyDB for PostgreSQL | AlloyDB 是一个完全托管的关系数据库服务,提供高... |
| 谷歌 BigQuery | Google BigQuery 是一个无服务器且经济高效的企业数据仓库... |
| 谷歌 Bigtable | Bigtable 是一个键值和宽列存储,非常适合快速访问... |
| 谷歌云 SQL for SQL server | Cloud SQL 是一个完全托管的关系数据库服务,提供... |
| 谷歌云 SQL for MySQL | Cloud SQL 是一个完全托管的关系数据库服务,提供... |
| 谷歌云 SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一个完全托管的数据库服务,帮助... |
| 谷歌云存储目录 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
| 谷歌云存储文件 | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
| 谷歌 Firestore(Datastore 模式) | 数据存储模式下的 Firestore 是一个为 au... 构建的 NoSQL 文档数据库 |
| 谷歌云端硬盘 | Google 云端硬盘是由... 开发的文件存储和同步服务 |
| 谷歌 El Carro for Oracle Workloads | Google El Carro Oracle 运算符 |
| 谷歌 Firestore(原生模式) | Firestore 是一个无服务器的面向文档的数据库,可扩展到 m... |
| 谷歌 Memorystore for Redis | Google Memorystore for Redis 是一个完全托管的服务,由 power... 提供支持 |
| 谷歌 Spanner | Spanner 是一个高度可扩展的数据库,结合了无限的可扩展性... |
| 谷歌语音转文本音频转录 | SpeechToTextLoader 允许使用 Goog... 转录音频文件 |
| Grobid | GROBID 是一个机器学习库,用于提取、解析和重新... |
| Gutenberg | 古腾堡计划是一个免费电子书在线图书馆。 |
| Hacker News | Hacker News(有时缩写为 HN)是一个社交新闻网站,用于... |
| 华为 OBS 目录 | 以下代码演示了如何从华为 O... 加载对象 |
| 华为 OBS 文件 | 以下代码演示了如何从华为... 加载对象 |
| HuggingFace 数据集 | Hugging Face Hub 拥有 100 多个... 中的 5,000 多个数据集 |
| HyperbrowserLoader | Hyperbrowser 是一个用于运行和扩展无头浏览器的平台... |
| iFixit | iFixit 是网络上最大的开放维修社区。该网站包含... |
| 图像 | 这介绍了如何将图像加载到我们可以使用的文档格式中... |
| 图像字幕 | 默认情况下,加载器利用预训练的 Salesforce BLIP 图像... |
| IMSDb | IMSDb 是互联网电影剧本数据库。 |
| Iugu | Iugu 是一家巴西服务和软件即服务 (SaaS) 公司... |
| Joplin | Joplin 是一个开源笔记应用程序。捕捉您的想法和 s... |
| JSONLoader | 此 notebook 提供了使用 JSON... 入门的快速概述 |
| Jupyter Notebook | Jupyter Notebook(前身为 IPython Notebook)是一个基于 Web 的交互式... |
| Kinetica | 此 notebook 介绍了如何从 Kinetica 加载文档 |
| lakeFS | lakeFS 提供数据湖的可扩展版本控制,并使用... |
| LangSmith | 此 notebook 提供了使用... 入门的快速概述 |
| LarkSuite (飞书) | LarkSuite 是 ByteDa... 开发的企业协作平台 |
| LLM Sherpa | 此 notebook 介绍了如何使用 LLM Sherpa 加载多种类型的文件... |
| Mastodon | Mastodon 是一个联邦式社交媒体和社交网络服务。 |
| MathPixPDFLoader | 灵感来自 Daniel Gross 的代码片段 here//gist.github.com/danielgross/... |
| MediaWiki Dump | MediaWiki XML 转储包含 wiki 的内容(包含 al... 的 wiki 页面) |
| 合并文档加载器 | 合并一组指定数据加载器返回的文档。 |
| mhtml | MHTML 既用于电子邮件也用于归档网页。MH... |
| 微软 Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th... |
| 微软 OneDrive | Microsoft OneDrive(前身为 SkyDrive)是 oper... 的文件托管服务 |
| 微软 OneNote | 此 notebook 介绍了如何从 OneNote 加载文档。 |
| 微软 PowerPoint | Microsoft PowerPoint 是微软开发的演示程序。 |
| 微软 SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,它使用... |
| 微软 Word | Microsoft Word 是微软开发的文字处理器。 |
| Near 区块链 | 此 notebook 的目的是提供一种测试功能的方法... |
| Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的... |
| MongoDB | MongoDB 是一个 NoSQL、面向文档的数据库,支持 JSON-li... |
| Needle 文档加载器 | Needle 使您能够以最少的努力轻松创建 RAG 管道。 |
| 新闻 URL | 这介绍了如何将 HTML 新闻文章从 URL 列表加载到 a... 中 |
| Notion DB 2/2 | Notion 是一个协作平台,支持修改后的 Markdown,它... |
| Nuclia | Nuclia 自动索引您来自任何内部... 的非结构化数据 |
| Obsidian | Obsidian 是一个强大且可扩展的知识库 |
| 开放文档格式 (ODT) | Office 应用程序开放文档格式 (ODF),也称为... |
| 开放城市数据 | Socrata 提供城市开放数据的 API。 |
| Oracle 自治数据库 | Oracle 自治数据库是一个使用机器学习... 的云数据库 |
| Oracle AI 向量搜索:文档处理 | Oracle AI Vector Search 专为人工智能(AI)设计... |
| Org-mode | Org Mode 文档是一种文档编辑、格式化和组织... |
| Outline 文档加载器 | Outline 是一个开源协作知识库平台,旨在... |
| Pandas DataFrame | 此 notebook 介绍了如何从 pandas DataFrame 加载数据。 |
| 解析器 | |
| PDFMinerLoader | 此 notebook 提供了使用 PDFM... 入门的快速概述 |
| PDFPlumber | 与 PyMuPDF 类似,输出文档包含有关 th... 的详细元数据 |
| Pebblo 安全文档加载器 | Pebblo 使开发人员能够安全地加载数据并推广其 Gen A... |
| Polars DataFrame | 此 notebook 介绍了如何从 polars DataFrame 加载数据。 |
| 戴尔 PowerScale 文档加载器 | Dell PowerScale 是一个企业级横向扩展存储系统,可托管... |
| Psychic | 此 notebook 介绍了如何从 Psychic 加载文档。请参阅这里了解... |
| PubMed | PubMed®,由美国国家生物技术信息中心,国家... |
| PullMdLoader | 使用 pull.md 服务将 URL 转换为 Markdown 的加载器。 |
| PyMuPDFLoader | 此 notebook 提供了使用 PyMu... 入门的快速概述 |
| PyMuPDF4LLM | 此 notebook 提供了使用 PyMu... 入门的快速概述 |
| PyPDFDirectoryLoader | 此加载器从指定目录加载所有 PDF 文件。 |
| PyPDFium2Loader | 此 notebook 提供了使用 PyPD... 入门的快速概述 |
| PyPDFLoader | 此 notebook 提供了使用 PyPD... 入门的快速概述 |
| PySpark | 此 notebook 介绍了如何从 PySpark DataFrame 加载数据。 |
| Quip | Quip 是一款用于移动和 We... 的协作生产力软件套件 |
| ReadTheDocs 文档 | Read the Docs 是一个开源免费软件文档托管... |
| 递归 URL | RecursiveUrlLoader 允许您递归抓取 fr... 的所有子链接 |
| Reddit 是一个美国社交新闻聚合、内容评级和 di... 平台 | |
| Roam | ROAM 是一款用于网络化思维的笔记工具,旨在创建... |
| Rockset | ⚠️ 弃用通知:Rockset 集成已禁用 |
| rspace | 此 notebook 展示了如何使用 RSpace 文档加载器导入 r... |
| RSS 源 | 这介绍了如何将 HTML 新闻文章从 RSS 订阅 URL 列表加载到... |
| RST | reStructured Text (RST) 文件是一种用于文本数据的格式,它用于... |
| scrapfly | ScrapFly 是一个带有无头浏览器功能的网络抓取 API,它 pr... |
| ScrapingAnt | ScrapingAnt 是一个带有无头浏览器功能的网络抓取 API,它... |
| SingleStore | SingleStoreLoader 允许您直接从 Si... 加载文档 |
| 站点地图 | SitemapLoader 扩展自 WebBaseLoader,它从 a... 加载站点地图 |
| Slack | Slack 是一个即时消息程序。 |
| Snowflake | 此 notebook 介绍了如何从 Snowflake 加载文档 |
| 源代码 | 此 notebook 介绍了如何使用特殊 ap... 加载源代码文件 |
| Spider | Spider 是最快、最实惠的爬虫和抓取工具,它 re... |
| Spreedly | Spreedly 是一项服务,允许您安全地存储信用卡... |
| Stripe | Stripe 是一家爱尔兰裔美国金融服务和软件即服务公司... |
| 字幕 | SubRip 文件格式在 Matroska 多媒体 contai... 上有描述 |
| SurrealDB | SurrealDB 是一个端到端的云原生数据库,专为现代... |
| Telegram | Telegram Messenger 是一个全球可访问的免费增值、跨平台... |
| 腾讯 COS 目录 | 腾讯云对象存储 (COS) 是一种分布式 |
| 腾讯 COS 文件 | 腾讯云对象存储 (COS) 是一种分布式 |
| TensorFlow 数据集 | TensorFlow Datasets 是一个可用的数据集集合,其中包含 Te... |
| TiDB | TiDB Cloud 是一个全面的数据库即服务 (DBaaS) 解决方案... |
| 2Markdown | 2markdown 服务将网站内容转换为结构化 markdown... |
| TOML | TOML 是一种配置文件格式。它旨在 e... |
| Trello | Trello 是一个基于 Web 的项目管理和协作工具,它... |
| TSV | 制表符分隔值 (TSV) 文件是一种简单的基于文本的文件格式... |
| Twitter 是一个在线社交媒体和社交网络服务。 | |
| Unstructured | 此 notebook 介绍了如何使用 Unstructured 文档加载器加载... |
| UnstructuredMarkdownLoader | 此 notebook 提供了使用 Unst... 入门的快速概述 |
| UnstructuredPDFLoader | Unstructured 支持一个通用接口,用于处理 unstructure... |
| Upstage | 此 notebook 介绍了如何开始使用 UpstageDocumentParseLoad... |
| URL | 此示例介绍了如何将 HTML 文档从 URL 列表加载到 in... |
| Vsdx | Visio 文件(扩展名为 .vsdx)与 Microsoft Visi... 相关联 |
| 天气 | OpenWeatherMap 是一个开源天气服务提供商 |
| WebBaseLoader | 这介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本... |
| WhatsApp 聊天 | WhatsApp(也称为 WhatsApp Messenger)是一个免费软件、跨平台... |
| 维基百科 | 维基百科是一个多语言的免费在线百科全书,由... |
| UnstructuredXMLLoader | 此 notebook 提供了使用 Unst... 入门的快速概述 |
| Xorbits Pandas DataFrame | 此 notebook 介绍了如何从 xorbits.pandas DataFr... 加载数据 |
| YouTube 音频 | 在 YouTube 视频上构建聊天或问答应用程序是一个高度... |
| YouTube 字幕 | YouTube 是一个在线视频分享和社交媒体平台,由... 创建 |
| YoutubeLoaderDL | 利用 yt-dlp 库的 YouTube 加载器。 |
| 语雀 | 语雀是一个专业的云端知识库,用于团队协作... |
| ZeroxPDFLoader | ZeroxPDFLoader 是一个利用 Zerox 库的文档加载器... |