文档加载器
DocumentLoaders 将数据加载到标准 LangChain 文档格式中。
每个 DocumentLoader 都有自己的特定参数,但它们都可以通过相同的方式使用 .load 方法调用。一个示例用例如下
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader
网页
以下文档加载器允许您加载网页。
有关起点的指南,请参阅:如何:加载网页。
文档加载器 | 描述 | 包/API |
---|---|---|
网页 | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
非结构化 | 使用 Unstructured 加载和解析网页 | 包 |
RecursiveURL | 递归地从根 URL 刮取所有子链接 | 包 |
Sitemap | 刮取给定站点地图上的所有页面 | 包 |
Firecrawl | 可以本地部署的 API 服务,托管版本提供免费积分。 | API |
PDF
以下文档加载器允许您加载 PDF 文档。
有关起点的指南,请参阅:如何:加载 PDF 文件。
文档加载器 | 描述 | 包/API |
---|---|---|
PyPDF | 使用 `pypdf` 加载和解析 PDF | 包 |
非结构化 | 使用 Unstructured 的开源库加载 PDF | 包 |
Amazon Textract | 使用 AWS API 加载 PDF | API |
MathPix | 使用 MathPix 加载 PDF | 包 |
PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
云提供商
以下文档加载器允许您从您最喜欢的云提供商加载文档。
文档加载器 | 描述 | 合作伙伴包 | API 参考 |
---|---|---|---|
AWS S3 目录 | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
AWS S3 文件 | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
Azure AI 数据 | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
Azure Blob 存储容器 | 从 Azure Blob 存储容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob 存储文件 | 从 Azure Blob 存储文件加载文档 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
Google Cloud Storage 目录 | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
Google Cloud Storage 文件 | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
Google Drive | 从 Google Drive(仅限 Google Docs)加载文档 | ✅ | GoogleDriveLoader |
华为 OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
华为 OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
腾讯 COS 目录 | 从腾讯云对象存储服务目录加载文档 | ❌ | TencentCOSDirectoryLoader |
腾讯 COS 文件 | 从腾讯云对象存储服务文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
文档加载器 | API 参考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
文档加载器 | API 参考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook 聊天 | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用的生产力工具加载数据。
文档加载器 | API 参考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常见文件类型
以下文档加载器允许您从常见数据格式加载数据。
文档加载器 | 数据类型 |
---|---|
CSVLoader | CSV 文件 |
DirectoryLoader | 给定目录中的所有文件 |
非结构化 | 许多文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 文件 |
BSHTMLLoader | HTML 文件 |
所有文档加载器
名称 | 描述 |
---|---|
acreom | acreom 是一个面向开发人员的知识库,其中任务在本地标记上运行... |
AirbyteLoader | Airbyte 是一个数据集成平台,用于从 API、d 中构建 ELT 管道... |
Airtable | * 在此处获取您的 API 密钥。 |
阿里云 MaxCompute | 阿里云 MaxCompute(以前称为 ODPS)是一种通用的... |
Amazon Textract | Amazon Textract 是一种机器学习 (ML) 服务,可自动... |
Apify 数据集 | Apify Dataset 是一种可扩展的追加式存储,具有顺序访问... |
ArcGIS | 此笔记本演示了 langchaincommunity.document 的使用... |
ArxivLoader | arXiv 是一个开放获取的档案库,包含 200 万篇在 t 中的学术文章... |
AssemblyAI 音频转录 | AssemblyAIAudioTranscriptLoader 允许转录音频文件... |
AstraDB | DataStax Astra DB 是一个基于 Ca 构建的无服务器向量数据库... |
异步 Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个库,用于... |
异步 HTML | AsyncHtmlLoader 并发地从 URL 列表加载原始 HTML。 |
Athena | Amazon Athena 是一种无服务器、交互式分析服务,构建于 |
AWS S3 目录 | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务 |
AWS S3 文件 | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务... |
AZLyrics | AZLyrics 是一个庞大、合法且不断增长的歌词集。 |
Azure AI 数据 | Azure AI Studio 提供将数据资产上传到云的能力... |
Azure Blob 存储容器 | Azure Blob 存储是 Microsoft 用于云的对象存储解决方案... |
Azure Blob 存储文件 | Azure Files 在云中提供完全托管的文件共享,这些共享可以访问... |
Azure AI 文档智能 | Azure AI 文档智能(以前称为 Azure 表单识别)... |
BibTeX | BibTeX 是一种文件格式和参考文献管理系统,通常用于... |
哔哩哔哩 | 哔哩哔哩是中国最受欢迎的长视频网站之一。 |
Blackboard | Blackboard Learn(以前称为 Blackboard 学习管理系统)... |
区块链 | 概述 |
Box | 此笔记本提供了使用 Box 入门的快速概述... |
Brave 搜索 | Brave Search 是由 Brave Software 开发的搜索引擎。 |
Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控... |
Browserless | Browserless 是一种服务,允许您在 headless Chrome 中运行... |
BSHTMLLoader | 此笔记本提供了使用 Beau 入门的快速概述... |
Cassandra | Cassandra 是一个 NoSQL、面向行、高度可扩展且高度可用的... |
ChatGPT 数据 | ChatGPT 是由 OpenA 开发的人工智能 (AI) 聊天机器人... |
大学密谈 | College Confidential 提供有关 3,800 多所学院和大学的信息... |
并发加载器 | 就像 GenericLoader 一样工作,但对于那些选择的人来说是并发的... |
Confluence | Confluence 是一个维基协作平台,用于保存和组织... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版。注释是... |
复制粘贴 | 此笔记本介绍了如何从您加载文档对象... |
Couchbase | Couchbase 是一种屡获殊荣的分布式 NoSQL 云数据库,它 d... |
CSV | 逗号分隔值 (CSV) 文件是一种分隔文本文件,使用... |
Cube 语义层 | 此笔记本演示了检索 Cube 数据模式的过程... |
Datadog 日志 | Datadog 是一个用于云规模应用程序的监控和分析平台... |
Dedoc | 此示例演示了 Dedoc 与 LangCha 的组合使用... |
Diffbot | Diffbot 是一套基于 ML 的产品,可以轻松地将结构... |
Discord | Discord 是一款 VoIP 和即时通讯社交平台。用户拥有 t... |
Docugami | 此笔记本介绍了如何从 Docugami 加载文档。它提供... |
Docusaurus | Docusaurus 是一个静态站点生成器,它提供了开箱即用的 d... |
Dropbox | Dropbox 是一种文件托管服务,它将所有传统的内容整合在一起... |
DuckDB | DuckDB 是一种进程内 SQL OLAP 数据库管理系统。 |
电子邮件 | 此笔记本展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m)... |
EPub | EPUB 是一种电子书文件格式,使用“.epub”文件扩展名。T... |
Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析... |
EverNote | EverNote 用于存档和创建包含照片的笔记... |
example_data | |
Facebook 聊天 | Messenger) 是一个美国专有的即时通讯应用程序和平台... |
Fauna | Fauna 是一个文档数据库。 |
Figma | Figma 是一种用于界面设计的协作式 Web 应用程序。 |
FireCrawl | FireCrawl 抓取并转换任何网站为 LLM 就绪数据。它抓取... |
Geopandas | Geopandas 是一个开源项目,用于处理地理空间 d... |
Git | Git 是一个分布式版本控制系统,用于跟踪 a 中的更改... |
GitBook | GitBook 是一个现代的文档平台,团队可以在其中记录 e... |
GitHub | 此笔记本展示了如何加载问题和拉取请求 (PR)... |
Glue 目录 | AWS Glue 数据目录是一个集中式元数据存储库,用于 a... |
Google AlloyDB for PostgreSQL | AlloyDB 是一种完全托管的关系型数据库服务,提供高... |
Google BigQuery | Google BigQuery 是一种无服务器且经济高效的企业数据 wa... |
Google Bigtable | Bigtable 是一种键值和宽列存储,非常适合快速访问... |
Google Cloud SQL for SQL server | Cloud SQL 是一种完全托管的关系型数据库服务,提供... |
Google Cloud SQL for MySQL | Cloud SQL 是一种完全托管的关系型数据库服务,提供... |
Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一种完全托管的数据库服务,帮助... |
Google Cloud Storage 目录 | Google Cloud Storage 是一种用于存储非结构化数据的托管服务... |
Google Cloud Storage 文件 | Google Cloud Storage 是一种用于存储非结构化数据的托管服务... |
Google Firestore 在 Datastore 模式下 | Firestore 在 Datastore 模式下是一种 NoSQL 文档数据库,专为自动... |
Google Drive | Google Drive 是一款由 Google 开发的文件存储和同步服务... |
Google El Carro for Oracle Workloads | Google El Carro Oracle 运算符 |
Google Firestore (原生模式) | Firestore 是一种无服务器的文档型数据库,可以扩展到... |
Google Memorystore for Redis | Google Memorystore for Redis 是一种完全托管的服务,它支持... |
Google Spanner | Spanner 是一种高度可扩展的数据库,它将无限可扩展性... |
Google 语音到文本音频转录 | SpeechToTextLoader 允许使用 Google... |
Grobid | GROBID 是一个机器学习库,用于提取、解析和重新... |
Gutenberg | Project Gutenberg 是一个免费电子书的在线图书馆。 |
Hacker News | Hacker News(有时缩写为 HN)是一个面向... |
华为 OBS 目录 | 以下代码演示了如何从华为 O... |
华为 OBS 文件 | 以下代码演示了如何从华为... |
HuggingFace 数据集 | Hugging Face Hub 是超过 5000 个数据集的家园,这些数据集来自超过 100... |
iFixit | iFixit 是网络上最大的开放式维修社区。该网站包含... |
图像 | 本文介绍了如何将图像加载到我们可以使用的文档格式中... |
图像字幕 | 默认情况下,加载器使用预先训练的 Salesforce BLIP 图像... |
IMSDb | IMSDb 是互联网电影脚本数据库。 |
Iugu | Iugu 是一家巴西的服务和软件即服务 (SaaS) 公司... |
Joplin | Joplin 是一款开源笔记应用程序。捕获您的想法和... |
JSONLoader | 此笔记本提供了有关如何开始使用 JSON 的快速概述... |
Jupyter Notebook | Jupyter Notebook(以前称为 IPython Notebook)是一个基于 Web 的交互式... |
Kinetica | 此笔记本介绍了如何从 Kinetica 加载文档 |
lakeFS | lakeFS 为数据湖提供可扩展的版本控制,并使用... |
LangSmith | 此笔记本提供了有关如何开始使用 ... 的快速概述。 |
LarkSuite (飞书) | LarkSuite 是由字节跳动开发的企业协作平台。 |
LLM Sherpa | 此笔记本介绍了如何使用 LLM Sherpa 加载各种类型的文件... |
Mastodon | Mastodon 是一种联邦社交媒体和社交网络服务。 |
MathPixPDFLoader | 受 Daniel Gross 的代码段的启发 here//gist.github.com/danielgross/... |
MediaWiki 转储 | MediaWiki XML 转储包含维基的内容(带有所有... |
合并文档加载器 | 合并从一组指定数据加载器返回的文档。 |
mhtml | MHTML 用于电子邮件,也用于存档网页。MH... |
Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th... |
Microsoft OneDrive | Microsoft OneDrive(以前称为 SkyDrive)是微软运营的文件托管服务... |
Microsoft OneNote | 此笔记本介绍了如何从 OneNote 加载文档。 |
Microsoft PowerPoint | Microsoft PowerPoint 是微软的演示程序。 |
Microsoft SharePoint | Microsoft SharePoint 是一种基于网站的协作系统,它使用... |
Microsoft Word | Microsoft Word 是微软开发的文字处理器。 |
Near 区块链 | 概述 |
Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的... |
MongoDB | MongoDB 是一种 NoSQL、面向文档的数据库,支持 JSON... |
新闻 URL | 本文介绍了如何将来自 URL 列表的 HTML 新闻文章加载到... |
Notion DB 2/2 | Notion 是一个协作平台,它具有修改后的 Markdown 支持,可以... |
Nuclia | Nuclia 自动索引来自任何内部的非结构化数据... |
Obsidian | Obsidian 是一款功能强大且可扩展的知识库 |
Open Document Format (ODT) | Open Document Format for Office Applications (ODF),也称为... |
开放城市数据 | Socrata 提供了城市开放数据的 API。 |
Oracle 自治数据库 | Oracle 自治数据库是一种云数据库,它使用机器学习... |
Oracle AI 向量搜索:文档处理 | Oracle AI 矢量搜索专为人工智能 (AI) 而设计... |
Org-mode | Org Mode 文档是一个文档编辑、格式化和组织... |
Pandas DataFrame | 此笔记本介绍了如何从 pandas DataFrame 加载数据。 |
PDFMiner | 概述 |
PDFPlumber | 与 PyMuPDF 一样,输出文档包含有关... 的详细元数据。 |
Pebblo 安全 DocumentLoader | Pebblo 使开发人员能够安全地加载数据并推广他们的 Gen A... |
Polars DataFrame | 此笔记本介绍了如何从 polars DataFrame 加载数据。 |
Psychic | 此笔记本介绍了如何从 Psychic 加载文档。有关... 的信息,请参见此处。 |
PubMed | PubMed® 由美国国家生物技术信息中心,美国国家... |
PyMuPDF | PyMuPDF 针对速度进行了优化,并包含有关... 的详细元数据。 |
PyPDFDirectoryLoader | 此加载器将加载特定目录中的所有 PDF 文件。 |
PyPDFium2Loader | 此笔记本提供了有关如何开始使用 PyPD ... 的快速概述。 |
PyPDFLoader | 此笔记本提供了有关如何开始使用 PyPD ... 的快速概述。 |
PySpark | 此笔记本介绍了如何从 PySpark DataFrame 加载数据。 |
Quip | Quip 是一款适用于移动设备和 Web 的协作生产力软件套件。 |
ReadTheDocs 文档 | Read the Docs 是一个开源的免费软件文档托管... |
递归 URL | RecursiveUrlLoader 允许您递归地抓取所有子链接 fr... |
Reddit 是一家美国社交新闻聚合、内容评分和... | |
Roam | ROAM 是一种用于网络化思考的笔记工具,旨在创建... |
Rockset | Rockset 是一种实时分析数据库,它允许对 ma... |
rspace | 此笔记本展示了如何使用 RSpace 文档加载器导入 r... |
RSS 订阅 | 本文介绍了如何从 RSS 提要 URL 列表加载 HTML 新闻文章。 |
RST | reStructured Text (RST) 文件是用于文本数据的文件格式,用于... |
scrapfly | ScrapFly |
ScrapingAnt | 概述 |
Sitemap | 从 WebBaseLoader 扩展,SitemapLoader 从... 加载站点地图。 |
Slack | Slack 是一款即时通讯程序。 |
Snowflake | 此笔记本介绍了如何从 Snowflake 加载文档 |
源代码 | 此笔记本介绍了如何使用专用应用程序加载源代码文件... |
Spider | Spider 是最快、最实惠的爬虫和抓取工具,它重新... |
Spreedly | Spreedly 是一种服务,允许您安全地存储信用卡... |
Stripe | Stripe 是一家爱尔兰裔美国金融服务和软件即服务公司... |
字幕 | SubRip 文件格式在 Matroska 多媒体容器上进行了描述... |
SurrealDB | SurrealDB 是一种端到端的云原生数据库,专为现代... 设计。 |
Telegram | Telegram Messenger 是一款全球通用的免费增值、跨平台... |
腾讯 COS 目录 | 腾讯云对象存储 (COS) 是一种分布式 |
腾讯 COS 文件 | 腾讯云对象存储 (COS) 是一种分布式 |
TensorFlow 数据集 | TensorFlow Datasets 是一组可以使用的数据集,这些数据集具有 Te... |
TiDB | TiDB Cloud 是一种全面的数据库即服务 (DBaaS) 解决方案... |
2Markdown | 2markdown 服务将网站内容转换为结构化的 markdown... |
TOML | TOML 是一种配置文件格式。它旨在... |
Trello | Trello 是一款基于 Web 的项目管理和协作工具,它... |
TSV | 制表符分隔值 (TSV) 文件是一种简单、基于文本的文件格式... |
Twitter 是一种在线社交媒体和社交网络服务。 | |
非结构化 | 此笔记本介绍了如何使用非结构化文档加载器加载... |
非结构化 Markdown 加载器 | 此笔记本提供了有关如何开始使用 Unst ... 的快速概述。 |
非结构化 PDF 加载器 | 概述 |
Upstage | 此笔记本介绍了如何开始使用 UpstageDocumentParseLoad ... |
URL | 此示例介绍了如何从 URL 列表加载 HTML 文档,以... |
Vsdx | visio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关联... |
天气 | OpenWeatherMap 是一款开源天气服务提供商 |
WebBaseLoader | 本文介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本... |
WhatsApp 聊天 | WhatsApp(也称为 WhatsApp Messenger)是一款免费软件、跨平台... |
维基百科 | 维基百科是一个由用户编写和维护的多语言免费在线百科全书。 |
非结构化 XML 加载器 | 此笔记本提供了有关如何开始使用 Unst ... 的快速概述。 |
Xorbits Pandas DataFrame | 此笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。 |
YouTube 音频 | 在 YouTube 视频上构建聊天或问答应用程序是一个热门话题... |
YouTube 转录 | YouTube 是一个在线视频分享和社交媒体平台,由... 创建。 |
语雀 | 语雀是一个面向团队协作的专业云端知识库。 |