跳过到主要内容

文档加载器

DocumentLoaders 将数据加载到标准 LangChain 文档格式中。

每个 DocumentLoader 都有自己的特定参数,但它们都可以通过相同的方式使用 .load 方法调用。一个示例用例如下

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 参考:CSVLoader

网页

以下文档加载器允许您加载网页。

有关起点的指南,请参阅:如何:加载网页

文档加载器描述包/API
网页使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
非结构化使用 Unstructured 加载和解析网页
RecursiveURL递归地从根 URL 刮取所有子链接
Sitemap刮取给定站点地图上的所有页面
Firecrawl可以本地部署的 API 服务,托管版本提供免费积分。API

PDF

以下文档加载器允许您加载 PDF 文档。

有关起点的指南,请参阅:如何:加载 PDF 文件

文档加载器描述包/API
PyPDF使用 `pypdf` 加载和解析 PDF
非结构化使用 Unstructured 的开源库加载 PDF
Amazon Textract使用 AWS API 加载 PDFAPI
MathPix使用 MathPix 加载 PDF
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PDFMiner使用 PDFMiner 加载 PDF 文件

云提供商

以下文档加载器允许您从您最喜欢的云提供商加载文档。

文档加载器描述合作伙伴包API 参考
AWS S3 目录从 AWS S3 目录加载文档S3DirectoryLoader
AWS S3 文件从 AWS S3 文件加载文档S3FileLoader
Azure AI 数据从 Azure AI 服务加载文档AzureAIDataLoader
Azure Blob 存储容器从 Azure Blob 存储容器加载文档AzureBlobStorageContainerLoader
Azure Blob 存储文件从 Azure Blob 存储文件加载文档AzureBlobStorageFileLoader
Dropbox从 Dropbox 加载文档DropboxLoader
Google Cloud Storage 目录从 GCS 存储桶加载文档GCSDirectoryLoader
Google Cloud Storage 文件从 GCS 文件对象加载文档GCSFileLoader
Google Drive从 Google Drive(仅限 Google Docs)加载文档GoogleDriveLoader
华为 OBS 目录从华为对象存储服务目录加载文档OBSDirectoryLoader
华为 OBS 文件从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从 Microsoft SharePoint 加载文档SharePointLoader
腾讯 COS 目录从腾讯云对象存储服务目录加载文档TencentCOSDirectoryLoader
腾讯 COS 文件从腾讯云对象存储服务文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

文档加载器API 参考
TwitterTwitterTweetLoader
RedditRedditPostsLoader

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

文档加载器API 参考
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook 聊天FacebookChatLoader
MastodonMastodonTootsLoader

生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

文档加载器API 参考
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常见文件类型

以下文档加载器允许您从常见数据格式加载数据。

文档加载器数据类型
CSVLoaderCSV 文件
DirectoryLoader给定目录中的所有文件
非结构化许多文件类型(参见 https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON 文件
BSHTMLLoaderHTML 文件

所有文档加载器

名称描述
acreomacreom 是一个面向开发人员的知识库,其中任务在本地标记上运行...
AirbyteLoaderAirbyte 是一个数据集成平台,用于从 API、d 中构建 ELT 管道...
Airtable* 在此处获取您的 API 密钥。
阿里云 MaxCompute阿里云 MaxCompute(以前称为 ODPS)是一种通用的...
Amazon TextractAmazon Textract 是一种机器学习 (ML) 服务,可自动...
Apify 数据集Apify Dataset 是一种可扩展的追加式存储,具有顺序访问...
ArcGIS此笔记本演示了 langchaincommunity.document 的使用...
ArxivLoaderarXiv 是一个开放获取的档案库,包含 200 万篇在 t 中的学术文章...
AssemblyAI 音频转录AssemblyAIAudioTranscriptLoader 允许转录音频文件...
AstraDBDataStax Astra DB 是一个基于 Ca 构建的无服务器向量数据库...
异步 ChromiumChromium 是 Playwright 支持的浏览器之一,Playwright 是一个库,用于...
异步 HTMLAsyncHtmlLoader 并发地从 URL 列表加载原始 HTML。
AthenaAmazon Athena 是一种无服务器、交互式分析服务,构建于
AWS S3 目录Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务
AWS S3 文件Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务...
AZLyricsAZLyrics 是一个庞大、合法且不断增长的歌词集。
Azure AI 数据Azure AI Studio 提供将数据资产上传到云的能力...
Azure Blob 存储容器Azure Blob 存储是 Microsoft 用于云的对象存储解决方案...
Azure Blob 存储文件Azure Files 在云中提供完全托管的文件共享,这些共享可以访问...
Azure AI 文档智能Azure AI 文档智能(以前称为 Azure 表单识别)...
BibTeXBibTeX 是一种文件格式和参考文献管理系统,通常用于...
哔哩哔哩哔哩哔哩是中国最受欢迎的长视频网站之一。
BlackboardBlackboard Learn(以前称为 Blackboard 学习管理系统)...
区块链概述
Box此笔记本提供了使用 Box 入门的快速概述...
Brave 搜索Brave Search 是由 Brave Software 开发的搜索引擎。
BrowserbaseBrowserbase 是一个开发者平台,用于可靠地运行、管理和监控...
BrowserlessBrowserless 是一种服务,允许您在 headless Chrome 中运行...
BSHTMLLoader此笔记本提供了使用 Beau 入门的快速概述...
CassandraCassandra 是一个 NoSQL、面向行、高度可扩展且高度可用的...
ChatGPT 数据ChatGPT 是由 OpenA 开发的人工智能 (AI) 聊天机器人...
大学密谈College Confidential 提供有关 3,800 多所学院和大学的信息...
并发加载器就像 GenericLoader 一样工作,但对于那些选择的人来说是并发的...
ConfluenceConfluence 是一个维基协作平台,用于保存和组织...
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修订版。注释是...
复制粘贴此笔记本介绍了如何从您加载文档对象...
CouchbaseCouchbase 是一种屡获殊荣的分布式 NoSQL 云数据库,它 d...
CSV逗号分隔值 (CSV) 文件是一种分隔文本文件,使用...
Cube 语义层此笔记本演示了检索 Cube 数据模式的过程...
Datadog 日志Datadog 是一个用于云规模应用程序的监控和分析平台...
Dedoc此示例演示了 Dedoc 与 LangCha 的组合使用...
DiffbotDiffbot 是一套基于 ML 的产品,可以轻松地将结构...
DiscordDiscord 是一款 VoIP 和即时通讯社交平台。用户拥有 t...
Docugami此笔记本介绍了如何从 Docugami 加载文档。它提供...
DocusaurusDocusaurus 是一个静态站点生成器,它提供了开箱即用的 d...
DropboxDropbox 是一种文件托管服务,它将所有传统的内容整合在一起...
DuckDBDuckDB 是一种进程内 SQL OLAP 数据库管理系统。
电子邮件此笔记本展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m)...
EPubEPUB 是一种电子书文件格式,使用“.epub”文件扩展名。T...
EtherscanEtherscan 是领先的区块链浏览器、搜索、API 和分析...
EverNoteEverNote 用于存档和创建包含照片的笔记...
example_data
Facebook 聊天Messenger) 是一个美国专有的即时通讯应用程序和平台...
FaunaFauna 是一个文档数据库。
FigmaFigma 是一种用于界面设计的协作式 Web 应用程序。
FireCrawlFireCrawl 抓取并转换任何网站为 LLM 就绪数据。它抓取...
GeopandasGeopandas 是一个开源项目,用于处理地理空间 d...
GitGit 是一个分布式版本控制系统,用于跟踪 a 中的更改...
GitBookGitBook 是一个现代的文档平台,团队可以在其中记录 e...
GitHub此笔记本展示了如何加载问题和拉取请求 (PR)...
Glue 目录AWS Glue 数据目录是一个集中式元数据存储库,用于 a...
Google AlloyDB for PostgreSQLAlloyDB 是一种完全托管的关系型数据库服务,提供高...
Google BigQueryGoogle BigQuery 是一种无服务器且经济高效的企业数据 wa...
Google BigtableBigtable 是一种键值和宽列存储,非常适合快速访问...
Google Cloud SQL for SQL serverCloud SQL 是一种完全托管的关系型数据库服务,提供...
Google Cloud SQL for MySQLCloud SQL 是一种完全托管的关系型数据库服务,提供...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一种完全托管的数据库服务,帮助...
Google Cloud Storage 目录Google Cloud Storage 是一种用于存储非结构化数据的托管服务...
Google Cloud Storage 文件Google Cloud Storage 是一种用于存储非结构化数据的托管服务...
Google Firestore 在 Datastore 模式下Firestore 在 Datastore 模式下是一种 NoSQL 文档数据库,专为自动...
Google DriveGoogle Drive 是一款由 Google 开发的文件存储和同步服务...
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle 运算符
Google Firestore (原生模式)Firestore 是一种无服务器的文档型数据库,可以扩展到...
Google Memorystore for RedisGoogle Memorystore for Redis 是一种完全托管的服务,它支持...
Google SpannerSpanner 是一种高度可扩展的数据库,它将无限可扩展性...
Google 语音到文本音频转录SpeechToTextLoader 允许使用 Google...
GrobidGROBID 是一个机器学习库,用于提取、解析和重新...
GutenbergProject Gutenberg 是一个免费电子书的在线图书馆。
Hacker NewsHacker News(有时缩写为 HN)是一个面向...
华为 OBS 目录以下代码演示了如何从华为 O...
华为 OBS 文件以下代码演示了如何从华为...
HuggingFace 数据集Hugging Face Hub 是超过 5000 个数据集的家园,这些数据集来自超过 100...
iFixitiFixit 是网络上最大的开放式维修社区。该网站包含...
图像本文介绍了如何将图像加载到我们可以使用的文档格式中...
图像字幕默认情况下,加载器使用预先训练的 Salesforce BLIP 图像...
IMSDbIMSDb 是互联网电影脚本数据库。
IuguIugu 是一家巴西的服务和软件即服务 (SaaS) 公司...
JoplinJoplin 是一款开源笔记应用程序。捕获您的想法和...
JSONLoader此笔记本提供了有关如何开始使用 JSON 的快速概述...
Jupyter NotebookJupyter Notebook(以前称为 IPython Notebook)是一个基于 Web 的交互式...
Kinetica此笔记本介绍了如何从 Kinetica 加载文档
lakeFSlakeFS 为数据湖提供可扩展的版本控制,并使用...
LangSmith此笔记本提供了有关如何开始使用 ... 的快速概述。
LarkSuite (飞书)LarkSuite 是由字节跳动开发的企业协作平台。
LLM Sherpa此笔记本介绍了如何使用 LLM Sherpa 加载各种类型的文件...
MastodonMastodon 是一种联邦社交媒体和社交网络服务。
MathPixPDFLoader受 Daniel Gross 的代码段的启发 here//gist.github.com/danielgross/...
MediaWiki 转储MediaWiki XML 转储包含维基的内容(带有所有...
合并文档加载器合并从一组指定数据加载器返回的文档。
mhtmlMHTML 用于电子邮件,也用于存档网页。MH...
Microsoft ExcelUnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th...
Microsoft OneDriveMicrosoft OneDrive(以前称为 SkyDrive)是微软运营的文件托管服务...
Microsoft OneNote此笔记本介绍了如何从 OneNote 加载文档。
Microsoft PowerPointMicrosoft PowerPoint 是微软的演示程序。
Microsoft SharePointMicrosoft SharePoint 是一种基于网站的协作系统,它使用...
Microsoft WordMicrosoft Word 是微软开发的文字处理器。
Near 区块链概述
Modern TreasuryModern Treasury 简化了复杂的支付操作。它是一个统一的...
MongoDBMongoDB 是一种 NoSQL、面向文档的数据库,支持 JSON...
新闻 URL本文介绍了如何将来自 URL 列表的 HTML 新闻文章加载到...
Notion DB 2/2Notion 是一个协作平台,它具有修改后的 Markdown 支持,可以...
NucliaNuclia 自动索引来自任何内部的非结构化数据...
ObsidianObsidian 是一款功能强大且可扩展的知识库
Open Document Format (ODT)Open Document Format for Office Applications (ODF),也称为...
开放城市数据Socrata 提供了城市开放数据的 API。
Oracle 自治数据库Oracle 自治数据库是一种云数据库,它使用机器学习...
Oracle AI 向量搜索:文档处理Oracle AI 矢量搜索专为人工智能 (AI) 而设计...
Org-modeOrg Mode 文档是一个文档编辑、格式化和组织...
Pandas DataFrame此笔记本介绍了如何从 pandas DataFrame 加载数据。
PDFMiner概述
PDFPlumber与 PyMuPDF 一样,输出文档包含有关... 的详细元数据。
Pebblo 安全 DocumentLoaderPebblo 使开发人员能够安全地加载数据并推广他们的 Gen A...
Polars DataFrame此笔记本介绍了如何从 polars DataFrame 加载数据。
Psychic此笔记本介绍了如何从 Psychic 加载文档。有关... 的信息,请参见此处。
PubMedPubMed® 由美国国家生物技术信息中心,美国国家...
PyMuPDFPyMuPDF 针对速度进行了优化,并包含有关... 的详细元数据。
PyPDFDirectoryLoader此加载器将加载特定目录中的所有 PDF 文件。
PyPDFium2Loader此笔记本提供了有关如何开始使用 PyPD ... 的快速概述。
PyPDFLoader此笔记本提供了有关如何开始使用 PyPD ... 的快速概述。
PySpark此笔记本介绍了如何从 PySpark DataFrame 加载数据。
QuipQuip 是一款适用于移动设备和 Web 的协作生产力软件套件。
ReadTheDocs 文档Read the Docs 是一个开源的免费软件文档托管...
递归 URLRecursiveUrlLoader 允许您递归地抓取所有子链接 fr...
RedditReddit 是一家美国社交新闻聚合、内容评分和...
RoamROAM 是一种用于网络化思考的笔记工具,旨在创建...
RocksetRockset 是一种实时分析数据库,它允许对 ma...
rspace此笔记本展示了如何使用 RSpace 文档加载器导入 r...
RSS 订阅本文介绍了如何从 RSS 提要 URL 列表加载 HTML 新闻文章。
RSTreStructured Text (RST) 文件是用于文本数据的文件格式,用于...
scrapflyScrapFly
ScrapingAnt概述
Sitemap从 WebBaseLoader 扩展,SitemapLoader 从... 加载站点地图。
SlackSlack 是一款即时通讯程序。
Snowflake此笔记本介绍了如何从 Snowflake 加载文档
源代码此笔记本介绍了如何使用专用应用程序加载源代码文件...
SpiderSpider 是最快、最实惠的爬虫和抓取工具,它重新...
SpreedlySpreedly 是一种服务,允许您安全地存储信用卡...
StripeStripe 是一家爱尔兰裔美国金融服务和软件即服务公司...
字幕SubRip 文件格式在 Matroska 多媒体容器上进行了描述...
SurrealDBSurrealDB 是一种端到端的云原生数据库,专为现代... 设计。
TelegramTelegram Messenger 是一款全球通用的免费增值、跨平台...
腾讯 COS 目录腾讯云对象存储 (COS) 是一种分布式
腾讯 COS 文件腾讯云对象存储 (COS) 是一种分布式
TensorFlow 数据集TensorFlow Datasets 是一组可以使用的数据集,这些数据集具有 Te...
TiDBTiDB Cloud 是一种全面的数据库即服务 (DBaaS) 解决方案...
2Markdown2markdown 服务将网站内容转换为结构化的 markdown...
TOMLTOML 是一种配置文件格式。它旨在...
TrelloTrello 是一款基于 Web 的项目管理和协作工具,它...
TSV制表符分隔值 (TSV) 文件是一种简单、基于文本的文件格式...
TwitterTwitter 是一种在线社交媒体和社交网络服务。
非结构化此笔记本介绍了如何使用非结构化文档加载器加载...
非结构化 Markdown 加载器此笔记本提供了有关如何开始使用 Unst ... 的快速概述。
非结构化 PDF 加载器概述
Upstage此笔记本介绍了如何开始使用 UpstageDocumentParseLoad ...
URL此示例介绍了如何从 URL 列表加载 HTML 文档,以...
Vsdxvisio 文件(扩展名为 .vsdx)与 Microsoft Visio 相关联...
天气OpenWeatherMap 是一款开源天气服务提供商
WebBaseLoader本文介绍了如何使用 WebBaseLoader 从 HTML 网页加载所有文本...
WhatsApp 聊天WhatsApp(也称为 WhatsApp Messenger)是一款免费软件、跨平台...
维基百科维基百科是一个由用户编写和维护的多语言免费在线百科全书。
非结构化 XML 加载器此笔记本提供了有关如何开始使用 Unst ... 的快速概述。
Xorbits Pandas DataFrame此笔记本介绍了如何从 xorbits.pandas DataFrame 加载数据。
YouTube 音频在 YouTube 视频上构建聊天或问答应用程序是一个热门话题...
YouTube 转录YouTube 是一个在线视频分享和社交媒体平台,由... 创建。
语雀语雀是一个面向团队协作的专业云端知识库。

此页面是否有帮助?


您也可以留下详细的反馈 在 GitHub 上.