Spark
Apache Spark 是一个用于大规模数据处理的统一分析引擎。它提供 Scala、Java、Python 和 R 的高级 API,以及一个支持数据分析通用计算图的优化引擎。它还支持一套丰富的高级工具,包括用于 SQL 和 DataFrames 的
Spark SQL
,用于 pandas 工作负载的pandas API on Spark
,用于机器学习的MLlib
,用于图处理的GraphX
,以及用于流处理的Structured Streaming
。
文档加载器
PySpark
它从 PySpark
DataFrame 加载数据。
请参阅使用示例。
from langchain_community.document_loaders import PySparkDataFrameLoader
API 参考:PySparkDataFrameLoader
工具/工具包
Spark SQL 工具包
用于与 Spark SQL
交互的工具包。
请参阅使用示例。
from langchain_community.agent_toolkits import SparkSQLToolkit, create_spark_sql_agent
from langchain_community.utilities.spark_sql import SparkSQL
Spark SQL 独立工具
您可以从 Spark SQL 工具包中使用独立工具
InfoSparkSQLTool
:用于获取 Spark SQL 元数据的工具ListSparkSQLTool
:用于获取表名称的工具QueryCheckerTool
:使用 LLM 检查查询是否正确的工具QuerySparkSQLTool
:用于查询 Spark SQL 的工具
from langchain_community.tools.spark_sql.tool import InfoSparkSQLTool
from langchain_community.tools.spark_sql.tool import ListSparkSQLTool
from langchain_community.tools.spark_sql.tool import QueryCheckerTool
from langchain_community.tools.spark_sql.tool import QuerySparkSQLTool