雅典娜
Amazon Athena 是一种基于开源框架构建的无服务器交互式分析服务,支持开放式表和文件格式。
Athena
提供了一种简化的、灵活的方式来分析驻留在您数据所在位置的 PB 级数据。使用 SQL 或 Python 分析数据或构建应用程序,这些应用程序来自 Amazon 简单存储服务 (S3) 数据湖和 30 个数据源,包括本地数据源或其他云系统。Athena
基于开源Trino
和Presto
引擎以及Apache Spark
框架构建,无需任何配置工作。
此笔记本介绍了如何从 AWS Athena
加载文档。
设置
遵循 设置 AWS 帐户的说明。
安装 Python 库
! pip install boto3
示例
from langchain_community.document_loaders.athena import AthenaLoader
API 参考:AthenaLoader
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
)
documents = loader.load()
print(documents)
带有元数据列的示例
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
metadata_columns = ["_row", "_created_at"]
loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
metadata_columns=metadata_columns,
)
documents = loader.load()
print(documents)