跳到主要内容
Open In ColabOpen on GitHub

Glue Catalog

AWS Glue Data Catalog 是一个集中式元数据存储库,允许您管理、访问和共享有关存储在 AWS 中的数据的元数据。它充当数据资产的元数据存储,使各种 AWS 服务和您的应用程序能够高效地查询和连接到它们所需的数据。

当您在 AWS Glue 中定义数据源、转换和目标时,有关这些元素的元数据将存储在 Data Catalog 中。这包括有关数据位置、架构定义、运行时指标等信息。它支持各种数据存储类型,例如 Amazon S3、Amazon RDS、Amazon Redshift 和与 JDBC 兼容的外部数据库。它还与 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 直接集成,允许这些服务直接访问和查询数据。

Langchain GlueCatalogLoader 将获取给定 Glue 数据库中所有表的架构,格式与 Pandas dtype 相同。

设置

示例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 参考:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

带表过滤的示例

表过滤允许您有选择地检索 Glue 数据库中特定子表的架构信息。您可以使使用 table_filter 参数指定您感兴趣的具体表,而不是加载所有表的架构。

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 参考:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)

此页是否对您有帮助?