标记有以下标签的问题: AWS Glue
AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
189 条结果
【以下的问题经过翻译处理】 能否导入/导出Glue data quality 规则?如果能,如何实现?谢谢。
【以下的问题经过翻译处理】 我正在遵循以下链接中概述的步骤:
<https://aws.amazon.com/blogs/big-data/introducing-native-delta-lake-table-support-with-aws-glue-crawlers/>
(1) 使用Amazon Athena查询Delta Lake表没有问题,可以查询出数据。
(2) AWS Glue...
【以下的问题经过翻译处理】 无法找到一种适当的方法来为我的Athena表**parquet**设置正确的时间戳属性数据类型,以便查询时间间隔。
我通过爬虫在从glue交互作业(PySpark)产生的parquet文件上创建表。
\*\*下面是我的Athena表和我尝试的时间戳格式\*\*
1. ts(数据类型为**timestamp**):2023-02-07...
【以下的问题经过翻译处理】 你好,我正在运行一个Glue Job,在 S3 上的一个以分号分隔的 CSV 文件上应用 ETL。然而,当我使用 AWS 的 DynamicFrame 功能读取文件并尝试使用 printSchema 或 toDF 等方法时,出现以下错误:
py4j.protocol.Py4JJavaError: An error occurred while calling...
【以下的问题经过翻译处理】 我有一个AWS Glue PII数据检测作业,对于17.9 MB的文件大小,完成需要大约47分钟,这对于任何spark作业来说都是非常长的时间。
以下是作业中使用的代码片段:
```
S3bucket_node1 = glueContext.create_dynamic_frame.from_options(
format_options={
...
【以下的问题经过翻译处理】 Hi,
我写过几个Glue Job,没有遇到这种情况,这是在我写的一个新Job中突然出现的问题。我正在使用以下代码将数据写入S3。S3路径是 "s3://...."。
unionData_df.repartition(1).write.mode("overwrite").parquet(test_path)
在我的测试环境中,当我第一次运行Glue...
【以下的问题经过翻译处理】 在Python编程中,我需要在Glue工作流中添加作业和触发器。我不确定如何做到这一点,有人能帮助吗?
我使用了boto3库可以创建工作流,启动和停止,但无法指定作业或触发器。
从下面的链接中可以看出,通过Event...
【以下的问题经过翻译处理】 在定义G1X Worker 节点类型的Glue Spark Job时,我将最大Worker 节点指定为4个。
如果我检查Cloudwatch作业监视器,我会看到一些指标在曲线图上达到20+,如下所示。
1. glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors
2....
【以下的问题经过翻译处理】 我的蓝图需要一个S3 PutObject事件来启动Glue ETL作业。但当创建蓝图时,我只看到了按需和基于计划的触发器选项。有人知道在蓝图中创建这样的触发器的方法,或者更复杂的触发器类型是否会得到支持吗?
【以下的问题经过翻译处理】...
【以下的问题经过翻译处理】 是否有一种类似于这里描述的方式[[使用Apache Iceberg和AWS...
【以下的问题经过翻译处理】 我创建了一个Glue交互式会话任务(Jupyter Notebook),并试图保存到我的自己的S3桶中。我找不到任何关于如何做到这一点的文档?我尝试了以下Glue命令,但对于Glue v2版本的任务没有成功-
%%configure
{ "s3\_path": 's3://mybucket/myfolder/'}
%%configure
{ "s3\_path":...