跳至内容

标记有以下标签的问题: AWS Glue

AWS Glue is a serverless data integration service that makes it easy to discover, prepare, and combine data for analytics, machine learning, and application development.

内容语言: 中文 (简体)

筛选问题
选择要筛选的标签
排序方式
排序方式 最新
按以下条件筛选问题::

浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。

189 条结果
【以下的问题经过翻译处理】 我加载了json数据,并在动态数据帧上使用了relationalize方法,以扁平化原本嵌套的json对象,并将其保存为parquet格式。问题是,一旦保存为parquet格式,用于更快的Athena查询的列名包含点,这违反了Athena SQL查询语法,因此我无法进行列特定的查询。 为了解决这个问题,我还在Glue作业中重命名了列名,以排除点,而是用下划线代替。我的...
1
回答
0
点赞数
39
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我有一个使用大写字符的表名和列名的RDS PostgreSQL数据库。我创建了一个Glue爬虫,通过JDBC连接到数据库,并在转化为数据目录时将大写字符转换为小写字符。当我运行Glue作业进行查询时,出现以下错误: An error occurred while calling o94.getDynamicFrame. ERROR: column "id" does ...
1
回答
0
点赞数
160
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我从S3存储桶中读取文件,将其转换为Spark DataFrame,进行转换后又将其转换回Dyanmic DataFrame,然后写入Data Catalog。这会在与输入文件相同的存储桶中创建一堆part-r-00文件,因此我的脚本尝试读取和处理这些文件!它必须创建这些文件吗?是否可以为这些文件设置不同的存储桶?如果不能,是否可以让我的ETL只读取以.csv结尾的文件...
1
回答
0
点赞数
49
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 你好!我是一名经常使用SageMaker Notebooks工作的数据科学家。我想了解何时应该使用Glue Interactive而不是SageMaker Processing。据我了解,它们非常相似,我很难区分它们。谢谢!
1
回答
0
点赞数
52
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 S3中的分区数据如下: some-dataset/2019-12-28/ some-dataset/2019-12-29/ some-dataset/2019-12-30/ some-dataset/2019-12-31/ some-dataset/2020-01-01/ some-dataset/2020-01-02/ some-dataset/2020-01-03...
1
回答
0
点赞数
24
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我已经尝试了一个星期,但是我开始放弃了——我需要一些帮助理解这个。我有一个S3存储桶,里面装满了XML文件,我正在创建一个pyspark ETL作业将它们转换为Parquet,以便我可以在Athena中查询它们。 在每个XML文件中,都有一个名为ORDER_LINE的XML标签。这个标签应该是一个项的数组,然而在许多文件中,只有一个项。XML没有数组的概念,因此当我将...
1
回答
0
点赞数
53
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 你好, 有人可以帮忙吗? 我设置了一个跟踪来审计帐户中的所有 TLS 调用并将所有日志保存在 S3 中。我尝试使用 Athena 从 S3 查询日志。这是我创建的查询: ``` 创建外部表 cloudtrail_logs_tls_calls ( 事件版本 STRING, 用户身份结构< 类型:字符串, 主体 ID:S...
1
回答
0
点赞数
86
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我在AWS Glue中有许多数据集,其中包含数百个列,但我只需要其中的几个列进行特征选择。我在AWS Glue DataBrew中并未找到保留所需列并删除其余列的选项。请问是否有办法实现这个功能
1
回答
0
点赞数
40
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我有一个文件,目前存储在S3桶中,包含约1000行,我想将这个文件分成更小的文件(每个文件约有200-500行)。 我在互联网上搜寻过,只发现将文件合并成较大的文件的解决方案。我可以使用Glue自定义输出文件吗?还是应该使用其他方法?
1
回答
0
点赞数
36
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 您好, 我正在尝试使用Boto3构建Glue部署系统。我已经成功将Glue脚本Python文件上传到Glue Sources S3桶中,并创建了一个任务。这里没有问题。 下一步是,当我想要更新脚本文件时,不修改任何其他任务参数。我尝试重新上传更新后的脚本文件(与之前的文件同名),并假设在从Glue UI检查时任务会显示新版本,但实际上没有。仍然显示旧版本。 我可以删...
1
回答
0
点赞数
47
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我有这样的需求:假设我有10个不同的Glue PySpark作业(job1、job2、.......job10),当job1执行并成功后,它就会启动下一个Glue Python shell脚本(假设脚本的名称是:glue_common_python_shell.py)。 每次Glue Python shell都会有不同的参数。 换句话说,当Glue PySpark作业...
1
回答
0
点赞数
54
检视次数
专家
已提问 2 年前
【以下的问题经过翻译处理】 我正在运行一个AWS Glue DataBrew的测试任务,对一个包含每天按产品计算的总成本的CSV数据集进行简单的**Group By**和**Sum**操作。期望的输出是一个具有三列的单个CSV文件:日期(时间戳)、总成本和产品ID。 在我更改DataBrew项目并选择**运行任务**后,该任务成功运行,但输出却是多个CSV文件。是否有一种方法让我指定输出只是一个...
1
回答
0
点赞数
61
检视次数
专家
已提问 2 年前
  • 1
  • •••
  • 8
  • 9
  • 10
  • 11
  • 12
  • •••
  • 16
  • Page size
    12 条/页