使用AWS re:Post即您表示您同意 AWS re:Post 使用条款

标记有以下标签的问题: Amazon EMR

Amazon EMR is a cloud big data platform for running large-scale distributed data processing jobs, interactive SQL queries, and machine learning (ML) applications using open-source analytics frameworks such as Apache Spark, Apache Hive, and Presto.

内容语言: 中文 (简体)

Select up to 5 tags to filter
排序方式 最新

浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。

51 条结果
【以下的问题经过翻译处理】 客户正在尝试使用DMS将Hive表的数据迁移到亚马逊云科技。他们之前已经使用过DMS服务来处理Oracle数据库,因此对该服务已经很熟悉。 文档中并未提到DMS支持Hive,因此想知道是否有其他方法可以迁移实时/静态Hive表。
1
回答
0
点赞数
47
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 当配置EMR Serverless应用程序时,您可以选择预初始化容量的磁盘大小和应用程序的最大磁盘限制: ![磁盘大小](/media/postImages/original/IMeTrUgzw3RciHzq-O7IJugw) 但是,至少对于Hive作业,EMR Serverless将scratch和warehouse目录都存储在S3中。那么这个配置的磁盘空间用于什...
1
回答
0
点赞数
43
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select *”。似乎DataFrame想要将整个Redshift表加载到Glue中,然后进行过滤,这既费时又最终失...
1
回答
0
点赞数
41
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 一位客户每晚需要并行运行 25个 spark 作业,跨越2个EMR集群。这些作业之间没有依赖关系,它们都可以并行运行。它们总共从所有作业中提取了250GB的数据。每个作业的完成时间从20分钟到4小时不等。它们的整个批处理完成时间为12-14小时。他们需要将这个时间缩短到2-3个小时。 有没有他们可以优先尝试的3-5个建议? Spark代码很简单:1)运行SparkS...
1
回答
0
点赞数
24
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 我每个小时都会在EMR无服务器上运行作业。所有作业都提交到同一个应用程序中,没有预先初始化的容量。在运行之间终止应用程序是否有任何好处?运行之间大约有30分钟的间隔。有任何费用方面的弊端吗?
1
回答
0
点赞数
57
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 相对于EMR(EMRFS)而言,Parquet和ORC各自的优缺点是什么? 如果客户计划在相同的数据湖上同时使用Redshift和Athena,这是否会改变这个情况?
1
回答
0
点赞数
29
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 AWS EMR何时可以使用带有5.x kernal的AL2或AL2022。如果我们想使用自定义AMI,您能否提供有关如何为EMR创建自定义AMI的文档。
1
回答
0
点赞数
44
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 客户之前使用EMR FS一致视图是因为S3的一致性存在问题。在2020年Re:Invent之后,随着Amazon S3强一致性的推出,客户不再需要使用EMRFS一致视图。客户可以开始为他们的集群禁用EMRFS一致视图吗?我们还可以与客户分享哪些其他的更改/设置需要注意吗?
1
回答
0
点赞数
53
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 一位客户在一台工程IBM盒子中拥有一个Hadoop集群,内部使用InfiniBand连接将数据节点连接到主节点。只有主节点和从节点在IP网络上,数据节点没有分配IP地址并且无法从网络上访问。客户有50TB的数据(每个文件最多达到40GB,存储在Hive中)需要移动到S3。我们有Direct Connect可以使用,正在寻找移动这些数据的选项。时间不是限制因素,但目前排除...
1
回答
0
点赞数
18
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 您好,我们正尝试将Athena用作我们的数据消费服务。我们已将大多数Hive数据库/表从外部Hive元存储迁移到了AWS Glue,除了那些具有Hive ACID表的数据库,因为Glue不支持Hive ACID表。为了从Athena读取Hive ACID表,我们根据这篇文章<https://docs.aws.amazon.com/athena/latest/ug/con...
1
回答
0
点赞数
13
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 EMR 5.30发布了[托管扩展功能](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-scaling.html),该功能根据Spark/Hive等负载自动扩展集群。当在EKS上[部署EMR时](https://docs.aws.amazon.com/emr/latest/EMR-on...
1
回答
0
点赞数
60
检视次数
profile picture
专家
已提问 1 年前
【以下的问题经过翻译处理】 对于EMR主节点部署在单个可用区的情况感到不满(例如数据可以存在S3中,因此可以在可用区故障的情况下存活)。发现即使有多个主节点,它们也被部署在单个子网中,因此只能在一个可用区中。寻找一种可以自动故障转移至另一个可用区的解决方案。
1
回答
0
点赞数
22
检视次数
profile picture
专家
已提问 1 年前