标记有以下标签的问题: Amazon EMR
Amazon EMR is a cloud big data platform for running large-scale distributed data processing jobs, interactive SQL queries, and machine learning (ML) applications using open-source analytics frameworks such as Apache Spark, Apache Hive, and Presto.
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
51 条结果
【以下的问题经过翻译处理】 客户正在尝试使用DMS将Hive表的数据迁移到亚马逊云科技。他们之前已经使用过DMS服务来处理Oracle数据库,因此对该服务已经很熟悉。
文档中并未提到DMS支持Hive,因此想知道是否有其他方法可以迁移实时/静态Hive表。
【以下的问题经过翻译处理】 当配置EMR Serverless应用程序时,您可以选择预初始化容量的磁盘大小和应用程序的最大磁盘限制:
![磁盘大小](/media/postImages/original/IMeTrUgzw3RciHzq-O7IJugw)
但是,至少对于Hive作业,EMR...
【以下的问题经过翻译处理】 试图使用数据湖glue从redshift ETL数据集。Redshift数据集非常大,我只想在每次作业运行时提取最后x天的数据。当我设置作业时,过滤器出现在应用映射之后,选择DataFrame之前。这样做时,Redshift查询在集群上显示为实际上是“ Select...
【以下的问题经过翻译处理】 一位客户每晚需要并行运行 25个 spark...
【以下的问题经过翻译处理】 我每个小时都会在EMR无服务器上运行作业。所有作业都提交到同一个应用程序中,没有预先初始化的容量。在运行之间终止应用程序是否有任何好处?运行之间大约有30分钟的间隔。有任何费用方面的弊端吗?
【以下的问题经过翻译处理】 相对于EMR(EMRFS)而言,Parquet和ORC各自的优缺点是什么?
如果客户计划在相同的数据湖上同时使用Redshift和Athena,这是否会改变这个情况?
【以下的问题经过翻译处理】 AWS EMR何时可以使用带有5.x kernal的AL2或AL2022。如果我们想使用自定义AMI,您能否提供有关如何为EMR创建自定义AMI的文档。
【以下的问题经过翻译处理】 客户之前使用EMR FS一致视图是因为S3的一致性存在问题。在2020年Re:Invent之后,随着Amazon S3强一致性的推出,客户不再需要使用EMRFS一致视图。客户可以开始为他们的集群禁用EMRFS一致视图吗?我们还可以与客户分享哪些其他的更改/设置需要注意吗?
【以下的问题经过翻译处理】 一位客户在一台工程IBM盒子中拥有一个Hadoop集群,内部使用InfiniBand连接将数据节点连接到主节点。只有主节点和从节点在IP网络上,数据节点没有分配IP地址并且无法从网络上访问。客户有50TB的数据(每个文件最多达到40GB,存储在Hive中)需要移动到S3。我们有Direct...
【以下的问题经过翻译处理】 您好,我们正尝试将Athena用作我们的数据消费服务。我们已将大多数Hive数据库/表从外部Hive元存储迁移到了AWS Glue,除了那些具有Hive ACID表的数据库,因为Glue不支持Hive ACID表。为了从Athena读取Hive...
【以下的问题经过翻译处理】 EMR...
【以下的问题经过翻译处理】 对于EMR主节点部署在单个可用区的情况感到不满(例如数据可以存在S3中,因此可以在可用区故障的情况下存活)。发现即使有多个主节点,它们也被部署在单个子网中,因此只能在一个可用区中。寻找一种可以自动故障转移至另一个可用区的解决方案。