New user sign up using AWS Builder ID is currently unavailable on re:Post. To sign up, please use the AWS Management Console instead.
标记有以下标签的问题: Amazon EMR
Amazon EMR is a cloud big data platform for running large-scale distributed data processing jobs, interactive SQL queries, and machine learning (ML) applications using open-source analytics frameworks such as Apache Spark, Apache Hive, and Presto.
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
51 条结果
【以下的问题经过翻译处理】 EMR Studio中,将EMR Virtual集群附加到Notebook时,无法访问Glue目录。尝试访问Glue时可能会出现一些常见的错误,其中包括:
1. “Hive support is required to ...”
2. “Table or view not found…”
将enableHiveSupport()添加到Spark语句中似乎也不起作用。...
【以下的问题经过翻译处理】 我正在使用Step Functions创建暂时的Amazon EMR集群。对于任务节点,我使用Spot实例,并为超时设置了终止群集的规则。我能在Step Function脚本中使用多个Spot规则来创建不同规格的集群吗(例如:i3.8xlarge和i4.8xlarge)?通过Amazon EMR控制台,可以在实例群中提到最多五种实例类型。是否有示例脚本可以帮助我测试多个...
【以下的问题经过翻译处理】 在解决EMR的路径问题时有哪些一般性指导方针?在EMR上运行管道时,其中一个问题涉及到自定义jars相关的路径问题:
尽管客户已将所需的jar上传到S3并在集群创建时推送到EMR主节点,但数据处理管道经常因无法引用所需的依赖jar的特定版本而失败。尝试将以下参数设置为管道命令的一部分:
-D mapreduce.task.classpath.user.precede...
【以下的问题经过翻译处理】 你好,EMR是否有修复与log4j CVE相关的问题,以升级到Log4J 2.17.1的解决方案?你知道它何时可用吗?
【以下的问题经过翻译处理】 一位客户研究了将数据直接从 EMR 写入 DynamoDB 的方法,遇到一个问题:为了运行 DynamoDBStorageHandler,他们必须更改 [hive 引擎以使用 MR 而不是 TEZ](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/EMR_Interactive_Hive.html)。虽然我们可以做...
【以下的问题经过翻译处理】 我使用IAM账户登录AWS控制台,想要创建一个EMR集群。但当我点击“创建集群”按钮时,它提示:“无法创建集群。新创建的默认角色的实例配置文件尚不可见。请等待几秒钟后再试一次。”
我是否缺少某些权限,或者做了其他的什么事情导致这个问题出现了呢?
非常感谢。
【以下的问题经过翻译处理】 EMR 什么时候支持 GP3 EBS 存储和 M6i 实例类型???
【以下的问题经过翻译处理】 客户希望使用 **PySpark 在 Spark Streaming 中处理流数据,并希望将结果输出到 Kinesis 流**。
虽然 PySpark 确实支持从 Kinesis (<http://spark.apache.org/docs/latest/streaming-kinesis-integration.html>) 读取数据,但我看不到对将数据写入 Ki...
【以下的问题经过翻译处理】 能否在不同的可用区部署多个EMR主节点,并在它们之间进行故障转移呢?
又或者,我如何使我的EMR群集具有高可用性?
能将核心节点部署在两个可用区吗?
【以下的问题经过翻译处理】 我在单个EMR Notebook中同时使用pyspark和本地python内核(%%local)。我能够使用EMR bootstrap程序在pyspark内核中成功安装软件包,但我无法使用EMR bootstrap操作安装额外的本地python库(s3fs和其他软件包)。你能否提供一些指导呢?
【以下的问题经过翻译处理】 我创建了EMR集群,然后通过Step Function向 EMR 集群添加一个步骤。
发现jobflowid 未被识别。
请问该如何解决这个问题?或者是我的操作过程有任何疏忽的吗?
Step Function状态机如下:
```
{
"StartAt": "add_emr_step",
"States": {
"add_emr_step": {
...
【以下的问题经过翻译处理】 你能提供一种好的方法来将分区的Spark数据合并成一个CSV文件吗?从网上看,简单的Spark方法结合数据(“repartition”或“coalesce”)的性能很差,建议将其输出为分区的数据文件,然后将它们组合成一个文件。
`s3-dist-cp`似乎是这里使用的正确方法,但有一个问题不清楚,如何在组合的csv文件顶部保留一个集合的标题。
有没有一种简单的方法将...