New user sign up using AWS Builder ID is currently unavailable on re:Post. To sign up, please use the AWS Management Console instead.
标记有以下标签的问题: Amazon EMR
Amazon EMR is a cloud big data platform for running large-scale distributed data processing jobs, interactive SQL queries, and machine learning (ML) applications using open-source analytics frameworks such as Apache Spark, Apache Hive, and Presto.
内容语言: 中文 (简体)
Select up to 5 tags to filter
排序方式 最新
浏览下面列出的问题和回答,或者筛选和排序以缩小结果范围。
51 条结果
【以下的问题经过翻译处理】 我正在使用EMR API中的boto3 python库中的listSteps功能。我将"1"赋值给Marker项,但收到错误消息:"Marker '1' is not valid."。
在Marker中哪个值是合法的?
API:<https://docs.aws.amazon.com/emr/latest/APIReference/API_ListSteps.htm...
【以下的问题经过翻译处理】 一整天都无法创建一个简单的EMR集群!一直出现以下错误:
* 2023-04-11 20:35:59,668 INFO i-0ef1cde5b1311d42c: new instance started
* **2023-04-11 20:35:59,684 ERROR i-0ef1cde5b1311d42c: failed to start. bootstrap ac...
【以下的问题经过翻译处理】 您能否建议使用哪些工具来迁移Spark应用程序到AWS?:
Spark应用程序仅用于更改数据,没有任何UI。我们会定期启动它,可能每周启动几次。每次启动都会触及不同数量的来自Hadoop的数据。从我们团队中的不同人员启动该应用程序。
* 输入为:Hadoop / Kafka / HDFS中的表,
* 输出为:Hadoop / Kafka和一些Clickhouse,但不是...
【以下的问题经过翻译处理】 *下面的CF堆栈出现错误,错误信息为“Resource handler returned message: Error occurred during operation 'CreateApplication'.”(RequestToken:<some-token-id>,HandlerErrorCode:GeneralServiceException)”
*区域:eu...
【以下的问题经过翻译处理】 我创建了一个自定义的ERM集群..Spark,Presto,zepeeling,hadoop,jupiter gateway...连接到ERM Studio后,没有可用的内核.. 这是为什么?
谢谢。
【以下的问题经过翻译处理】 尝试将HUE作为EMR服务器上托管的Web界面,用于发出HIVE QL查询。文件连接能够正常工作,可以轻松探索S3文件(这可能不需要托管的Core节点)。但任何尝试使用HIVE QL创建表格的操作(这可能需要托管的Core节点以获得效率)都会导致远程过程调用错误:“java.net.NoRouteToHostException No Route to Host from...
【以下的问题经过翻译处理】 一个客户正在使用EMR上的PySpark进行一些计算。
这些计算被保存在S3上,触发了一个SQS,该SQS会触发COPY命令传输到redshift。
到目前为止,一切顺利。
他们正在尝试找到解决方案,在redshift加载了新数据后,我们可以在那里摄取的特定项上运行一些查询。
他们认为可能可以在EMR本身中的每个项目后启动SQS进行计算(听起来有点复杂,不确定其...
【以下的问题经过翻译处理】 在EMR上尝试将yarn命令添加到cron中。
我尝试在cron中直接调用yarn命令,但是似乎会跳过该命令。
以下是添加到cron中的命令:
\*/1 \* \* \* \* hadoop date; yarn
无论我在哪里放置命令,脚本都会跳过它。如果我手动执行脚本,它能正常工作。但是通过cron调用yarn时,根本没有尝试。
【以下的问题经过翻译处理】 我正在尝试评估s3-dist-cp工具是否有助于以下用例:我有数百万个小文本文件(每个文件大小为几十KB),存储在S3存储桶中,在对其进行更多处理前需要将它们合并成更大的文件并使用Spark处理。
为了测试s3-dist-cp,我首先在一个较小的存储桶上进行了尝试,其中包含约550,000个文件(总共大小约为6.8GB)。我启动了一个带有15个核心节点(m6g.xlar...
【以下的问题经过翻译处理】 我知道EMR Serverless 有应用程序限制。但是当同一个应用程序上同时运行多个Job 时,它们是否可以共享Worker的 可用容量?或者如果一个作业被分配了工作,它们被分配了整个工作容量吗?
【以下的问题经过翻译处理】 Amazon EFS和Amazon EBS存储选项之间的主要区别是什么?在哪些情况下,您会推荐使用每个选项?
【以下的问题经过翻译处理】 我正在尝试在EMR上运行一个Python作业,其中一些依赖项已通过venv安装,如下所示:
```
python -m venv pyspark_venv
source pyspark_venv/bin/activate
pip install pyarrow pandas venv-pack
venv-pack -o pyspark_venv.tar.gz
```
...