EMR客户问题

0

【以下的问题经过翻译处理】 一个客户正在使用EMR上的PySpark进行一些计算。

这些计算被保存在S3上,触发了一个SQS,该SQS会触发COPY命令传输到redshift。

到目前为止,一切顺利。

他们正在尝试找到解决方案,在redshift加载了新数据后,我们可以在那里摄取的特定项上运行一些查询。

他们认为可能可以在EMR本身中的每个项目后启动SQS进行计算(听起来有点复杂,不确定其可靠性)。

还需要澄清的是,在后处理和插入Redshift后,他们需要将其推送到DynamoDB或其他NoSQL解决方案以进行快速检索。

听起来合理吗?

profile picture
エキスパート
質問済み 6ヶ月前31ビュー
1回答
0

【以下的回答经过翻译处理】 你可以查看这篇较旧的博客文章并针对你的使用案例进行修改。当复制命令将数据加载到Redshift中时,它会向Dynamo写入一个已处理的条目。你可以连接一个Lambda函数到Dynamo流上,这样就可以触发你想要在数据加载后运行的查询。

https://aws.amazon.com/blogs/big-data/a-zero-administration-amazon-redshift-database-loader/

profile picture
エキスパート
回答済み 6ヶ月前

ログインしていません。 ログイン 回答を投稿する。

優れた回答とは、質問に明確に答え、建設的なフィードバックを提供し、質問者の専門分野におけるスキルの向上を促すものです。

質問に答えるためのガイドライン