EMR客户问题

0

【以下的问题经过翻译处理】 一个客户正在使用EMR上的PySpark进行一些计算。

这些计算被保存在S3上,触发了一个SQS,该SQS会触发COPY命令传输到redshift。

到目前为止,一切顺利。

他们正在尝试找到解决方案,在redshift加载了新数据后,我们可以在那里摄取的特定项上运行一些查询。

他们认为可能可以在EMR本身中的每个项目后启动SQS进行计算(听起来有点复杂,不确定其可靠性)。

还需要澄清的是,在后处理和插入Redshift后,他们需要将其推送到DynamoDB或其他NoSQL解决方案以进行快速检索。

听起来合理吗?

profile picture
专家
已提问 5 个月前29 查看次数
1 回答
0

【以下的回答经过翻译处理】 你可以查看这篇较旧的博客文章并针对你的使用案例进行修改。当复制命令将数据加载到Redshift中时,它会向Dynamo写入一个已处理的条目。你可以连接一个Lambda函数到Dynamo流上,这样就可以触发你想要在数据加载后运行的查询。

https://aws.amazon.com/blogs/big-data/a-zero-administration-amazon-redshift-database-loader/

profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则