数据管道停止处理S3存储桶中的文件

0

【以下的问题经过翻译处理】 有一个数据管道,从S3存储桶中读取CSV文件并将数据复制到RDS数据库中。

我指定桶/文件夹名称,并处理其中的每个CSV文件。完成后,ShellCommandActivity将文件移动到S3存储桶中的另一个“文件夹”中。这是测试时的工作原理。使用真实数据时,它在处理几个文件后就停止了。

日志中的最后一行是

07 Dec 2021 09:57:55,755 [INFO] (TaskRunnerService-resource:df-1234xxx1_@Ec2Instance_2021-12-07T09:53:00-0) df-1234xxx1 amazonaws.datapipeline.connector.s3.RetryableS3Reader: Reopening connection and advancing 0

日志显示通常先下载CSV文件,然后写入“重新打开连接并前进0”行,然后删除临时文件,然后继续下一个文件。但是在第七个文件上,它只停留在“重新打开连接并前进0”上。

问题不在下一个文件上,因为它在自己上处理得很好。我已经尝试将文件大小缩小——最初它在第二个文件上停止,但现在文件大小约为1.7MB,它可以处理六个文件后停止。

每个任务(DataLoadActivity和ShellCommandActivity)的状态都显示“取消”(允许3次尝试),并且没有错误消息。

我猜这是某种超时。如何使管道可靠,以便它可以处理所有文件?

profile picture
专家
已提问 10 个月前45 查看次数
1 回答
0

【以下的回答经过翻译处理】 开始检查的地方是ShellCommmandActivity节点-它是否有Attempt Timeout字段?这会导致该节点在一定时间后失败。您还可以查看管道中的其他节点(如EC2Resource节点),因为它们也可能有超时。

profile picture
专家
已回答 10 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则