数据管道停止处理S3存储桶中的文件

0

【以下的问题经过翻译处理】 有一个数据管道,从S3存储桶中读取CSV文件并将数据复制到RDS数据库中。

我指定桶/文件夹名称,并处理其中的每个CSV文件。完成后,ShellCommandActivity将文件移动到S3存储桶中的另一个“文件夹”中。这是测试时的工作原理。使用真实数据时,它在处理几个文件后就停止了。

日志中的最后一行是

07 Dec 2021 09:57:55,755 [INFO] (TaskRunnerService-resource:df-1234xxx1_@Ec2Instance_2021-12-07T09:53:00-0) df-1234xxx1 amazonaws.datapipeline.connector.s3.RetryableS3Reader: Reopening connection and advancing 0

日志显示通常先下载CSV文件,然后写入“重新打开连接并前进0”行,然后删除临时文件,然后继续下一个文件。但是在第七个文件上,它只停留在“重新打开连接并前进0”上。

问题不在下一个文件上,因为它在自己上处理得很好。我已经尝试将文件大小缩小——最初它在第二个文件上停止,但现在文件大小约为1.7MB,它可以处理六个文件后停止。

每个任务(DataLoadActivity和ShellCommandActivity)的状态都显示“取消”(允许3次尝试),并且没有错误消息。

我猜这是某种超时。如何使管道可靠,以便它可以处理所有文件?

profile picture
專家
已提問 5 個月前檢視次數 29 次
1 個回答
0

【以下的回答经过翻译处理】 开始检查的地方是ShellCommmandActivity节点-它是否有Attempt Timeout字段?这会导致该节点在一定时间后失败。您还可以查看管道中的其他节点(如EC2Resource节点),因为它们也可能有超时。

profile picture
專家
已回答 5 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南