【以下的问题经过翻译处理】 有一个数据管道,从S3存储桶中读取CSV文件并将数据复制到RDS数据库中。
我指定桶/文件夹名称,并处理其中的每个CSV文件。完成后,ShellCommandActivity将文件移动到S3存储桶中的另一个“文件夹”中。这是测试时的工作原理。使用真实数据时,它在处理几个文件后就停止了。
日志中的最后一行是
07 Dec 2021 09:57:55,755 [INFO] (TaskRunnerService-resource:df-1234xxx1_@Ec2Instance_2021-12-07T09:53:00-0) df-1234xxx1 amazonaws.datapipeline.connector.s3.RetryableS3Reader: Reopening connection and advancing 0
日志显示通常先下载CSV文件,然后写入“重新打开连接并前进0”行,然后删除临时文件,然后继续下一个文件。但是在第七个文件上,它只停留在“重新打开连接并前进0”上。
问题不在下一个文件上,因为它在自己上处理得很好。我已经尝试将文件大小缩小——最初它在第二个文件上停止,但现在文件大小约为1.7MB,它可以处理六个文件后停止。
每个任务(DataLoadActivity和ShellCommandActivity)的状态都显示“取消”(允许3次尝试),并且没有错误消息。
我猜这是某种超时。如何使管道可靠,以便它可以处理所有文件?