数据管道停止处理S3存储桶中的文件

0

【以下的问题经过翻译处理】 有一个数据管道,从S3存储桶中读取CSV文件并将数据复制到RDS数据库中。

我指定桶/文件夹名称,并处理其中的每个CSV文件。完成后,ShellCommandActivity将文件移动到S3存储桶中的另一个“文件夹”中。这是测试时的工作原理。使用真实数据时,它在处理几个文件后就停止了。

日志中的最后一行是

07 Dec 2021 09:57:55,755 [INFO] (TaskRunnerService-resource:df-1234xxx1_@Ec2Instance_2021-12-07T09:53:00-0) df-1234xxx1 amazonaws.datapipeline.connector.s3.RetryableS3Reader: Reopening connection and advancing 0

日志显示通常先下载CSV文件,然后写入“重新打开连接并前进0”行,然后删除临时文件,然后继续下一个文件。但是在第七个文件上,它只停留在“重新打开连接并前进0”上。

问题不在下一个文件上,因为它在自己上处理得很好。我已经尝试将文件大小缩小——最初它在第二个文件上停止,但现在文件大小约为1.7MB,它可以处理六个文件后停止。

每个任务(DataLoadActivity和ShellCommandActivity)的状态都显示“取消”(允许3次尝试),并且没有错误消息。

我猜这是某种超时。如何使管道可靠,以便它可以处理所有文件?

1 Antwort
0

【以下的回答经过翻译处理】 开始检查的地方是ShellCommmandActivity节点-它是否有Attempt Timeout字段?这会导致该节点在一定时间后失败。您还可以查看管道中的其他节点(如EC2Resource节点),因为它们也可能有超时。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen