【以下的问题经过翻译处理】 一个客户有一个包含1220万个文件、总共4TB大小数据的S3存储桶。存储桶中的大多数文件都不到几MB大小,全部文件都在同一个文件夹中。他们需要将这些文件从一个存储桶移动到另一个存储桶。他们说上一次尝试需要花费数天时间才能完成传输。他们正在寻找减少复制时间的方法。
一种建议是进行批处理并在传输前对文件进行压缩(使用tar、zip等)。在这种情况下,应该将文件压缩至多大比较合适?
此外,还有其他的解决方案可以减少在同一地区传输数据的时间吗?
【以下的回答经过翻译处理】 推荐使用S3DistCp,您可以将大量数据高效地从Amazon S3复制到HDFS,然后在您的Amazon EMR集群中通过后续步骤对数据进行处理。您还可以使用S3DistCp在Amazon S3存储桶之间或从HDFS到Amazon S3复制数据。S3DistCp对于在桶之间和AWS帐户之间并行复制大量对象更具可扩展性和效率。
您未登录。 登录 发布回答。
一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。