【以下的问题经过翻译处理】 Sagemaker 下载我客户的 220 Gb 训练数据需要 54 分钟。只有 70 MB/s 的速率,出乎意料的慢。他正在通过私有 VPC 端点从他的 p3.8xlarge 实例访问 S3 中的数据,因此理论上的最大带宽为 25 Gbps。有什么办法可以加快下载速度吗?
他以以下功能开始了 Sagemaker 训练:
estimator = Estimator(
image_name,
role=role,
output_path=output_location,
train_instance_count=1,
train_instance_type='ml.p3.8xlarge',
train_volume_size=300,
train_max_run = 52460*60 ,
security_group_ids='sg-00f1529adc4076841'
)
输出是:
2018-10-18 23:27:15 Starting - Starting the training job... Launching requested ML instances...... Preparing the instances for training...
2018-10-18 23:29:15 Downloading - Downloading input data............ .................................................................... .................................................................... ....................................................................
2018-10-19 00:23:50 Training - Downloading the training image..
数据集下载耗时约 54 分钟