SageMaker MXNet 本地模式无法工作。

0

【以下的问题经过翻译处理】 你好,我正在尝试在本地安装MXNet模型。 我正在参考这个网址https://aws.amazon.com/blogs/machine-learning/use-the-amazon-sagemaker-local-mode-to-train-on-your-notebook-instance/,并执行以下操作:

bucket = 'XXXXXXXXXXX'
prefix = 'sagemaker/cifar-bench/data'

inputs = sagemaker_session.upload_data(
    path='data',
    bucket=bucket, 
    key_prefix=prefix)

print('data sent to ' + inputs)


Inception = MXNet('gluon_cifar_net.py', 
          role=role, 
          train_instance_count=1, 
          train_instance_type='local_gpu',
          framework_version='1.2.1',
          base_job_name='cifar10-inception-',
          hyperparameters={'batch_size': 256, 
                           'optimizer': 'sgd',
                           'epochs': 100, 
                           'learning_rate': 0.1, 
                           'momentum': 0.9})


Inception.fit(inputs)

这报错 OSError: [Errno 2] No such file or directory

在错误日志中,我可以看到似乎在 self.latest_training_job = _TrainingJob.start_new(self,inputs)self.sagemaker_client.create_training_job(**train_request)处有错误。

我该如何使本地模式正常工作?

profile picture
专家
已提问 8 个月前43 查看次数
1 回答
0

【以下的回答经过翻译处理】 很有可能你的设备中没有安装docker-compose(或docker),这就导致了出现“ No such file or directory”的错误。 如果您想使用本地GPU模式进行模型训练,我们建议您使用SageMaker笔记本实例。前往一个示例笔记本,例如:https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/mxnet_gluon_cifar10/mxnet_cifar10_local_mode.ipynb 并运行setup.sh脚本。这将正确安装和配置所有docker依赖项,之后您应该能够使用本地GPU模式使用MXNet。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则