根據 Amazon CloudWatch,Amazon SageMaker 端點的 CPU 或 GPU 使用率指標高於 100%。
解決方法
CloudWatch 的 CPUUtilization 和 GPUUtilization 指標能顯示容器正在使用的 CPU 或 GPU 單元百分比。該值會乘以 CPU 或 GPU 的數量,這也是最終顯示值高於 100% 的原因。
以下提供幾個範例:
- 如果是非 GPU 執行個體 (例如 ml.m4.xlarge),由於執行個體具有 4 個 vCPU,CPUUtilization 可能介於 0 到 400% 之間。
- 若是 GPU 執行個體 (例如 ml.p3.8xlarge),CPUUtilization 可能介於 0 到 3200% 之間。GPUUtilization 可能介於 0 到 400% 之間,這是因為執行個體具有 32 個 vCPU 和 4 個 GPU。
- 如果有多個執行個體,CloudWatch 中的預設檢視畫面會顯示所有執行個體的平均 CPU 或 GPU 使用率。例如,如果您有 5 個 ml.m4.xlarge 執行個體,由於每個執行個體都有 4 個 vCPU,因此 CPUUtilization 可能介於 0 到 400% 之間。
如需 CPUUtilization 和 GPUUtilization 指標的詳細資訊,請參閱使用 Amazon CloudWatch 監控 Amazon SageMaker。如需透過清單了解每種執行個體類型的 vCPU 或 GPU 數量,請參閱 Amazon SageMaker 定價。