我的 Amazon Elastic File System (Amazon EFS) 伺服器未回應,且顯示錯誤訊息「nfs:伺服器 127.0.0.1 不回應」。我想對此問題進行疑難排解。
簡短說明
由於下列原因,您可能會看到「伺服器不回應」錯誤:
- NFS 用戶端無法連線到 Amazon EFS 伺服器。
- 執行個體重新啟動或關閉導致網路中斷連線。
- 資源利用過度。
- 網路效能問題造成錯誤。
- 特定的核心版本有問題。
- 您使用的是不正確的掛載組態。
完成最適合您的使用案例的解決方法。
解決方法
NFS 用戶端無法連線到 Amazon EFS 伺服器
如果 NFS 用戶端無法連線到 Amazon EFS 伺服器,請檢查網路組態是否有下列問題:安全群組設定不正確、DNS 解析問題或 VPC 組態。
若要檢查連線,請執行下列命令:
telnet efs-mount-target-IP-address 2049
如果連線成功,則輸出會顯示與指定連接埠 (EFS 掛載目標 IP 位址) 的連線:
ec2-user@ip-172-31-8-105 ~
telnet 172.31.11.149 2049
Trying 172.31.11.149...
Connected to 172.31.11.149.
Escape character is '^'.
如果連線失敗,請完成下列檢查:
發生了執行個體重新啟動或關閉
若要檢查是否發生重新啟動或關閉,請檢閱 Amazon CloudWatch 中的 StatusCheckFailed 指標,以瞭解最近的執行個體停止或重新啟動。
使用率高
CPU 或記憶體使用量高可能會導致效能問題。若要檢查 CPU 和記憶體使用量,請使用 atop 等工具。如需詳細資訊,請參閱 Digital Ocean 網站上的 Linux 中的 atop 命令指南。然後,檢閱 EC2 執行個體的 CloudWatch 指標 CPUUtilization。
若要解決此問題,請將執行個體更新為較大的執行個體類型。
網路效能問題
CloudWatch 指標
網路效能不佳會導致 EFS 掛載錯誤。若要監控網路效能,請完成下列步驟:
- 開啟 CloudWatch 主控台。
- 選取您的 EC2 執行個體。
- 在指標區段的 EC2 下,檢查下列指標:
**網路封包輸入/輸出:**封包速率差異高可能表明網路不穩定。
**網路位元組輸入/輸出:**位元組速率差異高可能表明網路不穩定。
**網路錯誤:**網路錯誤的增加可能表示網路介面有問題。若要解決大量網路錯誤,請將執行個體類型變更為網路效能更高的類型。
**網路輸送量:**持續的高輸送量表明您需要更高的頻寬執行個體。
其他監控工具
您還可以在 Die Net 網站上使用第三方工具,例如 sar、nload 和 iftop。
識別微突發並減小其影響
由於網路流量短暫的尖峰會導致封包掉落和潛在錯誤,因此微突發可能會導致效能突然降低。若要識別並減小微突發,請完成下列步驟:
- 開啟 CloudWatch 主控台。
- 選取您的 EC2 執行個體。
- 選擇監控,然後檢閱下列指標:
網路輸入/輸出: 監控傳入和輸出網路流量。
網路封包輸入/輸出: 檢查短間隔內傳送或接收的封包數量是否突然上升。
CPU 信用使用量和 CPU 信用餘額: 檢查執行個體是否遇到與網路效能問題相關的 CPU 限制。
**注意:**網路流量或封包速率突然增加可能表示微突發。最佳實務是監控這些指標隨著時間的變化,以識別短暫突發模式。
使用您收集的資料來尋找網路流量或封包數的短暫、突然增加。如果確認是微突發,請完成以下步驟:
如需詳細資訊,請參閱如何識別我的 Amazon EBS 磁碟區是否會發生微型爆量,然後防止這種情況發生?
核心版本問題疑難排解
某些核心版本具有可能導致 EFS 掛載失敗的問題。
若要檢查核心版本,請執行下列命令:
uname -r
輸出訊息類似下列內容:
6.1.97-104.177.amzn2023.x86_64
請確定您使用的是核心版本 4.3 或更新版本。
安裝組態不正確
如果使用不正確的掛載選項,則掛載會失敗。
若要驗證您的掛載選項,請檢查所使用的 mount 命令。在掛載檔案系統時,請確定包含 noresvport 選項:
sudo mount -t nfs -o nfsvers=4.1,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport <mount-target-ip>:/ <mount-point>
如需關於掛載選項的詳細資訊,請參閱建議的 NFS 掛載設定。
如果您使用的掛載組態正確但仍然失敗,請收集日誌資訊並聯絡 AWS Support。