跳至內容

為什麼我的 AWS DMS 複寫執行個體會重新啟動或發生容錯移轉?

1 分的閱讀內容
0

我想對 AWS Database Migration Service (AWS DMS) 複寫執行個體的重新啟動或容錯移轉問題進行疑難排解。

簡短描述

AWS DMS 複寫執行個體會因下列原因自動重新啟動:

  • 主執行個體存在基礎結構問題,例如網路連線遺失、運算單位問題或儲存問題。
  • 由於垂直擴展活動,執行個體類別類型發生了變化。
  • 在特定的維護時段內,執行個體所在的主機正在進行軟體修補。如需詳細資訊,請參閱使用複寫引擎版本
  • 您使用了 Reboot (重新啟動) 或 Reboot with planned failover (使用計劃的容錯移轉重新啟動) 選項來對執行個體執行手動重新啟動

當複寫執行個體發生問題且無法回應 AWS DMS 運作狀態檢查時,AWS DMS 會自動啟動復原或容錯移轉。對於單一可用區域部署,AWS DMS 會啟動復原。對於多可用區域部署,AWS DMS 會啟動容錯移轉。接著,AWS DMS 會重新啟動複寫執行個體,然後您才能手動恢復資料庫遷移任務。

解決方法

檢查 AWS DMS 事件以確定根本原因

若要確定執行個體重新啟動或容錯移轉的原因,請查看過去 24 小時的 AWS DMS 事件。開啟 AWS DMS 主控台,然後選擇 Events (事件)。

**注意:**預設情況下,AWS DMS 會以 UTC 時區註冊事件。

若要長期儲存事件,請將 AWS DMS 事件傳送到 Amazon EventBridge。如需詳細資訊,請參閱實施自動化方法來處理 AWS DMS 操作事件

如果您看到事件訊息複寫執行個體已修補,則表示複寫執行個體的引擎版本已升級。升級可以在執行個體修改後立即進行,也可以在排程的維護時段內進行。

如果執行個體類別類型發生變化,您會看到事件訊息此複寫執行個體的複寫執行個體類別正在變更此複寫執行個體的複寫執行個體類別已變更。在執行擴展作業期間,單一可用區域部署會有幾分鐘無法使用。在容錯移轉期間,多可用區域部署將會無法使用。容錯移轉通常需要 60 秒。在新大小的資料庫發生容錯移轉之前,AWS DMS 會升級備用資料庫。

由於下列原因,您可能會看到事件訊息多可用區域執行個體容錯移轉已啟動多可用區域執行個體容錯移轉已完成

  • 主要複寫執行個體無回應。
  • 該執行個體是透過重新啟動使用計劃的容錯移轉重新啟動選項手動重新啟動
  • 複寫執行個體與基礎主機之間出現間歇性的網路問題。

使用增強型監控儀表板監控 AWS DMS 指標

AWS DMS 會將指標從增強型監控儀表板傳送到 Amazon CloudWatch Logs。查看複寫執行個體日誌,了解效能、資源使用率和運作狀態指標。

**注意:**AWS DMS 無伺服器複寫不支援增強型監控。

啟用多可用區域部署以減少停機時間

若要減少停機時間,請啟用多可用區域部署。在多可用區域部署中,複寫執行個體的備用複本位於不同的可用區域。如需詳細資訊,請參閱 AWS Database Migration Service 中的彈性

**注意:**對於使用 Amazon Simple Storage Service (Amazon S3) 作為目標的執行個體,AWS DMS 可能會將重複記錄寫入您的 S3 儲存貯體。當您在重新啟動或容錯移轉後恢復任務,且 TargetTablePrepMode 設定為 DO_NOTHING 時,就會發生這種情況。

相關資訊

AWS Database Migration Service 的最佳實務

使用 AWS DMS 複寫執行個體

AWS 官方已更新 8 個月前