跳至内容

为什么我的 Amazon Aurora PostgreSQL 兼容版集群会进行失效转移?

1 分钟阅读
0

我想知道 Amazon Aurora PostgreSQL 兼容版数据库 (DB) 集群中出现失效转移事件的原因。

简短描述

当发生以下任一事件时,Aurora PostgreSQL 兼容版会自动失效转移到读取器实例:

  • 写入器实例存在基础架构问题。这包括与物理主机或集群卷的网络连接中断,或物理计算资源出现问题。
  • 写入器实例无法访问。当工作负载过高导致性能瓶颈和资源争用时,就会出现此问题。
  • 由于数据库实例垂直扩缩,写入器的数据库实例类类型发生变化。
  • 在特定维护时段内,写入器的底层主机会进行软件补丁、硬件维护或操作系统 (OS) 更新。有关详细信息,请参阅维护 Amazon Aurora 数据库集群
  • 实例在实例级别使用了失效转移选项。

解决方法

当集群的写入器无法响应运行状况检查时,集群会根据优先级触发向读取器的失效转移。要确定导致失效转移的原因,请检查 Aurora PostgreSQL 兼容版集群的以下日志和指标。

Amazon RDS 事件

要确定计划外停机的原因,请查看失效转移期间的所有 Aurora 事件。您最多可以查看过去 2 周内的事件。要长时间存储事件,请将 Aurora 事件发送到 Amazon EventBridge。有关更多信息,请参阅创建由 Amazon Aurora 事件触发的规则

CloudWatch 指标

要检查是否由高数据库负载导致了失效转移,请使用 Amazon CloudWatch 查看您的 Aurora 数据库集群指标

检查以下显示集群可用性和运行状况的指标是否出现峰值:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • DiskQueueDepth
  • StorageNetworkThroughput

增强监控

使用增强监控实时查看操作系统指标。要为您的 Amazon Aurora 实例启用增强监控,请参阅设置和启用增强监控。有关您可以查看的操作系统指标列表,请参阅增强监控中的操作系统指标

性能详情

使用性能详情查看 Aurora PostgreSQL 兼容版集群上的数据库负载。您可以按等待、SQL 语句、主机或用户筛选负载。有关更多信息,请参阅使用性能详情控制面板分析指标

性能详情显示对数据库负载贡献最大的查询,例如使用 99% 数据库负载的查询。

性能详情可帮助您确定以下问题是否会影响数据库集群性能:

  • I/O 操作,例如用于磁盘读取的 IO:DataFileRead
  • 锁定争用,例如 Lock:transactionidLock:Relation
  • 缓冲区管理问题,例如 BufferPin:BufferPin
  • 客户端通信延迟,例如 Client:ClientReadClient:ClientWrite

重要事项:性能详情将于 2026 年 6 月 30 日到期。您可以在 2026 年 6 月 30 日之前升级到数据库洞察的高级模式。如果您不进行升级,则使用性能详情的数据库集群将默认采用数据库洞察的标准模式。只有数据库洞察的高级模式才支持执行计划和按需分析。如果您的集群默认采用标准模式,则您可能无法在控制台上使用这些功能。要开启高级模式,请参阅开启适用于 Amazon Aurora 的数据库洞察的高级模式。另请参阅开启适用于 Amazon Aurora 的数据库洞察的高级模式

Aurora 数据库日志

在本地数据库中,数据库日志位于文件系统上。由于您无法访问主机以获取文件系统上的数据库日志,因此改为将日志发布到 Amazon CloudWatch Logs

您也可以使用 Amazon RDS 控制台查看数据库日志文件

使用 Aurora PostgreSQL 进行快速失效转移

要在失效转移后快速将操作切换到运行状况良好的副本实例,请将您的应用程序配置为快速失效转移

使用 Aurora PostgreSQL 兼容版的集群缓存管理实现失效转移后的快速恢复

要在数据库集群中快速恢复数据库实例,请使用 Aurora PostgreSQL 兼容版的集群缓存管理

用于提高失效转移性能的 RDS 代理

使用 Amazon RDS 代理保持与数据库实例的开放连接池。在数据库失效转移期间,RDS 代理会继续接受相同 IP 地址的连接,并自动将连接定向到新的主数据库实例。当原始数据库实例不可用时,RDS 代理会连接到备用数据库,但不会断开空闲的应用程序连接。

相关信息

Amazon Aurora 的高可用性

监控 Amazon Aurora 集群中的指标

Aurora 的 Amazon RDS 事件类别和事件消息

AWS 官方已更新 5 个月前