我想知道 Amazon Aurora PostgreSQL 兼容版数据库 (DB) 集群中出现失效转移事件的原因。
当发生以下任一事件时,Aurora PostgreSQL 兼容版会自动失效转移到读取器实例:
当集群的写入器无法响应运行状况检查时,集群会根据优先级触发向读取器的失效转移。要确定导致失效转移的原因,请检查 Aurora PostgreSQL 兼容版集群的以下日志和指标。
要确定计划外停机的原因,请查看失效转移期间的所有 Aurora 事件。您最多可以查看过去 2 周内的事件。要长时间存储事件,请将 Aurora 事件发送到 Amazon EventBridge。有关更多信息,请参阅创建由 Amazon Aurora 事件触发的规则。
要检查是否由高数据库负载导致了失效转移,请使用 Amazon CloudWatch 查看您的 Aurora 数据库集群指标。
检查以下显示集群可用性和运行状况的指标是否出现峰值:
使用增强监控实时查看操作系统指标。要为您的 Amazon Aurora 实例启用增强监控,请参阅设置和启用增强监控。有关您可以查看的操作系统指标列表,请参阅增强监控中的操作系统指标。
使用性能详情查看 Aurora PostgreSQL 兼容版集群上的数据库负载。您可以按等待、SQL 语句、主机或用户筛选负载。有关更多信息,请参阅使用性能详情控制面板分析指标。
性能详情显示对数据库负载贡献最大的查询,例如使用 99% 数据库负载的查询。
性能详情可帮助您确定以下问题是否会影响数据库集群性能:
重要事项:性能详情将于 2026 年 6 月 30 日到期。您可以在 2026 年 6 月 30 日之前升级到数据库洞察的高级模式。如果您不进行升级,则使用性能详情的数据库集群将默认采用数据库洞察的标准模式。只有数据库洞察的高级模式才支持执行计划和按需分析。如果您的集群默认采用标准模式,则您可能无法在控制台上使用这些功能。要开启高级模式,请参阅开启适用于 Amazon Aurora 的数据库洞察的高级模式。另请参阅开启适用于 Amazon Aurora 的数据库洞察的高级模式。
在本地数据库中,数据库日志位于文件系统上。由于您无法访问主机以获取文件系统上的数据库日志,因此改为将日志发布到 Amazon CloudWatch Logs。
您也可以使用 Amazon RDS 控制台查看数据库日志文件。
要在失效转移后快速将操作切换到运行状况良好的副本实例,请将您的应用程序配置为快速失效转移。
要在数据库集群中快速恢复数据库实例,请使用 Aurora PostgreSQL 兼容版的集群缓存管理。
使用 Amazon RDS 代理保持与数据库实例的开放连接池。在数据库失效转移期间,RDS 代理会继续接受相同 IP 地址的连接,并自动将连接定向到新的主数据库实例。当原始数据库实例不可用时,RDS 代理会连接到备用数据库,但不会断开空闲的应用程序连接。
Amazon Aurora 的高可用性
监控 Amazon Aurora 集群中的指标
Aurora 的 Amazon RDS 事件类别和事件消息