Google Play 2025年6月12日事故分析报告

Google Play 开发者API服务中断事件

对2025年6月12日因Google Cloud IAM故障引发的Play平台服务降级事件的交互式分析。

根本原因

GCP IAM 系统“错误配置”

身份与访问管理核心组件故障

Play API 中断时长

2小时 6分钟

GCP整体故障持续约7.5小时

影响范围

< 50% API 用户

全球多个区域均受波及

级联故障：多米诺骨牌效应

此次事件清晰地展示了当一个核心云服务发生故障时，其影响会如何逐层扩散，从底层基础设施波及到终端用户应用。

①

GCP IAM 故障

核心身份认证服务“错误配置”

➔

②

Google Play API 降级

订阅、发布等API高延迟、高错误率

➔

③

第三方服务受影响

依赖GCP的服务商(如Cloudflare)出现问题

➔

④

终端应用与用户

Spotify, Discord等应用功能异常

事故深度解析

通过交互式视图，深入了解事故的时间线、具体影响以及受波及的核心API。点击下方标签页切换内容。

历史重大中断事件对比

将此次事件与历史上其他几次大规模云服务中断事件进行对比，可以发现共通的模式和教训。下图展示了各事件的大致持续时长。

Google Play/GCP (2025)

原因: IAM系统“错误配置”

影响: Play API、多种GCP服务、第三方应用

教训: 核心认证服务的故障域过大，凸显了级联故障风险。

AWS S3 (2017)

原因: 人为操作失误（命令行参数错误）

影响: S3存储及大量依赖S3的网站

教训: 对运维工具和流程需要有更强的安全防护措施。

Facebook BGP (2021)

原因: 维护指令错误导致网络路由撤销

影响: Facebook旗下所有服务全球无法访问

教训: 核心网络基础设施的变更需要极致审慎和多层验证。

启示与建议

平台服务中断无法完全避免，但服务商和开发者都可以采取措施，提升整个生态系统的韧性。点击下方标题展开查看具体建议。

提升透明度: 尽快发布包含详尽技术细节的官方事后分析报告（Post-mortem）。
公示预防措施: 清晰阐述为防止类似IAM故障再次发生的长期预防措施和架构改进计划。
沟通架构韧性: 与开发者社群更透明地沟通云平台韧性建设的进展，如推广Cell-based架构。
加强开发者指导: 提供更清晰的指导，帮助开发者在其应用中构建应对平台中断的韧性架构。

面向失败设计: 在架构中采用熔断器、指数退避重试和服务降级等韧性设计模式。
多维度监控: 同时监控应用自身、Play状态及底层GCP的整体服务状态。
制定并演练应急预案: 针对关键依赖服务的中断制定清晰的预案，并定期演练。
评估依赖分散: 对核心功能，审慎评估采用多云部署或引入替代服务提供商的可行性。
缓存关键数据: 对不常变更但至关重要的配置或权益数据，在客户端或后端进行适当缓存。

Google Play 开发者API服务中断事件

根本原因

Play API 中断时长

影响范围

级联故障：多米诺骨牌效应

GCP IAM 故障

Google Play API 降级

第三方服务受影响

终端应用与用户

事故深度解析

GCP IAM 故障开始

Play API 服务降级开始

Play API 问题解决

GCP 全球故障完全恢复

对开发者的影响

对终端用户的潜在影响

订阅与应用内购买 API

Play Integrity API

作废购买 API

Publishing API

历史重大中断事件对比

Google Play/GCP (2025)

AWS S3 (2017)

Facebook BGP (2021)

启示与建议