Bug：mongodb机房迁移导致gss宕机

发表于 2026/04/17 更新于 2026/04/28

作者 klizzz

次阅读 6 分钟阅读

一、背景

DBA 对目标 3 节点副本集 Shard 扩容至 4 节点时，先使用凌晨冷备份初始化新节点，因增量同步速度过慢，直接对运行中的老从节点执行物理数据文件拷贝，触发 MongoDB 全局读锁，导致该节点完全停止读写。

副本集 4 节点仅 2 个可用，不满足w:majority（需 3 节点确认），最终 Shard 分片整体不可写。

进而导致后续一系列故障表现。

2026年4月17日13:00：执行 Shard 分片扩容，新节点使用凌晨冷备份启动

状态：新节点正常追赶增量数据，同步速率较慢
2026年4月17日16:13：DBA手动执行物理拷贝：从在线老从节点复制数据文件至新节点

触发源节点 全局锁，节点卡死、无读写、无副本集心跳
2026年4月17日16:13：副本集状态异常

4 节点中仅主节点 +1 个从节点正常，被锁节点 + 新节点异常
2026年4月17日16:13：写入策略不满足

4 节点majority要求 3 台确认，仅 2 台可用，所有写入永久阻塞
2026年4月17日16:17：业务雪崩

HIS-GSS 请求堆积、线程/连接耗尽，GSS 宕机重启。前几次还拉起失败了，后面重试了几次才拉取成功的。
2026年4月17日16:20：DBA 停止手动拷贝操作
2026年4月17日16:21：数据库恢复正常，GSS 拉起成功，业务恢复正常。
【占位】

严禁高危操作：生产环境禁止直接cp/scp在线运行的 MongoDB 数据文件，杜绝全局锁风险
标准化扩容流程
- 优先使用 MongoDB 7.0.14 官方fileCopyBased物理同步模式
- 备选方案：冷备份/磁盘快照初始化 → 新节点追增量 → 加入副本集
扩容前置评估：副本集节点数变更必须校验w:majority阈值和集群容错能力
变更监控与灰度：扩容过程全程监控节点锁状态、副本集健康度，新节点就绪后再正式接入
分片集群防护：完善单 Shard 故障的业务熔断/限流策略，避免单点故障传导至上游核心服务

技术, 我的bug

技术 bug 数据库 mongodb HIS

本文由作者按照 CC BY 4.0 进行授权