一、问题背景:一场搬迁后引发的连锁故障
为某客户的主域服务器升级内存,因为我们知道有备域,所以也就没多想,直接关闭了主域服务器,可是刚打开机箱盖,就有用户反馈,不能上网了,紧接着,各部门都来反馈断网,难道隔壁机房的备域也挂了?
取了钥匙,开隔壁机房的门,跑到服务器跟前一看,电源灯都不亮,按开机键没反应,绕到后面一看,好嘛,冗余电源,愣是一根电源线都没插。
插上电源线,开机,怀着忐忑的心情看着服务器启动,好不容易进了系统,”服务器管理器“报了一堆DNS错误,马上打开DNS服务,重启DNS服务,切换到”监测“页面,点了几次”立即测试“,貌似没啥问题。
通知用户测试,回复说是能上网了。
但是“服务器管理器”还在持续报错,不用多想,肯定是这台备域脱离太久,没有同步信息了,问了一下客户,说是不知道谁拔了备域服务器的电源线。
好吧,我先不管了,反正当初搬过来的时候,确定以及肯定备域是正常开机的。这会儿先把主域服务器的内存升级完成后,备域再同步一下就好了。
二、核心解决步骤:三步重建时间与域控同步
步骤1:紧急配置NTP时间同步(关键基础)
操作要点:
- 备域上重启NTP服务
在备域上以管理员身份运行CMD,执行以下命令: - w32tm /config /syncfromflags:domhier /update # 设置从域层级同步时间
net stop w32time && net start w32time # 重启时间服务 - 强制客户端同步时间
接着执行强制同步命令:
w32tm /resync /rediscover # 重新发现时间源- 验证时间同步状态
通过以下命令确认同步状态: - w32tm /query /status | findstr "源"
# 正常输出应显示主域控名称,偏差值应<1ms
步骤2:重建域控间数据同步(核心修复)
操作流程:
- 强制AD数据库复制
在主域控执行跨域控复制命令: - repadmin /syncall /force # 强制同步所有伙伴服务器
repadmin /showrepl # 查看复制状态,入站邻居下的每一项都显示尝试成功,就没问题了 - 修复SYSVOL共享
当出现SYSVOL状态异常时,执行:
dfsrmig /setglobalstate 0 # 重置文件复制状态
net stop dfsr && net start dfsr # 重启文件复制服务- 本案例并未提示SYSVOL共享故障,所以并未执行以上命令。
步骤3:验证与监控(确保稳定性)
验证清单:
- 时间同步:所有域成员执行w32tm /query /source应显示主域控
- AD健康检查:
dcdiag /test:replications /v # 目录服务器诊断
netdom query fsmo # 确认FSMO五个角色持有者 - 监控建议:部署Windows事件日志订阅,重点关注事件ID 135(时间服务异常)、1202(AD复制失败)
三、故障预防与最佳实践
- 机房专人专管
- 定期巡检
- 灾备及监测方案
- 建议服务器虚拟化,制定快照及备份计划;
- 建立Zabbix等监测服务,配置邮件或者微信告警,及时接收故障信息。
五、总结
本次故障处理耗时约1小时,核心教训在于:机房无人管理,服务器被拔了电源线都不知道,万一被拔掉的是硬盘呢?去哪里找回来?
<script type="text/javascript" src="//mp.toutiao.com/mp/agw/mass_profit/pc_product_promotions_js?item_id=7508996782576239115"></script>