配置NUT的核心步骤包括:安装NUT软件包;识别UPS连接方式并配置ups.conf定义设备驱动与端口;设置upsd.conf指定监听地址;在upsd.users中创建认证用户;配置upsmon.conf定义监控关系、通知事件及关机脚本路径;编写具备日志记录、延迟执行和sudo权限的关机脚本;确保nut用户在sudoers中拥有无密码执行shutdown权限;最后启动nut-driver、nut-server和nut-monitor服务并设置开机自启,完成联动关机配置。
Linux系统与UPS设备配合实现断电保护的关机,核心在于利用UPS监控软件(如Network UPS Tools,简称NUT)感知市电状态变化。当市电中断或UPS电池电量达到预设阈值时,该软件会触发系统执行预定义的关机命令,确保在电池耗尽前,服务器能安全、有序地关闭,从而保护数据完整性,避免突发断电带来的硬件损伤和数据丢失。
要实现Linux与UPS的联动关机,最常见且可靠的方法是部署Network UPS Tools (NUT)。NUT是一个功能强大的客户端-服务器架构软件,它能与各种UPS设备通信,并提供统一的接口来监控UPS状态和在特定事件发生时执行操作。
具体配置步骤通常包括:
安装NUT: 在Linux服务器上安装NUT软件包。
# Debian/Ubuntu sudo apt update sudo apt install nut # CentOS/RHEL sudo yum install nut
识别UPS设备: 确定UPS与服务器的连接方式(USB、串口或网络)。USB连接通常是最常见的,NUT会自动加载相应的驱动。
配置ups.conf
: 这是NUT的核心配置文件,用于定义UPS设备及其连接方式。
编辑
/etc/nut/ups.conf,添加UPS定义。例如,对于USB连接的APC UPS:
[myups]
driver = usbhid-ups
port = auto
desc = "My Home Server UPS"
# 更多选项如vendorid, productid可以在lsusb中找到保存后,可以尝试启动
upsd并用
upsc myups测试连接:
sudo systemctl restart nut-driver sudo systemctl restart nut-server # 如果是服务器模式 upsc myups
如果能看到UPS状态信息,说明驱动和连接正常。
配置upsmon.conf
: 这是客户端监控配置文件,定义了当UPS状态改变时
upsmon守护进程应执行的操作。 编辑
/etc/nut/upsmon.conf,添加对UPS的监控。
RUN_AS_USER nut MONITOR myups@localhost 1 upsmaster mypassword master # 当UPS切换到电池供电时(市电中断) NOTIFYCMD "/etc/nut/ups_shutdown.sh" NOTIFYFLAG ONBATT EXEC NOTIFYFLAG ONBATT SYSLOG # 当UPS电池电量低时 NOTIFYFLAG LOWBATT EXEC NOTIFYFLAG LOWBATT SYSLOG # 强制关机延迟,给系统留出足够时间执行关机脚本 FSD lowbatt 60 # 当LOWBATT事件发生后,60秒内未恢复市电则强制关机
这里的
upsmaster和
mypassword是在
/etc/nut/upsd.users中定义的监控用户,需要确保存在。
创建关机脚本:
NOTIFYCMD指向的脚本是执行实际关机操作的关键。 创建
/etc/nut/ups_shutdown.sh并赋予执行权限:
#!/bin/bash logger -t UPS_SHUTDOWN "UPS is on battery or low battery, initiating system shutdown." # 确保所有关键服务有时间优雅关闭 sleep 10 sudo shutdown -h now "UPS battery is low, system shutting down."
sudo chmod +x /etc/nut/ups_shutdown.sh
注意:
upsmon通常以
nut用户身份运行,所以关机命令需要
sudo权限。确保
nut用户在
/etc/sudoers文件中拥有执行
shutdown命令的权限,且不需要密码。
# 编辑sudoers文件 sudo visudo # 添加一行 (注意:这允许nut用户无需密码执行shutdown,请谨慎评估安全风险) nut ALL=(ALL) NOPASSWD: /sbin/shutdown
启动NUT服务: 确保所有NUT服务都已启动并设置为开机自启。
sudo systemctl enable nut-driver nut-server nut-monitor sudo systemctl start nut-driver nut-server nut-monitor
完成这些步骤后,当UPS检测到市电中断或电池电量低时,
upsmon会触发
ups_shutdown.sh脚本,从而安全关闭Linux系统。
在我看来,配置NUT,尤其是初次接触时,最容易让人感到困惑的往往是其多文件、多服务的架构。理解每个文件的作用和它们之间的协作关系,是成功配置的关键。
ups.conf
- UPS设备的“身份证”和“驾驶舱”:
driver): 这是第一步,也是最重要的一步。你需要知道你的UPS型号,并查阅NUT官方文档(或通过
nut-driver-enumerator工具)确定正确的驱动程序。例如,APC Smart-UPS通常用
apcsmart,而USB连接的通用UPS可能用
usbhid-ups。选错驱动,一切都无从谈起。
port): 对于USB设备,
port = auto通常能工作。但如果是串口(RS-232),你需要指定正确的
/dev/ttyS0或
/dev/ttyUSB0。网络UPS则需要指定IP地址。
desc): 给你的UPS一个易于识别的名字,这在你有多个UPS时尤其有用。
vendorid、
productid或波特率等参数,这些可以在
lsusb -v或
dmesg输出中找到。我通常会建议先用最简单的配置尝试,如果不行再逐步添加这些细节。
upsd.conf
- NUT服务器的“门卫”:
LISTEN): 默认情况下,
upsd可能只监听
127.0.0.1。如果你计划让其他服务器(客户端)通过网络监控这个UPS,你需要将其设置为
0.0.0.0或特定的网络接口IP。这就像打开服务器的一个端口,允许外部连接。
upsd.users
- 访问权限的“通行证”:
upsmaster用户。这些账户并不是系统用户,而是NUT内部用于认证的。
actions): 可以细化每个用户的权限,比如是否允许
set(修改UPS参数)或
monitor(只读监控)。对于自动关机,通常只需要
monitor权限。
upsmon.conf
- 客户端的“观察员”和“执行者”:
monitor): 指明要监控哪个UPS(
myups@localhost或
myups@远程UPS服务器IP),以及用于连接的NUT用户和密码。
NOTIFYCMD): 这是触发关机脚本的核心。指定一个可执行脚本的完整路径。
NOTIFYFLAG): 定义在什么事件发生时执行
NOTIFYCMD。
ONBATT(切换到电池供电)、
LOWBATT(电池电量低)是最常用的触发关机事件。
EXEC表示执行命令,
SYSLOG表示记录到系统日志。
FSD): 这是一个关键参数。当
LOWBATT事件发生后,
FSD定义的秒数内如果市电仍未恢复,
upsmon会强制执行关机操作。设置得太短可能导致系统来不及关机,设置得太长则可能耗尽电池。我通常会根据UPS的续航能力和服务器的关机速度来权衡。
nut-driver
、nut-server
、nut-monitor
服务: 理解这三个服务的启动顺序和依赖关系也很重要。
nut-driver负责与硬件通信,
nut-server(
upsd)提供网络接口,
nut-monitor(
upsmon)则作为客户端监听事件并执行操作。它们需要正确启动和协同工作。
确保Linux系统在UPS低电量时能自动且安全地关机,这不仅仅是执行一个
shutdown命令那么简单,它涉及到时间窗口的精确把握、服务优雅关闭的考量,以及潜在的重试机制。
首先,核心在于
upsmon.conf中的
LOWBATT事件和
FSD参数。
LOWBATT是UPS报告的电池电量低于某个阈值(通常是20-30%)时触发的事件。这是系统进行最终关机准备的信号。
LOWBATT
事件的触发与脚本执行:
在
upsmon.conf中,你需要明确设置:
NOTIFYFLAG LOWBATT EXEC NOTIFYCMD "/etc/nut/ups_shutdown.sh"
这告诉
upsmon,一旦收到
LOWBATT信号,就立即执行
/etc/nut/ups_shutdown.sh脚本。
关机脚本的编写与权限: 我强烈建议关机脚本不仅仅包含
sudo shutdown -h now。一个更健壮的脚本应该:
logger将关机事件记录到系统日志,方便日后排查。
shutdown前加入一个短暂的
sleep(例如5-10秒)。这可以应对一些瞬时性的低电量报告,避免不必要的关机,同时也能给系统内一些非常紧急的服务留出最后一点缓冲时间。
shutdown命令之前添加特定的命令来优雅地停止它们的服务,例如
sudo systemctl stop postgresql。这能最大程度地减少数据损坏的风险。
sudo shutdown -h now或
sudo poweroff。确保
nut用户有执行这些命令的
NOPASSWD权限。
FSD
(Forced Shutdown Delay)参数的精妙之处:
FSD lowbatt 60
这个参数意味着,在
LOWBATT事件发生后,
upsmon会等待60秒。如果在这60秒内市电没有恢复,并且系统还没有完全关机,
upsmon会再次尝试触发关机,甚至可能强制关机。这个延迟非常重要,它
给了你的关机脚本足够的时间去执行,避免了UPS在电池电量真正耗尽前就切断电源。选择一个合适的FSD值,需要考虑你的服务器关机所需的时间,以及UPS在
LOWBATT状态下还能维持多久。我的经验是,对于大多数服务器,60-120秒是一个比较稳妥的范围。
持续监控与测试: 配置完成后,务必进行真实环境下的测试。模拟断电,观察系统日志,确认关机脚本是否被执行,系统是否在预期的时间内安全关闭。这能帮助你发现潜在的配置错误或权限问题。
在配置UPS自动关机时,虽然目标是保护系统,但如果不谨慎,反而可能引入新的风险。我个人在实践中也遇到过一些“坑”,总结了一些潜在风险和相应的最佳实践。
潜在风险:
NOTIFYFLAG ONBATT EXEC没有配合足够的延迟或智能判断,可能导致系统频繁不必要的关机。
nut用户可能没有执行
sudo shutdown的权限,或者脚本本身没有执行权限。
logger、
shutdown)可能没有使用绝对路径,导致在
nut用户的特定环境中找不到。
FSD参数设置不当:
FSD设置得太短,系统可能还没来得及完全关闭,UPS电池就耗尽了,效果等同于直接断电。
FSD设置得太长,在电池电量真正耗尽前,系统可能已经关机,但UPS却还在无谓地消耗电池,缩短了电池寿命。
upsmon无法收到UPS状态更新,从而无法触发关机。
最佳实践:
彻底的测试与验证:
upsc命令确认NUT能否正确读取UPS状态,再手动执行关机脚本,最后再进行模拟断电测试。
logger命令,记录脚本执行的每一步,包括时间戳和关键变量。这在排查问题时极其有用。
优化关机脚本:
/usr/bin/logger、
/sbin/shutdown。
shutdown命令之前添加对应的
systemctl stop命令,确保数据完整性。
ONBATT或
LOWBATT触发后,给脚本一个短暂的
sleep,避免因瞬时波动而误触发。
精确配置FSD
:
FSD应该略大于你的服务器关机所需时间,并留有足够的电池余量,但也不能过长。
sudoers
配置最小化原则:
nut用户执行
shutdown命令,并且明确指定
shutdown的完整路径。
nut ALL=(ALL) NOPASSWD: /sbin/shutdown -h now这样比
nut ALL=(ALL) NOPASSWD: ALL安全得多。
定期维护与检查:
考虑多层保护:
通过遵循这些实践,可以大大降低自动关机配置带来的风险,确保在电力故障时,你的Linux系统能够得到最可靠的保护。