意外关机,附带“按下电源键”的日志。

意外关机,附带“按下电源键”的日志。

最明显的答案当然是有人按下了电源按钮。可能是意外的——例如,如果电源按钮非常敏感,有人在经过时不小心碰到了它。这也可能是由于电源按钮失效(例如,弹簧磨损)导致的。可以通过制作一种类似于Molly guard的装置来防止意外按下电源按钮。

从IPMI等方式请求优雅关机通常也会被识别为按下电源按钮。

另一个可能性是(电气)噪声使系统“认为”电源按钮已被按下。确保电源按钮的线缆牢固连接在主板上(如果没有焊接,则还要检查开关),并检查电缆布线,确保线缆远离任何具有大/可变功耗的物体。

如果其他方法都不起作用,你可以编辑/etc/systemd/logind.conf文件,并将HandlePowerKey设置为ignore(然后重新启动systemd-logind)。这样应该可以阻止系统关机,但是这意味着你将无法使用电源按钮进行干净的关机(任何情况下按住4秒钟以进行非干净关机的功能无法通过systemd禁用,因为它是由系统固件执行的)。

- derobert7是的,可能是按钮有问题,或者有人在按它,可能是猫咪或者清洁工。 - Rui F Ribeiro非常感谢你,derobert。我将从最后一项开始进行测试,将“HandlePowerKey”设置为“ignore”。如果这解决了问题,那意味着什么呢? - user1507435@user1507435并没有提供太多信息,这只是配置系统忽略它所检测到的电源按钮按下。 - derobert在将HandlePowerKey设置为ignore后,服务器关机,在一周后的syslog中没有任何错误信息,也没有任何IPMI日志事件。电源关闭按钮很难触及,所以我可以安全地跳过尝试使用Molly保护装置。如果此关机是由于CPU过热引起的,我应该期望在某个地方看到记录的事件吗? - user1507435@user1507435 这是一个干净的关机吗?如果过热导致了干净的关机,我会期望有相关的日志记录。如果只是断电,那可能就没有了。你有什么理由怀疑过热吗?我认为Supermicro服务器在工程上应该足够好,除非有一些风扇坏了/散热器堵塞/运行在100°F的数据中心等情况,否则不会过热。你应该能够通过IPMI监控温度。 - derobert谢谢,derobert。不是一个干净的关机,因为在系统日志中没有记录。

我怀疑过热的唯一原因是,几乎每次关机发生时,系统上都有一个CPU密集型任务在运行(平均CPU使用率约为70%)。我想下一步应该是打开服务器,检查是否一切都看起来正常。 - user1507435嗨,@user1507435,是的,你可以使用IPMI实用程序(例如Supermicro的IPMIView等)来检查风扇是否在旋转,温度是否正常等等。高负载时,也可能会导致电源不足而失败,或者是边缘电容器的问题,还有其他可能性... - derobert