本ページは広告が含まれています。気になる広告をクリック頂けますと、サーバ運営費になります(^^
NGFW Untangle が15:04~5ごろに勝手に再起動した
Utmとして利用しているNGFWの件です。通称Untangle なんですけど、本社業務の方からインターネットアクセスができないとの申告がありました。
なんでだろう?って思ったら、UTMで利用しているUntangleが勝手にリブートしてたみたい。再起動して30分

原因を追究していく
/var/lib/systemd/pstore/dmesg-erst-0 の内容を確認
重大なエラーを発見
BUG: unable to handle page fault for address: ffff93c2bc000054
#PF: supervisor read access in kernel mode
#PF: error_code(0x0000) - not-present page
...
Kernel panic - not syncing: Fatal exception in interrupt
原因となった関数
RIP: 0010:socket_match+0xfb/0x160 [xt_socket]
これは、xt_socket モジュール(Netfilter拡張)内の socket_match 関数で、存在しないメモリページへのアクセス(ページフォルト)が発生したことを示しています。
Supervisor read access in kernel mode:カーネルがアクセスしようとしたメモリが存在しない
Not-present page:そのメモリページがマッピングされていない
Fatal exception in interrupt:割り込み処理中に致命的な例外が発生
つまり、カーネルがクラッシュして、再起動した模様
さらに調査
ハードウェア障害を疑ってみる
dmesg | grep -i error
journalctl -k | grep -i memory
# dmesg | grep -i error
[ 1.038787] ERST: Error Record Serialization Table (ERST) support is initialized.
[ 1.639608] i8042: probe of i8042 failed with error -5
[ 2.337761] uvesafb: probe of uvesafb.0 failed with error -22
[ 3.604457] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro
sda1 がちょっと気になるな。
[ 3.604457] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro
影響:システムが正常に動作しない可能性があります。すぐにファイルシステムのチェックを行う必要があります。
重要度:重大な警告
内容:/dev/sda1 の EXT4 ファイルシステムがエラー検出により「読み取り専用」で再マウントされたことを示しています。
mount | grep sda1
/dev/sda1 on / type ext4 (rw,relatime,errors=remount-ro)
今はまだ「読み書き可能」ですが、起動時に何らかのエラーが検出されて、将来的に「読み取り専用」に切り替わる可能性があります。
そのため、ファイルシステムの整合性チェック(fsck)を行うことが推奨されます。
可能性として
xt_socketでのクラッシュが主であるため、initramfsの破損が直接的な原因である可能性は低いですが、ファイルシステムの問題が根本にある場合、ディスクの破損やI/Oエラーがinitramfsファイル自体を破損させたか、またはinitramfsが正しく生成されなかった(例:必要なドライバが欠けている)可能性があるため、システムが起動プロセス中に必要なリソースにアクセスできなくなり、パニックを引き起こす可能性があります。
journalctl -k | grep -i memory
疑ったメモリの方は大丈夫そう。
メモリは正常に初期化・予約・解放されており、カーネルが適切に管理しています。
NICドライバも怪しい?
xt_socketクラッシュがネットワークスタックで発生していることを考えると、NICドライバの問題は非常に有力な原因候補です。
特定はできていないけど
Untangle NGFWのカーネルパニックは、xt_socketモジュールでのページフォルトと、ルートファイルシステムのエラー(errors=remount-ro)が複合的に絡み合って発生した可能性が高いと診断されます。これは、ネットワークスタックのソフトウェアバグ(特に最近のカーネル/UntangleアップデートやNICドライバに関連する可能性が高い)と、基盤となるストレージの健全性問題が同時に存在する

