NGFW Untangle って勝手に再起動する?

未分類

本ページは広告が含まれています。気になる広告をクリック頂けますと、サーバ運営費になります(^^

NGFW Untangle が15:04~5ごろに勝手に再起動した

Utmとして利用しているNGFWの件です。通称Untangle なんですけど、本社業務の方からインターネットアクセスができないとの申告がありました。

なんでだろう?って思ったら、UTMで利用しているUntangleが勝手にリブートしてたみたい。再起動して30分

原因を追究していく

/var/lib/systemd/pstore/dmesg-erst-0 の内容を確認

重大なエラーを発見

BUG: unable to handle page fault for address: ffff93c2bc000054
#PF: supervisor read access in kernel mode
#PF: error_code(0x0000) - not-present page
...
Kernel panic - not syncing: Fatal exception in interrupt

原因となった関数

RIP: 0010:socket_match+0xfb/0x160 [xt_socket]

これは、xt_socket モジュール(Netfilter拡張)内の socket_match 関数で、存在しないメモリページへのアクセス(ページフォルト)が発生したことを示しています。

Supervisor read access in kernel mode:カーネルがアクセスしようとしたメモリが存在しない

Not-present page:そのメモリページがマッピングされていない

Fatal exception in interrupt:割り込み処理中に致命的な例外が発生

つまり、カーネルがクラッシュして、再起動した模様

さらに調査

ハードウェア障害を疑ってみる

dmesg | grep -i error
journalctl -k | grep -i memory
# dmesg | grep -i error
[    1.038787] ERST: Error Record Serialization Table (ERST) support is initialized.
[    1.639608] i8042: probe of i8042 failed with error -5
[    2.337761] uvesafb: probe of uvesafb.0 failed with error -22
[    3.604457] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro

sda1 がちょっと気になるな。

 [ 3.604457] EXT4-fs (sda1): re-mounted. Opts: errors=remount-ro

影響:システムが正常に動作しない可能性があります。すぐにファイルシステムのチェックを行う必要があります。

重要度:重大な警告

内容/dev/sda1 の EXT4 ファイルシステムがエラー検出により「読み取り専用」で再マウントされたことを示しています。

mount | grep sda1

/dev/sda1 on / type ext4 (rw,relatime,errors=remount-ro)

今はまだ「読み書き可能」ですが、起動時に何らかのエラーが検出されて、将来的に「読み取り専用」に切り替わる可能性があります。

そのため、ファイルシステムの整合性チェック(fsck)を行うことが推奨されます

可能性として

xt_socketでのクラッシュが主であるため、initramfsの破損が直接的な原因である可能性は低いですが、ファイルシステムの問題が根本にある場合、ディスクの破損やI/Oエラーがinitramfsファイル自体を破損させたか、またはinitramfsが正しく生成されなかった(例:必要なドライバが欠けている)可能性があるため、システムが起動プロセス中に必要なリソースにアクセスできなくなり、パニックを引き起こす可能性があります。

journalctl -k | grep -i memory

疑ったメモリの方は大丈夫そう。

メモリは正常に初期化・予約・解放されており、カーネルが適切に管理しています。

NICドライバも怪しい?

xt_socketクラッシュがネットワークスタックで発生していることを考えると、NICドライバの問題は非常に有力な原因候補です。

特定はできていないけど

Untangle NGFWのカーネルパニックは、xt_socketモジュールでのページフォルトと、ルートファイルシステムのエラー(errors=remount-ro)が複合的に絡み合って発生した可能性が高いと診断されます。これは、ネットワークスタックのソフトウェアバグ(特に最近のカーネル/UntangleアップデートやNICドライバに関連する可能性が高い)と、基盤となるストレージの健全性問題が同時に存在する

タイトルとURLをコピーしました