オンラインcentos6カーネルにソフトデッドロックが表示される:バグ:ソフトロックアップ



Soft Deadlock Appears Online Centos6 Kernel



現在、回線上のcentos6マシンはxshellに接続できず、xshellに表示されます

3月29日14:13:14のroot @ xxxxxからのメッセージ..。
kernel:BUG:ソフトロックアップ-CPU#1が68秒間スタックしました! [イベント/ 1:36]



10分後、ようやく接続できるようになりました。起動ログを確認してください


dmesg | grepがスタックしました
バグ:ソフトロックアップ-CPU#2が67秒間スタックしました! [vmmemctl:894]
バグ:ソフトロックアップ-CPU#5が67秒間スタックしました! [bdi-default:49]
バグ:ソフトロックアップ-CPU#3が67秒間スタックしました! [irqbalance:1351]
バグ:ソフトロックアップ-CPU#4が67秒間スタックしました! [swapper:0]
バグ:ソフトロックアップ-CPU#6が67秒間スタックしました! [ウォッチドッグ/ 6:30]
バグ:ソフトロックアップ-CPU#5が67秒間スタックしました! [vmmemctl:894]
バグ:ソフトロックアップ-CPU#0が67秒間スタックしました! [イベント/ 0:35]
バグ:ソフトロックアップ-CPU#7が67秒間スタックしました! [lldpad:1459]
バグ:ソフトロックアップ-CPU#6が67秒間スタックしました! [mpt_poll_0:376]
バグ:ソフトロックアップ-CPU#4が67秒間スタックしました! [ksoftirqd / 4:21]
バグ:ソフトロックアップ-CPU#1が67秒間スタックしました! [イベント/ 1:36]
バグ:ソフトロックアップ-CPU#3が62秒間スタックしました! [rsyslogd:1325]
バグ:ソフトロックアップ-CPU#4が72秒間スタックしました! [イベント/ 4:39]
バグ:ソフトロックアップ-CPU#1が70年代スタックしました! [自動マウント:4252]
バグ:ソフトロックアップ-CPU#2が73秒間スタックしました! [hald:1685]
バグ:ソフトロックアップ-CPU#0が61秒間スタックしました! [自動マウント:1776]
バグ:ソフトロックアップ-CPU#6が67秒間スタックしました! [イベント/ 6:41]
バグ:ソフトロックアップ-CPU#5が67秒間スタックしました! [vmmemctl:894]
バグ:ソフトロックアップ-CPU#7が65秒間スタックしました! [lldpad:1459]
バグ:ソフトロックアップ-CPU#3が68秒間スタックしました! [swapper:0]
バグ:ソフトロックアップ-CPU#2が68秒間スタックしました! [イベント/ 2:37]
バグ:ソフトロックアップ-CPU#0が67秒間スタックしました! [crond:1815]
バグ:ソフトロックアップ-CPU#7が67秒間スタックしました! [ウォッチドッグ/ 7:34]
バグ:ソフトロックアップ-CPU#1が68秒間スタックしました! [イベント/ 1:36]
バグ:ソフトロックアップ-CPU#4が67秒間スタックしました! [ウォッチドッグ/ 4:22]
バグ:ソフトロックアップ-CPU#5が68秒間スタックしました! [ウォッチドッグ/ 5:26]
バグ:ソフトロックアップ-CPU#3が66秒間スタックしました! [swapper:0]
バグ:ソフトロックアップ-CPU#2が66秒間スタックしました! [ksoftirqd / 2:13]
バグ:ソフトロックアップ-CPU#0が67秒間スタックしました! [ウォッチドッグ/ 0:6]
バグ:ソフトロックアップ-CPU#5が67秒間スタックしました! [ウォッチドッグ/ 5:26]
バグ:ソフトロックアップ-CPU#6が62秒間スタックしました! [fcoemon:1509]
バグ:ソフトロックアップ-CPU#4が70年代スタックしました! [lldpad:1459]
バグ:ソフトロックアップ-CPU#7が63秒間スタックしました! [ウォッチドッグ/ 7:34]
バグ:ソフトロックアップ-CPU#1が63秒間スタックしました! [sync_supers:48]
バグ:ソフトロックアップ-CPU#3が63秒間スタックしました! [irqbalance:1351]
バグ:ソフトロックアップ-CPU#2が62秒間スタックしました! [イベント/ 2:37]
バグ:ソフトロックアップ-CPU#0が68秒間スタックしました! [イベント/ 0:35]
バグ:ソフトロックアップ-CPU#2が68秒間スタックしました! [sa1:4687]
バグ:ソフトロックアップ-CPU#3が78秒間スタックしました! [フラッシュ-8:0:4618]
バグ:ソフトロックアップ-CPU#1が78秒間スタックしました! [イベント/ 1:36]
バグ:ソフトロックアップ-CPU#4が63秒間スタックしました! [lldpad:1459]
バグ:ソフトロックアップ-CPU#6が64秒間スタックしました! [fcoemon:1509]
バグ:ソフトロックアップ-CPU#5が64秒間スタックしました! [NetworkManager:1531]
バグ:ソフトロックアップ-CPU#0が62秒間スタックしました! [ウォッチドッグ/ 0:6]
バグ:ソフトロックアップ-CPU#7が68秒間スタックしました! [ウォッチドッグ/ 7:34]
バグ:ソフトロックアップ-CPU#4が63秒間スタックしました! [lldpad:1459]
バグ:ソフトロックアップ-CPU#1が162秒間スタックしました! [irqbalance:1351]
バグ:ソフトロックアップ-CPU#6が128秒間スタックしました! [hald:1685]
バグ:ソフトロックアップ-CPU#2が130秒間スタックしました! [sshd:4688]
バグ:ソフトロックアップ-CPU#5が147秒間スタックしました! [rsyslogd:1325]
バグ:ソフトロックアップ-CPU#3が71秒間スタックしました! [フラッシュ-8:0:4618]
バグ:ソフトロックアップ-CPU#6が68秒間スタックしました! [イベント/ 6:41]
バグ:ソフトロックアップ-CPU#2が68秒間スタックしました! [irqbalance:1351]
バグ:ソフトロックアップ-CPU#1が68秒間スタックしました! [su:4783]
バグ:ソフトロックアップ-CPU#7が67秒間スタックしました! [crond:1815]
バグ:ソフトロックアップ-CPU#5が67秒間スタックしました! [イベント/ 5:40]
バグ:ソフトロックアップ-CPU#0が66秒間スタックしました! [lldpad:1459]
バグ:ソフトロックアップ-CPU#4が65秒間スタックしました! [自動マウント:4785]



すべてこの種のエラーです:バグ:ソフトロックアップ-CPU#xがxsでスタックしています

このエラーは一体何ですか?

Baiduをチェックしたところ、これはソフトデッドロックであることがわかりました




カーネルソフトロックアップバグ

ソフトロックアップの名前の説明:いわゆるソフトロックアップは、このバグがシステムを完全にクラッシュさせなかったが、いくつかのプロセス(またはカーネルスレッド)が特定の状態(通常はカーネル領域)でロックされていることを意味します。多くの場合、これはカーネルロックの使用が原因です。

Linuxカーネルには、ウォッチドッグと呼ばれる各CPUの監視プロセスがあります( ウォッチドッグ )。 ps -eo ppid、pid、user、args | grep watchdogを使用すると、プロセス名がおそらくwatchdog / X(番号:CPU論理番号1/2/3/4など)であることがわかります。このプロセスまたはスレッドは毎秒実行されます。それ以外の場合は、スリープ状態でスタンバイ状態になります。このプロセスを実行すると、各CPUが実行中に使用した時間が収集され、独自のカーネルデータ構造に格納されます。カーネルには多くの特定の割り込み関数があります。これらの割り込み関数は、ソフトロックアップカウントを呼び出します。彼は現在のタイムスタンプを使用して、特定の(対応する)CPUのカーネルデータ構造で節約された時間と比較します。現在のタイムスタンプが、対応するCPUによって節約された時間よりも設定されたバルブ値よりも大きいことがわかった場合、彼は監視プロセスまたはウォッチドッグスレッドがかなりの時間実行されていないと見なします。 CPUソフトロックが発生するのはなぜですか?また、どのように発生しますか? Linuxカーネルが適切に設計および調整されたCPUスケジューリングアクセスである場合、CPUソフトデッドロックはどのように発生しますか?そうすると、ユーザーの開発やサードパーティソフトウェアの導入により、サーバーカーネルパニックの原因はqmgrプロセスが原因であるとしか言えません。すべての無限ループには常にCPU実行プロセスがあり(qmgrプロセスはバックグラウンドメールのメッセージキューサービスプロセスを示します)、特定の優先順位があるためです。 CPUスケジューラーは、実行するドライバーをスケジュールします。ドライバーに問題があり、検出されない場合、ドライバーは一時的にCPUを長期間使用します。前の説明によると、ウォッチドッグプロセスはこれをキャッチし、ソフトロックアップエラーをスローします。ソフトデッドロックはCPUをハングさせ、システムを使用できなくします。

問題の原因がユーザースペースのプロセスまたはスレッドである場合、バックトレースにはコンテンツが含まれません。カーネルスレッドの場合、バックトレース情報がソフトロックアップメッセージに表示されます。

簡単に言うと、システムの特定のドライバーに問題があるため、ウォッチドッグはすべての論理CPUランタイム使用状況データを収集できず、ソフトロックアップエラーをスローします。

オンラインサーバーには8つの論理CPUがあるため、8匹の犬がいます

cat / proc / cpuinfo | grepプロセッサ
プロセッサー:0
プロセッサー:1
プロセッサー:2
プロセッサー:3
プロセッサー:4
プロセッサー:5
プロセッサー:6
プロセッサー:7

ps -eo ppid、pid、user、args | grepウォッチドッグ
26ルート[ウォッチドッグ/ 0]
210ルート[ウォッチドッグ/ 1]
214ルート[ウォッチドッグ/ 2]
218ルート[ウォッチドッグ/ 3]
222ルート[ウォッチドッグ/ 4]
226ルート[ウォッチドッグ/ 5]
230ルート[ウォッチドッグ/ 6]
234ルート[ウォッチドッグ/ 7]
4852 4883 rootgrepウォッチドッグ

/ var / log / messagesで重要な情報を見つけます。 vmware esxiプラットフォームを使用しているため、vmware esxiのハードウェアドライバーに問題があると推定され、vmwareエンジニアに連絡して解決する準備をしています。

少ない/ var / log / messages
3月28日18:34:55xxxカーネル:サポートされていないハードウェアデバイス:CPUファミリ6モデル> 59
3月28日18:34:55xxxカーネル:------------ [ここでカット] ------------
3月28日18:34:55xxxカーネル:警告:kernel / rh_taint.c:13でmark_hardware_unsupported + 0x39 / 0x40()(汚染されていません)
3月28日18:34:55xxxカーネル:ハードウェア名:VMware仮想プラットフォーム
3月28日18:34:55xxxカーネル:ハードウェアはサポートされていません。このハードウェアのバグ、パニック、おっとなどを報告しないでください。
3月28日18:34:55xxxカーネル:リンクされているモジュール:
3月28日18:34:55xxxカーネル:Pid:0、comm:スワッパー汚染されていない2.6.32-279.el6.x86_64#1
3月28日18:34:55xxxカーネル:コールトレース:
3月28日18:34:55xxxカーネル:[]? warn_slowpath_common + 0x87 / 0xc0
3月28日18:34:55xxxカーネル:[]? warn_slowpath_fmt_taint + 0x3f / 0x50
3月28日18:34:55xxxカーネル:[]? mark_hardware_unsupported + 0x39 / 0x40
3月28日18:34:55xxxカーネル:[]? setup_arch + 0xb1f / 0xb42
3月28日18:34:55xxxカーネル:[]? printk + 0x41 / 0x46
3月28日18:34:55xxxカーネル:[]? start_kernel + 0xdc / 0x430
3月28日18:34:55xxxカーネル:[]? x86_64_start_reservations + 0x125 / 0x129
3月28日18:34:55xxxカーネル:[]? x86_64_start_kernel + 0xfa / 0x109
3月28日18:34:55xxxカーネル:--- [トレース終了a7919e7f17c0a725] ---
3月28日18:34:55xxxカーネル:NR_CPUS:4096 nr_cpumask_bits:8 nr_cpu_ids:8 nr_node_ids:1
3月28日18:34:55xxxカーネル:PERCPU:組み込み31ページ/ CPU @ ffff880028200000 s94424 r8192 d24360 u262144
3月28日18:34:55xxxカーネル:pcpu-alloc:s94424 r8192 d24360 u262144 alloc = 1 * 2097152
3月28日18:34:55xxxカーネル:pcpu-alloc:[0] 0 1 2 3 4 5 6 7
3月28日18:34:55xxxカーネル:ゾーン順に1つのゾーンリストを作成し、モビリティグループをオンにしました。総ページ数:2064657
3月28日18:34:55xxxカーネル:ポリシーゾーン:通常
3月28日18:34:55xxxカーネル:カーネルコマンドライン:ro root = UUID = 12b1eb92-e0a3-441c-98e0-6d75d9e510c2 rd_NO_LUKS rd_NO_LVM LANG = en_US.UTF-8 rd_NO_MD SYSFONT = latarcyrheb-sun16 crackkernel = 128M KEY
DTYPE = pc KEYTABLE = us rd_NO_DMrhgbquiet

参考記事
http://blog.jobbole.com/110581/
http://www.cnblogs.com/brucewoo/archive/2012/12/16/3226861.html

何かおかしいと思ったら写真を撮ってくださいo(∩_∩)o

この記事の著作権は作者に帰属し、作者の同意なしに複製することはできません。

転載:https://www.cnblogs.com/lyhabc/p/6640012.html