it-swarm-ja.com

全体的なハングの原因を調査する方法は?

Archマシンが時々ハングし、突然マウスやキーボードに反応しなくなります。カーソルがフリーズします。 Ctrl-Alt-BackspはX11を停止せず、ctrl-alt-delはまったく何もしません。 conkyおよびicewmのCPU、ネットワーク、およびディスクアクティビティプロットは更新を停止します。数分でファンがオンになります。コンピュータに何かをさせる唯一の方法は、電源を切ることです。

起動すると、CPU温度モニターは70〜80Cを示します。ハングアップする前、私は通常、ウェブサーフィンが50C前後になるような低強度のアクティビティをしていた。

ログには、通常のシャットダウンと比較して特別なものは何もありません。メモリチェッカーは、欠陥なしで問題なく実行されます。

ハングアップした理由を調べるにはどうすればよいですか?手がかりとして見つけることができる追加情報はありますか?一部の限られたシェルまたはビープ音だけが、手掛かりを与える可能性がある場合、何らかのアクションを実行するために電源オフよりも劇的なものはありませんか?

マシンはGateway P6860 17インチラップトップ(かさばるが強力)であり、Arch 64ビットを最新の状態で実行しています(2011年3月現在)。この問題が発生しない状態で長期間Archを使用し、約1週間Ubuntuに切り替えましたその後、Archのフレッシュインストールに後退しました。

更新:ええ、確かにそれは過熱しています。ある温度では、マウスとキーボードが機能しなくなり、数分の冷却後に機能することがあります。より高い温度では、SysRqを無視することを含む完全な無応答など、さらに悪いことが起こります。この状態の直後に、突然の電源オフが発生します。新しいコンピューター8Dを購入して問題を解決しました

19
DarenW

マジックSysRqとカーネルダンプに関するフレデリクの回答は、カーネルがまだ実行されていて、本当にハングしていなければ機能します。何らかの理由でカーネルがビジーループしている可能性があります。

Ctrl-Alt-Delに応答しないという事実は、おそらくそうではなく、マシンがハードロックしていることを示しています。これは、ハードウェア障害、または不良ドライバのような密接に関連した何かを意味します。

十分に長く実行させれば、メモリチェックテストは適切です。 StressLinux のように、システムにストレスをかける他のことも試してください。長期的なベンチマークも良いです。

もう1つ試すことは、UbuntuライブCDでシステムを起動し、システムを通常どおりに使用することです。このように一時的にUbuntuに戻っても問題が再発しない場合は、実際にはハードウェアが壊れていないのではなく、不良ドライバーや誤って構成されたカーネルなどの関連する問題の1つである可能性が高くなります。 Ubuntuのようなより人気のあるディストリビューションは、ディストリビューションのテスト段階で試されたマシンの数が多いため、Archのようなディストリビューションよりもカーネル構成が安定している可能性があります。

7
Warren Young

フリーズに関しては、いくつかのオプションがあります:

  • ここ で説明されているように、ブートオプションにconsole=ttyS0を追加して、そこにダンプを取得するシリアルポートがある場合は、シリアルポートを使用します。ダンプファイルをキャッチするには、シリアルポートとヌルモデムケーブルを備えた2台目のマシンが必要です。

  • netconsoleを使用してネットワーク経由でダンプを取得する ここを参照

  • この方法でkexec/kdumpを使用すると、ローカルダンプ ここを参照 を取得できます。

クリーンパワーオ​​フの問題については、 magic SysRq key を使用してディスクを「同期」し、「U」マウントしてから、ボックスを再度「再起動」することをお勧めします(文字はalt-sysrqと一緒に入力する必要があるもの。

編集:oops/traceをlkmlに投稿する場合は、カーネルの最新(できれば最新)バージョンを使用し、専用モジュールは使用しないでください。

11