2024/09/24 m512pを再起動するとLANカードの名前が変わってしまいIPアドレスが変わってしまった。nmtuiで新しく認識されたeth4にも同様の設定をして再起動して復旧。
2024/09/24 v311n1は電源一度押しただけではランプはつくけど起動していない状態だった。電源ボタンを押すとすぐに消え、再度電源を押すと起動した。
2024/09/24 m32aが電池がなくなったようで、再起動時にBIOS前で停止していた。キー操作すれば起動する。
2024/09/23 4FのTP-Linkの10G Hub(ID: 10G4F2)が故障?ランプはついているが通信できていない様子。再起動して復旧。311とのケーブルがこれに刺さっていたけど、10G4F1のほうに変更。
2024/09/22 m30v405n1(栗原使用PC), m8が停止。
2024/09/13 m30v405n1(栗原使用PC)が停止。電源ケーブルが抜けていた。ケーブルを刺しなおして復旧。
2024/08/30 m8が停止していた。画面にはIOエラーの表示あり。4TB HDD→8TB HDDに交換してOSを再インストールして復旧。
2024/08/18 m64kが停止。→8/30 電源が落ちていた?画面が真っ暗なまま。電源ケーブルを抜いて再起動すると復旧。
2024/08/18 v311n8が停止。→8/30 memtestをかけてもエラーはなし。ただし、Windowsは起動せず。Windowsのブルースクリーンでエラーコード0xc000021aの停止コード。大事なファイルが破損しているようで、sfc /scannow
をかけても復旧しないので、ユーザのファイルを保存するを選び初期化。Hyper-Vのイメージは消えていたので、再度仮想マシンのインストール。
2024/08/07 m128mのRAIDが停止か?再起動させると1時間ほどで再起動して復旧。
2024/07/25 m32sのyoshitake.kazutoshiユーザで実行していたdockerhubのキャッシュとしてのresistryサーバがなぜか1分ごとに再起動していた。ほかサーバのpodman pullが失敗するのでひとまず実行を停止。
2024/07/25 Windows P2soloが起動せず。おそらくマザーボードへの電源ピンが外れていた様子。一応電源とマザーボードを交換して復旧。
2024/07/17 m100がネットワーク上見えなくなる。Hyper-Vの設定を見ると、なぜか仮想スイッチが内部ネットワークになっていた。ASIx USB to Gigabit Ethernet Family Adapter #2
を選択して再起動して復旧。
2024/07/07 405のNETGEARのハブが故障(ファンだけ動く)。m32sがハングアップ。ハブをELECOMのものに交換し、m32sを再起動で復旧(溝端)。
2024/06/25 Elecom 10GbpsハブEHB-SX2A08FにつなげたサーバではNFS共有ができていなかったが、ファームウェアをv2.0.6にアップデートすると解決した。
2024/06/25 m30v251n11が停止。なぜかBIOSでAMD Secure Virtual Machine (SVM)がオフになっていた。有効化して再起動して復旧。
2024/06/25 10台ほどSGEが停止しているサーバがあるので、qhost|grep ' -'|tail -n+2|cut -f 1 -d ' '|while read i; do ssh -n $i sudo systemctl restart sgeexecd.service; done
としてSGEクライアントを再起動。
2024/06/25 m1536のIPMIが故障しているのか、LANケーブルを接続しても、LANスイッチ側が通信状態にならず。
2024/06/25 311のsuikou-g, aのWiFiルーターに接続できず。WiFiルーターを再起動して復旧。
2024/06/12 m1526,m1024,m768c,m512iに接続できず。4/27と同じ状況のため、スイッチ1を再起動すると復旧。(溝端)→6/13 10Gbpsスイッチ「スイッチ1」をネットギアから新しくElecom製のものに交換。するとなぜかm32sのnfsをマウントできないサーバが続出。m1536, m1024, m768c, m128g, m64k, m32r, m8などのサーバ。元のスイッチに戻すと復旧。
2024/06/12 m64kが停止。→6/13 10Gbps LANカードがおそらく故障。内臓の1Gbps LANも故障してLinkはUpだけどIPアドレスを獲得できず。1Gbps USB LANを追加。
2024/06/10 m30v251n11が停止。→6/13 電源が切れていた。電源ボタンを押すだけでは起動せず、電源ケーブルを一度抜いて再び刺すと起動。
2024/05/30 m128g, m32r, m64bが停止。同一の電源系統か?要調査。再起動して復旧。
2024/05/18 v405n9が停止。→5/21 誤ってシャットダウンさせてしまった模様。再起動して復旧。
2024/05/13 v405n11が停止。起動中に電源ケーブルを抜いてしまい、ショートしてしまった様子。→5/21 電源付きPCケースを交換して復旧。
2024/04/27 m768cがハングアップ。管理コンソールから再起動したがネットワークがつながらず。ほかにもm1024, m1536, m512iが停止。おそらくネットワークハブがダウン。→4/28 12月と似た症状で「スイッチ4に接続しているサーバたちだったので、スイッチ4 (Buffalo)に繋がったサーバーのLANケーブルを1本ずつ抜いて再起動してみたのですが改善せず、その上流のスイッチ1 (NetGear)を再起動すると復旧。」だったとのこと。 m1536, m768c, m512iはいずれも壊れやすい10GBaseのAQC107 LANカードを使用しているので、3台とも交換するべき?
2024/04/25 v311n2(米澤使用PC)が頻繁に再起動するため、CPU, マザーボードを交換すると、今度は起動せず。SSDの故障が判明。→5/1 SSDを交換してOSを再インストールして復旧。
2024/04/25 m128g2のsgeがなぜか停止。sudo systemctl restart sgeexecd.service
で復旧。
2024/04/19 v405n9(貴志使用PC)が停止。電源ランプは光るがBIOS画面が映らず。マザーボード&CPUを交換して復旧。→4/25 CPUが壊れていたと判明。
2024/04/11 m32sのケースファンが停止していたため、交換。
2024/04/11 m30v251n12(Qiu使用PC)が停止。ホストは動いているけど、仮想マシンを起動しようとすると「ハイパーバイザーが実行されていないため、仮想マシンを起動できませんでした」のエラーが出る。→ 4/19 なぜかBIOSの設定でSVMが無効になっていたので、有効に変更して復旧。
2024/04/04 m512p, m448, m16bが同時刻に停止。電源関係か?→4/11 4F 11-1系統のGosundが故障しており、その下流がすべて電源OFFだった。Gosundを撤去して復旧。m16bは電源が壊れていたようで、電源を交換して復旧。
2024/04/03 m30v405n2(小川使用PC)がダウン。ホストのWindowsは大丈夫みたい。→ 4/11再起動では復旧せず、仮想ネットワークをいったん削除して再度作成することで復旧。
2024/04/03 m96が頻繁に再起動するので、CPUクーラーを分解して掃除して様子見。→ダメっぽい。→4/25 CPU, マザーボード、メモリーを新しいものに交換しOSを再インストール。メモリーは128GBになったけど、しばらくはm96で運用予定。
2024/03/29 サーバ全体に負荷をかけるとm96が何度も再起動する。m96にはジョブを入れないようにしているけど、おそらく同一のケースに入っているm96bの熱でオーバーヒートすると思われたので、m96bもグリッドエンジンから外した。
2024/03/25 v251n12(Qiu使用PC)がスリープ状態になっていた。2分でスリープになる設定になっていたので、スリープしないように変更。
2024/03/21 m768cがメモリー不足で停止。電源長押しで再起動して復旧。
2024/03/19 m30v311n5(井原使用PC)がUSB抜き差しでブルースクリーンになるので、マザーボード&CPUを交換して復旧。
2024/03/08 m30v405n5が停止。→3/11 Windows自体は落ちていないけど、仮想マシンが停止していた。仮想マシンを停止して再起動させるとWindowsが落ちた模様。→ 3/12 再起動途中でエラー。メモリーチェックするとメモリー異常。1枚メモリーを交換して復旧。
2024/02/29 m1536が停止。→3/4 電源が落ちていた。CPU稼働率100%になってすぐに落ちていたのでおそらく負荷をかけると駄目かも。再起動して復旧。
2024/02/27 m30v405n5が停止。→3/4 Windows自体は落ちていないけど、仮想マシンが停止していた。仮想マシンをリセットして復旧。
2024/02/27 m768bのworkフォルダにアクセス出来ず。再起動して復旧。
2024/02/19 m1536にsshでアクセスできず。物理的にみるとログイン画面で反応はしたが、エンターを打つと固まってしまった。再起動して復旧。しかし、すぐに停止したので再度再起動。→2/20熱を放熱しきれずに停止している様子。ケースを開けてサーキュレーターを当てることでひとまず起動。
2024/02/19 m768cのworkフォルダにアクセスできず。再起動すると復旧したが、3日前程度以降から書き込んだファイルが消失した模様。
2024/02/01 m8がすぐに停止するため廃棄し、電気泳動結果を見るためのWin10 PCを新しくm8に。旧m8のケースに新しくマザーボード等を入れて新しい電気泳動結果用PCにした。
2024/01/24 v251n9 (下村使用PC)が仮想マシンインストール中にブルースクリーン。→1/25 memtest86で調べるとメモリーが一つ壊れていたので交換して復旧。
2024/01/17 m64f:/dataに割り当てていたRAID5が破損。再起動後、ディスク自体はOSから見えるのでRAIDを再構築しようと、mdadm --stop /dev/md0; mdadm --create /dev/md0 --level=5 --raid-devices=5 /dev/sdc1 /dev/sdb1 /dev/sda1 /dev/sdf1 /dev/sde1
としたけど、 /dev/sdc1の再構築が走ってしまった。これで見えたら問題なかったのだけど、マウントしようとするとmount: /mnt: mount(2) システムコールが失敗しました: 構造体を内容消去する必要があります
と出てしまった。mkfs -t xfs -f /dev/md0
で内容を全消去して復旧。しかし、すぐに2台 HDDが見えなくなる。PCIEのSATA増設カードを使っていて、それに2台接続されていたので、SATA増設カードの故障か。m64f (旧m16)のディスク消失。
2024/01/17 v251n8が停止。電源ボタンを軽く押すとすぐに電源が消えた。再起動させたが特にWindowsアップデートは走らなかった。Windowsの自動更新をしないように設定。
2024/01/15 m32sが停止。電源が落ちていた。再起動して復旧。
2024/01/12 m32r, m16dがqhostで見えなくなっていたけど、zabbixでは見える状態。sgeexecdが停止していた。sudo systemctl restart sgeexecd.service
で復旧。
2024/01/11 m128dが停止。→廃棄
2024/01/10 m30v311n1が停止。→ 1/12 Windwosの更新で再起動時に再起動できなかったみたい。電源ボタンを押してシャットダウン→再起動して復旧。Windowsの自動更新をしないように設定。
2024/01/09 m30v251n9 (下村使用PC)が停止。ホストのWindowsは起動していたので仮想マシンを再起動して復旧。
2024/01/09 v251n12 (Qiu使用PC)が画面真っ暗で停止。再起動して復旧。
2024/01/04 m768bの共有フォルダにアクセスできない。zabbixでCPUがIO waitの黄色がCPU1個くらい使っている感じ。m768bから/dataを見る分には見える。再起動させると1時間ほどかかったけど復旧。
2024/01/04 m128g2が停止。→ 1/9 画面は真っ暗の状態。電源長押ししてもシャットダウンせず。電源ケーブルを抜いて再起動して復旧。
2023/12/28 m96が勝手に再起動。グリッドエンジンのスロット数を0に。
2023/12/28 m8にsshで入るときの反応が遅いのが原因かわからないけど、グリッドエンジン全体でフォルダに移動できないというエラーが出るので、いったんm8のグリッドエンジンのスロット数を0にして様子見。
2023/12/27 m512pの8TB HDDが1台故障。交換して復旧。
2023/12/27 311のWiFiが停止。SSIDにsuikou-a, gが見えない状態。ルーターを再起動して復旧。
2023/12/27 m32sが停止。電源が落ちていた。再起動して復旧。
2023/12/25 m128g2が停止。画面は真っ暗の状態。電源長押ししてもシャットダウンせず。電源ケーブルを抜いて再起動して復旧。
2023/12/23 m1536, m1024, m768c, m512i, m64kがほとんどネットワーク上切断される状態→12/25 スイッチ4に接続しているサーバたちだったので、スイッチ4 (Buffalo)の不調を疑い再起動したが改善せず、その上流のスイッチ1 (NetGear)を再起動すると復旧。
2023/12/21 m128dが自動で再起動してしまったっぽいが、そのときにノードエラー?といったエラーで停止していてF1を押さないと進まない状態になっていた。
2023/12/20 v405n5, n6, n7がほぼ同時刻に停止。電源が切れていた。再起動して復旧。
2023/12/20 m256yの8TB HDDが一台故障。20TB HDD x 12にディスクをすべて交換。
2023/12/18 v251n8が停止。→ 12/21 電源ボタンを軽く押すとすぐに電源が消えた。再起動させたが特にWindowsアップデートは走らなかった。
2023/12/17 v251n3が停止。→ 12/21 電源ボタンが点かないので電源が入っていたのかは不明。画面は真っ暗。いったん電源ケーブルを抜いて別の場所に刺すと起動した。
2023/12/15 m128dがCPU使用率0%でも停止。電源が落ちていた。再起動時に3.5→2.5インチ変換ケースをつけて起動ディスクをきちんと収納するようにした。
2023/12/14 v311n1が停止。2回再起動させた。再起動時にWindows Update中ではなかった。
2023/12/13 m1536の/data以下へのアクセスが非常に遅くなったので再起動。遅くなって1日ほどだけど、その間に書き込んだファイルは全て消えていた。特に読み込みが固まってしまうときは迷わず再起動したほうがよさそう。
2023/12/13 ラボのblastサーバが停止したので、m208を再起動して復旧。
2023/12/13 m1024のNVIDIA RTX3090が負荷100%だと再起動になるので、RTX4060Tiに交換。
2023/12/10 v251n8 (黄使用PC)が停止。電源ボタンを軽く押すとすぐに停止。再起動するとWindowsアップデートがかかっていた。再起動に失敗か?
2023/12/07 v405n5(伊藤使用PC)が停止。電源が落ちていた。電源投入して復旧。
2023/12/07 v311n1が停止。おそらく再起動できずにまた止まったと思われる。電源ボタンを押して終了させ、再起動して復旧。
2023/12/07 m32a, r405が停止。電源9-2系統の根元のコンセントがなぜか抜かれていた。再起動して復旧。
2023/11/26 m768cの/dataへのアクセスが非常に遅くなっていたので再起動。
2023/11/20 m128g2がグリッドエンジンでステータスが「-」のままのため、suikousgeからいったん削除して再度インストールした。
2023/11/20 m256yが再起動時に8TB HDD1台がRAIDに組み込まれず。sudo mdadm /dev/md0 --add /dev/sdk1
で復旧。またpostfixサービスが起動できていなかった。sudo systemctl start postfix
で起動。
2023/11/16 m128dがダウン。CPU50%でも落ちるみたい。電源引っこ抜いて再起動後、グリッドエンジンのジョブ数を0に。
2023/11/15 v311n1がダウン。Windwosの更新で再起動時に再起動できなかったみたい。電源ボタンを押して再起動して復旧。
2023/11/13 m32sのpostfixが起動していない。再起動後から?sudo systemctl status postfix.service
で起動。
2023/11/10 m32sのM2 SSDが1台ダウン。バックアップのHDD RAIDを代わりに/m2として共有。
2023/11/09 suikousgeがダウン。仮想マシンを再起動して復旧。→その後2時間ほどでsgemasterが停止。systemctl restart sgemaster.service
で復旧。
2023/11/07 m32dの/suikou/dbのマウントが外れていた。sudo mount -a
でマウントした。
2023/11/05 m32sが停止。HDDベンチマークfioを実行していたのが影響か。→11/6 ログイン画面で停止。ctrl-alt-delも受け付けない状態。電源ボタン長押しで再起動して復旧。
2023/11/01 m208, m96, m96b, m48iが停止。→4Fの4系統でオートクレーブと一緒に使ったため電源停止。→11/6 新しく増設した系統に移設して復旧。
2023/11/01 m768bのソフトウェアRAIDで大量のファイルを読み書きするとたまに「構造体を内容消去する必要があります」と出て不安定だった。MegaRAIDカードを使っているのにディスクを1つずつOSに認識させていたのが原因か?安物のRAIDカードに交換して通常のソフトウェアRAIDに移行。ただし、元のMegaRAIDのRAID構造が残っている。
2023/10/30 m64fに入ったグリッドエンジンのジョブがすぐに終了。原因を調べると/suikou/tool9フォルダなどがマウントできていなかった。/homeはマウントできていた。sudo mount -a
で復旧。
2023/10/30 m128dがダウン。CPU負荷100%だとすぐに落ちるみたい。電源を引っこ抜いて再起動して復旧。
2023/10/28 m32s, m256y, m128d, m30v405n1, m30v405n6のpostfixが停止していた。postfixを再起動して復旧。
2023/10/27 v311n1が再起動時に画面が真っ暗なまま停止。どうやらv311n1は再起動できないみたい。
2023/10/23 m1536, m1024, m768c, m512i, m64kにアクセスできなくなる。→m768cが停止すると、そのディスクの中の一部がsuikouhttp:/var/www/htmlにマウントされているため、zabbixなどのwebサービスが停止してしまう。→10/25 これらのサーバが接続されていたBuffaloの10Gbpsハブ(スイッチ4)を再起動するけど効果なし。さらに上流のNetGearの10Gbpsハブ(スイッチ1)を再起動すると復旧したように見える。
2023/10/23 m128dが画面真っ暗な状態でダウン。電源ランプは緑色ランプが1つ点灯した状態。電源を引き抜いて再起動して復旧。
2023/10/19 v251n3がなぜかネットワークに接続できなくなっていた。その上の仮想マシンm50v251n3は普通にネットワークにも接続できていた。Windowsを再起動すると復旧。
2023/10/19 m50v251n12が停止。ホストのWindowsは起動して普通に操作できていた。仮想マシンを再起動して復旧。
2023/10/17 グリッドエンジンのノードがいくつかステータス不明になった。どうやら負荷が高いとsgeexecdが落ちるみたい?qhost|grep " - "|tail -n+2|awk '{print $1}'|while read i; do ssh -n $i sudo systemctl restart sgeexecd; done
で再起動して復旧。
2023/10/16 m32sのminiSASケーブルを交換して様子見。
2023/10/14 m96が再起動。CPU負荷が100%になると耐えきれないみたい。グリッドエンジンのスロット数を12→6に変更して様子見。
2023/10/12 v311n1が停止。画面は真っ暗で電源ボタンを押すとすぐに電源ランプが消えた。再起動するとWindowsアップデートが実行されていた。アップデート途中で起動に失敗していた?
2023/10/10 m50v251n6がNFSマウント失敗+SGE起動失敗していた。sudo mount -a; sudo systemctl restart sgeexecd.p6444.service
で復旧。
2023/10/10 m64bが起動していなかった。GPUが外れていたのが原因。きちんと刺して復旧。
2023/10/10 m30v405n7, m32aがqhostで見えなくなった。sgeexecdを再起動して復旧。m30v311n4, m30v405n6も同様の症状になった。
2023/10/05 m768c, m96, m30v311n5, m30v311n7が/suikouをマウントしていなかったので、sudo mount -aで再度マウント。m96は何度も再起動しているみたい。m96のスロット数は0にして様子見。
2023/10/05 m32aがなぜかqhost一覧で起動を確認できず。sshでは普通に接続できたのでsgeを再起動。でもすぐにqhost一覧で起動が消える。
2023/10/05 m32sのバックアップHDDが2台(sdd 53B0A05VSW4G, sde 53A0A017SW4G)RAIDから抜けていたのにメール連絡なし。一度電源が切れただけみたいなので、RAIDに戻して復旧。
2023/10/03 m128dの起動ディスク(SSD)が故障。SSDを交換し、OSをインストールして復旧。
2023/10/03 311 GMKTecの有線LANがつながらなくなった。WiFiを設定して復旧。
2023/09/29 m192, m224にCPU100%の負荷をかけると停止してしまう。グリッドエンジンでジョブを流さないように変更。→10/31 サーバの設置場所変更で改善?ジョブを流すように設定して様子見。
2023/09/29 m1024でdoradoを使ってベースコールしているとネットワーク上ではダウン。モニターを見ると、キーボード入力を受け付けたのでctrl-alt-delで再起動。parabricksはGPUを60%くらいしか使わないけど、doradoはGPUを100%使うので落ちる感じ。この中古のRTX3080は100%使用には耐えられないのかも。
2023/09/29 m96c, m224, m128d, m192停止。→ 9/29 m224, m192は再起動で復旧。m96cがboot途中で落ちて起動せず。128dの起動ディスク故障か?bootせず。
2023/09/29 m224が急に再起動。
2023/09/28 共通Win T1700が起動せず。
2023/09/28 m32d, m30v311n9, m768b, m128dがNFSマウントを失敗していた。rootでログインしてmount -a
で復旧。
2023/09/28 311奥のBuffaloの10Gbpsルーターの8番ポートに接続されたケーブルは100Mbpsとしか認識されないようになった。
2023/09/28 6号館404号室のWiFiルーターのIPアドレスが192.168.250.4→2に変更されたため在室確認に登録できず。いずれは固定IPで登録したほうが良いかも。
2023/09/28 m32b, r251が起動時にzabbixの起動だけ?失敗したみたい。zabbixを起動して復旧。
2023/09/27 m24nが起動時にNFS共有+SGE起動を失敗していたみたい。rootでログインしてmount -a; systemctl restart sgeexecd.service
で復旧。
2023/09/25 m16bのCPUファンが停止して起動できず。→ 9/28 CPUファンを新しいものに交換して復旧。
2023/09/25 m512p再起動時にNICの名前がズレて固定IPが割り当てられず。ズレた名前にも固定IPを振って再起動したら復旧。
2023/09/25 m128c, m96の10Gbps LANカードを外して様子見。
2023/09/22 m768bの/data以下のバックアップした一時ファイルを消そうとすると、非常に時間がかかって止まっているように見える。またバックアップした際に幾つかのファイルは構造体を内容消去する必要があります
と出ていた。m768b:/dataは不安定。
2023/09/18 m1024が停止。停止した際20分ほどdoradoでGPUを使用していたので、GPUが原因?→9/19 CUIのログイン画面にエラーメッセージが色々出ていてrootでログインしようとしたけどパスワード入力には進めず。電源ボタンを押すとシャットダウンプロセスが走ったが、10分ほどしても停止できていなかったので電源ボタン長押しして終了してから再起動で復旧。
2023/09/16 P2SoloのWindows PC上で稼働していた仮想PCがすべて停止。仮想マシンの入っているEドライブのSSDにアクセスできなくなっている。→9/19 再起動しても症状が変わらなかったので、SATAケーブルを交換したら復旧。
2023/09/14 v311n1(吉武使用PC)が停止。画面が真っ暗なまま停止していた。再起動して復旧。
2023/09/14 v251n8(黄使用PC)が停止。→9/26 HDMIケーブルが抜けていたのを戻して再起動したら普通に起動したとのこと。
2023/09/14 311入り口のGMKtecがBIOS画面を開いたまま停止。本体が60℃くらい?に熱くなっていた。電源を引き抜いて再起動したら復旧。
2023/09/09 m96が勝手に再起動。
2023/09/07 m128dが停止。→9/8 電源長押しにも反応しなかったので、電源ケーブルを抜いて停止させてから再起動して復旧。
2023/09/05 m224が米澤くんのジョブによるメモリー不足でハングアップ。電源長押しで再起動して復旧。
2023/08/30 m30v405n11に不具合。windowsの画面ではなくRyzen?の灰色の画面が立ち上がっていた。電源ブチ切り再起動で復旧(溝端)。
2023/08/28 m768bの/dataへのアクセスがls: '/data' にアクセスできません: 入力/出力エラーです
となってしまった。umountなども出来なかったのでとりあえず再起動したら復旧。
2023/08/27 v251n3が停止。→ 8/27 (溝端対応)電源がOFFになっていた。再起動して復旧。
2023/08/26 m96が勝手に再起動したみたい。
2023/08/26 m128gが停止。→ 8/28 電源OFFになっていた。再起動して復旧。
2023/08/17 グリッドエンジンに参加している全ノードのステータスがqhostで取得不可能となり、ジョブが処理されなくなった。sgeexecdサービスを各ノードで再起動して復旧。
2023/08/16 SGEに60万件のジョブを投げるとsuikousge.sのメモリーが20GBほど消費されるようだけど、仮想メモリが10GBしかなかったためにsgemasterが停止していた。仮想メモリーを30GBに上げて再起動。80万件程度までは耐えられると思われる。
2023/08/15 m64e, f以降のメモリの少ないノードの大半がqhostで情報を取得できなくなっていた。sgeexecdサービスを各ノードで再起動して復旧。
2023/08/11 m208、m48i、m96、m96bがダウン。電源4系統の停止?
2023/08/09 m32s一帯のPCに接続できなくなる。NetGearの10Gbpsハブを再起動して復旧。ただし、m32sのみ接続できず。10GbpsのPCIe LANカードが故障したと思われるため、2.5GbpsのLANカードに交換して復旧。
2023/08/09 m192がダウン。電源が故障。交換して復旧。
2023/08/07 m64fのHDDが一台RAIDから外れる。安いPCI-eのRAIDカードに接続されているHDDだったので、RAIDカードの故障を疑い、別のRAIDカードに交換して様子見。
2023/08/04 m30v311n5(井原使用PC)がダウン。仮想PCのみハングアップ。仮想PCのみ再起動して復旧。
2023/08/02 幾つかのノードでqhostのステータスが表示されなくなっていたのでそのノードに限定してsgeを再起動qhost -q|grep au -B 1|grep m|cut -f 1 -d ' '|while read i ; do echo $i; ssh -n $i sudo systemctl restart sgeexecd.service & done
2023/07/31 m30v311n7(稲橋使用PC)の電源が切れていた。再起動して復旧。
2023/07/28 m32sの8TB HDDが1台停止。16TBx8のHDDをUSBでつないでバックアップを取った後、8TBと16TBを全部交換して復旧。→7/28 1台RIADから外れる。ケーブルが壊れている?→7/31 miniSASケーブルの一本を使わずに普通のSATAケーブルを使って様子見。
2023/07/28 m32sのジョブがたまにNFSのフォルダに移動できず失敗するため、m32sのスロット数を0に。
2023/07/26 m96が数日で再起動し、/suikou以下をマウントできていない。何らかのハードウェア的な不具合と思われる。10Gbpsからマザーボードの1Gbpsに変更して様子見。
2023/07/25 m128gの14TB HDDが1台RAIDから落ちた。→7/26交換したがすぐに読み書き不能になる。どうやらSATA増設カードのポートが1つ壊れている様子。
2023/07/24 教授室(327)のネットワークがダウンしたらしい。311 (YAMAHAルーター以下)からは
http://133.11.222.228:80/でアクセス可能にしていたけど、アクセス出来ていなかったのはこれが原因か。VPNを経由してバッファロールーターへのアクセスは出来ていたので問題ないと思っていた。バッファロールーターの再起動で復旧とのこと。
2023/07/24 m30v405n3がダウン。ホストのネットワークが停止していた。原因としては、バッファローのネットワークハブが一部バグっていた模様。v405n3との接続口だけケーブルを外しても点滅していた。ハブを再起動して復旧。
2023/07/22 405の電源9系統が停電。→4系統は廊下のオートクレーブ、9系統は-80℃と併用であることが判明。m512pを11系統に移して様子見。m512pは再起動時にネットワーク設定がリセット。eth3をnmtuiで再設定したあと、古い設定をsudo ip a del 192.168.196.25/20 dev eth3
とやって削除し、sudo mount -a; sudo systemctl restart sgeexecd.service
とやって復旧。
2023/07/22 m30v311n5(井原使用PC)がダウン。→7/24 Hyper-Vのコンソールにはメモリーオーバーのエラーが出ているけど、停止したあたりで何かプログラムが走った形跡はないけど、停止3日前にメモリーを使いつぶしたジョブが残っていたかも?。再起動してとりあえず復旧。
2023/07/21 405の電源4系統が容量オーバーで停電。4-2に接続されていたm512pを9-1系統に繋ぎ変えて、ブレーカーを戻して復旧。m512pは再起動時に固定IPが割り当てられていなかったが、すべてのNICに同じ固定IPを振っている為、他のNICにLANケーブルを接続しなおしてmount -a
として復旧。m96も再起動時にnfsがマウントされていなかった。
2023/07/20 m128g2が停止。再起動して復旧。再起動前はdisplay port→VGAが出力されていなかったけど、再起動後は普通に見えていた。
2023/07/18 rn102がウイルス対策ソフトのclamdでメモリーが足りなくて重たいので、kill -s SIGSTOP 12700
などとやって停止させずに中断させることで再起動するまで再び実行されないようにした。
2023/07/18 m768の起動用USB SSDが認識されずに古いCentOS7が起動していた。一度USB SSDを抜いて差しなおすと起動。ただし、LVMのrl/swapを消した時に/etc/fstabのほうは消したが、grubのオプションを変更していなかった。/etc/default/grubの中のrl/swapに関するオプションを2か所全部消して、grub2-mkconfig -o /etc/grub2.cfg
でシンボリックリンク先の/boot/grub2/grub.cfg
を書き換えて復旧。
2023/07/18 m128cの動作が不安定で再起動しても起動できない状態になりつつあるため廃棄。
2023/07/18 m8のload averageが3000を超えるなどしてsshでの接続も出来なくなっていた。Ctrl-del-altで再起動は出来た。
2023/07/13 v251n8が動作不安定。→7/18 また停止していた。画面が真っ暗な状態で停止。再起動して復旧。
2023/07/13 v251n1が起動しない。電源を交換して復旧。
2023/07/13 v311n1が停止。画面が真っ暗だった。再起動するとOSのアップデートがかかっていた。
2023/07/12 Rocky Linux 9をインストール出来ないm24を廃棄、m16を停止し、代わりにm64e, m64fを導入。
2023/07/07 m512pが起動するたびにNICにケーブルが接続されていないと判定されてネットワークがつながらない。→すべてのNIC設定にm512pのIPアドレスを設定しておいて何か所か差しなおしていくと目的のIPが設定された。
2023/07/07 m64kの4TB HDDが一台故障。古い壊れていないHDDに差し替えて起動しようとしたけどブート途中でエマージェンシーモードに入ってしまう。ディスクをWindowsでフォーマットしておいて起動後に差し替えてリビルド→7/7途中でさらにもう一台故障→7/14最初の1台はまだ認識したが、2台目に故障したほうは認識すらしなかったので、1台目と残り3台でリビルドを行ったがext4で認識しないファイルシステムになってしまった。
2023/07/06 m512pの起動SSDディスクが壊れた。新しい2TB SSDに交換してOS再インストール。m512pはOSインストール時はBIOSモード、インストール後はUEFIにしないと起動しなかった。
2023/07/06 m64gが起動しても画面が真っ暗なまま。GPUを外しても同じ。OS起動はしているようだけど、OSを再インストール出来ない。→7/14 m128g2に入れ替え。
2023/07/06 m32sの8TB HDDが停止。→前回交換したのと同じ個所だったので、SATAケーブルと電源ケーブルを新しくして様子見。
2023/07/06 m192のファン1&7が停止していたため、起動しなくなっていた。使っていないサーバーからファンを外して交換して復旧。
2023/06/23 m256yの8TB HDDが1台故障したので交換。以前に壊れていた10Gbps LANを取り外し、2.5Gbps LANをつけて復旧。
2023/06/22 m64gのLANカードを2.5Gbpsに変更したが、非常に遅くsshログイン途中で諦めて止めた。マザーボードのほうに戻してethtool enp13s0
で確認すると一応2.5GbpsのLANカードとしては認識されている。また、OS起動時、起動後いずれにおいても、マザーボードのVGA, GPUのHDMI, DPI, DVIいずれも表示されなかった。
2023/06/18 さくらレンタルサーバーのDokuwikiにログインするとメモリー不足で落ちるようになった。最終的にはレンタルサーバのスクリプト設定からphp.iniにmemory_limit = 512M
を追加して解決したが、m128g上にrockylinux9のdockerコンテナを立ち上げて、yum install php
でPHP8をインストールし、dokuwikiのバックアップした中身を/var/www/yoshにコピーして、/etc/php.iniにメモリーを増やす記述を書いてからhttpd, php-fpmを起動すれば動いた。
2023/06/18 m50v251n1が停止。
2023/06/17 m50v311n1が停止。なぜかLinuxのHyper-Vマシンだけネットに接続できず、Win11の仮想マシンは接続できる状態。→6/26 USB 2.5Gbps LANを接続して、その仮想スイッチを作成することで仮想Linuxサーバもネットに接続可能に。
2023/06/16 311のWiFiが停止。YAMAHAルーターのDHCPをリセットした直後だったので、それと何か関係がある?WiFiルーターを再起動して復旧。
2023/06/15 m50v251n1, n8が停止。n1は勝手に止まっていたとのこと。n8は電源ランプはついていた。再起動して復旧。
2023/06/14 m128gのRAID1の3TB HDDが一つ故障していたので交換。USB 2.5Gbps LANが100Mbpsしか出ないが再起動すると復旧するみたい。PCIeの2.5Gbps LANに交換してドライバーインストール後再起動して復旧。→6/16 また100Mbpsになっていたので、yum updateして、NVIDIAのドライバーを再インストールして復旧。m448も2.5Gbpsをつけても同様の症状になったので同様に対処。
2023/06/12 NTT回線のルーターとして使っているAtermを通ってgoogle以外のサイトにつながらない&外からr311に接続できなくなっていた。ルーターを再起動して復旧。
2023/06/02 m768cの上のNETGEARの10Gbpsハブが停止。恐らくm256yの10Gbpsカードが故障して巻き添えか?念のため、TP-LINKの10Gbpsハブに交換し、m256yは1Gbpsのほうを使うように変更。
2023/05/22 m50v311n5(井原使用PC)が停止。仮想PCのネットワークが変になっている。→ 5/26再起動して復旧。
2023/05/15 m768の6TB SASがオレンジのランプが点灯してRAIDから外れる。4台中の右上の1台。取り外して再度取り付けると復旧。→6/9新しいSASが届いたので交換して復旧。
2023/05/12 m768cの上のNETGEARの10Gbpsハブが停止。再起動して復旧。
2023/05/12 バイオトロンのTP-LINK DECOルーターの有線接続のほうが故障したのかリモートデスクトップ接続を受け付けない状態に。sshは通る。新品のルーターに交換して復旧。
2023/05/02 311のIO-DATAのWiFiルーターが停止。再起動して復旧
2023/04/14 m50v251n7(吉田使用PC)が停止。仮想マシンが保存状態から起動できなくなっていた。恐らく実行途中で仮想ネットワークアダプタを変更した扱いになったから?保存状態を削除して復旧。
2023/04/13 311入り口のノートPCが頻繁に電源停止。おそらくバッテリーがへたっているのが原因であると思われたので、バッテリーを外して起動。
2023/04/12 311の共通WindowsのDell T1700が再起動時にフリーズ。電源ケーブルをいったん抜いてから電源再投入で復旧。
2023/04/11 m50v251n2(猛使用PC)がダウン。スリープさせたっぽい?
2023/04/10 405の部屋のネットワークが切断。最初のルーターの部分で大元の10Gbpsケーブルが外れていた。
2023/04/07 m50v405n7 (Lanza使用PC)がディスク使用率100%で仮想PCが停止。
2023/04/03 m32sの8TB HDD (/dev/sdd)が1台RAIDから外れる。この前交換したばかりのHDDか?新しいHDDに交換して様子見。もしかしたら電源ケーブルかSATAケーブルの故障か?
2023/03/15 Win-HyperVのCPUファンが故障。分解してオイルを差すと復旧。
2023/03/09 251のYAMAHAルーターのDHCPがダウンしている様子。→3/10 YAMAHAのルーターとハブの間を二本のLANケーブルで接続されてしまっていてループが出来てダウンしていた。1本を抜いてループを解除して復旧。
2023/03/01 m50v405n1がダウン。LANケーブルの爪が取れているせいでケーブルが抜けていた。ひとまず刺しなおして復旧。
2023/02/17 m64gがダウン。10Gbpsネットワークカードが壊れた模様。オンボードの1Gpbs LANに差し替えて復旧。
2023/02/11 qnapがダウン。→ 2/15 10台のHDDを格納可能な外付けHDDケースに移してデータをm208に移動。ランサムウェアiFireに感染していることが判明
iFire記録参照
2023/02/11 m96がダウン。→2/13起動ディスクのブート領域当たりが壊れているっぽい。別のディスクにOSを再インストールして復旧。CPUをフルに使っていると電源が落ちて再起動するため、グリッドエンジンのスロット数を0にした。
2023/02/08 m256bはUSB SSDで起動させていたが、一時ファイルの書き込みに耐え切れなかったので、内臓のHDDを初期化して使用し、OSを再インストールしてm384bとして登録した。
2023/02/05 m208の8TB HDDが1台failed。sudo hpssacli controller slot=0 show config detail
で見ると、ZCT0TNFT
のシリアルナンバーのHDDが離脱していた。→ 2/8 ストレージの中身をm786cに移動してlvmで無理やり連結していたディスクを初期化。初期化後は他の起動しているサーバからはls: /suikou/files/m208 にアクセスできません: 古いファイルハンドルです
となってしまうので、qconf -sel|while read i; do echo $i; ssh -n $i sudo umount -f /suikou/files/m208; done
でマウントをし直す。
2023/01/30 m24がダウン。m24でネットワークを100Mbps程度使用し始めてすぐに落ちた。→ 2/1電源が落ちていたので、電源を入れて復旧。あまりCPUやネットワーク負荷をかけないほうが良いのかも。
2023/01/27 m50v251n5(Naomi使用PC)がハングアップしていたので再起動して復旧。
2023/01/25 m192bを新しく追加。再起動しているとメモリーが1つ認識されなくなった。grid engineで使用しているとエラーをはいて停止したみたい。→ 1/27 他のメモリーに変えてみたりしたけど、動作が不安定なので、もともとついていた8GBx4のメモリーに変更して様子見。
2023/01/23 m128gのGPUが見えなくなっていたので、再起動した。再起動に1時間半ほどかかった。なぜか自動で/etc/rc.d/rc.localのnvidia-persistencedが実行されていなかったので(nvidia-smiで確認)、sudo nvidia-persistenced
を実行。
2023/01/23 m512, m512bのメモリーを512GB→128GBに減らして、抜き取ったメモリーを新しく導入したメモリー384GBのサーバに使用した。旧m256bは廃棄だけど、m256bのUSB SSDをそのまま使っているのでm256bの名前のまま。
2023/01/15 m32sの8TB HDDが1台RAIDから外れる。前回交換したHDDが壊れた。認識はしていたので、HDDを初期化しようとしたけど、書き込みエラーなので、HDDが壊れているみたい。→1/16 新しいHDDに交換して復旧。
2023/01/05 311のNTT回線のWiFiルーター以下が通信できていない状態になった。WiFiルーターを再起動して復旧。
2022/12/29 m96, m64m, m64g, m32a, m32b, v311n1の電源が切れた。→ 2023/1/5 2系統-1のgosund電源が落ちていた。
2022/12/26 m50v311n6が停止。12/27 何故かHyper-VのCentOS7が停止していた。仮想PCを起動すると、ディスク使用率100%でとても重たい状態だったので、PCを再起動。→何故か2020年にC, Dドライブ2つに分割されていて、その影響でディスクが足りなくなり動作が不安定に。ディスクイメージが壊れたので、CentOS7を再インストールして復旧。
2022/12/22 m512iの/dev/sde1がRAIDから外れた。電源ケーブルを別のものに変更してmdadm --add /dev/md0 /dev/sde1
で復旧。sudo smartctl -a /dev/sde|grep Power_Cycle_Count
によるカウント数は25回。
2022/12/21 m256bが停止。ジョブを実行しないようにしてから停止までの時間が2週間ー>1ヶ月に増えた。
2022/12/18 m512iの/dev/sde1がRAIDから外れた。OSからは/dev/sde1が普通に見えたので、mdadm --add /dev/md0 /dev/sde1
で復旧。
2022/12/17 m24のみネットワーク上停止しているように見える。→12/19 画面は真っ暗だけど、電源ランプは時折点滅していて起動はしていそうだった。ひとまずマザーボードのオンボードLAN (1Gbps)に繋ぎ変えて再起動して復旧。
2022/12/17 m24などを含む机のサーバすべてがアクセス不可能に。311入り口近くのNetGear 10Gbps Hubを再起動させることで復旧。前回8月に同様な症状があったみたい。
2022/12/09 m512iの/dev/sde1がRAIDから外れた。OSからは/dev/sde1が普通に見えたので、mdadm --add /dev/md0 /dev/sde1
で復旧。
2022/12/06 m50v405n6が定期的に再起動しているように見えるので、とりあえずmemtest86でメモリーチェックを4時間回したが、エラーなし。ひとまずグリッドエンジンにのジョブを0にして様子見。
2022/11/24 m32sの8TB HDDが1台RAIDから外れる。新しいHDDに交換して復旧。
2022/11/20 m256bが停止。→11/24 電源ランプ、HDDアクセスランプ、どちらも正常に点灯していたが、画面は映らない状態。電源ボタンを押すとスリープから復旧した。ひとまずグリッドエンジンのジョブを0にして様子見。
2022/11/16 251のYAMAHAルーターのコンセントを刺している延長タップの口が不安定だったので、別の場所に刺して様子見。
2022/11/04 m256bが停止。→11/8 パワーランプっぽいのが赤色に点滅していた。電源ボタンを押すと起動して復旧。
2022/10/25 v251n11が停止。電源ケーブルが外れていた模様。接続しなおして復旧。
2022/10/20 311から外へのネットワークがダウン。バッファローのルーターを再起動すると復旧。
2022/10/15 m256bが停止。→10/19 なぜかスリープ状態だったみたいで、電源ボタンを押すとスリープ解除されて復旧した。
2022/10/14 m50v311n3が停止。なぜかHyper-VでCentOS7がは保存状態になっていて、起動に失敗するようになっていた。チェックポイントを削除して、起動して復旧。
2022/10/13 v311n1が停止。恐らくOSアップデートに伴う再起動時に途中で止まったと思われる。電源の不具合と思われる。→10/20 新しい電源に交換。
2022/10/06 405のネットワークがダウン。311のほうは異常なし。405のネットワークHUB2台を再起動したけど復旧せず。4時間ほどすると自然と復旧。
2022/10/05 v311n1が再起動時に画面が真っ暗なまま停止。電源ボタンを押したらすぐに電源が消え、もう一度電源を入れれば復旧。
2022/10/05 m50v251n1がグリッドエンジンに参加していなかった。どうやら仮想PCが再起動されており、その際にNFSをマウント出来ていなかった。sudo mount -a; sudo /etc/init.d/sgeexecd.p6444 start
で復旧。
2022/10/05 m1536が停止。溝端くんの走らせたジョブがメモリーを使い切って停止したらしい。再起動して復旧。
2022/10/02 v311n1が停止。→ 10/5 電源を交換して復旧。
2022/09/30 バイオトロンの在室確認システムとして稼働しているchromeドライバーのバージョンが古く、chromeブラウザーとバージョン不一致でエラーが出ていた。chromeドライバーのバージョンをアップデートして復旧。
2022/09/30 258のIO-DATAのWiFiルーターが「カスタム」→「オート」にスイッチが切り替えられていたことによって、アクセスポイントモードで動作できずに在室確認システムからアクセスできなくなっていた。「カスタム」に切り替えて復旧。
2022/09/30 lenovo Windows PCの起動ディスクが無いというエラーがで起動しなくなっていた。ディスクを交換して、OSをインストールしなおしたけど、起動途中まで進んだり止まったりの状態なので廃棄。
2022/09/28 v311n2が頻繁に再起動していたのでCPUを交換して様子見。CPUは3700Xから5700Gへと交換した。
2022/09/28 v311n1が停止していた。電源の故障?電源再投入で復旧。
2022/09/26 停電後復旧を行った。m512では/dataをマウントする際に、
mount: mount /dev/md0 on /data failed: 構造体を内容消去する必要があります
とエラーが表示されたため、
sudo xfs_repair -n /dev/md0
で作業内容を確認後、
sudo xfs_repair -L /dev/md0
で実行
xfs_repairログ 2022/09/26。m16は停電でBIOSの設定が消えた?のか、起動ディスクが別のHDDになってしまっていたので、起動時にF10を押してBIOSに入り、4TBのHDDを指定してから起動。→9/30 マザーボードのボタン電池を交換。
2022/09/11 m32sの8TB HDD (serial: WCT3866L)がRAIDから外れた → 9/13再度見えるようになっていたので、mdadm /dev/md127 --add /dev/sdc1
とやって再追加して様子見。→ 9/14再度外れたので、新しいディスクに交換。
2022/09/10 m96が連続して再起動するようになった。→ 9/13 起動ディスクを交換して、OSを再インストールして復旧。
2022/09/07 m50v311n2(米澤使用)、m50v251n1(Pan使用)PCが不定期に再起動もしくは電源が落ちるらしい。どちらともmemtestでは異常見られず。
2022/09/05 m32a, m32b, m48i, m50v311n1, m64g, m64m, m96が停止。1500Wを超えたみたい。→ 9/7 m48iを6系統電源に移動。
2022/09/03 m256bが停止。→ 9/7 内臓RAIDカードの不調が過去にあったので、RAIDのケーブルを外して様子見。
2022/09/01 win-hyperVが停止。BIOSすら映らなかったが、中を空けてほこりを掃除すると起動した。起動HDDが壊れていた。新しいSSDにWindows10をインストールして復旧。
2022/08/30 m256bが停止。→9/1何故か電源が落ちていた。再度電源を入れて復旧。→ただしすぐに落ちた。USBメモリが壊れかけている?→再度再起動して復旧。
2022/08/26 r311の上流のAterm WX3000HPの外向きの接続が不可能に。再起動して復旧。
2022/08/24 m32が停止。再起動してもBIOSすら映らず。廃棄。
2022/08/23 m128gのGPU (NVIDIA GeForce RTX 3060)が見えなくなっている。再起動。→再起動に1時間ほどかかった。
2022/08/22 m512iのRAIDが再び2台外れる。今回は時間差があって、1台ずつ外れた。→ 8/24 /dev/sdbのほうがsmartctl -a /dev/sdb
で見ると停止回数が多かったので、壊れているのかもしれないが、電源ケーブルの不具合の可能性もあるので、別のケーブルを繋いで様子見。/dev/sdbのほうが壊れそうなので、mdadm --zero-superblock /dev/sdb1
で/dev/sdbのRAID情報を消しておいてから、mdadm --assemble /dev/md0 --force /dev/sda1 /dev/sdc1 /dev/sdd1 /dev/sde1
でsdb以外を入れて再構築してから、mdadm --add /dev/md0 /dev/sdb1
で回復。
2022/08/20 m512iのRAID5が2台はずれて壊れる。→8/22 mdadm –addして復旧のはずだったけど、急いで2回addのコマンドを入力したせいか、復旧途中で停止して再起動したらRAIDの回復ができず、mdadm –add –forceでなんとか復旧。
2022/08/20 311のネットワークがダウン。→8/22 複数の機器が異常状態だった。YAMAHAルーターのDHCPが停止。suikou-bind仮想サーバがカーネルパニック。311入り口近くのNetGear 10Gbps Hubが正常に点滅しているように見えるけど、実際はハングアップ。m24のネットワークが停止、サーバ自体は動いていた。Buffaloルーターと10Gbpsが意図せず接続されていてループが出来てしまっていた。m768:suikou2ではログインできるが、自分のユーザではログイン不可能なので、m32sのNFS共有を見に行くところがダメっぽい、再起動。m256y, m32a, m32b, m64m, m64gがqhostで見えないので再起動。311窓側のWindowsが接続されている2.5GbpsのBuffaloハブ下流のWindowsがネットに繋がっていないので、ハブを再起動。
2022/08/17 m16がハングアップ。最初はNFS共有フォルダが他から見えなくなっていた。再起動して一応復旧。
2022/08/10 r311が停止。電源が落ちている状態。再起動して一応復旧。→8/11また停止。→8/17電源を交換。→8/17 5時間で停止。→8/17 memtest中にCPU温度が80度まで上昇したため停止させた。その後BIOS画面すら表示されなくなったので廃棄。→ 8/24 旧吉武使用PCをr311に転用して復旧。
2022/08/08 r311が停止。電源が落ちている状態。再起動して一応復旧。/var/log/kern.log
を見ると、どうやらeno1のネットワークアダプタが過負荷の様子。ethtool -K eno1 tso off
でTCP Segmentation Offloadを無効にしてみる。
2022/08/07 m512iの14TB HDDが1台RAIDから外れた。新しいディスクに交換して復旧。
2022/07/28 m96の交換した/dev/sdeのHDDが/etc/mdadm.confの設定ミスで変に組み込まれており、読み取りエラーが多発していた。sudo dd if=/dev/zero of=/dev/sde bs=512 count=1000000
でディスクの先頭を削除してから、再度ディスクをフォーマットしてRAIDに組み込むと正常に追加された。
2022/07/17 m96 10TBのHDD /dev/sdeが故障。→ 7/21 新しいディスクに交換して復旧。mdadm addのとき、一瞬で再構築が完了したのはとても気になる。/etc/mdadm.confにDEVICE /dev/disk/by-id/ata-xxxx ...
と書いてあったディスク構成が変更されて5台中3台しか一致していない状態になっていたのに気が付かずに起動すると、ディスクが3台しかRAIDに組み込まれないことが分かった。/etc/mdadm.confにDEVICE partitions
と書いておいたほうが良さそう。
2022/07/17 m512iの/dev/sda1が再びRAIDから外れた。再加入させて復旧。→ 7/21 再度/dev/sda1がRAIDから外れた。新しいディスクに交換して復旧。
2022/07/14 m512iの14TB HDDが一台RAIDから外れたが、SMART等は正常だった。そのため、再起動せずにsudo mdadm /dev/md0 --add /dev/sda1
とすると再度RAIDに加入して復旧した。
2022/07/07 m512のRAIDが何故かストップしていた。mdadm --run /dev/md0
とするとmdadm: failed to run array /dev/md0: Input/output error
と出るので、echo 1 > /sys/module/md_mod/parameters/start_dirty_degraded; mdadm --run /dev/md0; mdadm /dev/md0 --add /dev/sdb1
で強制起動させて1台落ちたディスクを再度RAIDに追加して復旧。
2022/06/29 lenovoが起動ディスクが見つからないというエラーで再起動ループしていた。一旦電源を切って、再起動したら復旧。(2回目)
2022/06/22 m50v405n9(貴志使用PC)がzabbixで停止。→ 6/29原因は不明だけど、HDMIケーブルが間違った場所に刺さっていて画面が見えていなかった。拡張ボードのHDMIのほうに接続しなおした。再起動して復旧。
2022/06/22 m16の2TB HDDが1台故障。交換したが、OSが起動しなくなった。レスキューディスクでデータを移動。→6/29 2TB HDDx5 → 8TB HDDx5に換装してOSを再インストールして復旧。
2022/06/17 m512が停止。→ 6/22 画面が真っ暗で反応しない状態になっていた。電源長押しで再起動して復旧。
2022/05/31 m50v311n5(湊使用PC)がzabbixで停止。→6/8 Windowsの電源が切れていた。使用後に停止していた?
2022/05/25 lenovoが起動ディスクが見つからないというエラーで再起動ループしていた。一旦電源を切って、再起動したら復旧。
2022/05/12 r311が停止。→ 5/18 単に電源が落ちていた。原因は不明。再起動して復旧。
2022/05/11 lenovoのWidnows PCのLANが繋がらなくなった。USB LANを増設して復旧。
2022/05/07 m50v251n6 (Liu使用PC)が断続的にzabbixに接続できていない → 5/18 仮想PCを再起動すると1時間ほど復旧するけど、再度ネットワーク遮断。原因は不明。→5/25原因は同時に起動していた練習用の仮想Linuxサーバが同じIPアドレスを使用していたためだった。練習用サーバのIPを変更して復旧。
2022/05/06 m256yがネットワークダウンの影響か停止していた。キーボード操作を受け付けず画面真っ暗な状態。再起動して復旧。
2022/05/06 m768cの上に置いてあるネットギアのネットワークハブが再びダウン。再起動して復旧。
2022/05/06 m64gのネットワークカードを2.5GbpsのPCI-e接続のカードに交換。ドライバーをインストールする必要があって、sudo yum localinstall /suikou/download/kmod-r8125-9.007.01-1.el7_9.elrepo.x86_64.rpm
2022/04/28 m256y,m512i,m64g,m768c,m96,m96bのネットワークが切れる。10Gbpsハブの故障か?→ネットワークハブを再起動して復旧。m64gのみダウンしたまま。m64gのLANカードの故障が原因か?
2022/04/27 405のPCのm50v405n4などが繋がっている最後のネットワークハブへの接続がCat5だったためか、m50v405n4などは100Mbpsしか出ていなかった。Cat6Aに変更すると1Gbps出るようになった。
2022/04/27 m50v405n11がスリープになっていた。30分でスリープになるように設定が変更されていたのでスリープを無効に再設定。→平松さん自身が意図的にスリープに変更していた模様。
2022/04/27 m50v305n7がスリープになっていた。原因は不明。→黄さんが意図的にスリープにした模様。
2022/04/27 m50v305n5の仮想PCのネットワークが切れていたが、Windowsは普通にネットに繋がるし、仮想PCにHyper-V管理ツールからログインしたらネットに接続するようになった。
2022/04/13 405のネットワークが断続的に切断されるが、一日経つと復旧していた。m50v405n5だけは復旧後もネットワークに十分な速度で接続できていなかったので、仮想マシンを再起動すると復旧。
2022/04/13 m128gのネットワークが100Mbpsしか出なくなっていた。壊れたと思われるTP-Linkの10Gpbs LANカードを刺したままにしていたのが問題か?LANカードを抜いて、USB 2.5Gbps LANで接続。m64kとiperf3で確認したところ1Gbps程度しか出ていなかった。
2022/04/09 m64k, m32r, m50v311n2-6の接続が切れた。ネットギアの10Gbpsハブの電源が落ちていた。電源を入れて復旧。
2022/04/07 311のネットワークが外に繋がらなくなった。バッファロールーターの不調と思われる。10分ほどネットワークが切れて復旧するというのが1ヶ月で2回あったため、バッファロールーターの電源を切って再起動させて様子見。
2022/04/06 v311n5のPCがWindows Update後の再起動で進まなくなったため、OSを再インストール。
2022/04/06 m448のネットワークが100Mbpsしか出なくなっていた。オンボードのLANを使っていたのだけど、念のため使っていない10GbpsのLANカードを除去して再起動。再起動後は1Gbpsの速度が出ることを確認。
2022/04/06 m512pがsar -m CPU 1
で確認すると150MHz程度しか出ていなかった。再起動すると1200MHz程度は出るようになった。
2022/03/24 m256bのRAIDコントローラーが見えなくなる。→ 4/6 USB SSDを追加して新しくOSをインストールして復旧。起動後はHDDも見えた。
2022/03/24 m768bの8TB HDDが1台RAIDから外れる。交換して復旧。
2022/03/17 m50v311n6が停止。電源起動時にスイッチを押してもなかなか電源がONにならないように思える。
2022/03/17 m64kに保存していたシーケンスデータ2021-11-11_Kurokouchi-shiitake-RNA-seq/X201SC21091483-Z01-F001/raw_data/XR_6_2/XR_6_2_2.fq.gz
のMD5の値が変わってしまっており、破損していた。m32sに保存していたバックアップデータをコピーして復旧。やはり大事なデータは別途コピーしてバックアップを作っておいたほうが無難。
2022/03/11 m50v311n2が停止していた。Cドライブが一杯でHyper-Vが起動できなかった様子。8TB HDDをDドライブとして起動して、データを移すことに。
2022/03/11 m64bのネットワークが切断。2.5GbpsのUSB LANを増設。m128gとは違うアダプターでLinuxとの相性が悪いのか、iperf3でm128g間で確認すると300Mbps未満しか出なかった。
2022/03/11 m128gのネットワークが不調。10GbpsのLANカードと、内臓LANは以前もトラブルがあったので、2.5GbpsのUSB LANを増設。iperf3でm64k間と1.3Gbps程度は出ることを確認。
2022/03/11 m50v311n6が停止していたので、電源を入れた。電源ボタンが反応しづらくなっていて、何回か押してようやくONになった。
2022/03/11 m50v405n1がWindowsのブルースクリーンで停止していた。再起動して復旧。
2022/02/22 m128gのネットワークがオンボードLANで100Mbpsしか出ない状況になった。→LANカードを増設したがOSが起動しない。メモリーチェックをかけてもエラーはない。ディスクはRAID1にしていたが、そのうちの片方がほぼ壊れている状態だったのが原因か。OSを別のHDDに再インストールして復旧。
2022/02/06 m64bが停止。→2/7 ネットワークが切れていた。オンボードLANの故障?再起動して復旧。
2022/02/04 m50v311n2(米澤使用)がダウン。WindowsのCドライブの空き容量不足で仮想マシンが起動しなかった?Hyper-Vから手動で起動。
2021/01/31 m64cが断続的にzabbix上で停止している。→2/4停止はしていなかったけど、suikou2でログインするとハングアップ。前回ネットワークエラーっぽかったので、マザーボードのLAN→10GpbsのLANカードに変更して復旧。
2021/01/26 m50v405n3(Afsana使用)のデスクトップ画面の解像度が小さいままだったり、デバイスマネージャーにアクセスできなかったりしたので、MemTest86で調べるとメモリーエラー。→メモリー1枚が故障しており、交換して復旧。
2021/12/31 m32sの8TB HDDが1台故障。→ 2022/1/1 交換して復旧。
2021/12/23 m192がダウン。→ 12/30 電源が故障していた。故障していた電源の交換と併せて2つの電源を導入して復旧。でも一つは電源のランプがついていない。ただ、電源プラグを刺した時に生きていそうな音はした。
2021/12/21 m96cの電源が停止。再起動して復旧。
2021/12/20 m768bの/dev/md127がマウント不可能になった。マウントしようとすると「構造体を内容消去する必要があります」となる。sudo xfs_repair -L /dev/md127
で修復。1000個くらいのFASTAファイルが無くなった模様。
2021/12/19 m128gのネットワークが定期的にダウン。→ 12/20 HDDの故障の前兆となるらしい「READ DMA EXT」エラーを吐いていた。ネットワークも不安定そうだったので、ひとまず10Gbps LANをやめてオンボードのLANを使うように設定。
2021/12/18 r251がダウン。→ 12/20 電源が停止していた。再起動して復旧。
2021/12/17 m50v311n2(米澤使用)がダウン。→ 12/20 Windowsは起動していたが、仮想マシンが保存完了状態で起動していなかった。起動して復旧。
2021/12/16 m32dがダウン。→ 12/20 オンボードLANが利用できなくなっていた。USB LANを使用して復旧。
2021/12/15 m512bがダウン。→ 12/20 電源が停止していた。再起動して復旧。
2021/12/10 258のWiFiが使用不可に。→12/14 LANケーブルが抜けていたのを刺しなおして復旧。
2021/12/10 311のWiFiが使用不可に。→12/14 再起動して復旧。
2021/11/29 m128g, m256bがGosund 15-1以下にあり、停止していた。→ 11/30 電源をON。
2021/11/28 311のネットワークがダウン。→ 11/29 電力使用量管理ガジェットのGosund 15-1が落ちて1Gbpsハブがダウンしていた。Gosundを外して復旧。→ 11/30 Gosund y-6を15-1として登録。
2021/11/27 m448がダウン。またネットワークが原因の様子。→ 11/30 10Gbps LANカードは交換したばかりだけど、故障疑い。ひとまずマザーボードの1 Gbpsを使うように変更。
2021/11/26 m64cがダウン。メモリーのみ3枚は古いのを使用しているのでメモリーが原因?→ 11/30 OSは動いているけど、ネットワークが繋がっていないことを確認。マザーボードの1 Gbpsを使用しているので故障かどうかは不明。ひとまず再起動して復旧。
2021/11/22 地頭所くんが使用しているm50v405n9、米澤くんが使用しているm50v311n2がダウン。Cドライブの空き容量が0になっているのは共通。
2021/11/22 m208の電源がダウン。→ 11/25 電源ケーブルが外れていただけだった。
2021/11/19 m96 10TB HDDが1台故障。→ 11/22 交換して復旧。
2021/11/17 m8がダウン。→11/22 再起動して復旧。原因は不明。
2021/11/17 m448がダウン。数週間前から100MbpsしかLANが出ていなかったので、おそらくLANカードの故障だと思われる。→ 11/22 LANカード交換して復旧。
2021/11/10 r251の再起動時にzabbixが自動起動しなかった。手動で起動。
2021/10/28 311のsuikou-gが接続不可になった模様。→10/29自然回復?
2021/10/27 m64cがダウン。Memtest86をかけっぱなしだと4日間異常なく稼働。→ 11/2 CentOS7を再起動すると数時間でダウン。→ 11/3 USB HDDからCentOS7を起動したが、数時間でダウン。原因はマザーボード、CPU、GPUか?→ 11/16 最終的にメモリーが1枚故障していた。マザーボード、CPU、メモリー1枚を交換して復旧。
2021/10/27 311のWiFiルーターIO DATA WN-DAX1800GRのsuikou-gのみ接続不可に。suikou-aは接続できるけど、再起動すると復旧。
2021/10/26 m64cがダウン。再起動して復旧。
2021/10/26 m24がダウン。ネットワーク復旧に伴う出席システムの過剰な処理が影響?再起動して復旧。再起動時にCPUが温度オーバーで速度制限しているという警告あり。
2021/10/22 311のネットワークが10GbpsのBuffaloルーター以下がダウン。サーバにpingすると最初の2回だけは帰ってくるが、その後不通。→10/26LANケーブルの接続不良か?LANケーブルを抜き差しすると復旧。念のためLANケーブルを交換。
2021/10/20 m448がダウン。→10/21画面が暗い状態で停止していた。再起動して復旧。
2021/10/19 251のネットワークがダウン。→Buffaloルーターを再起動して復旧。
2021/10/15 m50v251n5が停止。→使用者が帰り際にsleepにしていた?
2021/10/12 405のネットワークが断線。一番根元の10Gbpsハブが故障か?ハブを再起動するととりあえず復旧。
2021/10/10 m512iの14TB HDDが一台故障。→10/12 交換して復旧。
2021/10/06 m50v251n5が停止→再起動して復旧。
2021/10/04 m50v405n3がダウン。→10/5再起動して復旧?
2021/10/03 m208がダウン。→10/7再起動時にSmart Storage Batteryエラーあり。→10/12 Smartストレージバッテリー96Wを交換。
2021/10/02 m50v251n3仮想マシンの再起動時のOSブート途中で止まっていた様子。なぜ再起動していたかは不明。
2021/09/30 m48gがダウン。10Gbps LANカードが点滅せず→LANカード、GPUを外しても起動せず、マザーボードの故障か。→10/12 CPU, マザーボード、メモリを交換し、m128gとして登録。
2021/09/27 設備点検のための停電の復旧。311のIO-DATAのWiFiルータが再起動時にDHCPがないためか、ブリッジモードではなく、ルータモードになって起動していた。背面のスイッチを「カスタム」にして再起動するとルータモードで再起動された。
2021/09/24 m64cがダウン。再起動して復旧。
2021/09/24 m50v311n5(吉田使用PC)がダウン。アップデート途中で電源がオフになっていた?再起動して復旧。
2021/09/21 r311の8TBディスクが2台RAIDから外れる。→9/27 ディスク2台を交換。
2021/09/17 m50v311n1がダウン。→9/24 Windowsアップデート中にハングアップ。再起動して復旧。
2021/09/11 m50v405n10がダウン。→9/12 再起動して?復旧。電源延長コードが接続不良になっている。
2021/09/11 m48gがダウン。→9/13 再起動して復旧。→9/14再度停止。電源が不調っぽい。→9/21電源交換で復旧。
2021/09/05 m64cがダウン。→9/8 再起動して復旧。
2021/09/04 m208がダウン。→9/8 再起動すると、Smart Storage Batteryのエラーが出ていた。
2021/09/03 m50v405n10がダウン。→9/8 Memtest86の結果、メモリー1枚が故障していることが判明。
2021/08/30 m50v405n10(スミス使用PC)がダウン。Hyper-Vマネージャを開くと、すぐにブルースクリーン。Hyper-Vマネージャを開かなければ今のところ動いているので、そのまま再起動して稼働。
2021/08/30 m50v251n7(伊藤使用PC)がダウン。仮想Linuxのカーネルが破損しているようで、仮想PC起動時にエラー。仮想Linuxを再インストールして復旧。
2021/08/29 r251の公開サーバが外からはアクセスできなくなっていた。デフォルトルートを192.168.253.1になっていたのを133.11.144.11に変更して再起動。
2021/08/25 r251のzabbixが数分で停止してしまう。→8/30 ダウンしていたm50v251n7が復旧した後は停止しなくなった。何か関係あった?
2021/08/24 v311n3(佐藤使用PC)の電源がオフになっていたので再起動して復旧。
2021/08/23 v251n3の電源が落ちていたので、再起動して復旧。
2021/08/23 r251の/dataフォルダにしているRAID1のディスクが再起動?で、/dev/md0 → /dev/md127に変更されてしまい、ディスクが見つからずにエラー。/etc/fstabを修正して再起動。
2021/08/18 m256yのGPU RTX3080が数分〜数時間でLinuxから認識されなくなる。dmesg
の最後にNVRM: GPU 0000:b3:00.0: RmInitAdapter failed!
が大量に出てくる状態。sudo nvidia-persistenced
を実行せよとあったので、とりあえず実行。→9/13 /etc/rc.d/rc.local
に自動起動するように追加。
2021/08/13 m64gが停止。→8/18とりあえず再起動して復旧。
2021/08/12 m50v251n5が停止。→8/18 メモリ、GPUではなさそう。→8/26 CPUではない。→8/30 マザーボード交換で復旧。
2021/08/12 v311n1が停止。→8/18 OS再インストール
2021/08/12 m96cがIOエラーでシャットダウン。→8/18 RAIDキャッシュモジュールをm64dから抜いて交換。
2021/08/10 m48gのGPUがnvidia-smiで見えなくなっていたので再起動。これまでに3回あった。→数時間でまた見えなくなっていた。→8/18 PCI-Eの差す場所を一つ下にずらして再起動。→それでも見えなくなっていたので、sudo nvidia-persistenced
を実行。
2021/08/07 251の部屋のVPNルーターのPPTP接続が切断されていた。PPTP接続を手動で接続。
2021/08/05 251の部屋のVPNルーターのPPTP接続が切断されていた。再起動してPPTP接続を手動で接続。
2021/08/05 m64dが停止。→2021/8/10またもや電源を壊して停止していたようなので、廃棄。
2021/08/03 m32sのLANが再び100Mbpsになってしまっていたため、とりあえず再起動してみたら3Gbps出るようになって復旧。
2021/07/31 m64dが停止。→2021/8/3 さらにもう一つの電源が故障。他のサーバから使っていない電源を流用して復旧。なぜかメモリーが56GBに減っていた。
2021/07/28 qnapの4TB HDDが2台故障したため交換。
2021/07/28 m512pがacpi_pad
というカーネルモジュールが大量に動いてしまっていたので、解決策としてrmmod acpi_pad
としていったん削除。再起動すると復活するかも?
2021/07/28 m512pを再起動すると、電力が許容量をオーバーしたというエラーが出てBIOS立ち上げで止まっていた。F1を押して起動続行。
2021/07/28 m32sのネットワークが100Mbpsしか出ていなかったため、10G LANカードを交換。
2021/07/23 m64dの電源が片方落ちた。→7/28もう一つの電源に繋いで復旧。
2021/07/21 m32sのHDDを1台交換。ただし、交換前のHDDも取り外して正常に使用できているため、SATAケーブルか電源ケーブルの刺さり方が悪かったのかも?
2021/07/08 v311n1が停止。→7/14またWindowsアップデート関係で停止?再起動したらアップデートが実行された。
2021/07/02 m24mがzabbix上停止。→ その後稀に少しだけ回復してzabbixに現れることがある→7/7 電源、グラフィックボードを交換してみたが、OSのインストール途中でエラーとなる、もしくは再起動する症状は変わらず。マザーボード、CPU、メモリを廃棄予定。
2021/06/29 m512が勝手に再起動した。再起動したときはグリッドエンジンでCPUを100%使用していた。m512b同様に負荷に耐えられないのかもしれないので、グリッドエンジンのジョブを0にした。
2021/06/29 m224, m768b, m512の電源系統を10番に変更。
2021/06/24 m16, m224, m24m, m50v311n2, m50v311n3, m50v311n4, m50v311n5, m50v311n6, m512, m768b, m8が停止。13番電源系統が落ちて、ネットワークハブが落ちたことで、m16, m24m, m50v311n2, m50v311n3, m50v311n4, m50v311n5, m50v311n6, m8は停止した? m224, m512, m768bは13番系統みたい。
2021/06/22 311のIO-DATAのWiFiルーターに接続したスマホからZoomが途切れるため、ルーターを再起動。
2021/06/21 ブレーカーが落ちて、m24, m24m, m512b, m8、m50v311n2(米澤)、m50v311n3(佐藤)、m50v311n5(吉田),m64bが停止。→ 6/22 m24m, m8, m64b, m50v311n2, 3, 5を別系統の電源コンセントに接続。
2021/06/10 m50v311n1が停止。ホストのWindowsをKVMで見ても画面が真っ暗なまま。電源ボタンを軽く押すと電源オフ。再起動するとWindowsアップデートがかかった。アップデート途中でハングアップか?ジョブは停止前のジョブが継続実行された。
2021/06/09 m64cがzabbix上では停止。→6/10 実機を確認したところ、再起動してネットワークが不通の状態だった。再起動してひとまず復旧。
2021/06/08 m1536のCPU使用率は高くないのにload averageが高く、グリッドエンジンのジョブが入っていなかった。ps auxでステータスがD1のgvfsd-trashが大量に残っているのが原因だったので、sudo killall gvfsd-trash
として解決。
2021/06/08 m50v405n2(宮下)がswappingを起こして解析が進まなかったため、再起動。diamondジョブによるメモリ不足ではなさそうだと思うが、原因不明。再起動して復旧。
2021/06/08 停止していたm32cのパーツを交換していくと、どうやらマザーボードが故障していた模様。メモリを64GBに戻して、サーバ名をm64cに変更。
2021/06/07 m32iはGPUが故障しているのだけど、その状態でssh経由でXを使うソフト(gnome-disks)を起動してしまったらハングアップ。→再起動しない状態になったので、廃棄。
2021/06/07 m512bでCPUを100%(64コア全部)使うと、勝手に再起動してしまう。そのため、グリッドエンジン経由では32スロットしか入らないように設定。→6/8それでも勝手に再起動するようになってしまったため、グリッドエンジンのジョブを入れないように変更。CPUの熱暴走?
2021/06/03 r251のSSDがリードオンリーになっていたので、SSDの故障疑いで、新しいSSDに交換してOS再インストール。1時間程度でzabbixの記録が停止、zabbix-agentdが停止していた。zabbix-agentdを再起動。
2021/05/30 m32cが停止。
2021/05/28 r251がzabbix上では反応せず。ただし、m50v251n3などがr251を通って外のネットワークと接続できているので、まだ起動はしているみたい。
2021/05/25 m50v311n1が停止。SSDを新しいSSDにクローンを作って交換して起動して様子を見る。
2021/05/25 m32cが停止。再起動して復旧。
2021/05/20 m12の電源、ケース、GPUをm50v311n1に流用してm50v311n1を起動。しかし数時間で停止している。消去法でSSDが原因か?
2021/05/13 m8に入ったsingularityのジョブがBus error (core dumped)
で異常終了するようになっていた。再起動するとエラーは起きなくなっている。
2021/05/12 m32cが停止。→5/13メモリを別の32GBに交換して再起動するも起動画面が見えず、GPUカードを交換して起動。
2021/05/10 m50v311n1が停止。→5/13起動はしているのだけど、何故かWindows10自体がネットワークに接続できていなかった。ログインしたら何故かネットワークに接続した。→数時間で停止。
2021/05/09 m512bが停止。→5/13電源が落ちている状態だった。とりあえず再起動。
2021/05/08 m12が停止。→5/13電源が落ちている状態だった。とりあえず再起動。なぜかNFSをマウントしていなかったので手動マウント。数十分で電源停止→廃棄。
2021/05/07 m12がシャットダウンしていたため、電源を交換して様子見。→ 1時間程度でハングアップ。他のサーバのm32s共有ホームフォルダのアクセスが出来なくなっているようなので、m12の10Gbpsネットワークアダプタが故障していると思い10Gbpsネットワークアダプタを取り外して様子見。ネットワークは回復した。
2021/05/06 qnapのNFS共有が外れていた。qnapの設定を開いて、NFS v4を有効にするとNFS共有が再開された。以前LinuxのカーネルをアップデートしたときにNFS v3以下はサポート外になった?
2021/04/30 r311のFan Error対応のためBIOS/UEFIの設定を“アドバンスドモード>モニタ>CPUファンスピード下限>無視”に設定後、保存・リセット・再起動を行った。OSが立ち上がってログイン後、シャットダウンを行い、その後電源を入れて起動の確認を行い、Fan errorが出ないことを確認した。
2021/04/28 r311のSSDが壊れて認識されなくなっていたため、新しいSSDに交換し、OSを再インストールして復旧。
2021/04/22 311のWiFiルータをIO DATA WN-DAX1800GRに交換。
2021/04/22 m50v311n1がハングアップ。メモリーを新しいのに交換して様子見。
2021/04/22 m12が電源落ちて停止。電源を入れると復旧。
2021/04/17 311のWiFiルーターがハングアップ。再起動して復旧。
2021/04/16 m50v251n9が停止。電源ケーブルが抜けていた模様。再起動して復旧。
2021/04/14 r311が再度ハングアップしていたため、廃棄。ディスクを全てm8bに移し、m8bを新しいr311として利用。
2021/04/05 m8bが起動時にFan error、Over Clockエラーで止まる現象を修正。Fan errorはCPU Fanコネクターに水冷ポンプのコネクターが接続、ラジエター用のFanはケースFanコネクターに接続されていたため、水冷ポンプをケースFanコネクターに接続しラジエター用のFanをCPUコネクターに接続を変更した。Over ClockエラーはBIOSを初期値に戻すことで解消できた。
2021/04/05 n311v1マザーボード、CPU交換。
2021/04/05 m8bマザーボード、CPU交換。
2021/04/05 311のsuikou-g Wifiルータがダウン。再起動して復旧。
2021/04/05 m12が電源落ちて停止。電源を入れると復旧。
2021/04/02 251室のネットワークが停止しました。ルーターを再起動して復活しました。
2021/04/02 251室の192.168.253.164 (Duminda)がネットワークに接続できなくなったため、他のPCが正常であることを確認して再起動。ネットワーク接続が復旧した。
2021/04/01 NTT光のルーターが故障していたため、Aterm WX3000HPに交換して復旧。
2021/03/26 v311n1がハングアップ。再起動して復旧。
2021/03/26 405のルーターVPN接続が切断されていた。再起動して復旧。今はプリンターしか接続されていないので、そもそも除去して良いかも?
2021/03/15 1月くらいから断続的にビープ音の鳴っているm8bを調査したところ、CPU温度が高くビープが鳴っていた。
2021/03/15 r311が停止していた。再起動して復旧。RAIDがsdg, sdhの2つ抜けていた。md0に再加入すると一瞬でRAID再構築完了。
2021/03/10 v311n1がハングアップ。ログイン画面で固まっている。再起動して復旧。→ケースが小さくてCPUの排熱を処理できていないのが原因と思われたためケースカバーを外して様子見。
2021/03/08 251のルーターのVPN機能が動作不良に?初期化して再設定すると復旧。
2021/03/02 v311n1がハングアップ。再起動して復旧。
2021/03/02 m32sの/dev/sdcがRAIDから外れる。2回目。HDDを交換して復旧。
2021/03/02 m32sがハングアップ。LANカードを交換して復旧。
2021/02/28 zabbixサーバが停止していますというメッセージがブラウザで出て、/var/log/zabbix/zabbix_server.log
を見ると、zbx_mem_malloc(): out of memory
とでていたので、/etc/zabbix/zabbix_server.conf
を編集し、CacheSize=16Mにしてzabbix-serverを再起動
2021/02/23 m32sがハングアップしたため再起動して復旧。
2021/02/18 311のsuikou-g、suikoujissyu2のWiFiルーターが調子悪いため再起動。
-
2021/02/13 木島さんのPC(v251n2)がハングアップ。再起動して復旧。
2021/02/10 405のプリンターがWiFiルータの交換によってネットワーク接続不可能になっていた。固定IPを振り直して解決。
2021/02/10 最近m32sが頻繁にハングアップするため、m32sの電源を交換して様子見。
2021/02/09 2か月ほど前からm32sの8TB HDDの/dev/sdcがRAIDから外れていた。再起動後は普通に認識されているため、sudo mdadm /dev/md127 --add /dev/sdc1
で復旧。
2021/02/08 m32sが停止。再起動して復旧。
2021/02/04 m384上のNetGearのネットワークハブが通信不能に。通信のランプ自体は点滅しているのに通信できない。再起動して復旧したけど、1時間くらいで再度通信不能。予備のスイッチに交換。
2021/02/03 m96bが何故か電源停止していた。電源を入れて復旧。
2021/02/03 m384のNFS共有フォルダーがほかサーバでマウントできない。m384を再起動して解決。
2021/02/02 m512pのNFS共有フォルダーがほかサーバでマウントできない。→m512pでsudo systemctl restart nfs-serverした後、他のサーバでsudo umount /suikou/files/m512pして解決。for i in `qhost|tail -n+3|grep -v " - "|cut -f 1 -d ' '`; do echo $i; ssh $i "sudo umount /suikou/files/m512p"; done
2021/01/29 宮下さんのPC(v405n2)が故障。電源を入れてもBIOSの画面が出ない。→2021/02/08 新しいCPUに交換して復旧。
2021/01/18 m512のメモリを64GB認識しない問題で、BIOS起動時のメッセージからCPU1がメモリを半分認識していないことからCPU1を新しいCPUに交換。しかし結果は同じで64GB認識しない。BIOSのヘルスチェックからはCPU1の温度だけがHighで、電圧が低い。
マザーボードマニュアル
2021/01/18 405の無線LANルーターMZK-750DHPが故障。IO DATA WN-AC733GRに交換。
2021/01/18 m12, lenovoが何故か停止。再起動して復旧。
2021/01/06 m384, m1536, m512iなどの電源のブレーカーがダウン。
2021/01/03 m768, m512p, m208などの電源のブレーカーがダウン。
2020/12/24 西脇くんのPC(v251n8)が1分で再起動するようになった。CPUを交換したら復旧。
2020/11/20 m384がビープ音鳴りっぱなしでハングアップ。停止した10Gbpsハブの下流にいた。何か関係あるかも?強制再起動で復旧。
2020/11/20 m384上の10Gbpsハブが通信不能になった。再起動して復旧。以前は7月29日に発症。
2020/11/16 311のWHR-G300NのWiFiが繋がらなくなり、ルーターの設定画面にもアクセスできなくなる。有線接続は可能。ルーターを再起動して復旧。
2020/10/26 311のWiFiルータ WZR-HP-AG300Hが故障。代替機WHR-G300Nに変更。
2020/10/06 405のルータ再起動後にPPTPによるVPN接続が自動で復活出来ていないことが分かった。管理画面から「ステータス」→「システム」でPPTPの接続操作を行うことで解決
2020/09/28 停電後の復旧を行った。m24のeSATAの外付けHDDが故障。
2020/08/20 m64kの4TB HDDが1台故障。交換して再起動。
2020/08/20 m32sの10G LANカードを交換。
2020/08/07 さらに別の10Gbpsスイッチが動作不良で、1Mbps程度しか出なくなっていたことがあったので、Buffaloの10Gpsスイッチと交換。動作不良の影響でm128
が起動しなかったっぽい。スイッチを交換して、m128を起動すると無事に起動。
2020/07/30 m256yの8TB HDDが一台故障。
2020/07/30 m384の起動ディスクを8TB HDDに入れ替えて、OSを再インストールして復旧。
2020/07/29 10Gbpsスイッチを再起動して、m256i, m256y, m64g, m96, m96bのサーバ5台は復旧。m384は起動HDDが故障。
2020/07/25 m256i, m256y, m384, m64g, m96, m96bのサーバ6台がおそらく10Gbpsスイッチ停止でネットワークから見えなくなっている。
2020/07/21 m256, m512のほうの10Gbpsスイッチがいったん停止したっぽい。PCの電源部分の上に設置していると熱くなっていたので、他の場所に移動して稼働中。
2020/07/17 m24の電源が故障。交換して復帰。
2020/07/14 m256yの8TB HDDが1台故障。交換してRAIDのリビルド。
2020/06/23 v311n1が停止。3回目。1週間くらい起動してその後反応しなくなっている。
2020/06/23 m8が停止。再起動して復帰。
2020/06/02 m64が起動しない。CDブートでも起動しないのでハードウェアトラブルと思われる。→廃棄
2020/04/24 m6が停止。そろそろ寿命のようなので廃棄。
2020/04/24 m256iの3TB HDDが1台故障。交換して復旧。
2020/03/30 m64g, m208, m512が何故か再起動。m256も同時刻に停止し、再起動はしていない→要調査。
2020/03/17 m6が停止。再起動して復帰。
2020/03/09 Ready NAS (rn316)の4TBのディスクが1つ故障。特にアラートは鳴らなかったが、本体表面に「Degraded」の文字があり。ディスク交換後、「
http://rn316.s/admin/」にアクセスして、Volume→交換したディスクをクリック→右側メニューのフォーマット を実行すると、RAIDに組み込まれた。
2020/03/04 m6が再度停止。原因要調査。→GPUカードが故障。外して内蔵GPUで動作させたら正常稼働。
2020/02/25 m6が停止。再起動せず。原因要調査。→HDDの故障か?ディスクを交換してOS再インストールで復旧。
2020/02/25 m384がまた停止。再起動させて復旧。
2020/02/25 m8b電源交換で復旧。
2020/01/29 OSセットアップ時に、「日本語」ではなく「英語」を選んだm32, m64g, imacサーバの場合、LANG=en_US.UTF8となって、sortなどのジョブの挙動が変わってしまっていました。m32, m64g, imacを他と同じく、LANG=ja_JP.UTF8に設定して再起動しました。
2019/01/19 m256のディスクが1台故障。
2020/01/15 311のルーターのDHCP機能が働かない。DHCP以外は正常に稼働しているようなので、m24にdhcpサーバをインストールして、192.168.251.68-95までを割り当てるように設定。
2020/01/14 m256が停止。再起動して復旧。
2020/01/06 311のルーターのDHCP機能が働かなくなったため、ルーターの再起動を行い復旧。他の部屋のルーター3台もVPNの関係で再起動した。1か月に一度発生している。
2020/01/06 m8bが停止。要調査。→ 電源の故障
2020/01/02 m384がまた停止。再起動させて復旧。そろそろ対策が必要か。
2019/12/13 故障していたm128yサーバのマザーボードを交換し、メモリを256GB認識するようになったため、m256yと改名。
2019/12/09 311のルーターのDHCP機能が働かなくなったため、ルーターの再起動を行い復旧。他の部屋のルーター3台もVPNの関係で再起動した。
2019/11/18 m128yのディスクが3台故障。RAID6が崩れる。バックアップ用に使っていたので影響はなし。
2019/11/18 m384がなぜか停止。6月に続いて3回目。起動ディスク(シリアルID:ZFN18HPH)が壊れかけている?
2019/11/08 m32がディスクエラーで停止。ディスクを交換し、OSを再インストール。やはりグラフィカルインストールでは停止したので、基本グラフィックモードでインストール。
2019/10/28 m32のCPUファンが故障しているとエラーが出ていたので交換し、OSを再インストールすると復旧した。ただし、グラフィカルなインストールでは途中で止まるので、基本グラフィックモードでOSをインストール。
2019/10/23 m128yのディスクが1台故障。再起動すると復活していたので、とりあえず再度RAIDに加えて様子見。
2019/10/17 m32が故障。最初はディスクエラーだったが、新しいディスクを差してもOS再インストール途中にハングアップするので他の部品っぽい。
2019/10/07 m64gのHDDを交換。
2019/10/04 ionprotonのディスクが1台故障。特にアラートは鳴らなかったけど、ランプがオレンジに点灯していた。ディスク構成は12台中1台故障、1台RAID0で起動ディスク、10台でRAID5で構成されているため、あと1台壊れても大丈夫。そのためそのまま放置。交換する場合、SASとSATAの混成ではRAIDコントローラが認識しないので、元と同じST3000NM0023のSASに交換する必要がありそう。
2019/10/03 m64gのディスクが1台故障。保証期間内のため送料負担でサポートセンターへ発送。
2019/09/24 停電後、m512, m32, m24nの起動時にエラーが出て起動しなかったが、再起動すると無事起動した。m64gはディスクが1つ外れた状態で起動したが、起動後にRAIDにADDして復旧させた。
2019/09/17 6月にm512のHDDが故障した際に/etc/mdadm.confファイルを正しく変更していなかったため、m512再起動でRAIDが不完全な状態で起動。mdadm.confを設定して再起動。
2019/09/11 UPSが故障し、m48, m96, m32, m64gがダウン。UPSを経由しないように電源ケーブルを配置。
2019/06/24 m512が応答しなくなり再起動。1か月くらい前からメモリのECCエラーが多発していたため、メモリ周りの不具合ではないかと思う。また2TBのHDDが故障したため、交換してRAID6をリビルド。
2019/06/20 m384が応答しなくなり再起動。原因不明。3月に続き2回目。
2019/05/28 311のルータ(192.168.251.1)のDHCPが機能しなくなった。ルータの再起動で復旧。311のルータを再起動した場合、251, 4FのVPNが切断されたままになるようで、251, 4F, 教授室のルータも再起動が必要。
2019/03/19 m64の電源を同じ型番の中古品と交換し復旧。
2019/03/13 m64の電源故障。
2019/03/06 m384が応答しなくなり再起動。原因不明。
2018/10/22 m8の電源、ケースを交換し復旧。
2018/10/2 imacは部品の在庫が無く修理不可能で返却されたため、CUIモードで再インストールして使用。
2018/9/25 imac, m8が故障。imacはグラフィックボード、m8は電源の故障か。
2018/9/25 m384の起動ディスクを4月の故障の際に失ったまま再起動したため、起動せず。OSを再インストール。
2018/6/2 311号室のUPSが1台故障。バッテリーの交換を知らせるアラートが鳴っていた。パネルを操作するとアラートが鳴りやんだのでそのまま放置。
2018/5/8 スリープを挟まないwgetの濫用により311号室のグローバルIP 133.11.222.89から
ftp.ddbj.nig.ac.jpへのアクセスが禁止されてしまった様子。DDBJ側、東大側に状況を確認中。→森さんがDDBJにFASTQを取得するために回していたスクリプトが原因だった。スクリプトを止めるとアク禁解除されたとのこと。
2018/5/2 251号室のVPN機能がなぜか停止。管理画面から「ステータス」→「システム」でPPTPの接続操作を行うことで解決
2018/4/11 PGMのデータを保管している外付けHDDからアラートが鳴る。再起動すると消えた。しばらくは使わないので電源を落としておく。
2018/4/10 m384のRAID6のディスクが1台故障。交換済み。
2017/11/19 m256のRAID6のディスクが2台故障。交換済み。
2017/10/27 m256のRAID6のディスクが1台故障。交換済み。
2017/10/23 m8bでビープ音がする。CPU温度が高いためだと思われる。CPUにグリスを塗りなおしてみるべきか。→CPUクーラーを大型のものに交換して解決。
2017/10/23 m96がなぜか応答しなくなる。電源長押しで電源OFF→通常起動で起動したので様子見。
2017/10/20 PGMのデータを保管している外付けHDDのディスク1台故障
2017/9/26 m256のRAID6のディスクが1台故障。新規ディスクに交換済み。
2017/9/25 m512のRAID6のディスク2台が故障。ブートセクタも飛んだため、新規にディスク交換後、OSをインストールして復旧。
2017/6/26 m768の/data2のほうのRAIDの5TBディスク1台故障。新規ディスクに交換済み。
2017/6/23 m96が起動しなくなった。マザーボードかRAIDカードが故障している感じで、とりあえずRAIDカードのRAID1を解除して、直接マザーボード接続に切り替えた。(余った1台のHDDはそのまま放置)
2017/6/10 m256に接続していた外付けディスク(PGMのバックアップ)のケースが故障。
2017/6/7 m256iの3TBのディスクが1台故障。予備のディスクと交換。