
| MAXSERVE CGS-3726-A1 |
|
ここのところハードディスク・トラブルという(有難くない)イベントが多発していますが(→関連記事(1)、→関連記事(2)。→関連記事(3)、→関連記事(4))、そのせいもあって色々と買い込むことになりました。
ハードディスクは先月だけでノート用2.5インチ型 1台と、3.5インチ型8台を購入して、合計すると総容量は2テラバイトを超えています(100GB+200GB×3+250GB+300GB×3)。
実はハードディスク以外にもシリアルATA関連の製品をいくつか購入しています。
購入したのは、
|
eSATAポートマルチプライヤ対応変換ボード MAXSERVE CGS-3726-A1
シリアルATA対応ハードディスクケース 玄人志向 GW3.5AW-eSATA (×2台)
シリアルATA II対応インターフェース 玄人志向 SATA2EI3-LPPCI
|
といったようなものです。

| 玄人志向 GW3.5AW-eSATA |
|

| 玄人志向 SATA2EI3-LPPCI |
|
|
ファイルサーバのハードディスク容量が切迫してきたので、増設するか交換するかしようと考えていました。シリアルATAの外付けなら、後々交換するにも増設するのにメンテが楽かと考えたわけです。
MAXSERVE CGS-3726-A1はeSATA用のハブでして、昔使っていた5インチベイが4段あるSCSI用ケースを活用できそうな気がして買ってみました(以前、Nakamichiの5連想CD-ROMを4台収納してCD-ROMサーバとして使っていたケースです。→関連記事)。
それで交換する前に不要なファイルを削除したり使用頻度の低いファイルをバックアップしたり移動したりと整理していたのですが、この作業だけで容量不足が解消されました。
というわけで、とりあえず増設は不要ということになりましたが、Maxtor 4R120L0は2年以上稼動しているので、HGST HDS722516VLAT20に交換しておきました。
下のグラフはMaxtor 4R120L0の1年間の温度変化です。こうしてみると季節感がよく出ています。
しかし、Maxtor 4R120L0のS.M.A.R.T.情報を見ると稼働時間は約900時間(約38日)しかありません。24時間稼動のサーバで確実に1年以上使っていますが、頻繁にアクセスしないデータの置き場所だったこともあり省電力機能が働いてこの程度の使用時間に収まったようです。
S.M.A.R.T.といえば今はsmartmontools と RRDtool でデータ収集、監視を行っています(→関連記事)。上のグラフでそれで作ったものです。これはこれで役に立っているのですが、今のところ収集したデータをグラフにして表示するだけで警告やエラーを通知するような機能はついていません。
S.M.A.R.T.は現状で発生している故障や異常を確認するのはいいのですが、将来発生するかもしれない故障・異常を予測するのは難しいというか、あまり当てになりません。
約一年間蓄積したデータがあるのでこれを表計算ソフトに放り込んで線形回帰分析してみましたが、故障予測としてはあまり意味はないようです。
連続して変化したり徐々に劣化して性能や数値が下がっていくようなパラメータであれば予測可能かもしれませんが、故障が起こるときは突発的にパラメータが変化するので線形(直線)での予測は難しいと思います。
一方で、POH(稼動時間)やStart/Stop Count(電源のオン/オフ回数)は線形分析が役立ちます。
メーカによってはこの手のスペックは寿命が想定してあるので、S.M.A.R.T.で予測するのに利用できます。RAW VALUEを見れば実際の稼動時間や回数がわかるので、予測も簡単です。ただし、故障や寿命というよりハードディスクを交換する時期を求めて、計画するのに使えそうです。
24時間動いているサーバならハードディスクの稼動時間はPCと同じですが、省電力機能を使ってハードディスクがパワーオフ状態になることもあるので(今回のMaxtor 4R120L0がまさにそうでした)POHやStart/Stop Countの予測にも役立ちます。
次のグラフはMaxtor 4R120L0のID#9 Power On Hoursの変化です。だいたい2週間ごとに値が1つ下がっているのがわかります。こういう変化のあるパラメータなら予測は簡単です。
1年ほどsmartmontools と RRDtoolを使っていましたが不満や不備も出てきたので、このさい自分でS.M.A.R.T.監視ツールを作ることにしました。
現状の不満は複数のPCを集中管理できないことです。今はそれぞれのPCで個別に情報を記録・管理しています。PCが数台なら今のやり方でも問題ないのですが、台数が増えると管理が面倒です。それでS.M.A.R.T.情報をすべてサーバのデータベースに記録して集中管理するのが目標です。
あとは些細な設定ミスですが、これまではS.M.A.R.T.はThreshold(閾値)を記録していませんでした。というかThreshold(閾値)は固定で変化しないのかと思っていましたが、どうやら違うようです。
というわけでS.M.A.R.T.情報をThreshols(閾値)やRAW VALUEを含めてすべて記録して分析できるようにするのが目標です。
既にdevtestにはS.M.A.R.T.情報の取得・表示機能は組み込んだので(2006.02.22の現時点では公開していませんが)、データベースと組み合わせてサーバで一元管理するのはそう難しくないはずです。
と書いている間にPCのS.M.A.R.T.情報をデータベース(PostgreSQL)に登録するところだけは動くようになりました。
【参考資料】
○玄人志向
→http://www.kuroutoshikou.com/
|