Pages

Ads 468x60px

2016年12月14日水曜日

S.M.A.R.T.ハードディスク診断

S.M.A.R.T.とは、ハードディスクに内蔵された自己診断機能
読み取りエラーの発生率や読み書き速度、モーターの起動・停止の通算回数、出荷以来の通算の通電時間、ディスクが固定位置からずれた距離などを測定し、接続されたパソコンなどに知らせてくれる
ATAおよびSCSIの仕様で診断項目などが定義されており、現在ではほとんどのハードディスクおよびSSD製品が対応している
ハードディスク筐体に内蔵された回路が数十に及ぶ項目を観測しており、コンピュータ本体側から読み取ることができるほか、あらかじめ設定された基準値と比較して異常な値が観測されると警告を発するようにすることもできる
S.M.A.R.T.ですべての障害を予見できるわけではないが、内部の部品の経年劣化などが原因で起きる障害は、観測結果の変動からある程度知ることができる場合があり、完全にデータが読み取れなくなる前に障害への対処を行うことができる

smartmontools.sfs (608 KB)

HDDパス情報を取得
#fdisk -l

HDDがSMARTをサポートしているかの確認
#smartctl -i /dev/sda
:
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
このように表示されればサポートしている

HDDの健康状態を確認
#smartctl -H /dev/sda
:
SMART overall-health self-assessment test result: PASSED
このように表示されれば合格

HDD検査
#smartctl -t long /dev/sda

HDD検査結果表示
#smartctl -l selftest /dev/sda

SMART 情報全ての表示
# smartctl -a /dev/sda

*存在する HDD デバイスを確認するだけなら --scan オプション
*ディスクの情報のみ出力するなら -i or --info オプション
*ベンダー固有の属性のみを出力するなら -A or --attributes オプション
*対応可能な自己診断を確認するなら -c or --capabilities オプション
*自己診断(short)するなら -t short オプション(short 以外に long 等もあり)
*エラーログのみを出力するなら -l error or --log=error オプション
*その他のオプション、使用方法の詳細は -h or --help オプションを使用するか
man smartctl で確認可
*SMART support is: Available ... と SMART 対応にも関わらず次の行で
Enabled になっていなければ、 SMART 機能が有効になっていない
*smartctl -s on /dev/sda で有効にする
*Short self-test routine recommended polling time, Extended self-test routine recommended polling time の数字はセルフテストに要する時間
*ベンダー固有属性(Vendor Specific SMART Attributes with Thresholds)で閾値未満の項目がある場合、 WHEN_FAILED 列に - 以外(FAILING_NOW 等)が出力される
*SMART エラーがあれば SMART Error Log Version: 1
以下に(最大で直近5つ分)出力される

S.M.A.R.T.検査項目一覧
項目ID 項目名 詳細な説明
01 aw Read Error Rate この項目はハードディスクからデータを読み込む時に発生したエラーの割合を表す。数値が閾値より低い場合、ハードディスク内の磁気ディスクまたは磁気ヘッドに異常がある
02 Throughput Performance ハードディスクの全体的な(スループット)処理能力。この値が閾値以下の場合、高い確率でハードディスクに異常がある
03 Spin Up Time ハードディスクが通電回転を開始してから規定の回転数に達するまでにかかった平均時間
04 Start/Stop Count ハードディスクのスピンドルモーターが回転/停止した回数
05 Reallocated Sectors Count 代替処置(データを特別に予約した予備エリアに移動する)を施された不良セクタの数
07 Seek Error Rate 磁気ヘッドが目的のデータの在るトラックへ移動しようとして失敗(シークエラー)した割合。ハードディスクの熱、サーボ機構の損傷などによって発生する。数値が低い場合、ハードディスクの表面やハードディスクの機械的なシステムに問題がある可能性がある
08 Seek Time Performance 磁気ヘッドがシーク作業に要した平均時間
09 Power-On Hours 工場出荷状態からのハードディスクの通電時間の合計。閾値に対するこの値の減少はMTBF(平均故障間隔)の減少を表す
0A(10) Spin Retry Count ディスクを規定の速度までスピンアップしようと再試行を試みた回数
0B(11) Recalibration Retries ハードディスクのキャリブレーション動作(熱によるオフトラック現象を自動的に補正する機能)を再試行(すでに一度キャリブレーションに失敗している状態で)しようとした回数
0C(12) Device Power Cycle Count ハードディスクの電源をON/OFFした回数
0D(13) Soft Read Error Rate オフトラックの数。 数値が0でなければバックアップを取る
BF(191) G-sense Error Late 衝撃によって引き起こされるプログラムエラーの頻度
C0(192) Power-off Retract Count ハードディスクの電源が切れ、磁気ヘッドが磁気ディスク表面から退避場所に退避した回数の合計
C1(193) Load/Unload Cycle Count ロード/アンロード機構によって磁気ヘッドが磁気ディスク表面から退避場所に退避し、その後再び磁気ディスク表面に戻った回数の合計。一般的な2.5型HDDのメーカー保証値は、2005年以降に登場したモデルでは大抵60万回程度。2004年以前のモデルでは30万回程度
C2(194) Temperature ハードディスクの現在の温度。一般的に動作が保障されている最高温度は55℃である
C3(195) Hardware ECC recovered ECC(Error Correction Cord、誤り訂正符号)によって検知されたエラーの回数
C4(196) Reallocation Event Count セクタの代替処理が発生した回数。仮に処理に失敗しても回数に加算される
C5(197) Current Pending Sector Count 現在異常があり、代替処理を待つセクタの総数。もし後で読み込みに成功したセクタがあれば、この値は減少する
C6(198) Off-Line Scan Uncorrectable Sector Count オフラインスキャン時に発見された、回復不可能なセクタの総数。この値が増加する場合は、磁気ディスクの表面に明確な問題がある
C7(199) UltraDMA CRC Error Count UltraDMAモードでのデータ転送中に発生したCRCエラーの数
C8(200) Write Error Rate (Multi Zone Error Rate) データの書き込み中に発見されたエラーの総数
C9(201) Soft Read Error Rate プログラムが磁気ディスク表面からデータを読み込む際に発生したエラーの割合
CA(202) Data Address Mark Error DAM(データアドレスマーク)に関するエラーの頻度を表す
CB(203) Run Out Cancel ECC(誤り訂正符号)エラーの頻度を表す
CC(204) Soft ECC Correction ソフトウェアECCによって訂正されたエラーの総数
CD(205) Thermal Asperity Rate サーマル・アスペリティ現象(磁気ヘッドが磁気媒体の突起に衝突して熱を生じ、データ検出を誤る可能性のある現象)によるエラーの総数
CE(206) Flying Height 磁気ヘッドの浮上高
CF(207) Spin High Current ドライブのスピンアップに使用した高電流量
D0(208) Spin Buzz バズルーチン(ヘッドがディスクに接触するのを避けるために、ヘッドをディスクに対して垂直方向に跳ね上げる処理。これが連続して発生するとブザーのような音が鳴る。)を使用した数
D1(209) Offline Seek Performance オフラインスキャン時に測定された、シーク機能の性能の値を表す
D2(210) Vibration During Write データの書き込み中に加わった大きな振動を表す
D3(211) Vibration During Read データの読み込み中に加わった大きな振動を表す
D4(212) Shock During Write データの書き込み中に加わった大きな衝撃を表す
DC(220) Disk Shift ディスク(プラッタ)が衝撃などにより当初の固定位置よりズレた距離
DD(221) G-Sense Error Rate ハードディスクに加えられた衝撃によって発生したエラーの割合。衝撃はハードディスクに内蔵された衝撃感知センサーによって感知されている
DE(222) Loaded Hours 一般的な作業時間中に引き起こされた磁気ヘッドアクチュエータの負荷の値を表す
DF(223) Load/Unload Retry Count ロード/アンロード機構によるロードまたはアンロード時に失敗して再試行した回数
E0(224) Load Friction 機械的なパーツの摩擦による磁気ヘッドアクチュエータの負荷の値を表す
E2(226) Load-in Time 磁気ヘッドアクチュエータがデータの読み込みによる負荷を受けていた時間の総合計
E3(227) Torque Amplification Count ディスク回転時のトルク増幅力の値を示す
E4(228) Power-Off Retract Count 電源を抜くなどしてハードディスクが強制的に停止し、磁気ヘッドが緊急退避した回数。ハードディスクに大きな負担を与える。一般的な2.5型HDDのメーカー保証値は2万回程度
E6(230) GMR Head Amplitude GMR磁気ヘッドの動作中における震えの振幅
F0(240) Head Flying Hours 磁気ヘッドが位置決めをしている時間
FA(250) Read Error Retry Rate データを磁気ディスクから読み込む間に現れるエラーの頻度