SSDとSMARTデータ

SMARTとは、Self-Monitoring, Analysis and Reporting Technology(自己監視・分析・レポート技術)の略語で、ハードディスク(HDD)またはソリッドステートドライブ(SSD)の正常性データを記録するツールです。SMARTデータは、ドライブに問題が生じている場合や、ドライブが耐用年数に達した場合に早期に警告を発し、障害が発生する前に交換することを可能にする貴重なツールと言えます。

このドライブ自体にはデータの詳細な分析機能がないため、ユーザーやシステム管理者に簡単にレポートできることが重要です。ドライブは、特定の属性が事前定義されたしきい値を超え、さらにそのしきい値がファームウェアでプログラミングされている場合のみ報告することができます。

SMARTはSSDが誕生する何年も前から存在しています。SMARTはもともとHDDに実装されていましたが、スピニング型ハードディスクに完全に取って代わる新しい技術としてSSDが考案されると、SSDに適用されるようになりました。残念ながら、ストレージテクノロジーを問わず、ドライブの具体的な物理特性を表すSMART属性を示す番号には業界全体での標準はありません。属性記述子は、SSDとHDDの間や、さまざまなSSDベンダー間でさえ異なります。

ドライブのSMARTデータを取得して報告する機能を持つサードパーティのユーティリティがいくつも存在し、フリーウェアやシェアウェアとして利用可能なものも多くあります。しかし、サードパーティのソフトウェアベンダーが正しいSMART属性をドライブのベンダーに照会していなければ、その定義としきい値(該当する場合)は、属性を誤って表記する可能性があり、それがエラー報告の誤検知や見逃しにつながる可能性があります。

たとえば、「Power-on Hours Count」属性としてユーティリティに通知された数値が、互換性のないユーティリティでは「Program Fail Count」または「Reported Uncorrectable Errors」と誤って表示されるといった例が実際に見られました。さらに悪いことに、サードパーティ製のユーティリティで問題のSSDに不適切な障害しきい値が設定されている可能性もあり、そうなるとメーカーが許容範囲と認識しているポイントでもSMARTユーティリティは障害を報告してしまいます。

このような混乱の可能性があるため、CrucialではSSDのSMARTデータを正確に取得して分析するためのツールとして必ずStorage Executiveソフトウェアを使用することを推奨しています。Storage Executiveは、最も古い旧型のCrucial SSDを除くすべてのCrucial SSDにおいて、常に正しい属性の説明としきい値(該当する場合)を用いてプログラミングされます。

Crucialの定義によるSMART属性の説明

Crucial SSDは、Storage Executiveでの取得用にいくつかの異なる属性を記録します。SSDに関する極めて重要な情報を報告する属性もあれば、あくまで参考用の属性もあります。

以下では特に重要な属性について説明します。ここでは、SATAとPCleとで属性の名前が異なる場合は両方の名前を記載しています。

属性 202:Percentage Lifetime Remaining(PCIeでは「Percentage Lifetime Used」)

この属性の意味はその名前が示すとおりです。これは、ある時点でドライブの予想寿命がどの程度残っているかを示す指標です。属性202は、SSDが新品の場合には「100」と表示され、そのドライブの寿命に達すると「0」と表示されて、寿命の残りが0%であることを示します。

ただし、ここで予想寿命を使用するということの意味を理解していることが重要です。これは決して、カウンターが0になるとドライブに障害が発生するということではなく、近いうちにSSDの交換をする必要があるということを意味しているだけです。

NAND型フラッシュデバイスの寿命は、データ保持期間という別の特性によって定義されます。データ保持期間とは、デバイスが電源のない状態でユーザーデータを安全に保存し、正常に取得をおこなうことができる時間です。SSDやその他のNAND型フラッシュデバイスが新品の場合、無電源状態でのデータ保持期間は数年になります。しかし、人間の記憶とほぼ同様に、データを書き込むことによって生じる摩耗により、データ保持期間は短くなります(データの読み取りによって直接摩耗が生じることはありません)。

電子デバイス技術合同協議会(JEDEC)は、半導体ベースのデバイスとアセンブリーの規格や仕様を作成する業界団体です。マイクロンが主要メンバーとして参加しているJEDECでは、クライアント用(業務用PCやパソコンなど)SSDの場合、SSDのデータデータ保持期間は30°C(86°F)での無電源状態で1年間、とデータ保持期間を具体的に定義しています。これだけの時間的余裕があれば、多くのコンピューターユーザーはしばらく未使用のまま放置されていたドライブから必要に応じてデータを取得することができます。

これまでの説明から、寿命カウンターが100%から減少していっても、SSDは良好に機能することが期待できると言えるかもしれません。しかし、時間の経過とともに、データ保持期間は1年から6か月、そして3か月へと低下し続けます。最終的には、保証されているドライブの寿命を長期間経過すると、やがて無電源状態では新しい書き込みは全く保持できなくなります。

しかし、SSDのファームウェアではこのことが考慮されています。エラー訂正コード(ECC)、読み取り再試行、適応型の読み取りパラメーター、バックグラウンドデータ保守などのファームウェアの調整により、SSDの経年に伴うデータ保持能力の劣化に伴う問題を修正することができます。NANDデータブロックが劣化した場合には、オンボードのスペアと交換して通常の処理を続行することができます。もちろん、これらのバックグラウンド動作はすべて電源が投入された状態で行われるので、データ保持期間は無電源状態において定義されています。

この属性は、一部の旧型のCrucial SSDおよびNVMeモデルでは「Percentage Lifetime Used」と表示され、「Lifetime Remaining」と同様に動作しますが、逆の意味になります。新品のSSDの属性202は「0」と表示され、そのドライブの寿命に達すると「100」と表示されて、寿命を100パーセントを使い切ったことを示します。これらのモデルでは、より多くの書き込み処理が行われるため、この割合が100を超える場合がありますが、データ保持に関する懸念は変わりません。

属性 5:Retired NAND Blocks

NANDブロックのクオリティを継続的に評価するこのプロセスでリタイアされたブロックの数は、SMART属性5で追跡されます。SSDのファームウェアは、上記の摩耗とデータ保持期間の問題に加え、いくつかの理由からNANDブロックをリタイアします。リタイアの理由の1つとして、ガベージコレクションでデータを削除または移動する際にブロックを消去できなかったことが挙げられます。この種のエラーは、問題となるデータは削除されているか、SSD上の新しい場所に既に正常にコピーされているため、ユーザーデータにとっては低リスクです。

最近のCrucial SSDでは、この属性を使用して、多数の個々のブロックのグループであるスーパーブロックを測定します。属性 5がこれを測定している場合、多くの個々のブロックがリタイアされるまでブロックの合計は増加しません。

属性 180:Unused Reserved Block Count(PCIe SSDで使用可能なスペアブロックの数)

この属性も同様に、名前の通り、不良ブロックをリタイアする必要がある場合に使用可能な予備ブロックの数を示します。この数字は、基本的となるNANDアーキテクチャー、ファームウェア アーキテクチャー、ドライブのユーザー容量によって異なりますが、通常は数千単位から始まります。

リタイアしたブロックの数が増加するにつれ、この数は減少します。属性180が0に達すると、ファームウェアはSSDを読み取り専用モードにします。SSDは通常のドライブとしては使用できなくなりますが、ユーザーは保存されたデータを取得して新しいデバイスに転送することが可能です。

属性 5と同様に、最近のCrucial SSDではこの属性を使用してスーパーブロックも測定します。つまり、このブロックの合計は、多くの個々のブロックがリタイアするまで減少しないため、新品のドライブの方が古いドライブよりも大幅に低い値を示す可能性があります。

属性 210:RAIN Successful Recovery Page Count

Redundant Array of Independent NAND(RAIN)は、ドライブアレイでRAIDを用いてデータの冗長性を確保する場合とよく似ています。ただ、RAINによる冗長化はユーザーに対して透過的にドライブ内で行われる点が異なっています。RAINはユーザーデータを保護し、ドライブの寿命を延ばすためにSSDで用いられている機能です。

RAINイベントが発生することはまれですので、この値が大きくなった場合は、前述の属性のいくつかを調べて、ドライブを交換する必要があるかどうかを確認してください。RAINイベントが頻繁に発生すると、パフォーマンスが著しく低下する可能性があります。パリティによる冗長化を用いてデータをリカバリすると、通常のドライブ操作を続行できますが、一部のI/O帯域幅が消費されます。パフォーマンスが頻繁に低下する場合は、RAINの再構築が原因である可能性があり、懸念に値することもあり得ます。

属性 174:Unexpected Power Loss Count(PCIe SSDでの安全でないシャットダウンの回数)

コンピューターシステムの正常な電力損失では、その前にホストコンピューターからSSDに対して電源が切れようとしているというメッセージが通知されます。この警告により、SSDは進行中のアクティビティを完了するための時間が確保できます。アクティビティが完了したら、SSDはホストに「承認」メッセージを送信し、ホストはシャットダウンを完了させます。

予期しない状況で電源が喪失することも多々発生し、これはSSDに問題を引き起こす原因となります。ほとんどの場合、SSDはこれを補正することが可能で、次回の起動時間が多少長くなる可能性はあるもののが(通常数百ミリ秒のところが数秒)、システムは再び起動します。

属性 174は通常はあくまでも参照用ですが、このような予期せぬ電源喪失が頻繁に発生している場合は、ユーザーが適切なオペレーティングシステムのシャットダウンに関するトレーニングを受ける必要がある、あるいは電源装置や接続に問題がある可能性があることを示唆している可能性があります。

属性 194:Enclosure Temperature(PCIeのデバイスの温度)

Crucial Storage Executiveソフトウェアは、SSDのセンサーが測定した、現在の温度と今までに計測された最高温度を摂氏で報告します。多くのCrucial SSDで指定されている動作温度範囲は0°C~70°C(32°F~158°F)です。記録された温度が70°Cを超えると製品保証が無効になる可能性があるため、温度は定期的に監視する必要があります。温度が定期的に65°Cを超える場合は、換気やファンの改善などの是正措置を講じることが望ましいとされています。

まとめ

SMARTはSSDの健全性を監視するための非常に便利なツールと言えますが、包括的な診断ツールではありません。SMART属性とオペレーティングシステムの診断から収集された情報は標準的なトラブルシューティングの出発点として役立ちます。

SMARTデータの誤った報告や解釈は、誤った結論へとつながる原因となり、完全に機能している正常なドライブを返品してしまうことなどにつながりかねません。そのため、繰り返しになりますが、Crucial SSDからSMARTデータを読み取る場合は、必ずCrucial Storage Executiveソフトウェアをご使用されることをお勧めします。

©2019 Micron Technology, Inc. 無断複写・転載を禁じます。情報、製品および仕様は予告なく変更される場合があります。CrucialおよびMicron Technology, Inc.は両者とも、印刷や写真における誤記や脱落について一切の責任を負いません。マイクロン、マイクロンのロゴ、Crucial、Crucialのロゴは、Micron Technology, Inc.の商標または登録商標です。PCI ExpressおよびPCIeは、PCI-SIGの登録商標です。その他の商標はすべて、それぞれの所有者に帰属します。