S.M.A.R.T.

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

S.M.A.R.T. (англ. Self Monitoring Analysis and Reporting Technology — Технологія Самоконтролю, Аналізу й Звітування) — промисловий стандарт прогнозу надійності для IDE/ATA і SCSI дисководів твердих дисків (англ. HDD) та твердотілих накопичувачів (англ. SSD). Дисководи твердих дисків з функцією S.M.A.R.T. дозволяють заздалегідь попередити про можливу швидку відмову твердого диску, завдяки чому важливі дані можуть бути збережені.

Історія[ред. | ред. код]

Перший твердий диск із самодіагностикою був представлений у 1992 фірмою «IBM» у дискових масивах IBM 9337 для серверів AS/400, що використовували SCSI-2 диски IBM 0662. Технологія була названа Predictive Failure Analysis (PFA). Вимірювалися кілька ключових параметрів і оцінка їх велася безпосередньо у вбудованій програмі диска. Результат був обмежений одним бітом: або добре, або значення тестованого параметра сумнівне і може скоро призвести до виходу диску з ладу.

Пізніше компаніями «Compaq», «Seagate», «Quantum[en]» та «Conner[en]» була розроблена інша технологія, названа IntelliSafe. У ній загальним був протокол видачі інформації про стан твердого диска, але вимірювані параметри та їхні пороги кожна компанія визначала самостійно.

На початку 1995 «Compaq» запропонувала провести стандартизацію, що було підтримана «IBM», «Seagate», «Quantum», «Conner» та «Western Digital» (остання на той момент ще не мала системи стеження за параметрами твердого диска). За основу була взята технологія IntelliSafe. Спільно розроблений стандарт назвали S.M.A.R.T.

SMART I передбачав моніторинг основних параметрів і запускався тільки після команди по інтерфейсу.

До розробки SMART II долучилася Hitachi, запропонувавши методику повної самодіагностики накопичувача (extended self-test), так само з'явилася функція журналювання помилок.

У SMART III з'явилася функція виявлення дефектів поверхні і можливість їхнього відновлення «прозоро» для користувача.

Опис[ред. | ред. код]

SMART проводить спостереження за основними характеристиками накопичувача, кожна з яких отримує оцінку. Характеристики можна розділити на дві групи:

  • параметри, що відображають процес природного старіння твердого диска (число обертів шпинделя, число переміщень головок, кількість циклів увімкнення-вимкнення);
  • поточні параметри накопичувача (висота головок над поверхнею диска, число секторів, що перепризначувалися, час пошуку доріжки і кількість помилок пошуку).

Дані зберігаються в шістнадцятковому вигляді, званому «Raw value», а потім перераховуються в «value», значення, що символізує надійність щодо деякого еталонного значення. Зазвичай «value» має значення в діапазоні від 0 до 100 (деякі атрибути мають значення від 0 до 200 і від 0 до 253).

Висока оцінка говорить про відсутність змін контрольованого параметра або повільне його погіршення, низька — про можливий швидкий збій.

Значення, менше за мінімальне значення, при якому виробником гарантується безвідмовна робота накопичувача, означає вихід вузла з ладу.

Технологія SMART дозволяє здійснювати:

  1. моніторинг параметрів стану;
  2. сканування поверхні;
  3. сканування поверхні з автоматичною заміною сумнівних секторів надійними.

Технологія SMART дозволяє передбачати вихід пристрою з ладу в результаті механічних несправностей, що становить близько 60% від загальної кількості всіх причин[1] виходу вінчестерів із ладу. Передбачити наслідки стрибка напруги або пошкодження накопичувача в результаті удару SMART нездатний.

Атрибути SMART[ред. | ред. код]

Таблиця відомих атрибутів SMART має такий вигляд:

Легенда
Більше
Більше значення параметра — краще
Менше
Менше значення параметра — краще
Критичний параметр — червоний фон рядка Індикатор можливої швидкої відмови пристрою
Hex Ім'я атрибута Краще якщо… Опис
01 01 Raw Read Error Rate
менше
Частота помилок при читанні даних з диска, походження яких обумовлено апаратною частиною диска.
Для всіх дисків Seagate, Samsung (сімейства F1 і новіших) і Fujitsu 2,5 це — число внутрішніх корекцій даних, проведених до видачі в інтерфейс, отже на «страшенно» величезні цифри можна реагувати спокійно.[2]
02 02 Throughput Performance
Більше
Загальна продуктивність диска. Якщо значення атрибута зменшується, то велика ймовірність, що з диском є проблеми.
03 03 Spin-Up Time
Менше
Час розгону пакету дисків зі стану спокою до робочої швидкості.
Зростає при зносі механіки (підвищене тертя в підшипнику, тощо.), також може свідчити про неякісне живлення (наприклад, осіданні напруги при старті диска).
04 04 Start/Stop Count Повне число циклів запуск-зупинка шпинделя. У дисків деяких виробників (наприклад, Seagate) — лічильник включення режиму енергозбереження. У полі raw value зберігається загальна кількість запусків-зупинок диска.
05 05 Reallocated Sectors Count
Менше
Число операцій перепризначення секторів. Коли диск виявляє помилку читання/запису, він позначає сектор «перепризначеним» та переносить дані в спеціально відведену резервну область. Ось чому на сучасних твердих дисках не можна побачити bad-блоки — всі вони заховані в перепризначених секторах. Цей процес називають remapping, а перепризначений сектор — remap. Чим більше значення, тим гірше стан поверхні дисків. Поле raw value містить загальну кількість перепризначених секторів.
Зростання значення цього атрибута може свідчити про погіршення стану поверхні диска.
06 06 Read Channel Margin Запас каналу читання. Призначення цього ознаки не документовано. У сучасних накопичувачах не використовується.
07 07 Seek Error Rate
Менше
Частота помилок при позиціонуванні блоку магнітних головок. Чим їх більше, тим гірше стан механіки і/або поверхні твердого диска. Також на значення параметра може вплинути перегрів та зовнішні вібрації (наприклад, від сусідніх дисків у кошику).
08 08 Seek Time Performance
Більше
Середня продуктивність операції позиціонування магнітних головок. Якщо значення атрибута зменшується (уповільнення позиціонування), то велика ймовірність проблем із механічною частиною приводу головок.
09 09 Power-On Hours (POH)
Менше
Число годин (хвилин, секунд — у залежності від виробника), проведених у включеному стані. Як порогове значення для нього вибирається паспортний час напрацювання на відмову (MTBF — mean time between failure).
10 0A Spin-Up Retry Count
Менше
Число повторних спроб розкручування дисків до робочої швидкості тоді, коли перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність неполадок із механічною частиною.
11 0B Recalibration Retries
Менше
Кількість повторів запитів рекалібровки у разі, якщо перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність проблем із механічною частиною.
12 0C Device Power Cycle Count Кількість повних циклів ввімкнення-вимкнення диска.
13 0D Soft Read Error Rate
Менше
Число помилок при читанні з вини програмного забезпечення, які не піддалися виправленню. Всі помилки мають не механічну природу та вказують лише на неправильну розмітку/взаємодію з диском програм або операційної системи.
184 B8 End-to-End error
Менше
Цей атрибут — частина технології HP SMART IV, це означає, що після передачі через кеш пам'яті буфера даних паритет даних між хостом та твердим диском не збігаються.[3]
187 BB Reported UNC Errors
Менше
Помилки, які не могли бути відновлені внутрішніми апаратними засобами.
188 BC Command Timeout
Менше
Кількість перерваних операцій у зв'язку з HDD тайм-аут. Зазвичай, це значення атрибуту має дорівнювати нулю, і, якщо значення набагато вище нуля, то, мабуть, там будуть якісь серйозні проблеми з живленням або можливе окислення кабелю передачі даних.
190 BE Airflow Temperature (WDC)
Менше
Температура повітря всередині корпусу твердого диска. Для дисків Seagate розраховується за формулою (100 - HDA temperature). Для дисків Western Digital — (125 - HDA).
191 BF G-sense error rate
Менше
Кількість помилок, що виникають внаслідок ударних навантажень. Атрибут зберігає свідчення вбудованого акселерометра, який фіксує всі удари, поштовхи, падіння та навіть неакуратну установку диска в корпус комп'ютера.
192 C0 Power-off retract count
Менше
Число циклів вимкнень або аварійних відмов (ввімкнення/вимкнення живлення накопичувача).
193 C1 Load/Unload Cycle
Менше
Кількість циклів переміщення блоку магнітних головок у паркувальну зону / в робоче положення.
194 C2 HDA temperature
Менше
Тут зберігаються покази вбудованого термодатчика для механічної частини диска — банки (HDA — Hard Disk Assembly). Інформація знімається зі вбудованого термодатчика, яким служить одна з магнітних головок, зазвичай нижня в банці. У бітових полях атрибуту фіксуються поточна, мінімальна та максимальна температура. Не всі програми, що працюють зі SMART, правильно розбирають ці поля, так що до їх показів варто ставитися критично.
195 C3 Hardware ECC Recovered
Менше
Число корекції помилок апаратною частиною диска (читання, позиціонування, передача через зовнішній інтерфейс). На дисках із SATA-інтерфейсом значення нерідко погіршується при підвищенні частоти системної шини — SATA дуже чутливий до розгону.
196 C4 Reallocation Event Count
Менше
Число операцій перепризначення. У полі «raw value» атрибута зберігається загальне число спроб перенесення інформації з перепризначених секторів у резервну область. Враховуються як успішні, так і невдалі спроби.
197 C5 Current Pending Sector Count
Менше
Число секторів, що є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування з них відрізняється від читання стабільного сектора (це так звані підозрілі або нестабільні сектори). У разі успішного подальшого читання сектора він виключається з числа кандидатів. У разі повторних помилкових читань накопичувач намагається відновити його і виконує операцію перепризначення (remaping).
Зростання значення цього атрибута може свідчити про фізичну деградацію твердого диска.
198 C6 Uncorrectable Sector Count
Менше
Число секторів, які не можуть бути скорегованими засобами диска. У разі збільшення числа помилок велика ймовірність критичних дефектів поверхні та/або механіки накопичувача.
199 C7 UltraDMA CRC Error Count
Менше
Число помилок, що виникають при передачі даних через зовнішній інтерфейс у режимі UltraDMA (порушення цілісності пакетів, тощо.). Зростання цього атрибута свідчить про погані (м'яті, перекручені) кабелі та погані контакти. Також подібні помилки з'являються при розгоні шини PCI, збоях живлення, сильних електромагнітних наведеннях, а іноді — і з вини драйвера.
Можливо, причина в неякісному шлейфі. Для виправлення спробуйте інший шлейф або замініть на SATA шлейф без клямок, що має щільне з'єднання з контактами диска.
200 C8 Write Error Rate/
Multi-Zone Error Rate
Менше
Показує загальну кількість помилок, що з'являються при запису сектора. Показує загальну кількість помилок запису на диск. Може служити показником якості поверхні та механіки накопичувача.
201 C9 Soft read error rate
Менше
Частота появи «програмних» помилок при читанні даних з диска.

Цей параметр показує частоту появи помилок при операціях читання з поверхні диска з вини програмного забезпечення, а не апаратної частини накопичувача.

202 CA Data Address Mark errors
Менше
Number of Data Address Mark (DAM) errors (or) vendor-specific.
203 CB Run out cancel
Менше
Кількість помилок ECC.
204 CC Soft ECC correction
Менше
Кількість помилок ECC, скоригованих програмним способом.
205 CD Thermal asperity rate (TAR)
Менше
Number of thermal asperity errors.
206 CE Flying height Висота між головкою та поверхнею диска.
207 CF Spin high current
Менше
Величина сили струму при розкручуванні диска.
208 D0 Spin buzz Number of buzz routines to spin up the drive.
209 D1 Offline seek performance Продуктивність пошуку під час офлайнових операцій (Drive's seek performance during offline operations.)
220 DC Disk Shift
Менше
Дистанція зміщення блоку дисків щодо шпинделя. Переважно виникає через удар або падіння. Одиниця виміру невідома. При збільшенні атрибуту диск швидко стає непрацездатним.
221 DD G-Sense Error Rate
Менше
Число помилок, що виникли через зовнішні навантаження та удари. Атрибут зберігає свідчення вбудованого датчика удару.
222 DE Loaded Hours Час, проведений блоком магнітних головок між вивантаженням із паркувальної області в робочу область диска та завантаженням блоку назад у паркувальну область.
223 DF Load/Unload Retry Count Кількість нових спроб вивантажень/завантажень блоку магнітних головок до/з паркувальної області після невдалої спроби.
224 E0 Load Friction
Менше
Величина сили тертя блоку магнітних головок під час його вивантаження з паркувальної області.
225 E1 Load Cycle Count
Менше
Кількість циклів переміщення блоку магнітних головок у паркувальну область.
226 E2 Load 'In'-time Час, протягом якого привід вивантажує магнітні головки з паркувальної області на робочу поверхню диска.
227 E3 Torque Amplification Count
Менше
Кількість спроб компенсувати обертальний момент.
228 E4 Power-Off Retract Cycle
Менше
Кількість повторів автоматичного паркування блоку магнітних головок внаслідок вимкнення живлення.
230 E6 GMR Head Amplitude Амплітуда «тремтіння» (відстань повторюваного переміщення блоку магнітних головок).
231 E7 Temperature
Менше
Температура твердого диска.
240 F0 Head flying hours Час позиціонування головки.
250 FA Read error retry rate
Менше
Число помилок під час читання твердого диска.

Програми для тесту диска[ред. | ред. код]

Наведено найпопулярніші програми.

Виноски[ред. | ред. код]

  1. Ймовірність передбачення (PDF). Архів оригіналу (PDF) за 28 березня 2006. Процитовано 10 грудня 2008.
  2. Оцінюємо стан твердих дисків за допомогою S.M.A.R.T. Архів оригіналу за 27 червня 2013. Процитовано 13 червня 2013.
  3. [S.M.A.R.T. attribute list (ATA) and S.M.A.R.T. attribute list (SCSI)(англ.). Архів оригіналу за 19 травня 2013. Процитовано 13 червня 2013. S.M.A.R.T. attribute list (ATA) and S.M.A.R.T. attribute list (SCSI)(англ.)]

Посилання[ред. | ред. код]