Технология SMART | это... Что такое Технология SMART? (original) (raw)

Технология SMART

S.M.A.R.T. (англ. Self-Monitoring, Analysis and Reporting Technology) — технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.

История

Первый жёсткий диск, обладающий системой самодиагностики, был представлен в 1992 г. фирмой IBM в дисковых массивах IBM 9337 для серверов AS/400, использующих IBM 0662 SCSI-2 диски. Технология была названа Predictive Failure Analysis (PFA). Измерялось несколько ключевых параметров, и их оценка велась непосредственно в firmware диска. Результат был ограничен одним битом: либо хорошо, либо значение тестируемого параметра сомнительное и может скоро привести диск к выходу из строя.
Позже компаниями Compaq, Seagate, Quantum, Conner была разработана другая технология, названная IntelliSafe. В ней был общий протокол выдачи информации о состоянии жёсткого диска, но измеряемые параметры и их пороги каждая компания определяла самостоятельно.
В начале 1995 г. Compaq предложила провести стандартизацию, что было поддержано IBM, Seagate, Quantum, Conner, Western Digital (Western Digital на тот момент ещё не имели системы слежения за параметрами жёсткого диска). За основу была взята технология IntelliSafe. Совместно разработанный стандарт назвали S.M.A.R.T.
SMART I предусматривал мониторинг основных параметров и запускался только после команды по интерфейсу.
При разработке SMART II подключилась Hitachi, предложив методику полной самодиагностики накопителя (extended self-test), также появилась функция журналирования ошибок.
В SMART III появилась функция обнаружения дефектов поверхности и возможность их восстановления «прозрачно» для пользователя.

Описание

SMART производит наблюдение за основными характеристиками накопителя, каждая из которых получает оценку. Характеристики можно разбить на две группы:

  1. параметры, отражающие процесс естественного старения жёсткого диска (число оборотов шпинделя, число перемещений головок, количество циклов включения-выключения);
  2. текущие параметры накопителя (высота головок над поверхностью диска, число переназначенных секторов, время поиска дорожки и количество ошибок поиска).

Данные хранятся в шестнадцатеричном виде, называемом «raw value», а потом пересчитываются в «value» — значение, символизирующее надёжность относительно некоторого эталонного значения. Обычно «value» располагается в диапазоне от 0 до 100 (некоторые атрибуты имеют значения от 0 до 200 и от 0 до 253).

Высокая оценка говорит об отсутствии изменений данного параметра или медленном его ухудшении. Низкая говорит о возможном скором сбое.

Значение, меньшее, чем минимальное, при котором производителем гарантируется безотказная работа накопителя, означает выход узла из строя.

Технология SMART позволяет осуществлять:

  1. мониторинг параметров состояния;
  2. сканирование поверхности;
  3. сканирование поверхности с автоматической заменой сомнительных секторов на надёжные.

Следует заметить, что технология SMART позволяет предсказывать выход устройства из строя в результате механических неисправностей, что составляет около 60 % причин[1], по которым винчестеры выходят из строя. Предсказать последствия скачка напряжения или повреждения накопителя в результате удара SMART неспособна.

Следует отметить, что накопители НЕ МОГУТ сами сообщать о своём состоянии посредством технологии SMART, для этого существуют специальные программы. Таким образом, использование технологии SMART немыслимо без двух составляющих:

  1. ПО, встроенного в контроллер накопителя.
  2. Внешнего ПО, встроенного в хост.

Программы, отображающие состояние SMART-атрибутов, работают по следующему алгоритму:

— Проверяют наличие поддержки технологии SMART накопителем.

— Подают в накопитель команду запроса SMART-таблиц.

— Получают таблицы в буфер приложения.

— Разбирают табличные структуры, извлекая из них номера атрибутов и их числовые значения.

— Сопоставляют стандартизированные номера атрибутов их названиям (иногда — в зависимости от типа, модели или фирмы-изготовителя HDD, как, например, в программе Victoria).

— Выводят числовые значения в удобном для восприятия виде (тут каждый программист может делать по-своему, например, конвертировать HEX-значения в десятичные).

— Извлекают из таблиц флаги атрибутов (признаки, характеризующие назначение атрибута в рамках конкретной firmware накопителя, например, «жизненно важный» или «счётчик»).

— На основании всех таблиц, значений и флагов выводят общее состояние устройства.

Атрибуты SMART

Таблица известных атрибутов SMART выглядит следующим образом:

Легенда
Критический параметр — красный фон строки Индикатор возможной скорой поломки устройства
Hex Имя атрибута Описание
01 01 Raw Read Error Rate Частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.
02 02 Throughput Performance Общая производительность диска. Если значение атрибута уменьшается, то велика вероятность, что с диском есть проблемы.
03 03 Spin-Up Time Время раскрутки пакета дисков из состояния покоя до рабочей скорости.
04 04 Start/Stop Count Полное число запусков/остановок шпинделя. У дисков некоторых производителей (например, Seagate) — счётчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска.
05 05 Reallocated Sectors Count Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую область. Вот почему на современных жёстких дисках нельзя увидеть bad-блоки — все они спрятаны в переназначенных секторах. Этот процесс называют remapping, а переназначенный сектор — remap. Чем больше значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов.
06 06 Read Channel Margin Запас канала чтения. Назначение этого атрибута не документировано. В современных накопителях не используется.
07 07 Seek Error Rate Частота ошибок при позиционировании блока головок. Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска.
08 08 Seek Time Performance Средняя производительность операции позиционирования магнитными головками. Если значение атрибута уменьшается, то велика вероятность проблем с механической частью.
09 09 Power-On Hours (POH) Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF — mean time between failure).
10 0A Spin-Up Retry Count Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью.
11 0B Recalibration Retries Количество повторов запросов рекалибровки в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью.
12 0C Device Power Cycle Count Количество полных циклов включения-выключения диска.
13 0D Soft Read Error Rate Число ошибок при чтении по вине программного обеспечения.
184 B8 End-to-End error Данный атрибут - часть технологии HP SMART IV, это означает, что после передачи через кэш памяти буфера данных паритет данных между хостом и жестким диском не совпадают.[2]
190 BE Airflow Temperature (WDC) Температура воздуха внутри корпуса жёсткого диска для дисков Western Digital. Для дисков Seagate рассчитывается по формуле (100 — HDA temperature).
191 BF G-sense error rate Количество ошибок, возникающих в результате ударных нагрузок.
192 C0 Power-off retract count Число циклов выключений или аварийных отказов.
193 C1 Load/Unload Cycle Количество циклов перемещения блока магнитных головок в парковочную зону / в рабочее положение.
194 C2 HDA temperature Здесь хранятся показания встроенного термодатчика.
195 C3 Hardware ECC Recovered Число коррекции ошибок аппаратной частью диска (ошибок чтения, ошибок позиционирования, ошибок передачи по внешнему интерфейсу).
196 C4 Reallocation Event Count Число операций переназначения. В поле «raw value» атрибута хранится общее число попыток переноса информации с переназначенных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки.
197 C5 Current Pending Sector Count В поле хранится число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения.
198 C6 Uncorrectable Sector Count Число неисправимых ошибок при обращении к сектору. {Возможно, имелось в виду «число некорректируемых секторов», но никак не число самих ошибок!} В случае увеличения числа ошибок велика вероятность критических дефектов поверхности и/или механики накопителя.
199 C7 UltraDMA CRC Error Count Число ошибок, возникающих при передаче данных по внешнему интерфейсу.
200 C8 Write Error Rate /Multi-Zone Error Rate Показывает общее количество ошибок, происходящих при записи сектора. Может служить показателем качества поверхности и механики накопителя.
201 C9 Soft read error rate Частота появления «программных» ошибок при чтении данных с диска.Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя.
202 Ca Data Address Mark errors Number of Data Address Mark (DAM) errors (or) vendor-specific.
203 CB Run out cancel Количество ошибок ECC.
204 CC Soft ECC correction Количество ошибок ECC, скорректированных программным способом.
205 CD Thermal asperity rate (TAR) Number of thermal asperity errors.
206 CE Flying height Высота между головкой и поверхностью диска.
207 CF Spin high current Amount of high current used to spin up the drive.
208 D0 Spin buzz Number of buzz routines to spin up the drive.
209 D1 Offline seek performance Drive’s seek performance during offline operations.
220 DC Disk Shift Дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения. Единица измерения неизвестна.
221 DD G-Sense Error Rate Число ошибок, возникших из-за внешних нагрузок и ударов. Атрибут хранит показания встроенного датчика удара.
222 DE Loaded Hours Время, проведённое блоком магнитных головок между выгрузкой из парковочной области в рабочую область диска и загрузкой блока обратно в парковочную область.
223 DF Load/Unload Retry Count Количество новых попыток выгрузок/загрузок блока магнитных головок в/из парковочной области после неудачной попытки.
224 E0 Load Friction Величина силы трения блока магнитных головок при его выгрузке из парковочной области.
226 E2 Load 'In'-time Время, за которое привод выгружает магнитные головки из парковочной области на рабочую поверхность диска.
227 E3 Torque Amplification Count Количество попыток скомпенсировать вращающий момент.
228 E4 Power-Off Retract Cycle Количество повторов автоматической парковки блока магнитных головок в результате выключения питания.
230 E6 GMR Head Amplitude Амплитуда «дрожания» (расстояние повторяющегося перемещения блока магнитных головок).
231 E7 Temperature Температура жёсткого диска.
240 F0 Head flying hours Время позиционирования головки.
250 FA Read error retry rate Число ошибок во время чтения жёсткого диска.

Примечания

  1. Вероятность предсказания
  2. S.M.A.R.T. attribute list (ATA)

Ссылки

Wikimedia Foundation.2010.