Технология SMART | это... Что такое Технология SMART? (original) (raw)
Технология SMART
S.M.A.R.T. (англ. Self-Monitoring, Analysis and Reporting Technology) — технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.
История
Первый жёсткий диск, обладающий системой самодиагностики, был представлен в 1992 г. фирмой IBM в дисковых массивах IBM 9337 для серверов AS/400, использующих IBM 0662 SCSI-2 диски. Технология была названа Predictive Failure Analysis (PFA). Измерялось несколько ключевых параметров, и их оценка велась непосредственно в firmware диска. Результат был ограничен одним битом: либо хорошо, либо значение тестируемого параметра сомнительное и может скоро привести диск к выходу из строя.
Позже компаниями Compaq, Seagate, Quantum, Conner была разработана другая технология, названная IntelliSafe. В ней был общий протокол выдачи информации о состоянии жёсткого диска, но измеряемые параметры и их пороги каждая компания определяла самостоятельно.
В начале 1995 г. Compaq предложила провести стандартизацию, что было поддержано IBM, Seagate, Quantum, Conner, Western Digital (Western Digital на тот момент ещё не имели системы слежения за параметрами жёсткого диска). За основу была взята технология IntelliSafe. Совместно разработанный стандарт назвали S.M.A.R.T.
SMART I предусматривал мониторинг основных параметров и запускался только после команды по интерфейсу.
При разработке SMART II подключилась Hitachi, предложив методику полной самодиагностики накопителя (extended self-test), также появилась функция журналирования ошибок.
В SMART III появилась функция обнаружения дефектов поверхности и возможность их восстановления «прозрачно» для пользователя.
Описание
SMART производит наблюдение за основными характеристиками накопителя, каждая из которых получает оценку. Характеристики можно разбить на две группы:
- параметры, отражающие процесс естественного старения жёсткого диска (число оборотов шпинделя, число перемещений головок, количество циклов включения-выключения);
- текущие параметры накопителя (высота головок над поверхностью диска, число переназначенных секторов, время поиска дорожки и количество ошибок поиска).
Данные хранятся в шестнадцатеричном виде, называемом «raw value», а потом пересчитываются в «value» — значение, символизирующее надёжность относительно некоторого эталонного значения. Обычно «value» располагается в диапазоне от 0 до 100 (некоторые атрибуты имеют значения от 0 до 200 и от 0 до 253).
Высокая оценка говорит об отсутствии изменений данного параметра или медленном его ухудшении. Низкая говорит о возможном скором сбое.
Значение, меньшее, чем минимальное, при котором производителем гарантируется безотказная работа накопителя, означает выход узла из строя.
Технология SMART позволяет осуществлять:
- мониторинг параметров состояния;
- сканирование поверхности;
- сканирование поверхности с автоматической заменой сомнительных секторов на надёжные.
Следует заметить, что технология SMART позволяет предсказывать выход устройства из строя в результате механических неисправностей, что составляет около 60 % причин[1], по которым винчестеры выходят из строя. Предсказать последствия скачка напряжения или повреждения накопителя в результате удара SMART неспособна.
Следует отметить, что накопители НЕ МОГУТ сами сообщать о своём состоянии посредством технологии SMART, для этого существуют специальные программы. Таким образом, использование технологии SMART немыслимо без двух составляющих:
- ПО, встроенного в контроллер накопителя.
- Внешнего ПО, встроенного в хост.
Программы, отображающие состояние SMART-атрибутов, работают по следующему алгоритму:
— Проверяют наличие поддержки технологии SMART накопителем.
— Подают в накопитель команду запроса SMART-таблиц.
— Получают таблицы в буфер приложения.
— Разбирают табличные структуры, извлекая из них номера атрибутов и их числовые значения.
— Сопоставляют стандартизированные номера атрибутов их названиям (иногда — в зависимости от типа, модели или фирмы-изготовителя HDD, как, например, в программе Victoria).
— Выводят числовые значения в удобном для восприятия виде (тут каждый программист может делать по-своему, например, конвертировать HEX-значения в десятичные).
— Извлекают из таблиц флаги атрибутов (признаки, характеризующие назначение атрибута в рамках конкретной firmware накопителя, например, «жизненно важный» или «счётчик»).
— На основании всех таблиц, значений и флагов выводят общее состояние устройства.
Атрибуты SMART
Таблица известных атрибутов SMART выглядит следующим образом:
Легенда | |
---|---|
Критический параметр — красный фон строки | Индикатор возможной скорой поломки устройства |
№ | Hex | Имя атрибута | Описание |
---|---|---|---|
01 | 01 | Raw Read Error Rate | Частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска. |
02 | 02 | Throughput Performance | Общая производительность диска. Если значение атрибута уменьшается, то велика вероятность, что с диском есть проблемы. |
03 | 03 | Spin-Up Time | Время раскрутки пакета дисков из состояния покоя до рабочей скорости. |
04 | 04 | Start/Stop Count | Полное число запусков/остановок шпинделя. У дисков некоторых производителей (например, Seagate) — счётчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска. |
05 | 05 | Reallocated Sectors Count | Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую область. Вот почему на современных жёстких дисках нельзя увидеть bad-блоки — все они спрятаны в переназначенных секторах. Этот процесс называют remapping, а переназначенный сектор — remap. Чем больше значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов. |
06 | 06 | Read Channel Margin | Запас канала чтения. Назначение этого атрибута не документировано. В современных накопителях не используется. |
07 | 07 | Seek Error Rate | Частота ошибок при позиционировании блока головок. Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска. |
08 | 08 | Seek Time Performance | Средняя производительность операции позиционирования магнитными головками. Если значение атрибута уменьшается, то велика вероятность проблем с механической частью. |
09 | 09 | Power-On Hours (POH) | Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF — mean time between failure). |
10 | 0A | Spin-Up Retry Count | Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью. |
11 | 0B | Recalibration Retries | Количество повторов запросов рекалибровки в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью. |
12 | 0C | Device Power Cycle Count | Количество полных циклов включения-выключения диска. |
13 | 0D | Soft Read Error Rate | Число ошибок при чтении по вине программного обеспечения. |
184 | B8 | End-to-End error | Данный атрибут - часть технологии HP SMART IV, это означает, что после передачи через кэш памяти буфера данных паритет данных между хостом и жестким диском не совпадают.[2] |
190 | BE | Airflow Temperature (WDC) | Температура воздуха внутри корпуса жёсткого диска для дисков Western Digital. Для дисков Seagate рассчитывается по формуле (100 — HDA temperature). |
191 | BF | G-sense error rate | Количество ошибок, возникающих в результате ударных нагрузок. |
192 | C0 | Power-off retract count | Число циклов выключений или аварийных отказов. |
193 | C1 | Load/Unload Cycle | Количество циклов перемещения блока магнитных головок в парковочную зону / в рабочее положение. |
194 | C2 | HDA temperature | Здесь хранятся показания встроенного термодатчика. |
195 | C3 | Hardware ECC Recovered | Число коррекции ошибок аппаратной частью диска (ошибок чтения, ошибок позиционирования, ошибок передачи по внешнему интерфейсу). |
196 | C4 | Reallocation Event Count | Число операций переназначения. В поле «raw value» атрибута хранится общее число попыток переноса информации с переназначенных секторов в резервную область. Учитываются как успешные, так и неуспешные попытки. |
197 | C5 | Current Pending Sector Count | В поле хранится число секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание с них отличается от чтения стабильного сектора, это так называемые подозрительные или нестабильные сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения. |
198 | C6 | Uncorrectable Sector Count | Число неисправимых ошибок при обращении к сектору. {Возможно, имелось в виду «число некорректируемых секторов», но никак не число самих ошибок!} В случае увеличения числа ошибок велика вероятность критических дефектов поверхности и/или механики накопителя. |
199 | C7 | UltraDMA CRC Error Count | Число ошибок, возникающих при передаче данных по внешнему интерфейсу. |
200 | C8 | Write Error Rate /Multi-Zone Error Rate | Показывает общее количество ошибок, происходящих при записи сектора. Может служить показателем качества поверхности и механики накопителя. |
201 | C9 | Soft read error rate | Частота появления «программных» ошибок при чтении данных с диска.Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя. |
202 | Ca | Data Address Mark errors | Number of Data Address Mark (DAM) errors (or) vendor-specific. |
203 | CB | Run out cancel | Количество ошибок ECC. |
204 | CC | Soft ECC correction | Количество ошибок ECC, скорректированных программным способом. |
205 | CD | Thermal asperity rate (TAR) | Number of thermal asperity errors. |
206 | CE | Flying height | Высота между головкой и поверхностью диска. |
207 | CF | Spin high current | Amount of high current used to spin up the drive. |
208 | D0 | Spin buzz | Number of buzz routines to spin up the drive. |
209 | D1 | Offline seek performance | Drive’s seek performance during offline operations. |
220 | DC | Disk Shift | Дистанция смещения блока дисков относительно шпинделя. В основном возникает из-за удара или падения. Единица измерения неизвестна. |
221 | DD | G-Sense Error Rate | Число ошибок, возникших из-за внешних нагрузок и ударов. Атрибут хранит показания встроенного датчика удара. |
222 | DE | Loaded Hours | Время, проведённое блоком магнитных головок между выгрузкой из парковочной области в рабочую область диска и загрузкой блока обратно в парковочную область. |
223 | DF | Load/Unload Retry Count | Количество новых попыток выгрузок/загрузок блока магнитных головок в/из парковочной области после неудачной попытки. |
224 | E0 | Load Friction | Величина силы трения блока магнитных головок при его выгрузке из парковочной области. |
226 | E2 | Load 'In'-time | Время, за которое привод выгружает магнитные головки из парковочной области на рабочую поверхность диска. |
227 | E3 | Torque Amplification Count | Количество попыток скомпенсировать вращающий момент. |
228 | E4 | Power-Off Retract Cycle | Количество повторов автоматической парковки блока магнитных головок в результате выключения питания. |
230 | E6 | GMR Head Amplitude | Амплитуда «дрожания» (расстояние повторяющегося перемещения блока магнитных головок). |
231 | E7 | Temperature | Температура жёсткого диска. |
240 | F0 | Head flying hours | Время позиционирования головки. |
250 | FA | Read error retry rate | Число ошибок во время чтения жёсткого диска. |
Примечания
Ссылки
Wikimedia Foundation.2010.