Резервированное устройство — SU 1121676 (original) (raw)

СОЮЗ СОВЕТСКИХСОЦИАЛИСТИЧЕСКИХРЕСПУБЛИН 09) (И) ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССРПО ДЕЛАМ ИЗОБРЕТЕНИЙ И ОЧНРЫТИЙОПИСАНИЕ ИЗОБРЕТЕНИЯК АВТОРСКОМУ СВИДЕТЕЛЬСТВУ(56) 1. Раг 1 с И.С., Вагг Р,С. ТЬе БЕКР Рац 1 г-ТоЕегапг Сошрцгег. РагС 11 "шрЕетепгагюп апд Ке 1 даЬ у Апа 1 уз з", - Л 18 ез г о 5 где 1973 1 пйегпаг 1 опа 1 Бушроз 1 цш оп РацЕгТоЕегапГ Сошрц 1 п 8, РаЕо-А 1 Го, Са 11 Гогп 1 а, 1 ЕЕЕ Сошрцйег Бос 1 еу, 1973, рр, 27-31.2. Авторское свидетельство СССР У 478460, кл. С 06 Р 11/00 1973 (прототип).(54)(57) РЕЗЕРВИРОВАННОЕ УСТРОЙСТВО,содержащее резервируемые вычислитель ные блоки, блоки памяти и блоки об-. мена, информационные входы и выходы которых подключены к соответствующим шинам .магистрали, и блок управления конфигурацией резерва, содержащий счетчик сбоев резервируемых вычислительных блоков, счетчик .сбоев блоков памяти, счетчик сбоев блоков обмена, регистр признаков ошибок, регистр конфигураций резерва и злемент ИЛИ, выход которого соединен с входами установки резервируемых.Зш С 06 Р 11/181 Н 05 К 10/00 вычислительных блоков, блоков. памяти и блоков обмена а входы " соответственно с одноименными контрольными выходами резервируемых вычислительных блоков, блоков памяти и блоков обмена, с входами первого, второго и третьего разрядов регистра признаков ошибок и со счетными входами счетчиков сбоев, выходы которых соединены с соответствующими входами модификации регистра конфигураций резерва, управляющие выходы которого подключены к одноименным входам резервируемых вычислительных блоков, блоков памяти и блоков обмена, а информационные выходы - к соответствующимшинам магистрали, к которой подключены также выходы регистра признаков ошибок и дешифратор, о т л и- Сф ч а ю щ е е с я тем, что, с целью повышения устойчивости к сбоям, в а устройство введен счетчик числа ре- конфигураций резерва блоков памяти, выход которого соединен с входом четвертого разряда регистра признаков ошибок, а вход установки в ноль - с одноименными входами счетчиков сбоев и с первым выходом дешиф" ратора, второй выход которого соединен с входом сброса регистра признаков ошибок, а входы - с соответствующими шинами магистрали.15 25 Недостатком известной системы является низкая эффективность средств восстановления работоспособности.Это выражается в следующем. Рассмотрим период установившегосяпроцесса работы системы длитель ностью Т. Предположим, что поток сбоев является простейшим с ин" тенсивностью Л а коэффициент пере",1 11216Изобретение относится к вычислительной технике и может быть исполь. зовано при построении высоконадежных управляющих цифровых вычислительных систем. 5Известно резервированное цифровое вычислительное устройство (ЦВУ), в состав которого входят запоминающие устройства (ЗУ), блоки процессоров, блоки обмена, магистраль, 10 объединяющая информационные выходы этих блоков, а также блок управления конфигураций. В состав блока управления конфигурацией входят узлы контроля, выходами подсоединенные к соответствующим входам модификации регистра конфигураций, выходы которого соединены с входами управления конфигурацией блоков ЦВУ, и узел управления 1,.20.В рабочем режиме узлы контроля осуществляют оперативное обнаружение ошибок функционирования ЦВУ и формирование соответствующих сигналов в регистр конфигураций и узел управления, вызывая смену конфигураций отказавшего блока и воз" врат на последнюю контрольную точку программы, т.е, повторное выполнение участка программы. 30Наиболее близкой к предлагаемой по технической сущности является резервированная вычислительная система, содержащая резервированные блоки ЭВМ, блоки обмена, узлы контроля, а также блоки и узлы управления конфигурацией резерва сис" темы: счетчики числа сбоев резер" вированных блоков ЭВМ, счетчик-ре" гистр конфигурации резерва для под 40 счета числа отказавших резервированных блоков ЭВМ, элементы И и ИЛИ. Счетчики числа сбоев служат для различения случайных сбоев и отказов. При случайном сбое реконфигурация резерва не производится, она происходит, когда число сбоев превышает коэффициент пересчета счетчика 21. счета счетчика сбоев на интервале Тможет быть определен в видеТйК = - .ИПри этом потери времени на реконФигурацию из-за появления постоянного отказа в текущей конфигурации ф резерва равны Т = Ю 7, где- средний временной интервал от момента перезапуска программы с контрольной точки до момента обнаружения ошибки.лВремяможет менять свое значение от минимального, когда отказ проявляется на первых же командах повторяемого участка программы, до значения Й, соответствующего средней длительности всего повторяемого участка программы (т.е. Фрагмента программы между двумя последовательными контрольными точками) .Если о в среднем составляет 5-15% длительности й повторяемого участка программы, то потери времени можно оценить как с = (0,05+0,15)МЙ. Таким образом, известная система имеет ограниченную эффективность восстановления прохождения программы, после сбоев, так как для того, чтобы снизить числоложных реконфигураций резерва в ней необходимо значительно увеличивать коэффициент пересчета счетчиков сбоев. Это, в свою очередь, приводит к существенным потерям времени при появлениипостоянного отказа в текущей конфигурации резерва, что затрудняетиспользование системы для управления объектами в реальном масштабе времени.Кроме того, известной системеприсуща слабая защищенность от сбоевв оперативной памяти, так как принакоплении сбоев во всех комплектахпамяти системы (это возможно .приработе в условиях мощных или высокоинтенсивных помех) она теряет возможность автоматического восстановления работоспособности. Действительно, перезапуск программ с контрольных точек предполагает перезагрузку аппаратурных ресурсов ЦВУ информацией, заранее запомненной в оперативной памяти; при разрушении этой информации система не может автоматически восстанавливаться.Это также .свидетельствует о недостаточной сбоеустойчивости системы.- Цель изобретения - повышение устойчивости к сбоям устройства.Поставленная цель достигается ,тем, что в резервированное устройство, содержащее резервируемые вычислительные блоки, блоки памяти и блоки Обмена, информационные входы и выходы которых подключены к соответствующим шинам магистрали,и блок управления конфигурацией резерва, содержащий счетчик сбоев резервируемых вычислительных блоков, счетчик. сбоев блоков памяти, счетчик сбоев блоков обмена, регистр признаков ошибок, регистр конфигураций резерва и элемент ИЛИ, выход которого соединен с входами установки резервируемых вычислительных блоков, блоков памяти и блоков обмена, а входы - соответственно с одноименными контрольными выходами резервируемых вычислительных блоков, блоков памяти и блоков обмена, с входами первого, второго и третьего разрядов регистра признаков ошибок и со счетными входами счетчиков сбоев, выходы которых соединены с соответствующими входами модификации регистра конфигураций резерва, управляющие выходы которого подключены к одноимен. ным входам резервируемых вычислительных блоков, блоков памяти и блоков обмена, а информационные выходы - к соответствующим шинам магистрали, к которой подключены выходы регистра признаков ошибок и дешифратор, введен счетчик числа реконфигурации резерва блоков памяти, выход которого соединен с входом четвертого разряда регистра признаков ошибок, а вход установки в ноль - с одноименными входами счетчиков сбоев и с первым выходом дешифратора, второй выход которого соединен с входом сброса регистра признаков ошибок, а входы - с соответствующими шинами двунаправленной магистрали., На чертеже представлена схема предлагаемого резервированного цифрового вычислительного устройства. Устройство содержит резервируемые вычиспительные блоки 1, блоки 2 памяти, блоки 3 обмена и блок 4 управления конфигурацией резерва,в состав которого входят счетчики 5, 6 и 7 числа сбоев вычислительных121676 4 блоков, блоков памяти и блоков обмена соответственно, счетчик 8 числа конфигураций памяти, дешифратор 9, регистр 10 признаков ошибок, регистр 11 конфигураций и элемент ИЛИ 12.Магистральные выходы блоков 1-3, регистров 10 и 11, а также вход дешифратора 9 соединены двунаправленной магистралью. Выходы контроля 1 О блоков 1-3 соответственно соединенысо счетными входами счетчиков 5-7,с первым, вторым и третьим входамиэлемента ИЛИ и с входами соответствующих разрядов регистра 10. Выходысчетчиков 5-7 соединены с соответствующими входами модификации регистра 11, выход счетчика 6 сбоевблоков памяти, кроме того, соединенсо счетным входом счетчика 8, выход 15 20 которого соединен с входом четвер. того разряда регистра 1 О, а вход - обнуления - с аналогичными входами счетчиков 5-7 и первым выходом дешифратора 9, второй выход которого соединен с входом обнуления регистра 10. Выходы О, Ь и с регистра 11 соединены с входами управления конфигурацией резерва блоков 1-3 соответственно, а выход элемента 12 с входом установки этих блоков.Критерием отказа текущей конфигурации резерва блоков является И-кратное неудачное (т.е. приводящее к ошибке) выполнение повторяемого участка программы. Указанный критерий реализуется путем счета в счетчиках .сбоев числа возвратов на начало каждого повторяемого 30 35 участка программы и сброса значе 40 ния счетчиков при переходе от данного повторяемого участка программы к следующему,Такая организация позволяет практически исключить возможность ложной реконфигурации резерва в ЦВУ, существенно повьппая оперативность и эффективность восстановления программы после сбоя. 50 Наличие счетчика числа реконфигураций блоков:памяти позволяетобнаружить состояние в системе, когдаинформация не может быть правильносчитана из блоков памяти во всех Это позволяет и в этом случае автоматически проводить восстановление, например, переэагрузив содержимое 55 конфигурациях резерва этих блоков, 1121676памяти информацией из внешнего накопителя или проведя программные процедуры коррекции. Указанное свойство также позволяет повысить устойчивость ЦВУ к сбоям.Устройство работает следующим об" разом.При включении устройства счетчики 5-8, а также регистры 10 и 11 об" нуляются, причем нулевой код в регистре 11 обеспечивает установку исходных конфигураций блоков 1-3 (на шинах а, Ь и С - нулевой код). Число основных и резервных комплектов этих блоков, типы конфигураций резерва и последовательность их перебора определяются требованиями к надежности, производительности, физическим параметрам ЦВУ и могут быть различными.В ходе работы ЦВУ выполняет целевые программы, обеспечивая процесс управления .Правильность функционирования блоков 1-3 оперативно контролируется входящими в их состав контрольными схемами, в качестве которых могут быть использованы любые контрольные схемы (например, схемы контроля по модулю, схемы сравнения и другие). При обнаружении ошибки вычислительного блока памяти или блока обмена на контрольных выходах 3, Е или 1 соответственно формируется сигнал, поступающий на счетный вход счетчика 5,6 или 7 сбоев, на вход первого, второго и третьего разряда регистра 10 и на вход элемента ИЛИ. Это обеспечивает модификацию содержимого соответствующего счетчика сбоев, установку в единичное состояние соответствующего разряда регистра признаков ошибок, а также формирование сигнала ошибки на выходе элемента ИЛИ и на входах установки блоков 1-3, который переводит их в фиксированное состояние, а также блокирует обмен, реакцию на прерывание, запись в память (на время наличия сигнала ошибки) и инициирует выполнение программы анализа ошибок путем установки фиксированного адреса первой ее команды в вычислительных блоках. При выполнении программы анализа ошибок вычислительный .блок по магистрали считывает содержимое регистра 10 и производит его анализ, по ре На границах повторяемых участков программы, непосредственноперед формированием информации оследующей контрольной точке выполняется операция сброса содержимого счетчиков 5-7, который происходит при подаче вычислительнымблоком по магистрали на вход дешифратора 9 кода К 2. При возникновении .ошибки и возврате на предыдущую контрольную точку производится накопление в соответствующем счетчике сбоев их числа(сброс счетчиков в этом случаене происходит), а при успешномпереходе к следующему участкусчетчики обнуляются. Например, привозникновении сбоя в блоке 1 (2 или3) на контрольном выходе д блока 1 (8 или 1 соответственно) вырабатывается сигнал, устанавливающий первый (второй, третий) разрядрегистра 10, добавляющий единицук содержимому счетчика 5 (6,7),устанавливая блоки 1-3 в фиксированное состояние и переводя ЦВУ на выполнение программы анализа ошибок. Последняя передает управление прер 5 О 15 20 25 30 зультатам которого вырабатывает необходимую соответствующую типу ошибки программную реакцию,. например коррекцию содержимого ЗУ,установку состояний абонентов и т.д, и осуществляет сброс регистра 10, а также возврат на контрольную точку программы (на начало повторяемого участка программы).Сброс регистра 10 выполняется при подаче вычислительным бло. ком по магистрали на вход дешифратора 9 кода К 1.Организация контрольных точек в программе является одним из наиболее распространенных методов защиты прог. рамм и данных от аппаратурных ошибок и производится обычно следующим образом.Все программы, предназначенные для выполнения, разбиваются на участки, выполнение каждого из которых начинается с загрузки аппаратурных средств. Информация для загрузки готовится в каждом таком участке для последующего, причем при появлении ошибки также производится перезагруэка и возобновление работы с начала участка.Особенность предлагаемого устройства состоит в следующем.40 ванной ошибкой программе, начиная с последней контрольной точки. Если данные события повторяются менее чем М раз (М - коэффициент пересчета, для счетчиков 5-7 он может 5 быть различным), а затем текущий участок программы выполняется правильно, то счетчики 5-7 сбрасываются и реконфигурации блоков 1-3 не происходит. Если же происходит М-кратное повторение ошибки данного типа при выполнении текущего участка программы, то соответствующий блок считаЕтся отказавшим и его конфигурация резерва изменяется, так как 5 на выходе счетчика сбоев появляется сигнал переполнения, приводящий к модификацииполя разрядов регистра 11, содержащего код конфигурации этого блока (меняется значение 20 на выходе а Ь или С соответственно). При одновременном появлении ошибок нескольких типов они обрабатываются параллельно, что обеспечивает быстрое удаление отказавших блоков, 25Число реконфигураций блока 2 памяти подсчитывается в счетчике 8. Это обеспечивается тем, что вход этого счетчика соединен с выходом переполнения счетчика 6 сбоев бло- З 0 ков памяти. Сброс счетчика 8 происходит на границе повторяемых участков программы вместе со счетчиками 5-7 сбоев. Коэффициент пересчета этого счетчика равен или превышает число конфигураций блоков памяти, поэтому его переполнение наступает в том случае, когда текущий участок программы не удается выполнить изза ошибки памяти ни в одной из конфигураций блока 2. В этом случае сигнал с выхода счетчика 8 устанавливает четвертый разряд регистра 10, так что программа анализа ошибок способна в этой ситуации инициировать 45 перезагрузку блоков ЗУ из внешних источников информации или провести иное корректирующее действие.Для анализа эффективности предлагаемого устройства оценим характе ристики его функционирования.Предполагая, что интенсивность потока сбоев равна Л а интенсивность потока восстановлений (обнулений счетчиков сбоев) - М, причем Л (с М, вероятность накопления числаМ в счетчике может быть определенакакР(М) - МИ+АПри этом М определяется как вели.чина, обратная средней длительности повторяемого участка программы д, а так как и новый сбой, и появление восстановления приводит к обнулениюсчетчика сбоев, то среднее время пребывания в этом состоянии (состоянии М)4,А+М 1+Фдля длительного интервала Т стационарной работы ЦВУ время пребывания в состоянии, когда счетчик содержит число М, можно определить в виде Т(М) = Т.Р(М), а число попаданий в это состояние, т.е. число ложных реконфигураций, можно оценить какТ(М), (АЛ,-ш 1+АНапример, для практического слу-чая Т = 10000 ч,= 0,1 ч, ЛЛ= 0,1 ч и М = 3 среднее значение К составляет О, 1 (т,е, возможность ложной реконфигурациипрактически исключается), а потери времени Т на реконфигурациювсего 0,015 ч, При тех же значенияхдля прототипа ожидаемое число ложныхреконфигураций составит более300. При увеличении коэффициентапересчета до 100 ожидаемое числоложных реконфигураций резерва впрототипе может быть снижено до 10,однако потери времени на реконфигурацию при появлении постоянногодефекта могут вырасти при этомдо 0,5 ч,Таким образом, в предложенномустройстве использован более совершенный критерий отказа, позволяющий снизить потери времени на реконфигурацию резерва и повыситьсбоеустойчивость. Этому же служитобеспеченная в ЦВУ возможностьобнаружения группового сбоя в блоках памяти и автоматическое восста"новление работоспособности.1121676 оставитель В. Иаехред И, Гер гель м Редактор Л. Алексеенк Корректор йи Заказ 7983 Тираж 698 ПодПИ Государственного комитета СССРделам изобретений и открытийИосква, Ж, Раушская наб., д. ное В 13035 лиал ППП "Патент", г. Ужгород, ул. Проектна

Смотреть

Резервированное устройство