PROVIDING HIGH RELIABILITY OF FPGAs FOR CRITICAL APPLICATIONS BASED ON HYBRID REDUNDANCY

Abstract


Combined redundancy of logic elements of programmable logic integrated circuits (FPGA) is considered to ensure high reliability of digital equipment for critical applications. Considering Mead-Conway's limitations on the number of transistors connected in series, it is shown that deep majority with partial drilling is preferable to pure redundancy. In the case of strict restrictions on the delay time, majority voting in combination with calculation will be most effective. It is advisable to perform the presented calculations in the proposed option "Reliability Analysis" of CAD Quartus from Intel. It is most expedient to use transistor redundancy in majority circuits, comparison circuits modulo two in duplicated systems, diagnostic and configuration controllers. In random access memory (LUT), transistor redundancy is recommended in the output stages so that if one half fails, the information is transmitted to the output to use at least part of the functionality. It is advisable to completely cover a part of LUTs of small capacity with transistor redundancy in order to use them as a reference, for example, in diagnostic procedures. Purpose of the study: experimental confirmation of the concept and theoretical foundations of scaling the reliability of FPGAs. Methods: probability theory, combining redundancy, synthesis of a reliability-scalable FPGA logic architecture. Results: the method of scaling the FPGA elements according to the specified requirements allows you to create a structural diagram of reliability with various options for fault tolerance, and select an option that meets the specified requirements. Practical significance: the obtained estimates of the complexity in the number of transistors make it possible to calculate the probability of no-failure (trouble-free) operation and other indicators of the FPGA reliability.

Full Text

Введение События последних лет показывают, что научные исследования по обеспечению высокой надёжности цифровой аппаратуры при работе не только в жёстких условиях эксплуатации (в том числе в условиях техногенных и природных катастроф), но и в условиях так называемых специальных внешних воздействующих факторов (СВВФ) [1] крайне актуальны. Эта область, помимо прочего, становится теперь еще и разновидностью информационной безопасности в связи с тем, что СВВФ могут привести к нарушению целостности информации, в том числе в важных хозяйственных, государственных и оборонных объектах, в специальной аппаратуре и технических средствах. Причем речь теперь идет не просто о кибератаках, компьютерных вирусах, о которых часто сообщают в СМИ, но и о возрастающих возможностях средств электронного «поражения» цифровой аппаратуры не летальными для человека средствами. В таких условиях необходимо принимать такие «авральные» меры повышения надежности, которые раньше считались избыточными, в том числе и для ПЛИС. В этом плане представляется перспективным подход, сочетающий как традиционные средства защиты от СВВФ: отключение питания на период воздействия, экранирование, канальное резервирование, так и резервирование на наноуровне, транзисторное резервирование (ТР) и комбинированное или гибридное резервирование [2-5]. Целью исследования является экспериментальное подтверждение концепции и теоретических основ масштабирования надёжности ПЛИС на основе гибридной избыточности. Следует отметить, что резервирование транзисторов по И: , ИЛИ: не позволяет сохранять требуемую логическую функцию при одном отказе или сбое (в данном случае функцию повторения х), поскольку, например, при а при Резервирование по мажоритарной функции позволяет сохранить функцию повторения х, но требует большего числа транзисторов, чем так называемая функционально-полная толерантная (ФПТ) функция [6-8]: пять против четырёх. Соответственно, при парируется один отказ (сбой) из пяти, а при ФПТ - один из четырех. а б Рис. 1. Графики изменения вероятностей безотказной (бессбойной) работы при λ = 10-5 ч-1 одного транзистора без резервирования резервированного транзистора по мажоритарной функции , резервированного транзистора по ФПТ функции а - в диапазоне 1…0,95; б - в диапазоне 1…0 Графики (рис. 1, а) с использованием модели Вейбулла [9] подтверждают лучшие результаты по вероятности безотказной работы [10, 11] с учетом данных [12] ФПТ функции Причем и эта функция становится ниже при вероятности порядка 0,75, но это только относительно одного транзистора. Далее рассмотрим ТР для большего числа n. Транзисторное резервирование требует соблюдения ограничений по числу последовательно соединенных транзисторов [13]: не более четырех, но, как правило, в ПЛИС ограничиваются тремя передающими транзисторами, после них обязательно ставится восстановитель уровня сигнала. Поэтому часто бывает необходима декомпозиция исходной схемы. Исследуем варианты гибридного [6] резервирования для троирования и расчетверения. Гибридное резервирование: комбинирование троирования и расчетверения В табл. 1 приведены исследованные варианты комбинирования избыточности. Таблица 1 Аппаратные и временные затраты QR/TMR и гибридное HR № Вероятность безотказной (бессбойной) работы Условные затраты в транзисторах Условное время задержки Формула 1 Ptmr 3n+12 τn+2 2 Ptmr3 3n+36 τn+2 3 Pdt 3n+36k τn+2k 4 Pqr 4n 2τn 5 Ptmr34 3n+48 τn+4 Окончание табл. 1 № Вероятность безотказной (бессбойной) работы Условные затраты в транзисторах Условное время задержки Формула 6 Ptmr34g 3n(1-r)+ +4nr+48 τn(1-r)+ +2τnr+4 7 Pdtqr 3n(1-r)+ +4nr+48k τn(1-r)+ +2τnr+4k 8 Ptq(t) 12n+48 2τn+2 9 Ptmr34gt 12n(1-r)+ +4nr+48 2τn(1-r)+ +2τnr+4 Сравнение вероятности безотказной работы исходной схемы и TMR, TMR3, QR показано на рис. 2, а, б. На рис. 2, в, г графически проиллюстрировано преимущество QR при увеличении числа транзисторов n. Увеличение вероятности безотказной работы за счет использования гибридного резервирования продемонстрировано на рис. 2, д, е. Удельная вероятность вычисляется с учетом дополнительной сложности в количестве транзисторов, приведенной в табл. 1. (1) Как видно из рис. 2, а, б, в случае небольшого количества транзисторов TMR хуже, чем у нерезервированной схемы. TMR выигрывает только до 0,99 (n = 2, t = 60), а затем становится ниже, чем схема без резервирования. В то же время QR лучше любого TMR, однако тоже падает ниже после вероятности примерно 0,6 (t ≈ 800). При увеличении n (20...100) QR выигрывает на всем временном интервале (см. рис. 2, в, г). a б в г д е Рис. 2. Вероятность безотказной работы в зависимости от сложности в виде количества транзисторов n и времени t: мажоритирование TMR, расчетверение QR, гибридное резервирование HR: а - n=2, t=0…100; б - n=2; t=0…1000; в - n=20; г - n=100; д - n=50 r=0,5; k=10; е - n=100; r=0,4; k=7; ж - t=50; r=0,7; k=10; з - t=10; r=0,5; k=7 ж з Рис. 2. Окончание Непосредственное введение QR в логические элементы возможно только для двухместных операций, а для реализации остальных необходима декомпозиция логических элементов, что увеличивает сложность и задержку. Целесообразно использовать ТР базового элемента ПЛИС на одну переменную 1-LUT. Расчетверение как вариант ТР позволяет добиться максимальной надежности (см. рис. 2, д, е), но для этого требуется очень большая избыточность (см. табл. 1). Расчетверение «не дороже», чем утроение КМОП (см. табл. 1) при большом количестве выходов m, так как каждый из них должен иметь мажоритар TMR Voter (12 транзисторов). Например, 2NOR (2NAND) имеет n = 4, поэтому получаем 16 транзисторов (QR) против 24 (TMR). При этом временная задержка TMR 2NOR (2NAND) в количестве транзисторов равна пяти, временная задержка QR 2NOR (2NAND) равна четырем. Таким образом, при малом n есть преимущество с точки зрения сложности и задержки даже при малом числе выходов. Однако TMR, в отличие от QR, учитывает выход из строя одного из трех источников питания, а еще QR может подключать один резервный источник питания [14]. Легко видеть, что избыточность на уровне схемы (и тем более на уровне канала) хуже, чем резервирование на уровне отдельных транзисторов. Для расчетверения каналов потребуется ФПТ-элемент для голосования. Очевидно, что расчетверение транзисторов лучше расчетверения цепей (2) или каналов (3). (2) (3) Пример введения гибридной избыточности Рассмотрим проект, созданный в САПР Quartus фирмы Intel, характеристики которого сведены в табл. 2. Графики изменения вероятностей безотказной (бессбойной) работы проекта изображены на рис. 3. Таблица 2 Характеристики проекта на ПЛИС № п/п Наименование Количество Сложность в транзисторах Вероятность безотказной (бессбойной) работы при СВВФ без резервирования, интенсивность отказов (сбоев) одного транзистора λ=10-7 ч-1 Достоверность работы при СВВФ: дублирование Вероятность безотказной (бессбойной) работы при СВВФ: троирование Вероятность безотказной (бессбойной) работы при СВВФ: расчетверение Примечание 1 4-LUT 1 ~500 0,95 на t=100 - - - Сложность с учетом SRAM 2 5-LUT 3 ~900×3=2700 0,9 каждый на t=100 - - - Сложность с учетом SRAM 3 Flip-Flop (Logic Register) 2 22×2=44 0,995 на t=100 - - - 4 SRAM 16+32+32+32 Учтено в LUT Учтено в LUT - - - Учитываем настройку функций с сложности LUT 5 Buffer 9 9×6=54 0,994 на t=100 - - - 6 SRAM 9×8=72 72×6=432 0,96 на t=100 - - - Учитываем условную сложность настройки связей по входам-выходам 7 Коммутаторы 9 72 0,993 на t=100 - - - Учитываем условную сложность связей по входам-выходам Итого 3753 на t=100 0,7 на t=100 0,9 на t=100 0,78 на t=100 0,999 Затраты 3753 7506 11307 15012 Видно, что при заданных условиях сложности троирование Ptmr(t) практически совпадает с троированием и тремя мажоритарми Ptmr3(t), а расчетверение Pqr(t) дает вероятность, близкую к единице, но и затраты огромные. Дублирование выигрывает у троирования, но они не сравнимы, ибо в случае дублирования имеем не вероятность безотказной (бессбойной) работы, а достоверность функционирования, т.е. получаем систему с активной отказоустойчивостью в отличие от других вариантов. Расчетверение Pqr(t) в отличие от рис. 1, б выигрывает на всем интервале вероятностей (см. рис. 3, б). а б Рис. 3. Графики изменения вероятностей безотказной (бессбойной) работы при λ=10-7 ч-1 проекта без резервирования , проекта с дублированием P2(t), проекта с троированием Ptmr(t), проекта с троированием и тремя мажоритарами по каждому выходу Ptmr3(t), проекта с расчетверением транзисторов без учета декомпозиции Pqr(t): а - в диапазоне вероятности 1..0,8; б - в диапазоне вероятности 1..0 а б Рис. 4. Графики изменения вероятностей безотказной (бессбойной ) работы с учетом гибридного резервирования: а - Phr(t) троируются LUT в остальных блоках ТР; б - Phr2(t) дублируются LUT в остальных блоках ТР Выполним гибридное резервирование: мажоритируем только LUT, в остальных блоках применим ТР (рис. 4, а). Получаем лучшие результаты, чем у троирования. Аналогично можно улучшить достоверность при дублировании (рис. 4, б). Конкретное соотношение избыточности и структурная схема надёжности (ССН) [11] могут быть определены итеративным путем градиентным или эволюционным методом. Пример оптимизации вероятности безотказной (бессбойной) работы невосстанавливаемой системы Для оптимизации с учетом условной стоимости (сложности в количестве транзисторов, площади кристалла, потребляемой мощности, временной задержки и пр.) предлагается использовать средства Microsoft Excel. Результаты использования оптимизации (минимизации) методом обобщенного приведенного градиента (ОПГ) в Microsoft Excel условной стоимости (сложности) некоторого проекта из десяти подсистем при условии достижения заданной вероятности безотказной (бессбойной) работы 0,99 приведены в табл. 3. Таблица 3 Минимизация методом ОПГ заданной условной стоимости (сложности) проекта при достижении требуемой вероятности безотказной (бессбойной) работы для некоторого значения времени Структурная схема надежности P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 0,9 0,95 0,92 0,98 0,99 0,989 0,998 0,97 0,94 0,93 P 0,999 0,9975 0,999488 0,9996 0,9999 0,999879 0,999996 0,9991 0,9964 0,999657 W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 Стоимость 16 11 13 12 14 17 10 15 18 19 Wi суммарно 48 22 39 24 28 34 20 30 36 57 Pтреб 0,99 Wтреб 300 Каналы n1 n2 n3 n4 n5 n6 n7 n8 n9 n10 3 2 3 2 2 2 2 2 2 3 P 0,9905541 W 338 Таким образом, при заданных условиях следует троировать первую, третью и десятую подсистемы, остальные достаточно задублировать. Пример расчета коэффициента готовности восстанавливаемой системы Для расчета восстанавливаемой системы (активная отказо- и сбоеустойчивость) также рекомендуется использовать Microsoft Excel. Рассмотрим пример нахождения коэффициента готовности в предлагаемой технологии HR с использованием Excel для случая восстанавливаемой ПЛИС. Граф марковского процесса для одного дополнительного состояния готовности ПЛИС Р3 за счет восстановления работоспособных элементов из отказавших элементов показан на рис. 5. Марковский процесс по графу в установившемся режиме описывается системой алгебраических уравнений: (4) Рис. 5. Граф марковского процесса для одного дополнительного состояния готовности ПЛИС Р3 за счет восстановления из отказавших элементов Система (4) для некоторых полученных в результате масштабирования надёжности ПЛИС параметров интенсивностей отказов и восстановления в Excel имеет решение симплекс-методом, представленное в табл. 4. При одинаковой интенсивности восстановления (переход из Р2 в Р1) и интенсивности отказов, равной сумме (50 % отказов могут компенсироваться восстановлением работоспособных элементов из нескольких отказавших), система без Р3 имеет существенно меньший коэффициент готовности (табл. 5). Таблица 4 Результаты расчетов для ПЛИС с восстановлением. Коэффициент готовности кг = 0,984 Марков δ λ μ φ 0,000005 0,000005 0,0001 0,000001 P1 P3 P2 Факт -0,00001 0 0,0001 0 2,12E-22 0,000005 -0,000001 0 0 -2,1E-22 0,000005 0,000001 -0,0001 0 0 1 1 1 1 1 Результат 0,163934 0,8196721 0,016393 1 ЦФ 0 КГ 0,983607 Таблица 5 Результаты расчетов для ПЛИС без дополнительного состояния Марков δ λ μ φ 0 0,00001 0,0001 0 P1 P3 P2 Факт -0,00001 0 0,0001 0 1,69E-21 0 0 0 0 0 0,00001 0 -0,0001 0 -1,7E-21 1 1 1 1 1 Результат 0,909091 0 0,090909 1 ЦФ 0 КГ 0,909091 Интенсивность восстановления в 10 раз выше интенсивности отказов. Коэффициент готовности кг = 0,909. В то же время предложенное комбинированное резервирование снижает интенсивность перехода в состояния Р2 и Р3. Так, например, десятикратное уменьшение δ, λ позволяет получить коэффициент готовности кг = 0,993 (табл. 6). Таблица 6 Результаты расчетов для ПЛИС с дополнительным состоянием. Интенсивность отказов в 10 раз меньше за счет введения резервирования. Коэффициент готовности кг = 0,993 Марков δ λ μ φ 0,0000005 0,0000005 0,0001 0,000001 P1 P3 P2 Факт -0,000001 0 0,0001 0 0 0,0000005 -0,000001 0 0 0 0,0000005 0,000001 -0,0001 0 0 1 1 1 1 1 Результат 0,6622517 0,3311258 0,006623 1 ЦФ 0 КГ 0,9933775 Заключение В статье предлагаемое комбинированное резервирование элементов ПЛИС. Принимая во внимание ограничения Мида-Конвея, DT с частичным QR (см. рис. 2, e, ж) является наиболее предпочтительным по сравнению с чистым резервированием (см. рис. 2, в, г). Удельная единичная вероятность Pdtqr также является наиболее предпочтительной (см. рис. 2, ж, з). Тем не менее Pdtqr требует значительного увеличения задержки на мажоритарах, что в некоторых случаях может быть неприемлемо. Поэтому эффективно TMR-QR (см. рис. 2, ж, з) в случае жестких ограничений по времени задержки. Расчеты, приведенные в статье, целесообразно выполнять в новой, предлагаемой опции САПР Quartus фирмы Intel, которую можно условно назвать «Анализ надёжности» по аналогии с анализом потребляемой мощности, сложности и временной задержки, имеющимся в САПР. С целью поиска оптимального варианта комбинирования имеет смысл модифицировать алгоритмы, описанные в [15-17]. Кроме того, для учета времени диагностирования [18] и реконфигурации необходимо дальнейшее развитие и уточнение подходов, описанных в [19-24]. Наиболее целесообразно использовать транзисторное резервирование в мажоритарных схемах, схемах сравнения по модулю два в дублированных системах, диагностических и конфигурационных контроллерах [25, 26]. В LUT, особенно большой разрядности, транзисторное резервирование рекомендуется в выходных каскадах для того, чтобы при отказе одной половины информация передавалась на выход для использования хотя бы части функциональности. Вместе с тем часть LUT небольшой разрядности целесообразно полностью охватить транзисторным резервированием, чтобы использовать их в качестве эталона, например, в диагностических процедурах. Определение количества таких элементов также может составлять предмет следующего этапа исследований.

About the authors

A. V Grekov

Perm Military Institute of National Guard Troops

References

  1. Война шестого поколения: радиоэлектронная борьба [Электронный ресурс]. - URL: https://bumerang777.livejournal.com/1324477.html (дата обращения: 26.02.2021).
  2. El-Maleh A.H., Al-Yamani A., Al-Hashimi B.M. Transistor-Level Defect Tolerant Digital System Design at the Nanoscale. Research Proposal Submitted to Internal Track Research Grant Programs [Электронный ресурс]. - URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1. 474.3844&rep=rep1&type=pdf (дата обращения: 12.02.2021).
  3. Тюрин С.Ф. Проблема сохранения функциональной полноты булевых функций при «отказах» аргументов // Автоматика и телемеханика. - 1999. - № 9. - С. 176-186.
  4. Греков А.В., Тюрин С.Ф. Повышение надежности электронных регуляторов авиадвигателей на основе инновационных логических элементов // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. - 2018. - № 25. - С. 177-188.
  5. Греков А.В. Масштабирование надежности ПЛИС // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. - 2021. - № 1. - С. 165-173.
  6. Tyurin S.F. Investigation of a Hybrid Redundancy in the Fault-Tolerant Systems // Radio Electronics, Computer Science, Control. - 2019. - № 2. - P. 23-33. doi: 10.15588/1607-3274-2019-2-3
  7. Tyurin S. A Quad CMOS gates checking method // International Journal of Computing. - 2019. - Vol. 18, iss. 3. - P. 258-264.
  8. Tyurin S.F., Grekov A.V. Functionally Complete Tolerant Elements // International Journal of Applied Engineering Research. - 2015. - Vol. 10, № 14. - P. 34433-34442.
  9. Weibull W. A statistical distribution function of wide applicability [Электронный ресурс]. - URL: https://pdfs.semanticscholar.org/88c3/777 0028e7ed61180a34d6a837a9a4db3b264.pdf. (дата обращения: 12.01.2021).
  10. ГОСТ 27.002-2015. Надежность в технике. Основные понятия. Термины и определения. - Введ. 2017-03-01. - М.: Стандартинформ, 2016. - 23 с.
  11. ГОСТ Р 51901.14-2007 (МЭК 61078:2006). Менеджмент риска. Структурная схема надежности и булевы методы [Электронный ресурс]. - URL: http://docs.cntd.ru/document/1200065647 (дата обращения: 11.02.2021).
  12. Intel Reliability Report [Электронный ресурс]. - URL: https://www.intel.com/content/dam/www/programmable/us/en/pdfs/literature/rr/rr.pdf (дата обращения: 10.02.2021).
  13. Carver A. Mead, Lynn Conway. Introduction to VLSI Systems [Электронный ресурс]. - URL: http://ai.eecs.umich.edu/people/conway/ VLSI/ VLSIText/PP-V2/V2.pdf (дата обращения: 12.01.2021).
  14. Kamenskih A.N., Tyurin S.F. The optimization of energy-efficiency and reliability using complex redundancy in computing systems // Radio Electronics, Computer Science, Control. - 2018. - № 3. - P. 135-142.
  15. Иванова К.М., Скорнякова А.Ю. Алгоритм выбора оптимального набора конфигурируемых строго самосинхронных логических элементов // Вестник Пермского университета. Сер. Математика. Механика. Информатика. - 2020. - № 3(50). - С. 85-90.
  16. Иванова К.М., Скорнякова А.Ю. Алгоритм оптимизации комплекта конфигурируемых строго самосинхронных генераторов логических функций для заданных параметров систем функций // Наноиндустрия. - 2020. - Т. 13. - № S4 (99). - С. 334-336.
  17. Иванова К.М., Тюрин С.Ф., Скорнякова А.Ю. Программа выбора оптимального набора строго самосинхронных логических элементов: св-во о регистр. программы для ЭВМ 2020666738, 16.12.2020; заявка № 2020660893 от 22.09.2020.
  18. ГОСТ 20911-89. Техническая диагностика. Термины и определения. - М.: Стандартинформ, 2009. - 11 с.
  19. Tyurin S.F. LUT's Sliding Backup // IEEE transactions on device and materials reliability. - Mar. 2019. - Vol. 19, iss. 1. - P. 221-225. doi: 10.1109/TDMR.2019.2898724
  20. Тюрин С.Ф. Особенности архитектуры гиперфлекс // Вестник Воронежского гос. ун-та. Сер. Системный анализ и информационные технологии. - 2018. - № 1. - С. 56-62.
  21. Тюрин С.Ф., Чудинов М.А. FPGA LUT с двумя выходами декомпозиции по Шеннону // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. - 2019. - № 29. - С. 136-147.
  22. Tyurin S.F., Grekov A.V. Study of the multy input LUT complexity // Radio Electronics, Computer Science, Control. - 2018. - № 1. - P. 14-21. doi: 10.15588/1607-3274-2018-1-2
  23. Tyurin S.F. Green Logic: Green LUT FPGA Concepts, Models and Evaluations // Green IT Engineering: Concepts, Models, Complex Systems Architectures, Studies in Systems, Decision and Control / V. Kharchenko, Y. Kondratenko, J. Kacprzyk (Eds.). - XIV. - 355 p; Berlin, Heidelberg: Springer International Publishing. - 2017. - P. 241-261. doi: 10.1007/978-3-319-55595-9_12
  24. Тюрин С.Ф., Вихорев Р.В. Адаптивный логический модуль ПЛИС с архитектурой FPGA // Вестник Рязан. гос. радиотехн. ун-та. - 2018. - № 63. - С. 69-76.
  25. Хаханов В.И. Инфраструктура диагностического обслуживания SoC [Электронный ресурс] // Вестник Томск. ун-та. - 2008. - № 4(5). - URL: http://sun.tsu.ru/mminfo/000063105/inf/05/image/05-074.pdf (дата обращения: 05.05.2019).
  26. Парфентий А.Н., Хаханов В.И., Литвинова Е.И. Модели инфраструктуры сервисного обслуживания цифровых систем на кристаллах // АСУ и приборы автоматики. - 2007. - Вып. 138. - С. 83-99.

Statistics

Views

Abstract - 67

PDF (Russian) - 6

Refbacks

  • There are currently no refbacks.

Copyright (c) 2022 PNRPU Bulletin. Electrotechnics, Informational Technologies, Control Systems

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies