Пользуясь случаем, хочу сказать спасибо за Ваши выложенные материалы, которые мне были интересны. А по данному вопросу, навеное, не так важно в каком блоге это будет, потому как это просто записи из моего дневника. А тема была затронута на форуме RFR и делал я это именно на RFR-13. Спасибо.
Есть один отдельный случай. Если сбой ПО (обычно прикладного) ведет к повреждению базы, так что рестарт сервера (равно как и переброс задачи на другой инстанс) уже не помогает. Думаю, на уровне этого обзора детально копать методы защиты от такого нет смысла — можно уйти в дебри фундаментальных основ, а обзор все-таки прикладной. Имхо, стоит все же упомянуть и сослаться на бекап как разумный метод защиты для «достаточно качественного» прикладного ПО. (А для некачественного ППО все изложенное все равно бесполезно, ибо не поможет. :-) )
Хорошо, учтем, забыли! Сбой ПО вероятнее всего тоже ведет к тому, что сервер выпадает из кластера, так что пункт тот же, что и аппаратный, но распишем получше. Спасибо!
Хотелось бы более четкого разделения понятий «отказоустойчивость» и «катастрофоустойчивость». Интуитивно-то понятно о чем речь, но из данных определений это абсолютно не следует.
И среди причин отказов почему-то есть все что угодно, кроме сбоев ПО, системного или прикладного.
P.S. перемести в блог
А в рунете ни единой новости по этому поводу. :-o
И среди причин отказов почему-то есть все что угодно, кроме сбоев ПО, системного или прикладного.