вторник, 26 октября 2010 г.

ISSP \ Домен 07. Непрерывность бизнеса и восстановление после аварий. Часть 3

В этой части рассмотрены следующие вопросы:
  • Превентивные меры
  • Стратегии восстановления
  • Восстановление бизнес-процессов
  • Восстановление здания
  • Соглашение о взаимной помощи
  • Резервные площадки


В процессе выполнения BIA команда ВСР должна определить максимально допустимое время простоя (MTD - Maximum tolerable downtime) для критичных ресурсов. Это необходимо для понимания негативного воздействия на бизнес, вызванного недоступностью активов. Также это создает чувство, что команда могла бы попытаться снизить это воздействие и, тем самым, снизить соответствующий риск, внедрив превентивные меры. Не внедрить после этого превентивные меры - это аналогично походу к доктору и последующему игнорированию его рекомендаций. Зачем тогда вообще нужно было ходить к доктору? Тоже самое справедливо и для компаний. Если команда выявила риск и имеет решение по его минимизации, но компания не внедряет это решение, зачем тогда была организована эта команда?

Таким образом, вместо того, чтобы просто ждать очередную аварию или чрезвычайную ситуацию, чтобы увидеть, как компания справится с ней, следует внедрить контрмеры, обеспечивающие лучшую защиту компании от выявленых вероятных негативных воздействий. Реализация приемлемых и экономически эффективных превентивных мер называется проактивным подходом, он гораздо предпочтительнее реактивного подхода. Выбор превентивных механизмов, которые следует внедрить, зависит от результатов BIA, но среди них могут быть некоторые из следующих компонентов:
  • Укрепление здания, его конструкционных материалов
  • Использование резервных серверов и коммуникационных каналов
  • Ввод электропитания от разных трансформаторов
  • Поддержка дополнительными (избыточными) поставщиками
  • Страхование
  • Установка источников бесперебойного питания и электрогенераторов
  • Внедрение технологий резервного копирования данных
  • Обеспечение защиты носителей информации
  • Увеличение количества запасных частей для критичного оборудования
  • Внедрение систем обнаружения и тушения пожара
ПРИМЕЧАНИЕ. Многие из защитных мер, обсуждаемых в этом Домене, более подробно рассмотрены в Доменах 04 и 10.

Итак, команда ВСР выполнила этап инициирования проекта, получила поддеержку руководства, необходимые ресурсы, определила границы проекта, назначила членов команды ВСР. Также завершен этап BIA, т.е. Комитет провел оценку и анализ рисков, сформировал на основе полученных результатов отчет о реальном уровне риска, перед лицом которого стоит компания.

У Комитета ВСР уже есть схема, отображающая работу компании в целом, которая была разработана на этапе BIA. Работа компании глубоко проанализирована, определены критичные функции, которые обязательно должны выполняться постоянно, чтобы компания могла продолжать работу. Идентифицированы ресурсы, которые требуются этим функциям, рассчитаны значения MTD для отдельных ресурсов и самих функций. Если все это действительно сделано, можно считать этап BIA выполненным. Все работы, которые были сделаны до этого момента, относятся к фазе "оценки рисков" процесса разработки плана ВСР. Они были направлены на то, чтобы определить, насколько плохо будет компании в различных аварийных сценариях.

На этапе разработки стратегий восстановления, команда анализирует полученную ранее информацию с различных точек зрения. Теперь нужно определить, что необходимо компании, чтобы реально восстановить все важные для нее компоненты. BIA предоставляет исходную информацию для разработки стратегий восстановления каждого из компонентов. Бизнес-процессы компании всецело зависят от правильной реализации этих стратегий восстановления.

На данный момент, результаты BIA предоставлены руководству, руководство распределило ресурсы, необходимые для перехода к следующим этапам. Теперь Комитет ВСР должен разработать самые эффективные (в том числе с экономической точки зрения) механизмы восстановления, которые будут являться ответом на угрозы, выявленные на этапе BIA. Как вы помните, на этапе BIA команда рассчитывает потенциальный ущерб от каждой выяавленной угрозы. (Например, если недоступен офис компании, ее потери составляют $200 000 в день, если не работает соединение с сетью Интернет, компания несет убытки в размере $12 000 в час и т.д.). При выборе возможных решений по восстановлению, команда должна учитывать эти значения для анализа затрат и получаемых выгод в отношении каждого возможного решения, направленного на снижение уровня рисков компании.

На текущем этапе команда должна разработать стратегии восстановления, являющиеся набором заранее спланированных действий, которые необходимо будет выполнить в случае аварии или чрезвычайной ситуации. Звучит достаточно просто, но в действительности на этом этапе предстоит выполнить большой объем работы, сравнимый с проведением BIA.

В процессе BIA команда рассчитывает необходимое время восстановления (recovery times), которое должно соблюдаться при восстановлении различных критичных бизнес-функций и ресурсов, от которых зависят эти функции. Предположим, команда рассчитала, что компания будет терять $200 000 упущеной выгоды в день, если здание компании будет уничтожено или непригодно для работы. Теперь команда знает, что у компании есть около 5-6 часов на решение этой проблемы, иначе ей будет нанесен огромный финансовый ущерб. Это может означать, что компании нужна готовая к работе "горячая" площадка (hot site) или дополнительное здание (redundant facility). Это позволит компании восстановить работу за указанное время.
В чем разница между превентивными мерами и стратегиями восстановления? Превентивные механизмы внедряются для того, чтобы попытаться снизить вероятность аварии, а если авария все же произойдет, минимизировать потери от нее. Конечно, компания не может остановить торнадо, но она может перенести свой офис в другое здание, не находящееся на аллее торнадо в Канзасе. Компания не может остановить машину, которая в следующую секунду врежется в трасформаторную подстанцию, но она может заранее организовать свое электроснабжение с нескольких независимых подстанций.

Стратегии восстановления – это процессы, направленные на спасение компании после аварии. В состав этих процессов входят такие механизмы, как создание альтернативной площадки, внедрение процедур реагирования на чрезвычайные ситуации, активацию ранее внедренных превентивных механизмов.
После того, как команда определила сроки восстановления для отдельных бизнес-функций, операций и ресурсов, она должна определить механизмы и стратегии восстановления, необходимые для гарантированного восстановления и возобновления их работы в рамках расчитанных сроков. Команде следует разбить эти стратегии восстановления на следующие разделы:
  • Восстановление бизнес-процессов
  • Восстановление здания
  • Восстановление технической среды
  • Восстановление пользовательской среды
  • Восстановление данных


Бизнес-процесс – это набор взаимосвязанных шагов, направленных на выполнение определенной задачи. У бизнес-процесса есть точка начала и точка окончания, бизнес-процесс является повторяемым. Эти процессы содержат сведения о сервисах, ресурсах и операциях, предоставляемых компанией. Например, если клиент заказывает автомобиль через интернет-сайт автомобильной компании, компания должна выполнить следующий набор шагов:
  1. Проверить наличие автомобиля.
  2. Проверить местонахождения автомобиля, определить сроки его доставки.
  3. Сообщить клиенту стоимость и дату доставки.
  4. Принять информацию банковской карты клиента.
  5. Проверить и обработать платеж по банковской карте.
  6. Отправить клиенту чек и номер заказа для контроля его состояния.
  7. Отправить запрос на доставку по месту нахождения автомобиля.
  8. Получить автомобиль.
  9. Отправить счет в бухгалтерию.
Команда ВСР должна хорошо понимать эти шаги, выполняемые в рамках критичных для компании процессов. Эти сведения обычно оформляются в виде карты рабочего процесса (workflow document), в котором указаны роли и ресурсы, необходимые каждому процессу. Команда ВСР должна обладать следующей информацией о критичных бизнес-процессах:
  • Необходимые роли
  • Необходимые ресурсы
  • Механизмы на входе и выходе
  • Шаги рабочего процесса (workflow steps)
  • Требуемое время на выполнение
  • Взаимодействие с другими процессами
Эта информация позволит команде выявить угрозы и выбрать соответствующие защитные меры, необходимые для минимизации негативного воздействия в случае прерывания процесса.


Разрушения (disruption) могут быть трех основных типов: некритичные, критичные и катастрофические. Некритичные (nondisasters) – это нарушения работы отдельных сервисов, например, неисправности или сбои в работе оборудования. Решение по восстановлению может заключаться в восстановлении аппаратного и программного обеспечения или файлов данных. Критичные (disasters) – это события, приводящие к невозможности использования здания на день или более. Обычно это требует использования альтернативного здания для работы, восстановления программного обеспечения и данных с резервных копий, хранящихся вне основного здания (offsite copies). Альтернативное здание должно быть доступно компании все время, пока основное здание не будет отремонтировано и готово к использованию для работы компании. Катастрофические (catastrophe) – это основательные разрушения, не позволяющие рассчитывать на восстановление здания. Это требует наличия как быстрого временного решения, которым может быть альтернативная внешняя площадка, так и постоянного, но длительного решения, которым может являться постройка нового основного здания.

Аварии и катастрофы редко можно сравнить с некритичными ситуациями. Некритичные ситуации обычно могут быть решены простой заменой устройства или восстановлением файлов с резервной копии, хранящейся в том же здании (onsite backup). Команда ВСР должна продумать требования к внутреннему хранению резервных копий и принять осознанное решение. Команда должна определить, какое оборудование является критичным, рассчитать, на основе имеющейся статистики, среднее время между сбоями (MTBF – mean time between failures, наработка на отказ) и среднее время его ремонта (MTTR – mean time to repair), чтобы понять, когда потребуется ремонт устройства и когда оно полностью выйдет из строя, и потребуется его замена.
ПРИМЕЧАНИЕ. MTBF – это оценочное время жизни устройства, рассчитанное его производителем или третьей стороной. Значение MTBF нужно, чтобы знать примерные сроки, когда потребуется замена этого устройства. MTTR – это оценочное время ремонта устройства и его возвращения в работу. Эти концепции более подробно будут рассмотрены позднее в Домене 10.
Для более широкомасштабных аварий, воздействующих на основное здание, должно быть предусмотрено и доступно альтернативное здание. Обычно компании заключают договор с внешним поставщиком на получение такой услуги (альтернативного здания). Клиент платит ежемесячную абонентскую плату за возможность воспользоваться альтернативным зданием при необходимости, а когда такая необходимость возникает, оплачивает его использование и в кратчайшие сроки поставщик предоставляет его в распоряжение компании. Оплата за использование альтернативного здания может быть посуточной, либо почасовой. Использовать альтернативное здание достаточно дорого, поэтому такую услугу следует рассматривать как кратковременное решение.

Важно отметить, что большинство договоров на предоставление альтернативного здания не обещают предоставить компании какое-то конкретное здание или здание в конкретном месте, обычно они обещают предоставить компании здание в определенном районе, где расположено основное здание компании (или в другом районе, указанном в договоре). После катастрофы 11 сентября 2001 года, многие компании, имевшие офисы в Манхеттене, были очень удивлены, когда их поставщики предоставили им альтернативные офисы не в Нью-Джерси (где все было уже занято), а в Бостоне, Чикаго или Атланте. Это приводит к дополнительным сложностям для процесса восстановления, так как возникают вопросы логистики, перевозки людей и оборудования в незапланированное изначально место.

Существует три основных типа альтернативных зданий (офисов), которые компания может арендовать:
  • «Горячая» площадка (Hot site). Арендованное здание (офис), в котором все предварительно установлено, настроено и готово к работе. Чтобы начать работать в этом здании (офисе), компании нужно всего несколько часов. Там нет только некоторых ресурсов, актуальных данных, которые потребуется восстановить с резервных копий, и людей, которые будут обрабатывать эти данные. Установленное на этой площадке оборудование и системное программное обеспечение должно быть полностью совместимо с данными, которые будут восстановлены с резервных копий, должны быть исключены проблемы взаимодействия систем. Такие площадки являются хорошим выбором для компаний, которым нужны гарантии доступности площадки в любой момент, когда она потребуется, и гарантии восстановления своей работы в кратчайшие сроки. В большинстве случаев, для поддержки «горячих» площадок компанией выполняется ежегодное тестирование, в рамках которого проверяется, что площадка на должном уровне готова к работе. Это самый дорогой из всех трех вариантов альтернативных зданий. При выборе этого варианта могут возникнуть сложности в случае, если компании для работы требуется редко используемое или дорогостоящее программное обеспечение или оборудование.
ПРИМЕЧАНИЕ. Поставщик «горячей» площадки обычно предоставляет стандартное, наиболее часто используемое аппаратное и программное обеспечение, которое удовлетворит основную массу клиентов. Однако в этот список скорее всего не будет входить специализированное и нестандартное программное обеспечение, которое может использоваться у клиента.
  • «Теплая» площадка (Warm site). Арендованное здание (офис), в котором предварительно установлено и настроено только некоторое оборудование. Можно сказать, что «теплая» площадка – это обычная «горячая» площадка, на которой нет дорогого оборудования. Чрезвычайно дорого иметь в резерве постоянно готовое к использованию здание, в котором установлено и настроено все необходимое оборудование и компьютеры. Более дешевым вариантом является «теплая» площадка, являющаяся просто альтернативным зданием, в котором предварительно установлено некоторое оборудование. Это наиболее широко используемый вариант, поскольку он значительно дешевле «горячей» площадки и при этом обеспечивает возможность возобновления работы компании за не очень большое время. Также это может быть лучшим выбором для компаний, работа которых зависит от дорогостоящего или экзотического программного обеспечения или оборудования, поскольку после аварии они перевезут на эту площадку оборудование с основной площадки и установят на нем свое программное обеспечение. Вероятность нахождения поставщика, имеющего возможность предоставить постоянно готовую удаленную площадку, на которой установлен и готов к работе суперкомпьютер Cray, крайне низка. Однако существенным недостатком при выборе «теплой» площадки может быть отсутствие в договоре с поставщиком возможности проведения ее ежегодного тестирования, при этом у компании не будет уверенности в возможности возврата к работе за определенное, приемлемое для нее, время.
  • «Холодная» площадка (Cold site). Арендованное здание (офис), в котором есть только базовые компоненты, такие как электрическая проводка, кондиционирование воздуха, водопровод и т.п., но в нем нет никакого оборудования и дополнительных сервисов. Чтобы подготовить такую площадку к работе, могут потребоваться недели. На «холодных» площадках могут быть смонтированы стойки для оборудования, установлены столы, проложено «темное» оптоволокно (т.е. только кабель, без обеспечивающей передачу сигналов оптики и электроники), но клиенту потребуется привезти на эту площадку свое оборудование, настроить его и запустить в работу. Использование «холодной» площадки является самым дешевым вариантом, но для ее запуска в работу после аварии потребуется гораздо больше времени, чем в первых двух вариантах. «Холодные» площадки часто используются в качестве альтернативных зданий (офисов) для колл-центров и других служб, которым почти ничего перевозить не нужно, которые не требуют дорогого переоборудования и строительства.
ПРИМЕЧАНИЕ. Важно понимать, что перечисленные выше варианты площадок, предоставляются в виде услуг специализированными организациями (поставщиками). Для получения этой услуги, компания платит такой организации ежемесячную абонентскую плату. «Горячая» площадка (hot site) – это сервис по подписке. Резервная площадка (redundant site) – это принадлежащее самой компании здание (офис), которое компания поддерживает самостоятельно и никому не платит за него. Хотя резервная площадка также может быть «горячей», т.е. постоянно готовой к работе, нужно понимать разницу между этими понятиями: «горячая» площадка – сервис по подписке, резервная площадка – собственность компании.
Большинство компаний используют «теплые» площадки, на которых установлено лишь некоторое оборудование, например, дисковые и ленточные накопители, контроллеры и т.п. Не многие компании могут позволить себе «горячую» площадку, но при этом они не могут себе позволить и слишком длительные простои, поскольку это приведет к значительному ущербу. «Теплая» площадка может являться более долгосрочным решением по сравнению с «горячей» площадкой. Если компания все же решила использовать «холодную» площадку, она должна быть готова приостановить свою деятельность на 1-2 недели.

Ниже указаны ключевые различия между основными типами альтернативных площадок:

Преимущества «горячей» площадки
  • Готовность к работе уже через час
  • Высокая доступность
  • Хотя обычно используется в качестве кратковременного решения, может быть доступна и для более длительного использования
  • Существует возможность проведения ежегодного тестирования
Недостатки «горячей» площадки
  • Очень дорого
  • Возникают ограничения по выбору аппаратного и программного обеспечения
Преимущества «теплой» и «холодной» площадок
  • Менее дорогие
  • Доступны на более длительное время за меньшие деньги
  • Более удобно в случае использования специализированного или дорогостоящего программного обеспечения и оборудования
Недостатки «теплой» и «холодной» площадок
  • Доступны только через некоторое время
  • Нет возможности быстро начать работу на них
  • Обычно недоступна возможность периодического тестирования
Третичные площадки. На этапе проведения BIA, команда может выявить существование опасности того, что альтернативная (вторичная) площадка окажется недоступной, когда в ней возникнет необходимость. Это может потребовать создания третичной (второй альтернативной) площадки, которая будет использоваться в случае недоступности основной альтернативной (вторичной) площадки. Это своего рода «резервирование резервирования». Обычно это «план Б», на случай, если «план А» не сработает.
При использовании «горячей» площадки, ленты с резервными копиями и другие резервные носители должны периодически проверяться на оборудовании этой площадки, чтобы убедиться, что оборудование «горячей» площадки может читать данные с используемых носителей. Если используется «теплая» площадка, ленты и другие носители с резервными копиями следует приносить тестировать на основной площадке. Это различие вызвано тем, что при использовании компанией «горячей» площадки, она зависит от размещенного на ней оборудования и ей необходимо убедиться, что оно может работать с используемыми резервными носителями. При использовании «теплой» площадки, компания, вероятно, перенесет на нее оборудование со своей основной площадки, поэтому и тестировать резервные носители следует именно на нем.
Размещение альтернативной площадки. Альтернативное здание следует выбирать на существенном отдалении от основного здания, чтобы одна катастрофа не затронула сразу оба здания. Другими словами, нелогично создавать альтернативную площадку в нескольких километрах от основной, поскольку при реализации таких угроз, как торнадо, наводнение и т.п., альтернативная площадка может оказаться также подвержена воздействию той же угрозы и быть разрушена. При низкой и средней критичности рекомендуется расстояние между основным и альтернативным зданием не менее 25 километров; в случае высокой критичности рекомендуется расстояние 80-320 километров, что обеспечит достаточную защиту от региональных катастроф.


Другим подходом к организации резервного здания (офиса) является заключение соглашения о взаимной помощи (reciprocal agreement) с другой компанией. В рамках такого соглашения, компания А позволяет компании Б использовать свое здание, если компания Б пострадает от катастрофы, и наоборот. Это более дешевый вариант, но он не всегда лучший. Большинство компаний максимально использует пространство своего здания, а также свои ресурсы и вычислительные мощности. Позволить другой компании прийти и работать в том же здании, может оказаться губительным для обеих компаний. Организация полноценной работы двух компаний в одной сети и с одним оборудованием может оказаться крайне сложной задачей и привести к проблемам безопасности.

Вы можете позволить другой компании переехать в ваше здание и работать в нем, например, если генеральный директор этой компании – ваш друг, но как быть с остальными сотрудниками, которых вы не знаете? При этом у вас появится новая группа людей, которым, возможно, потребуется привилегированный или прямой доступ к вашим ресурсам в общей среде. Это другая компания может быть вашим конкурентом на рынке, поэтому многие сотрудники компании, которую вы приютили, могут относиться к вашей компании как к угрозе, а не как к спасителю, протявшему руку помощи попавшим в беду. При такой совместной работе, пристальное внимание следует уделять вопросам предоставления прав доступа и разрешений сотрудникам другой компании к критичным для вашей компании активам и ресурсам.

Соглашения о взаимной помощи хорошо работают только в некоторых областях деятельности, например, в области печати газет. Компаниям, работающим в этой области, требуются весьма специфичные технологии и оборудование, которые не предоставляются «по подписке». Руководители таких компаний следуют принципу «ты поможешь мне, я помогу тебе». Для компаний, работающих в большинстве других областей, такие соглашения, как правило, являются не более чем вторичным вариантом, «планом Б». Тем не менее, многие компании выбрали именно такое решение, что связано с его дешивизной, либо отсутствием иных вариантов.

Если компания решает принять участие в подобном двустороннем соглашении, ей нужно заранее решить ряд важных вопросов:
  • Как долго здание будет доступно компании, в случае необходимости?
  • Что потребуется для интеграции двух сред и их последующей поддержки?
  • Через какое время компания при необходимости сможет переместиться в это здание?
  • Какие могут возникнуть проблемы взаимодействия?
  • Какой объем ресурсов будет доступен компании при необходимости?
  • Как будут решаться разногласия и конфликты?
  • Как будет выполняться управление изменениями и конфигурациями?
  • Насколько часто можно проводить учения и тестирования?
  • Каким образом можно надежно защитить критичные активы обеих компаний?


Некоторые компании принимают решение о создании собственной резервной площадки (redundant site), которую они оборудуют и настраивают точно так же, как и свою основную площадку. Такая площадка принадлежит компании, и являются полным зеркальным отражением основной среды. Это один из самых дорогих вариантов резервирования здания, поскольку на резервной площадке должна постоянно и в полном объеме поддерживаться готовая к работе среда, которая в обычное время не используются в работе компании, она используется только в аварийных ситуациях, когда на нее перемещается работа компании. Но ее высокая стоимость является относительной. Если прерывание работы компании всего на несколько часов может привести к многомиллионным потерям, высокая стоимость резервной площадки будет полностью оправдана. Кроме того, для ряда компаний наличие резервной площадки является обязательным требованием, в таком случае дороговизна этого решения не принимается во внимание.

Другим типом резервной площадки является мобильная «горячая» площадка (rolling hot site). Она может быть реализована в задней части большого грузового автомобиля или в виде прицепа, который легко превращается в небольшое серверное помещение или рабочую область, в которой может быть организовано несколько рабочих мест. Такой грузовой автомобиль и прицеп заранее оснащен всем необходимым: электроэнергией, телекоммуникациями и системами, обеспечивающими обработку данных. Он может стоять на стоянке компании или в каком-либо другом месте. Похожим решением является небольшой сборный дом, который можно легко и быстро собрать. У многих военных организаций и крупных страховых компаний есть мобильные «горячие» площадки, на которых заранее установлено все необходимое оборудование, поскольку им часто требуется гибкость, позволяющая быстро перенести некоторые или все свои вычислительные мощности в другие места по всему миру в зависимости от того, где в этом возникает необходимость.

Другим вариантом для компаний является одновременное использование нескольких центров обработки данных (multiple processing centers). Компания может обладать десятком различных зданий, расположенных по всему миру, в которых установлено все необходимое оборудование и программное обеспечение, достаточное для переноса функций обработки данных из одного здания в другое всего за несколько секунд при возникновении необходимости. Такая технология может быть реализована как между зданиями одной компании, так и между зданием компании и зданием третьей стороны. Некоторые поставщики предлагают своим клиентам услуги такого рода. В этом случае, при возникновении прерывания процесса обработки данных в компании, все или некоторые из компонентов обработки могут быть быстро перемещены на серверы поставщика.

Компания должна понимать все возможные варианты организации альтернативных площадок, чтобы выбрать действительно наилучший для себя вариант, учитывающий реальные потребности бизнеса компании.

1 комментарий:

Анонимный комментирует...

что связано с его дешивизной, либо отсутствием иных вариантов.
дешевизной*