- Доступность сети и ресурсов
- Среднее время безотказной работы (MTBF)
- Среднее время восстановления (MTTR)
- Единая точка отказа
- Устройства хранения с прямым доступом (DASD)
- RAID-массивы
- Массив с неактивными дисками (MAID)
- Избыточный массив независимых лент (RAIT)
- Сети хранения данных (SAN)
- Кластеризация
- Grid-вычисления
- Резервное копирование
- Иерархическое управление носителями
- Планирование действий на случай непредвиденных ситуаций
- Мейнфреймы
Одним из основополагающих сервисов в триаде услуг безопасности, является доступность (двумя другими сервисами являются конфиденциальность и целостность). Важность доступности сети и ресурсов часто недооценивают, пока она не будет нарушена. Администраторы и инженеры должны выполнять эффективное резервное копирование информации и обеспечивать наличие избыточных систем. Это позволит сохранить возможность выполнения компанией наиболее критичных из своих функций, даже если возникнет авария или сбой.
Сеть должна надлежащим образом поддерживаться, что позволит обеспечить ее доступность всегда, когда она будет необходима. Например, правильно должен быть выбран тип кабелей в соответствии с требованиями используемой среды и технологий, длина непрерывных сегментов кабеля не должна превышать рекомендуемые значения. Старые кабели должны быть заменены более новыми, должна выполняться периодическая проверка возможных обрывов и неисправностей кабелей.
Большинство сетей используют технологию Ethernet, которая очень устойчива к сбоям. Token Ring также проектировался с учетом обеспечения отказоустойчивости, но он хорошо работает только тогда, когда все компьютеры, подключенные к этой среде, настроены и работают правильно. Если хотя бы одна сетевая карта настроена на использование другой скорости, отличающейся от скорости работы сетевых карт других компьютеров, подключенных к среде Token Ring, это может привести к нарушению работы всего кольца. Если две системы имеют одинаковые MAC-адреса, будет нарушена работа всей сети. Такие вопросы необходимо учитывать при поддержке существующей сети компании.
Аналогично выбору варианта уничтожения данных, при выборе решения для резервного копирования (и других решений, обеспечивающих доступность) необходимо сбалансировать уровень критичности восстановления информации в заданные сроки со стоимостью необходимого для этого решения (включая стоимость сопровождения такого решения).
- Избыточное оборудование, готовое для «горячей замены», сохраняет высокую доступность информации, обеспечивая наличие нескольких копий информации («зеркалирование») или достаточное количество дополнительной (избыточной) информации, позволяющей восстановить исходную информацию в случае ее частичной утраты (четность, коррекция ошибок). «Горячая замена» позволяет администратору заменять вышедший из строя компонент не останавливая работу системы и не прерывая доступность информации – при этом, обычно, несколько снижается производительность, но отключения системы не происходит.
- Отказоустойчивые технологии поддерживают доступность информации не только при сбоях отдельных накопителей информации, но даже при сбоях целых систем. Обеспечение отказоустойчивости является одним из самых дорогих среди возможных решений, оно оправдано только для самой критичной информации. В любых технологиях рано или поздно происходят различные сбои. Высокая стоимость отказоустойчивых решений может быть оправдана для компаний, которые понесут непоправимые потери (или многомиллионные убытки) от любого незапланированного, даже кратковременного простоя.
- Соглашения об уровне сервиса (SLA – Service level agreements) помогает поставщикам услуг, которыми могут быть как внутренние ИТ-службы, так и аутсорсинговые компании, определить оптимальный вариант технологий обеспечения доступности. На основании этого решения может быть определена стоимость услуг или бюджет ИТ. Заключение SLA с бизнесом не менее полезно и для самого бизнеса. Некоторые компании провели такого рода самоанализ, помогающий бизнесу понять реальную ценность его информации, но многие этого не сделали, и они вынуждены проходить через это упражнение каждый раз в процессе формирования бюджета своей внутренней ИТ-службы или внешней аутсорсинговой компании.
- Целостные операционные процедуры также необходимы для поддержания доступности. Наиболее надежное оборудование с максимальной избыточностью и отказоустойчивостью, предназначенное для восстановления систем в кратчайшие сроки, может оказаться пустой тратой денег, если операционные процедуры, обучение и непрерывное улучшение не являются частью операционной среды: одно случайное нажатие не на ту кнопку администратором может остановить работу самой надежной системы.
Среднее время безотказной работы (MTBF – Mean Time Between Failures) – это оценочная «продолжительности жизни» оборудования, которая рассчитывается производителем оборудования или третьей стороной. Значение MTBF нужно для того, чтобы приблизительно знать, когда устройство необходимо будет заменить. Это значение используется в качестве ориентира для оценки среднего времени работы компонентов системы до момента их выхода из строя. Значение MTBF рассчитывается на основе исторических данных, либо научных оценок производителей.
Компании, контролирующие реальные значения MTBF для используемых в своей среде устройств, могут выявить типы устройств, которые выходят из строя чаще, чем среднее время, обещанное их производителями, и принять соответствующие меры – например, заранее связаться с производителем и по гарантии заменить их на новые устройства до того момента, как они начнут массово выходить из строя.
Что это означает на самом деле? Значение MTBF может быть обманчиво. Оставим в стороне вопросы о том, являются ли правдоподобными предсказания производителей в отношении времени безотказной работы их устройств. Рассмотрим настольные компьютеры, на которых установлен один жесткий диск, для которого производитель определил MTBF равным 30000 часов. Разделим это время на количество часов в году: 30000 / 8760 = чуть более трех лет. Это говорит о том, что жесткий диск этой модели отработает около трех лет, после чего он выйдет из строя (в среднем). Оставим в стороне вопросы воздействия окружающей среды офиса, в котором находится компьютер – температура, влажность, удары и пролитый кофе. Установим в компьютер второй такой же жесткий диск. Теперь вероятность отказа удвоилась – теперь существует два шанса, что в течение трехлетнего периода возникнет неисправность жесткого диска в этом компьютере. Если экстраполировать этот подход к дата-центру компании, в котором работает тысяча жестких дисков, становится ясно, что бюджет на замену жестких дисков нужно выделять на каждый год, а также обеспечивать хранение избыточных копий данных для защиты важной информации.
Среднее время восстановления (MTTR – Mean Time To Repair) – это время, которое потребуется для возврата отремонтированного устройства обратно в работу. Для жестких дисков, работающих в дисковом массиве, в котором используется избыточное количество дисков, значением MTTR будет являться промежуток времени между моментом выхода жесткого диска из строя до момента, когда кто-то заметит это и заменит отказавший диск, а массив закончит перезапись информации на новый диск. Для жестких дисков в настольных компьютерах, для которых избыточность обычно не обеспечивается, значением MTTR является промежуток времени между моментом, когда пользователь, изрыгая проклятия, звонит в службу технической поддержки (Help Desk), и моментом, когда жесткий диск в компьютере заменен, на него установлена операционная система и необходимое программное обеспечение, а также восстановлены с резервных копий данные пользователя. В этом случае MTTR может измеряться днями. В случае незапланированной перезагрузки компьютера, MTTR будет равен времени, от момента сбоя системы до момента, когда она перезагрузилась, проверила состояние файловой системы, пользователь перезапустил все нужные ему приложения, они проверили целостность своих данных и возобновили обработку транзакций. Для качественного оборудования, на котором работает хорошо управляемая операционная система и программное обеспечение, это может быть всего несколько минут. Для обычных потребительских систем, не имеющих высокопроизводительных журналирующих файловых систем и баз данных, это могут быть часы и даже дни, если не сработают автоматические процедуры восстановления или «отката» и придется восстанавливать систему вручную.
- MTTR может относиться к ремонту компонентов или устройств или их замене, а также может быть связан с SLA с поставщиком.
- Если MTTR является слишком высоким для критичных устройств, следует использовать избыточность.
Единая точка отказа (single point of failure) создает много потенциальных рисков для сети, поскольку выход из строя одного устройства приводит к негативному влиянию на целый сегмент или даже всю сеть. Устройствами, которые могут быть единой точкой отказа, являются межсетевые экраны, маршрутизаторы, серверы доступа к сети (network access server), каналы T1, коммутаторы, мосты, концентраторы, серверы аутентификации (этот список можно продолжать и далее). Лучшей защитой от этого недостатка является надлежащее техническое обслуживание, регулярное резервное копирование, обеспечение избыточности и отказоустойчивости.
Между маршрутизаторами должно быть организовано несколько маршрутов, должны применяться динамические протоколы маршрутизации. При этом в случае отказа одного из маршрутизаторов, все оставшиеся маршрутизаторы будут проинформированы об изменении маршрута. Для соединений WAN, должна быть настроена функция "преодоления отказа" (failover), чтобы сохранить доступность ISDN даже в случае отказа WAN-маршрутизатора. Рисунок 10-1 иллюстрирует типовую среду для организации электронной коммерции, которая содержит избыточные устройства.
Рисунок 10-1. Каждое критичное устройство должно иметь избыточное дублирующее устройство для обеспечения гарантий доступности
RAID-массив (redundant array of independent disks - избыточный массив независимых дисков) обеспечивает отказоустойчивость дискового хранилища и может улучшить производительность системы. Избыточность и скорость обеспечивается разделением данных и их записью на несколько дисков, что позволяет нескольким дискам работать одновременно, увеличивая скорость чтения/записи информации. В RAID-массивах осуществляется контроль целостности записанных на них данных, он называется контролем четности (parity). Если один диск выходит из строя (нарушается целостность информации на нем), другие диски могут продолжить совместную работу и восстановить потерянные данные.
Для информации, которая должна быть постоянно доступна (т.е. для которой MTTR должен быть практически нулевым) и для которой неприемлемо существенное уменьшение производительности, должно быть организовано «зеркалирование» (RAID 1) или «дуплексирование». В обоих этих режимах операция записи выполняется одновременно (или почти одновременно) на несколько физических дисков. Различие между «зеркалированием» и «дуплексированием» состоит в том, что при «зеркалировании» два (или более) диска, на которые записываются данные, могут быть подключены к одному и тому же контроллеру, оставляя при этом в хранилище единую точку отказа, вызванную неисправностью самого контроллера; при «дуплексировании» используются два (или более) отдельных контроллеров. «Зеркалирование» и «дуплексирование» могут выполняться на нескольких устройствах хранения данных, физически удаленных друг от друга, что обеспечивает дополнительную степень отказоустойчивости.
Одно из преимуществ «зеркалирования» / «дуплексирования» заключается в том, что большинство операций чтения могут выполняться с помощью любой из имеющихся копий, потенциально позволяя увеличивать скорость чтения кратно количеству используемых в RAID-массиве устройств. RAID-массивы будут рассмотрены далее в этом разделе. Также, в этом разделе будут рассмотрены некоторые другие технологии, которые могут использоваться для предотвращения потери производительности или простоя систем, вызванных единой точкой отказа.
Устройство хранения с прямым доступом (DASD – Direct Access Storage Device) – это общий термин для устройств хранения с магнитными дисками, которые исторически использовались в средах мейнфреймов и миникомпьютеров. RAID-массив является одной из разновидностей DASD. Ключевое различие между устройствами с прямым доступом и последовательным доступом (SASD – Sequential Access Storage Device) заключается в том, что в устройстве с прямым доступом любой блок информации может быть быстро найден и прочитан, тогда как при последовательном доступе нужно будет пройти весь путь между текущей позицией и позицией, в который находится необходимый блок. Примером устройства хранения с последовательным доступом является стример. Однако некоторые ленточные накопители обладают минимальным количеством встроенных функций прямого доступа. Такие накопители работают с многодорожечными лентами и хранят в определенных областях на ленте и в кэше ленточного накопителя информацию о том, где начинаются основные разделы данных на ленте. Это позволяет ленточному накопителю быстрее находить начало дорожки и то место, с которого нужно начинать выполнение запрошенной операции. Это позволяет существенно сократить время перехода к нужным точкам и значительно повышает скорость работы таких ленточных накопителей. Но даже с учетом такого увеличения скорости, разница в производительности между устройствами последовательного и прямого доступа просто огромна.
Избыточный массив независимых дисков (RAID – Redundant array of independent disks) представляет собой технологию, используемую для обеспечения избыточности и/или повышения производительности. RAID-массив – это логический массив, который объединяет несколько физических дисков. При записи на RAID-массив информации, данные сохраняются на всех дисках, входящих в его состав. При этом для приложений и других устройств RAID-массив представляется в виде единого запоминающего устройства.
При записи данных на входящие в состав RAID-массива диски, используется техника чередования (striping). Эта техника позволяет разделить данные для их записи на несколько дисков. При этом скорость записи не снижается, а скорость чтения резко возрастает, т.к. данные загружаются одновременно с нескольких дисков.
Различные уровни RAID определяют схему хранения данных на физических дисках, входящих в состав RAID-массива. Некоторые уровни обеспечивают только повышение производительности, тогда как другие – обеспечивают и производительность, и отказоустойчивость. Если RAID-массив обеспечивает отказоустойчивость, применяется четность. Если диск выходит из строя, именно четность дает основные указания, которые позволяют RAID-массиву восстановить потерянные данные на новый жесткий диск. Четность используется для перезаписи информации на новый диск, обеспечивая таким образом восстановление всей информации. Большинство RAID-систем допускают «горячую» замену (hot-swapping) дисков – это означает, что диски в такой системе можно заменять непосредственно в процессе ее работы. При замене диска или добавлении нового диска, данные четности используются для восстановления данных на новый, только что добавленный, диск.
ПРИМЕЧАНИЕ. RAID уровня 15 на самом деле является комбинацией уровней 1 и 5, а RAID 10 представляет собой комбинацию уровней 1 и 0.Наиболее распространенными уровнями RAID, используемыми в наше время, являются уровни 1, 3 и 5. В Таблице 10-2 описаны все возможные уровни RAID.
Таблица 10-2. Различные уровни RAID
ПРИМЕЧАНИЕ. Самым часто используемым уровнем RAID является уровень 5.Ссылки по теме:
- The RAID Tutorial from the University of Massachusetts
- “A Case for Redundant Arrays of Inexpensive Disks (RAID),” by David A. Patterson, Garth Gibson, and Randy H. Katz
Относительной новинкой, выходящей на арену хранилищ среднего уровня (в сотни терабайт), является массив с неактивными дисками (MAID – Massive Array of Inactive Disks). MAID применяется в нише, в которой требуются хранилища данных, объемом до нескольких сотен терабайт, выполняющих в основном операции записи. Меньшие требования к хранилищу, как правило, не оправдывают повышенную стоимость и более сложную эксплуатацию MAID. А средние и большие хранилища, в которых постоянно используется значительная часть данных, не позволят получить реальных выгод от MAID, поскольку производительность MAID при таком использовании быстро снижается по мере увеличения потребности в активных накопителях выше уровня, который может предложить MAID. При максимально высоких требованиях к хранилищу, используемому в основном для записи, самым экономичным решением остаются стримеры, благодаря минимальной стоимости единицы объема хранящейся на ленте информации, а также снижению процента носителей информации (от общего их количества), которые в данный момент должны быть в режиме онлайн.
В дисковых массивах MAID отключается питание всех неактивных дисков, работает только дисковый контроллер. Когда приложение запрашивает данные, контроллер включает соответствующий диск (диски), передает данные, а затем отключает диск (диски). Если диски используются редко, потребление энергии значительно сокращается, а срок службы дисков может возрасти.
Избыточный массив независимых лент (RAIT – redundant array of independent tapes) похож на RAID, но в нем используются ленточные накопители вместо жестких дисков. Ленточное хранилище – это самый дешевый вариант для очень больших объемов данных, но очень медленный по сравнению с дисковым хранилищем. RAIT может быть подходящим решением для очень больших хранилищ, ориентированных на запись информации, для которых MAID оказывается не экономичен, и где желательна более высокая производительность, чем для обычных ленточных хранилищ, либо требуется более высокая надежность, чем может обеспечить ленточное хранилище.
Как и при использовании RAID 1, в RAIT данные параллельно записываются на несколько ленточных накопителей, с использованием или без использования избыточной ленты четности. Это обеспечивает высокую емкость при низкой стоимости, типичной для ленточных хранилищ, с более высокой скоростью передачи данных, чем для обычной ленты. Кроме того, RAIT может обеспечить целостность данных (опционально).
Сеть хранения данных (SAN – Storage Area Network) состоит из большого количества устройств хранения данных, связанных между собой высокоскоростной внутренней сетью и специальными коммутаторами, ориентированными на хранилища. Это создает структуру (fabric), которая позволяет пользователям подключиться и взаимодействовать в прозрачном режиме. Чтобы сделать запрос к файлу, пользователю не нужно знать, на каком сервере или ленточном накопителе он находится – программное обеспечение SAN найдет нужный файл и предоставит его пользователю.
Во многих инфраструктурах все данные «разбросаны» по сети и нахождение необходимой информации может оказаться сложной задачей. К тому же могут возникнуть сложности при настройке системы резервного копирования для организации копирования всех необходимых данных.
SAN обеспечивает избыточность, отказоустойчивость, надежность, резервирование и позволяет пользователям и администраторам взаимодействовать с SAN как с одной виртуальной сущностью. Поскольку сеть SAN (по которой передаются данные внутри SAN) отделена от обычных сетей передачи данных компании, ее производительность, надежность и гибкость не подвержена воздействию от других систем в основной сети компании.
В средних или небольших компаниях SAN обычно не используются. SAN предназначены для компаний, которые должны обрабатывают терабайты данных, и имеют достаточно денег для покупки такой техники. Поставщики хранилищ в настоящее время переживают период расцвета не только потому, что компании делают свой бизнес цифровым и должны где-то хранить данные, но также и потому, что требования законодательства обязывают компании хранить некоторые данные в течение определенного срока (в большинстве случаев, измеряемого годами). Представьте себе, что потребуется для хранения всего почтового трафика вашей компании в течение семи лет... А это только один из видов данных, которые должны быть сохранены.
ПРИМЕЧАНИЕ. Ленточные накопители, оптические запоминающие устройства и дисковые массивы могут быть подключены к SAN и работать совместно с ней.
Кластеризация (clustering) – это отказоустойчивая серверная технология, которая похожа на использование избыточных серверов, за исключением того, что каждый сервер, входящий в кластер, принимает участие в обработке поступивших запросов. Кластер серверов (server cluster) – это группа серверов, которые выглядят для пользователя как один логический сервер и могут управляться как единая логическая система. Кластеризация повышает доступность и масштабируемость. Она группирует различающиеся по своим физическим характеристикам системы, что повышает устойчивость к сбоям и улучшает производительность. Кластеры используют интеллектуальные модули для балансировки трафика. Пользователи, использующие кластер, даже не догадываются, что в разные моменты времени их запросы могут выполнять разные системы. Для пользователей все серверы, входящие в состав кластера, выглядят одним единым сервером. Кластеры могут также называться фермами серверов (server farm).
Если одна из систем в кластере выходит из строя, работа кластера продолжается, т.к. остальные системы просто берут на себя возросшую нагрузку, хотя это может привести к снижению производительности кластера. Использование кластеров более привлекательно, чем наличие второго (резервного) сервера, который простаивает, ожидая своего часа – выхода из строя основного сервера. Наличие простаивающего длительное время резервного сервера может являться слишком расточительным для компании. Решением этой проблемы будет использование кластеризаци, при которой все системы используются для обработки запросов и ни одна из них не простаивает, ожидая, что что-то сломается. Кластеризация является логическим продолжением избыточных серверов.
Кластеризация дает гораздо больше, чем просто повышение доступности. Она также обеспечивает балансировку нагрузки (каждая система получает только часть от общего числа запросов, полученных кластером), избыточность и отказоустойчивость (кластер продолжает работать, если одна из его систем выходит из строя).
Grid-вычисления (grid computing) являются другим вариантом распределенных вычислений с балансировкой нагрузки. Эта технология похожа на кластеры, но она реализуется слабо связанными между собой системами, которые могут произвольным образом присоединяться и покидать распределенную систему (grid). Большинство компьютеров не используют все свои вычислительные ресурсы полностью, они имеют значительные запасы процессорных ресурсов, которые большую часть времени в течение дня не используются. Это достаточно расточительно, поэтому умные люди придумали способ использования всех этих дополнительных вычислительных мощностей. Так же, как энергосистема обеспечивает потребителей электроэнергией по мере необходимости (если, конечно, вы не забываете оплачивать счета), компьютеры могут добровольно предоставлять свои дополнительные вычислительные ресурсы различным группам для различных проектов. Первым проектом, использующим grid-вычисления, был проект SETI (поиск внеземного разума), в рамках которого обычным пользователям сети Интернет предлагалось установить на свой компьютер программу, которая задействует свободные ресурсы этого компьютера для участия в сканировании Вселенной в поисках инопланетного разума, пытающегося говорить с нами.
Хотя это может быть похоже на работу кластера, центральный контроллер которого управляет распределением ресурсов и пользователей по узлам кластера, а также управляет самими узлами в кластере (в том же доверенном домене), при grid-вычислениях узлы не доверяют друг другу и не имеют централизованного управления.
Приложения, которые имеют техническую возможность работы с использованием grid-вычислений, могут воспользоваться экономическими преимуществами этой технологии – большой и дешевой вычислительной мощностью распределенной системы. Однако не следует использовать распределенные вычисления для обработки секретной информации, поскольку данные, загруженные на каждый из участвующих в вычислениях компьютер, не могут быть гарантировано защищены от владельца этого компьютера. Кроме того, поскольку различные члены распределенной системы имеют различный объем доступных ресурсов и не доверяют друг другу, grid-вычисления не подходят для приложений, которым требуется постоянное взаимодействие и скоординированное планирование рабочей нагрузки между отдельными модулями. Иными словами, критичные данные не должны обрабатываться с помощью систем grid-вычислений, кроме того, эта технология не подходит для выполнения приложений, чувствительных ко времени.
Наиболее подходящим вариантом для использования grid-вычислений являются такие проекты, как финансовое моделирование, моделирование погоды и землетрясений. Каждая из этих задач моделирования имеет невероятное количество входных данных и переменных, которые должны непрерывно обрабатываться. Этот подход также используется для попыток взлома различных алгоритмов, для генерации «радужных» таблиц (Rainbow Table).
ПРИМЕЧАНИЕ. «Радужные» таблицы содержат хэши всех возможных паролей. Это позволяет злоумышленникам взламывать пароли гораздо быстрее, чем при выполнении атаки по словарю или полного перебора возможных паролей.
Программное обеспечение резервного копирования и резервные аппаратные устройства являются двумя основными компонентами обеспечения доступности сети (эти вопросы подробно рассматривались в Доменах 04 и 07, поэтому здесь мы обсудим их очень кратко). Вы должны иметь возможность восстановить данные, если жесткий диск выйдет из строя, произойдет авария или чрезвычайная ситуация, либо будут повреждены отдельные системы.
Должна быть разработана политика, которая определяет, что подлежит резервированию, как часто и каким образом должно выполняться резервное копирование данных. Если важная информация хранится на рабочих станциях пользователей, Департамент эксплуатации должен разработать методику резервного копирования, которая будет включать в резервные копии содержимое определенных каталогов на рабочих станциях пользователей. Другим вариантом является разработка в компании политики, которая требует от пользователей хранить критичные данные только в предназначенных для этих целей сетевых папках, которые включаются в резервные копии. Резервное копирование может выполняться один или два раза в неделю, каждый день или раз в три часа. Компания самостоятельно определяет для себя наиболее оптимальные параметры этой процедуры. Чем чаще выполняется резервное копирование, тем больше требуется ресурсов для его выполнения и хранения созданных копий, поэтому необходимо соблюдать баланс между расходами на выполнение резервного копирования и рисками потенциальной потери данных.
Компания может решить, что выполнение автоматического резервного копирования с использованием специализированного программного обеспечения является более экономичным и эффективным вариантом, по сравнению с затратами времени специалистов ИТ на выполнение этой задачи. При этом должно контролироваться содержимое автоматически создаваемых резервных копий, чтобы убедиться, что копирование нужной информации прошло успешно. Это гораздо лучше, чем после пожара в серверной выяснить, что система автоматического резервного копирования была настроена на копирование только временных файлов.
Иерархическое управление носителями (HSM - Hierarchical Storage Management) обеспечивает непрерывное выполнение резервного копирования в режиме реального времени. Эта технология сочетает в себе использование жестких дисков совместно с более дешевыми и медленными оптическими и ленточными накопителями. Система HSM динамически управляет хранением и восстановлением файлов, которые копируются на различающиеся по скорости и стоимости носители информации. Часто используемые данные хранятся на более быстрых носителях информации, а редко используемые – на медленных (в т.ч. последовательных (near-line)) устройствах, как показано на Рисунке 10-2. Хранилище может включать в себя такие носители информации, как оптические диски, магнитные диски и ленты. Вся эта функциональность, включая выбор носителя информации, работает в фоновом режиме без необходимости участия пользователя.
Рисунок 10-2. HSM обеспечивает экономичный и эффективный способ хранения данных
HSM работает в соответствии с настройками, основываясь на компромиссе между затратами на хранение и доступностью информации. Она переносит содержимое редко используемых файлов на более медленные и более дешевые устройства хранения, оставляя «заглушку», которая выглядит для пользователя как обычный файл, содержащий полные данные перенесенного файла. Когда пользователь или приложение обращается к заглушке, HSM использует записанную в ней информацию, чтобы найти реальное местоположение нужных данных и извлечь их прозрачно для пользователя.
Эта технология была создана для экономии денег и времени. Хранить все данные на жестком диске может быть слишком дорого. Если большую часть данных хранить на лентах, слишком много времени будет занимать их восстановление в случае необходимости. Поэтому HSM обеспечивает сбалансированный подход, оперативно предоставляя пользователю нужные ему данные. При этом администратору не нужно искать ленты или оптические диски, на которых они сохранены.
Технологии полного, инкрементального и дифференциального резервного копирования данных были рассмотрены в Домене 07, там же было рассмотрено необходимое для этих целей программное и аппаратное обеспечение. В резервные копии должны включаться операционные системы и приложения, а также конфигурационные файлы. В большинстве компаний все системы подключены к сети, а в сетевых устройствах также могут происходить сбои и потери данных. Для сетевого устройства потеря данных обычно означает утрату конфигурационных файлов (что приведет к тому, что сетевое устройство не сможет даже загрузиться), либо замену на конфигурацию «по умолчанию» (что позволит сетевому устройству загрузиться, но выполнять свои функции оно все равно не сможет). Поэтому резервное копирование конфигурационных файлов сетевых и других устройств (например, телефонных систем), используемых в среде, также необходимо.
ПРИМЕЧАНИЕ. Для сохранения конфигурационных настроек сетевых устройств часто используются серверы TFTP. Однако TFTP – небезопасный протокол, а некоторые сетевые настройки содержат критичную информацию, для которой должна быть обеспечена конфиденциальность. Кроме того, возможны скоординированные атаки на сетевые устройства, загружающие свои конфигурационные файлы с сервера TFTP. Для этого атакующий вызывает сбой сетевого устройства, предварительно взломав сервер TFTP и внеся изменения в конфигурационные файлы. При этом сетевое устройство перезагрузится и получит вредоносные настройки. Поэтому следует искать альтернативы TFTP.
Когда случается инцидент, требуется больше, чем просто знать, как восстановить данные из резервной копии. Необходимы подробные процедуры, описывающие действия по сохранению доступности критичных систем и гарантирующие продолжение их функционирования и обработки данных. Кризисное управление (contingency management) определяет, что нужно делать во время и после инцидента. Должны быть документированы и доступны всему персоналу Департамента эксплуатации действия, которые необходимо предпринять для реагирования на чрезвычайную ситуацию, поддержки непрерывности выполнения операций, учитывающие возможность возникновения крупных аварий. Такие документы должны храниться, как минимум, в трех местах: оригинал – на основной площадке, копия – также на основной площадке, но в защищенном несгораемом сейфе, а еще одна копия – на территориально удаленной площадке.
Планам действий в непредвиденных ситуациях (contingency plans) не следует доверять, пока они не были проверены. Компания должна проводить учения для того, чтобы сотрудники в полной мере осознали свои обязанности и поняли, как их выполнять. Кроме того, нужно решить вопрос о порядке поддержания этих планов в актуальном состоянии. По мере внесения изменений в сетевую среду компании, должны актуализироваться и планы по ее спасению в случае аварии.
Хотя в безопасности часто считаются синонимами термины «планирование действий в непредвиденных ситуациях» (contingency planning) и «планирование непрерывности бизнеса» (business continuity planning), очень важно понимать реальную разницу между ними. BCP рассматривает вопрос – как сохранить компанию в бизнесе после катастрофы. Здесь речь идет о выживании компании и обеспечении возможности продолжения выполнения критически важных функций даже после катастрофы. Планы действий в непредвиденных ситуациях рассматривают вопросы по борьбе с менее значительными инцидентами, которые не квалифицируются как катастрофы (например, отключение электроэнергии, сбой сервера, отключение связи с сетью Интернет, сбой программного обеспечения и т.п.). Важно, чтобы компания была готова как к крупным, так и к менее значительным проблемами, которые могут произойти рано или поздно.
Основная часть рассмотренного ранее материала была посвящена системам низкого (настольные компьютеры, ноутбуки, рабочие станции) и среднего (серверы) уровня. Однако мейнфреймы (mainframe) по-прежнему используются, и, по всей видимости, будут использоваться еще некоторое время. Различия между мейнфреймом и мощным сервером, подключенным к SAN, сокращаются, но определенные атрибуты пока продолжают оставаться отличием мейнфрейма.
Мейнфреймы обеспечивают высокую надежность и доступность, причем реализовано это не за счет их аппаратной архитектуры, а за счет очень консервативных (и, следовательно, очень дорогих) инженерных решений. Разработчики мейнфреймов тратят огромные деньги на проведение исследований и сложной разработки, чтобы сделать системы нижнего уровня максимально быстрыми и с максимальным количеством функций обеспечения надежности, что всегда является недостатком низкоуровневых систем. Побочным эффектом этого являются высокие инвестиции в качество программного обеспечения (в т.ч. в операционную систему и приложения), чтобы данные, полученные в результате обработки в мейнфрейме, имели тенденцию к большей точности, чем при обработке обычным программным обеспечением на стандартных серверах.
Учитывая повышенную надежность, мейнфреймы лучше подходят для обработки критически важных данных, которые должны быть всегда доступны.
Существует ключевое различие в аппаратном обеспечении между мейнфреймами и даже самыми мощными из систем среднего уровня: мейнфрейм аппаратно спроектирован, в первую очередь, для массового ввода/вывода. Мощность процессоров увеличилась в миллион раз за последние 25 лет, но возможности ввода/вывода улучшились на порядки меньше. Это позволяет мейнфреймам, особенно сегодня, когда они получили огромные преимущества за счет современных процессоров, одновременно запускать огромное количество процессов, без их простоя в ожидании завершения операций ввода/вывода. Даже самые мощные современные компьютеры могут одновременно выполнять только небольшую часть требовательных к данным процессов, чтобы «бутылочное горлышко» в виде операций ввода/вывода не приводило к простою компьютера. Это делает мейнфреймы не-процессо-специфичными (какими могут быть сверхбыстрые дешевые современные компьютеры), поэтому они являются отличными платформами, обрабатывающими большие объемы данных. Мейнфреймы имеют огромную процессорную мощность, скрытую в их процессорах для фронтальных интерфейсов (которые поддерживают взаимодействие с пользователями, не отвлекая на это центральный процессор), процессорах ввода/вывода (которые перемещают данные и работают с дисками и ленточными накопителями, не загружая центральный процессор), а также сетевых процессорах (которые эффективно перемещают данные из сети и в сеть, также без загрузки центрального процессора). Вся эта «скрытая» вычислительная мощь требует использования соответствующего оборудования, что обуславливает высокую стоимость мейнфреймов.
Еще одним преимуществом в обеспечении надежности мейнфреймов является то, что они не требуют большого объема работ для своей поддержки. По сравнению с регулярным выпуском патчей, которые нужно ставить на большое количество систем нижнего уровня, регулярные патчи для мейнфреймов выпускаются значительно реже, а количество исправлений в каждом выпуске намного меньше.
Другим классическим отличием между мейнфреймом и системой среднего уровня или персональным компьютером является пользовательский интерфейс. В наше время мейнфреймы чаще выполняют пакетную обработку, а не работу в интерактивном режиме. В отдельных случаях (хотя эта практика сокращается) они принимают запросы от пользователей (через терминалы мейнфрейма) в виде заданий через Remote Job Entry (RJE).
Более принципиальным различием между мейнфреймами и другими типами систем, предлагающим интересные возможности, является то, что начальная загрузка мейнфрейма (IPL) может настроена на различные системы при каждой загрузке. Это позволяет обеспечить обратную совместимость новых процессоров со старыми операционными системами и дает компаниям возможность сохранить в течение многих лет эффективность произведенных в программное обеспечение инвестиций. Для обычного компьютера или системы среднего уровня очень старое программное обеспечение не может быть использовано. Мейнфреймы первыми начали широкомасштабно использовать виртуализацию, позволившую одному физическому мейнфрейму (который может состоять из нескольких банков памяти, накопителей информации и процессоров, которые в наше время могут даже добавляться динамически) представляться в виде нескольких независимых компьютеров, со строгим разделением среди своих нескольких операционных сред, совместным использованием общих ресурсов физического менфрейма, в соответствии с настройками, установленными системным администратором.
Суперкомпьютеры можно рассматривать как мейнфреймы особого класса. В их архитектуре много общего. Но если мейнфреймы предназначены для выполнения очень больших объемов общей обработки, суперкомпьютеры оптимизированы для выполнения чрезвычайно сложной централизованной обработки (что также требует огромных возможностей ввода/вывода, реализованных в архитектуре мейнфрейма). Несколько процессоров мейнфреймов распределяют между собой нагрузку от выполнения очень большого числа обычных процессов. Суперкомпьютеры же выполняют большое число очень высоко распараллеленных копий конкретного приложения, работающего в режиме реального времени, либо очень небольшое число чрезвычайно сложных научных алгоритмов использующих огромные объемы данных одновременно.
Комментариев нет:
Отправить комментарий