ЦЕРН модернизирует ИТ-инфраструктуру с помощью OpenStack и Puppet




Однако исследовательская организация сохранит приверженность магнитным лентам

09:37 20.06.2013  (обновлено: 17:39 02.07.2013)   |   1441 |  Микаэль Рикнес |  Служба новостей IDG, Лондон

Рубрика Технологии



Цель ЦЕРН заключается в том, чтобы повысить эффективность за счет движения в сторону частного облака, в котором инфраструктура и платформа будут предлагаться в качестве сервиса. Необходимо динамично менять характер использования инфраструктуры.

Европейский центр ядерных исследований (ЦЕРН) приступил к созданию инфраструктуры, которая должна обеспечить более гибкое управление данными Большого адронного коллайдера (БАК). Виртуализацию предполагается осуществлять за счет решений OpenStack, а управление конфигурацией организовать при помощи технологии Puppet.

Цель исследовательской организации заключается в том, чтобы изменить порядок оказания услуг ученым, работающим на Большом адронном коллайдере, который представляет собой 27-километровый круговой тоннель, расположенный на глубине 100 м на границе Франции и Швейцарии в районе Женевы.

ЦЕРН - ЦОД
Европейский центр ядерных исследований приступил к созданию ИТ-инфраструктуры, которая должна обеспечить более гибкое управление данными Большого адронного коллайдера

«Одна из задач, которую нам предстоит решить, заключается в существенном наращивании масштабов инфраструктуры при неизменном количестве персонала и неизменных расходах, – отметил руководитель проекта сетей распределенных вычислений БАК Иан Берд. – Конечно, мы можем покупать дополнительное оборудование при фиксированном бюджете, но увеличивать объем предоставляемых услуг при том же количестве сотрудников невозможно».

Однако такая возможность открывается, если изменить способы решения задач. Цель ЦЕРН заключается в том, чтобы повысить эффективность за счет движения в сторону частного облака, в котором инфраструктура и платформа будут предлагаться в качестве сервиса. Необходимо динамично менять характер использования инфраструктуры. Сейчас ускоритель выключен, поэтому нагрузка на ЦОД центра ядерных исследований совсем не та, что была в прошлом году, когда БАК функционировал.

«Возникают ситуации, когда пользователи хотят во второй половине дня получить аналитический кластер из 50 машин, который через некоторое время будет освобожден, – сообщил Берд. – И мы должны предоставлять такого рода услуги».

Платформа OpenStack была выбрана ЦЕРН как имеющая наибольшие шансы на успех. Популярность OpenStack добавляет ей очков и с точки зрения подбора персонала.

«Люди у нас меняются – далеко не со всеми заключены постоянные контракты, – пояснил Берд. – А нам нужны специалисты с опытом, да и работникам, обладающим необходимыми знаниями, впоследствии легче будет устроиться куда-то еще».

От заказного программного обеспечения, которое будет управлять кластером, в ЦЕРН решили отказаться в пользу типового решения Puppet.

«Когда мы начинали расширять кластер для БАК, сервисов Google и Amazon в их нынешних масштабах еще не существовало, – отметил Берд. – Много усилий пришлось приложить для организации мониторинга и управления конфигурацией, но пару лет назад мы решили отказаться от этого и перейти на решения, поддерживаемые ИТ-сообществом».

В качестве возможных решений рассматривалось программное обеспечение Chef и Puppet, но в конечном итоге предпочтение было отдано второму варианту, который оказался ближе к собственной управляющей модели ЦЕРН. Развертывание Puppet и OpenStack ведется параллельно.

Сегодня инфраструктура ЦЕРН распределена между 160 ЦОД различных размеров, расположенными в самых разных уголках мира.

«Одна из причин такого подхода заключается в том, что имеющийся в нашем распоряжении ЦОД не в состоянии удовлетворить потребности БАК в вычислениях, – указал Берд. – Другая же лежит в политической и социологической плоскости. На организацию вычислений нам выделяют деньги, но желательно, чтобы они были потрачены там же, где были выданы».

Собственный ЦОД и анонсированный недавно ЦОД в Будапеште образуют нулевой уровень, на следующем уровне находятся 11 ЦОД, расположенных в крупных национальных лабораториях, например, в лаборатории FermiLab в США. Последний уровень состоит по большей части из вычислительных ресурсов университетов.

В процессе адаптации OpenStack к потребностям ЦЕРН в распределенных вычислительных ресурсах организация поддерживает взаимодействие с объединением ЦОД.

«Если мы у себя в ЦЕРН запускаем OpenStack и другие наши центры распределенных вычислений также работают на платформе OpenStack, имеет смысл объединить эти облачные компоненты, – подчеркнул Берд. – Поэтому тем, кто работает под эгидой CERN, следует быть готовыми к переносу своих проектов, например, в FermiLab».

Системы хранения играют очень важную роль в деятельности ЦЕРН, и спрос на них весьма высок. Два основных детектора БАК – CMS и ATLAS – ежесекундно генерируют примерно 1 петабайт (или 1000 терабайт) данных. Детекторы отслеживают движение и измеряют энергию и заряды частиц, которые после столкновения в ускорителе разлетаются в разных направлениях. Впоследствии поток этих данных сокращается до нескольких сотен мегабайт в секунду, охватывающих наиболее интересные события, и обрабатывается конгломератом машин Linux. При этом на каждый детектор приходится 15 тыс. процессорных ядер.

В 2012 году было записано около 30 петабайт данных, собранных БАК. Данные кэшировались на диск, а затем переписывались на ленту. По словам Берда, в архиве, создание которого он назвал нетривиальным упражнением, сегодня находится около 100 петабайт данных. Из них примерно 70 петабайт поступило непосредственно от акселератора.

ЦЕРН - магнитная лента
Ленты сегодня сильно недооценивают, полагает Иан Берд

Сам Берд отдает предпочтение магнитным лентам, исходя из оценки трех основных факторов: стоимости, количества ошибок и энергопотребления.

Ленты по-прежнему стоят примерно в десять раз дешевле аналогичного пространства на диске. Сервисы хранения (например, Glacier в Amazon Web Services) обойдутся клиентам гораздо дороже. А количество ошибок, регистрируемых на лентах, крайне мало по сравнению с числом сбоев на дисках.

Нельзя забывать и об энергопотреблении, которое является серьезным ограничительным фактором. ЦОД в Будапеште был создан не потому, что ЦЕРН не хватало пространства хранения, а потому, что энергопотребление центра превысило разумные границы. Между тем, ленточные роботы потребляют гораздо меньше электроэнергии по сравнению с дисками.

«Ленты сегодня сильно недооценивают, – констатировал Берд. – На протяжении последних 15 лет магнитным лентам постоянно предрекали скорую кончину и их вытеснение дисками. Однако этого не произошло, и я не вижу причин для того, чтобы это случилось в ближайшем будущем. При работе с большими архивами конкурентов у лент просто нет».

Но для того чтобы ленты работали, ими нужно грамотно управлять.

«Вы не можете просто сбросить данные на ленты и хранить их в таком виде в течение последующих 30 лет, – подчеркнул Берд. – Поколения лент сменяют друг друга через каждые два-три года, поэтому необходимо переписывать информацию с лент старого поколения на новые носители. Кроме того, следует периодически проверять целостность хранимых на лентах данных».


Теги: