Европейский центр ядерных исследований (ЦЕРН) приступил к созданию инфраструктуры, которая должна обеспечить более гибкое управление данными Большого адронного коллайдера (БАК). Виртуализацию предполагается осуществлять за счет решений OpenStack, а управление конфигурацией организовать при помощи технологии Puppet.
Цель исследовательской организации заключается в том, чтобы изменить порядок оказания услуг ученым, работающим на Большом адронном коллайдере, который представляет собой 27-километровый круговой тоннель, расположенный на глубине 100 м на границе Франции и Швейцарии в районе Женевы.
Европейский центр ядерных исследований приступил к созданию ИТ-инфраструктуры, которая должна обеспечить более гибкое управление данными Большого адронного коллайдера |
«Одна из задач, которую нам предстоит решить, заключается в существенном наращивании масштабов инфраструктуры при неизменном количестве персонала и неизменных расходах, – отметил руководитель проекта сетей распределенных вычислений БАК Иан Берд. – Конечно, мы можем покупать дополнительное оборудование при фиксированном бюджете, но увеличивать объем предоставляемых услуг при том же количестве сотрудников невозможно».
Однако такая возможность открывается, если изменить способы решения задач. Цель ЦЕРН заключается в том, чтобы повысить эффективность за счет движения в сторону частного облака, в котором инфраструктура и платформа будут предлагаться в качестве сервиса. Необходимо динамично менять характер использования инфраструктуры. Сейчас ускоритель выключен, поэтому нагрузка на ЦОД центра ядерных исследований совсем не та, что была в прошлом году, когда БАК функционировал.
«Возникают ситуации, когда пользователи хотят во второй половине дня получить аналитический кластер из 50 машин, который через некоторое время будет освобожден, – сообщил Берд. – И мы должны предоставлять такого рода услуги».
Платформа OpenStack была выбрана ЦЕРН как имеющая наибольшие шансы на успех. Популярность OpenStack добавляет ей очков и с точки зрения подбора персонала.
«Люди у нас меняются – далеко не со всеми заключены постоянные контракты, – пояснил Берд. – А нам нужны специалисты с опытом, да и работникам, обладающим необходимыми знаниями, впоследствии легче будет устроиться куда-то еще».
От заказного программного обеспечения, которое будет управлять кластером, в ЦЕРН решили отказаться в пользу типового решения Puppet.
«Когда мы начинали расширять кластер для БАК, сервисов Google и Amazon в их нынешних масштабах еще не существовало, – отметил Берд. – Много усилий пришлось приложить для организации мониторинга и управления конфигурацией, но пару лет назад мы решили отказаться от этого и перейти на решения, поддерживаемые ИТ-сообществом».
В качестве возможных решений рассматривалось программное обеспечение Chef и Puppet, но в конечном итоге предпочтение было отдано второму варианту, который оказался ближе к собственной управляющей модели ЦЕРН. Развертывание Puppet и OpenStack ведется параллельно.
Сегодня инфраструктура ЦЕРН распределена между 160 ЦОД различных размеров, расположенными в самых разных уголках мира.
«Одна из причин такого подхода заключается в том, что имеющийся в нашем распоряжении ЦОД не в состоянии удовлетворить потребности БАК в вычислениях, – указал Берд. – Другая же лежит в политической и социологической плоскости. На организацию вычислений нам выделяют деньги, но желательно, чтобы они были потрачены там же, где были выданы».
Собственный ЦОД и анонсированный недавно ЦОД в Будапеште образуют нулевой уровень, на следующем уровне находятся 11 ЦОД, расположенных в крупных национальных лабораториях, например, в лаборатории FermiLab в США. Последний уровень состоит по большей части из вычислительных ресурсов университетов.
В процессе адаптации OpenStack к потребностям ЦЕРН в распределенных вычислительных ресурсах организация поддерживает взаимодействие с объединением ЦОД.
«Если мы у себя в ЦЕРН запускаем OpenStack и другие наши центры распределенных вычислений также работают на платформе OpenStack, имеет смысл объединить эти облачные компоненты, – подчеркнул Берд. – Поэтому тем, кто работает под эгидой CERN, следует быть готовыми к переносу своих проектов, например, в FermiLab».
Системы хранения играют очень важную роль в деятельности ЦЕРН, и спрос на них весьма высок. Два основных детектора БАК – CMS и ATLAS – ежесекундно генерируют примерно 1 петабайт (или 1000 терабайт) данных. Детекторы отслеживают движение и измеряют энергию и заряды частиц, которые после столкновения в ускорителе разлетаются в разных направлениях. Впоследствии поток этих данных сокращается до нескольких сотен мегабайт в секунду, охватывающих наиболее интересные события, и обрабатывается конгломератом машин Linux. При этом на каждый детектор приходится 15 тыс. процессорных ядер.
В 2012 году было записано около 30 петабайт данных, собранных БАК. Данные кэшировались на диск, а затем переписывались на ленту. По словам Берда, в архиве, создание которого он назвал нетривиальным упражнением, сегодня находится около 100 петабайт данных. Из них примерно 70 петабайт поступило непосредственно от акселератора.
Ленты сегодня сильно недооценивают, полагает Иан Берд |
Сам Берд отдает предпочтение магнитным лентам, исходя из оценки трех основных факторов: стоимости, количества ошибок и энергопотребления.
Ленты по-прежнему стоят примерно в десять раз дешевле аналогичного пространства на диске. Сервисы хранения (например, Glacier в Amazon Web Services) обойдутся клиентам гораздо дороже. А количество ошибок, регистрируемых на лентах, крайне мало по сравнению с числом сбоев на дисках.
Нельзя забывать и об энергопотреблении, которое является серьезным ограничительным фактором. ЦОД в Будапеште был создан не потому, что ЦЕРН не хватало пространства хранения, а потому, что энергопотребление центра превысило разумные границы. Между тем, ленточные роботы потребляют гораздо меньше электроэнергии по сравнению с дисками.
«Ленты сегодня сильно недооценивают, – констатировал Берд. – На протяжении последних 15 лет магнитным лентам постоянно предрекали скорую кончину и их вытеснение дисками. Однако этого не произошло, и я не вижу причин для того, чтобы это случилось в ближайшем будущем. При работе с большими архивами конкурентов у лент просто нет».
Но для того чтобы ленты работали, ими нужно грамотно управлять.
«Вы не можете просто сбросить данные на ленты и хранить их в таком виде в течение последующих 30 лет, – подчеркнул Берд. – Поколения лент сменяют друг друга через каждые два-три года, поэтому необходимо переписывать информацию с лент старого поколения на новые носители. Кроме того, следует периодически проверять целостность хранимых на лентах данных».