Спираль ДНК вместо магнитной ленты

В Microsoft уверены, что разрабатываемые в корпорации ДНК-хранилища однажды смогут найти применение в корпоративных центрах обработки данных.

В корпорации Microsoft, судя по всему, утвердились в планах предложить в трехлетний срок коммерчески доступную систему хранения данных на основе ДНК.

Об опытном проекте разработки решения для архивного хранения данных на ДНК было объявлено еще в прошлом году. Согласно описанию, это решение обеспечит возможность «уместить всю информацию большого дата-центра в объеме нескольких кубиков сахара или все общедоступные данные Интернета — в объеме обувной коробки».

«Именно это обещает технология ДНК-хранения в том случае, когда ученые сумеют ее масштабировать и преодолеют некоторые технические сложности», — сообщалось тогда в официальном блоге Microsoft.

В самой корпорации о ходе соответствующего исследования ничего не сообщается. Но в публикации на сайте MIT Technoogy Review Даг Кармин, архитектор исследовательского подразделения Microsoft, сообщил, что в корпорации рассчитывают «в трехлетний срок создать предкоммерческую систему для узкоспециальных применений, которая будет хранить некоторый объем информации в одном из наших центров обработки данных».

Кармин характеризует разработку как систему размером с большой копировальный аппарат Xerox образца 1970-х годов, способную записывать данные на очень маленькой скорости, — всего около 400 байт/с. Как признает специалист Microsoft, чтобы она смогла конкурировать с ленточными накопителями и другими решениями для архивного хранения, скорость записи необходимо будет увеличить не меньше чем до 100 Мбайт/с.

Доцент Вашингтонского университета Луис Энрике Сезе и научный сотрудник Ли Органик готовят ДНК с цифровыми данными для секвенирования, посредством которого будут извлечены записанные ранее файлы.
Источник: University of Washington

Наталья Ежкова, директор по исследованиям IDC, говорит, что при нынешних гигантских темпах роста объемов данных потребность в информационных носителях на основе ДНК станет крайне насущной уже в ближайшие 10-15 лет: «Сейчас единственный способ справляться — это повышать эффективность методов оптимизации хранения данных, в том числе компрессии и дедупликации. Они уже сейчас высокоэффективны, именно благодаря этому потребности в хранении частично удовлетворяются, но в долгосрочной перспективе определенно понадобится нечто иное».

В частности, некоторые медицинские данные необходимо хранить в течение всей жизни пациента, есть также требующие многолетнего хранения законы, бухгалтерские записи для аудиторских и судебных нужд. По мере развития средств аналитики все больше компаний находят способы извлекать полезную для маркетинга информацию из архивных данных по клиентам и продажам. Растут объемы видеозаписей, снимков и аудиофайлов, созданных с помощью смартфонов и сохраняемых в облаке.

Исследователи Microsoft и Вашингтонского университета разработали новый принцип кодирования длинных двоичных последовательностей в виде азотистых оснований ДНК — аденина, гуанина, тимина и цитозина. Цифровые данные разбиваются на фрагменты и сохраняются путем синтеза огромного количества молекул ДНК, которые затем можно высушить для долговременного хранения.

Для доступа к хранимым данным в последовательностях ДНК дополнительно кодируются координаты размещения информации. Поиск необходимых индексов осуществляется с помощью полимеразной цепной реакции — метода, широко применяемого в молекулярной биологии.

Теоретически в одном миллиметре ДНК можно сохранить около экзабайта информации — это на восемь порядков больше по сравнению с магнитной лентой. К тому же хранилища на базе ДНК никогда не устареют: как пишут исследователи в докладе, «пока существует жизнь на основе ДНК, будут веские причины считывать из нее информацию».

Провайдеры облачных сервисов и гипермасштабных вычислительных сред постоянно ищут новые способы сохранения все больших объемов данных; по мнению Ежковой, именно в этих областях ДНК-хранилища первоначально найдут применение. Среди вероятных претендентов на использование нового информационного носителя облачные сервисы архивного хранения данных, например Amazon Glacier и Google Cloud Platform.

«Речь идет о компромиссе между скоростью и возможностью экономично хранить гигантские объемы информации редкого доступа на протяжении полувекового или еще более длительного срока, — говорит Ежкова. — Вполне вероятно, что исследования в области ДНК-хранения ведутся также в Amazon и Google, хотя соответствующих публичных заявлений в этих компаниях не делали».

При всей перспективности ДНК-хранения существует ряд проблем, которые нужно решить, чтобы такие системы архивации появились в дата-центрах. Например, есть проблема совместимости с существующими приложениями и оборудованием. Но если ее удастся преодолеть, прорыв будет просто колоссальным, уверены аналитики.

Согласно результатам исследования IDC Digital Universe, объемы цифровых данных в мире удваиваются каждые два года, начиная с 2005-го. По прогнозу, с 2005-го по 2020 год общий объем созданных данных вырастет в 300 раз, до 40 тыс. экзабайт, или более 5,2 тыс. Гбайт в расчете на каждого жителя Земли.

При этом лишь ничтожная часть цифровой вселенной на сегодня изучена с точки зрения аналитической ценности. Как прогнозируют в IDC, к 2020 году до 33% всех цифровых данных будут содержать информацию, которая может оказаться ценной после анализа. К тому же сроку почти 40% всех цифровых данных будут храниться или обрабатываться в облаке.

В прошлом году исследователи из Microsoft и Вашингтонского университета сумели сохранить 200 Мбайт данных на синтезированных спиралях ДНК. Ученые подчеркивают, что, помимо самого объема данных, которые удалось закодировать в ДНК и считать из нее, важно то, сколько места заняла информация. По словам Кармина, после кодировки данные в пробирке уместились «в объеме гораздо меньшем, чем кончик грифеля карандаша».

Период полураспада ДНК-хранилищ (срок, через который половина связей между цепочками нуклеотидов разрушится) составляет 500 лет. Для сравнения, срок службы магнитной ленты, жестких дисков, оптических дисков и флеш-памяти NAND гораздо короче — от пяти лет до нескольких десятилетий.

Между тем доля цифровых данных, которые требуется защищать, растет очень быстро: если в 2010 году защищать нужно было меньше трети всей информации, то в 2020-м, как прогнозируют в IDC, этот показатель составит более 40%.

«Учитывая развитие Интернета вещей и аналитики, объемы данных, подлежащих хранению, будут и дальше неуклонно расти, — добавляет Ежкова. — Вопрос о том, как обеспечить хранение всей генерируемой информации, постоянно обсуждается в отрасли».