09:45 07.11.2011 |   976



Еще в июне компания Informatica включила в свою платформу коннектор для кластерной платформы с открытым кодом Hadoop, предназначенный для перемещения данных между кластерами Hadoop и другими хранилищами данных. Результатом развития этой технологии стал пакет HParser — анализатор неструктурированных данных, способный переводить их в более структурированный вид для использования в задачах, решаемых на Hadoop.

В HParser входит набор библиотек для разбора различных типов данных, от широко распространенных стандартных документов XML до специфических форматов HIPAA, который используется в медицинских  приложениях,  или ASN.1, часто применяемого для описания коммуникационных протоколов. Пакет поставляется в двух коммерческих  версиях,  HParser Industry Standards и HParser for Documents, и в бесплатной, распространяемой компанией Hortonworks. Эта компания была учреждена Yahoo в июне и на днях представила свой вариант дистрибутива Hadoop.

Аналитики высоко оценили появление HParser. В его состав входят графические инструменты разработки процедур разбора данных, что может значительно облегчить внедрение HParser и Hadoop в корпоративной среде.


Теги: Программное обеспечение