ABBYY учит документооборот понимать тексты

Compreno, технология анализа текстов на естественных языках, поможет использовать в бизнесе неструктурированные данные

14:22 26.03.2015 (обновлено: 13:29 21.12.2017) | 22291 | Дмитрий Гапотченко | Computerworld Россия

25 марта в ходе ABBYY Data Capture Forum 2015 компания ABBYY официально представила новое направление своей деятельности в корпоративном сегменте, основанное на технологии Compreno.

Корпоративное направление дает ABBYY 60% российского оборота и 80% — зарубежного. В 2014 году бизнес в этой области вырос на 19% (в рублевом выражении). Приблизительно по 25% приходится на госсектор и финансовые учреждения, остальные доходы примерно в равных долях обеспечивают энергетика, нефтегазовый сектор, промышленность, образование, страхование и телекоммуникационные компании.

Одно из «ударных» направлений деятельности ABBYY — потоковый ввод данных в системы корпоративного управления документооборотом; как отмечают аналитики IDC, по результатам 2013 года компании принадлежит здесь около 60% российского рынка. Применение этих систем, утверждает Дмитрий Шушкин, директор по корпоративным проектам ABBYY Россия, экономически выгодно для организаций, у которых хотя бы три сотрудника заняты ручным вводом данных. Показательно, что у такого рода проектов очень короткий срок окупаемости — от трех месяцев, поскольку скорость ввода данных растет от трех до десяти раз, количество ошибок уменьшается в такой же пропорции, а суммарные затраты на обработку информации падают вдвое.

При этом все чаще корпоративному сектору приходится иметь дело с неструктурированными данными, объем которых растет лавинообразно (90% накопленной в мире информации, как полагают в IDC, получено за последние два года), и в обозримом будущем эта тенденция будет только усиливаться: если сейчас в мире существует около 5 тыс. экзабайт данных, то к 2020 году ожидается более 35 тыс. экзабайт, из которых 80%, как и сейчас, будут неструктурированными.

Для работы с ними в ABBYY предлагают свою технологию «понимания и анализа текстов на естественных языках», получившую название Compreno. Как отметил Максим Михайлов, директор департамента ABBYY Compreno, новая разработка компании, в отличие от систем, основанных на статистике и правилах, выполняет полный семантико-синтаксический анализ текста, создает его семантическое представление, извлекает из него «сущности, события и связи между ними». В частности, технология способна определять по контексту смысл многозначных слов, восстанавливать пропущенные слова, определять связи между объектом, выраженным существительным, и заменяющим его местоимением и т. д.

На базе Compreno в данный момент реализовано три решения в виде комплектов разработчика: Intelligent Search SDK, InfoExtractor SDK и Smart Classifier SDK, два последних компания представила в середине марта на конференции AIIM в США. В дальнейшем, как полагает Михайлов, технология будет «все более отчуждаема» и ее можно будет оформить в коробочный продукт.

Сейчас ABBYY Compreno существует в русской и английской версиях (правда, двуязычные тексты она пока обрабатывать не в состоянии). За год, прошедший с анонса Intelligent Search SDK, компания начала 15 проектов по внедрению Compreno, из них пять — в США, остальные — в России, где ведутся работы в Госдуме, «КЭС Холдинге» и ряде других организаций. В компании надеются, что рост корпоративного направления за счет проектов с использованием Compreno составит 20-30% уже в ближайшие годы.

Теги:

Abbyy

СЭД

На ту же тему:

Docflow в поисках тематики

Проект с двадцатилетней историей отказался от лозунга документооборота в пользу «цифрового предприятия».

Docflow: Риски благоприятного периода

Конференция Docflow 2015 ознаменовала «совершеннолетие» рынка систем управления контентом предприятия (Enterprise Content Management, ECM), отметили организаторы ежегодного форума.