Поиск по «темной стороне» Сети

Memex — рассчитанная на три года инициатива по разработке программ для полного индексирования контента WWW и поиска по нему с учетом заданной предметной области.

Источник: darpa.mil


По заказу DARPA исследователи работают над созданием предметно-ориентированной поисковой системы Memex, индексирующей недоступные обычным поисковикам сайты

14:29 25.03.2015   |   2422 |  Кэтрин Нойес |  Служба новостей IDG

Рубрика Технологии



Система поиска по «темной стороне" WWW разрабатывается по заказу военных, но может пригодиться и легальному бизнесу.

«У нее колоссальный потенциал», — уверен Джефф Шнайдер, профессор факультета компьютерных наук Университета Карнеги-Меллона. В этом году с его специалистами был заключен контракт на 3,6 млн долл. на участие в проекте Memex Агентства перспективных оборонных исследований DARPA.

Memex — рассчитанная на три года инициатива по разработке программного обеспечения для полного индексирования контента WWW и поиска по нему с учетом заданной предметной области.

«Исходный проект нацелен на борьбу с торговлей людьми — эта предметная область была выбрана в качестве целевой, — отметил Шнайдер. — Но нашу технологию можно применять и в других областях. Те же алгоритмы, которые мы используем для анализа рынка работорговли, можно легко адаптировать для других применений».

Сайты, которые выводятся в результатах популярных поисковых систем, индексируются ими, поскольку имеют ссылки на другие общедоступные страницы, известные механизмам обхода Всемирной паутины.

«Темный WWW» — это веб-страницы, недоступные обходчикам по различным причинам, например в связи с очень коротким сроком существования. По многим оценкам, крупные поисковики вроде Google индексируют лишь 10% того, что есть в Web; остальное — на «темной стороне».

Но потенциал инструментов анализа «темного WWW» может быть значительным. Это не только помощь инициативам по борьбе с преступностью, таким как Memex, — ведь по сути, «Темная Паутина» хранит большую часть всей цифровой информации мира. Биржевые аналитики могли бы с помощью Memex искать в темном WWW информацию по котировкам, эксперты по винам — находить самые свежие сведения в своей области.

«Технологии Memex можно было бы задействовать для раскрытия мошенничества и другой противозаконной деятельности в мире бизнеса, — отметила Эмили Кеннеди, генеральный директор Marinus Analytics, компании, созданной на базе Университета Карнеги-Меллон и тоже участвующей в проекте Memex. — Алгоритмы машинного обучения могут находить закономерности в огромных объемах данных, а Memex позволил бы намного увеличить эти объемы».

Сильная сторона Memex — возможность зондировать WWW и обнаруживать страницы, не индексируемые Google, повторил Шнайдер. Еще одно — это способность адаптироваться к конкретной области знаний. Сведения о различных предметных областях можно было бы пополнять, пользуясь обратной связью.

«Сами пользователи могли бы помечать интересные для них страницы тегами, это помогало бы Memex запоминать соответствия», — продолжил Шнайдер.

По его словам, правоохранительные органы уже пользуются технологиями, разработанными командой Memex. О перспективах же дальнейшего развития говорить непросто: «Это трехлетняя исследовательская программа, которая стартовала лишь полгода тому назад, так что сейчас по сути только самое начало».


Теги: Поиск в Интернете DARPA