В МТИ усовершенствовали алгоритм машинного обучения без учителя

Люди хорошо справляются с выявлением закономерностей всего по нескольким примерам, а компьютеры лучше обнаруживают закономерности в больших объемах данных.

Ученые Массачусетского технологического института разработали систему, объединяющую эти умения.

А именно, был усовершенствован алгоритм обучения без учителя — когда машине дают большое количество неструктурированных данных, и она ищет у них общие характеристики. Распространенный пример — тематическое моделирование, когда документы группируются по характерным словам. Сама тема компьютеру неизвестна, но ее может по полученному перечню терминов определить человек. В доработанном алгоритме кластеризация осуществляется не только по общим чертам, но и по сходству с характерным примером, «прототипом»; а вместо ранжирования общих черт по степени важности их список урезается до репрезентативной выборки — «подпространства».

Был проведен эксперимент: традиционный и новый алгоритм обучили тематическому моделированию на рецептах блюд, заранее распределенных по категориям («чили», «паста», «пирожное» и т.п.) и представленных в виде списки ингредиентов. После того как традиционная и новая системы разделили на группы другой набор рецептов, люди верно выбрали категории для этих групп в 71 и 86% случаев соответственно.