Конкурсы по Data-mining

Область интеллектуального анализа данных, как никакая другая, способствует проведению открытых профессиональных конкурсов.

Для авторов задач это способ не только получить решение своей проблемы, но провести очень красивую PR- и HR-кампанию. Кампанию не для всех, но очень весомую для разбирающейся публики. Здорово, что этот инструмент опробуют и российские компании — Яndex, Wikimart.

Для участников — это лишний способ опробовать алгоритмы на больших, действительно больших массивах данных. И, что самое примечательное, — быть полезным, то есть предложить свое решение для реально существующей проблемы.

Недаром конкурсы по Data Mining (DM) стартовали с социальных задач. В последние годы, конечно, явно преобладают коммерческие запросы. И соответствующие призовые фонды.

Конкурсные задания обычно основаны на задачах классификации или регрессии. Намного реже речь идет о кластеризации, анализе последовательностей.

Для решения задачи участникам предоставляются два массива. Один, большой, массив — это данные для обучения алгоритма. Второй, поменьше, — для тестирования. Собственно, результат применения алгоритма на тестовом массиве и является решением.

Ниже привожу обзор наиболее значимых и регулярных событий в области DM. Помимо этого, существует большой список конкурсов и испытаний, которые организуются в образовательных целях. Так, например, компания SAS проводит конкурсы совместно с Университетом Технологии Сиднея UTS; свою программу имеет Microsoft.

KDD Cup — от родоначальников темы

Первый KDD Cup был проведен в 1997 году. Событие было организовано сообществом со сложным названием ACM SIGKDD (Special Interest Group on Knowledge Disovery and Data Mining), по факту являющимся наиболее известным объединением профессионалов в области машинного обучения.

В первый год участникам было предложено оказать содействие организации Paralyzed Veterans of America (PVA). Организация обладает более чем 13 миллионной базой жертвователей в США. Задачей участников было предсказание факта пожертвования конкретным жертвователем. Эта информация использовалась для оптимизации адресной рассылки.

Первые два года победителем становилась американская компания Urban Science Applications с ПО GainSmarts. В 1998 году ей удалось даже обогнать признанного лидера отрасли — SAS Institute. Сегодня компания Urban Science поставляет решения и консалтинговые услуги практически для всех компаний автомобильной отрасли в 70 странах мира.

Примечательно, что уже в 2000 году на KDD Cup в качестве объекта была выбрана база данных посещений веб-сайта. И задачи были связаны с анализом последовательности (сиквенциальным анализом).

Netflix Prize — отнюдь не первый, но самый значимый

Если в области конкурсов по Data Mining ввести индекс цитирования, то конкурс от американского прокатчика фильмов Netflix в 2007-2009 году, я уверен, был бы абсолютным лидером. И выделялся он из общего ряда потрясающим бюджетом в $1,000,000.

Участникам марафона предлагалось улучшить алгоритм Cinematch фирмы Netflix. Этот алгоритм прогнозировал оценку, которую поставит пользователь тому или иному фильму по пятибалльной шкале. Среднеквадратическое отклонение алгоритма Cinematch на тренировочной выборке составило 0,95; участникам предстояло улучшить данный показатель на 10%. Главный приз предполагалось выплатить только при достижении одной из команд данного уровня.

В итоге на третьем году конкурса добиться требуемого уровня СКО удалось команде BellKor’s Pragmatic Chaos, составленной из участников изначально трех независимых команд.

Head Health Challenge — на порядок круче Netflix

На порядок круче с точки зрения денежного фонда соревнования, который составил $20,000,000. Спонсорами конкурса выступают General Electric, Under Armour, а также североамериканская лига американского футбола NFL.

Миссия конкурса — научиться лучше понимать последствия черепно-мозговых травм и вовремя диагностировать опасные последствия. К сожалению, тема таких травм очень критична для американского футбола.

Head Health Challenge начался в марте 2013 года, и его соревновательная завершилась в феврале 2014 года. Вручение наград запланировано на сентябрь 2014 года.

KAGGLE — самая популярная платформа

KAGGLE — платформа, созданная в 2010 году австралийским математиком Энтони Голдблумом (Anthony Goldbloom) для проведения конкурсов в области интеллектуального анализа данных.

На начало 2014 года в проекте зарегистрировано почти 150 тыс. исследователей из разных стран мира, из которых более 10 тыс. имеют рейтинговые очки (приняли активное индивидуальное участие или в составе группы в одном из конкурсов).

С момента создания было проведено 130 конкурсов, часть из которых являются «закрытыми», т. е. доступны только для участников с максимальным рейтингом. Часть конкурсов не имеют призового фонда, в некоторых случаях он символический. Призовой фонд семи конкурсов превышает $100,000, в том числе: от страховой компании Heritage Provider Network, четыре конкурса от General Electric, два — от фонда Hewlett Foundation.

В январе 2014 года на сайте был подведен итог конкурса от Яндекса с призовым фондом в $9,000. Целью конкурса был алгоритм ранжирования документов с учетом пользовательских предпочтений, как исторических, так и относящихся к конкретной поисковой сессии.

Олимпиада Wikimart — пионеры в России

В 2013 году был проведен первый конкурс DM центром онлайн-торговли Wikimart.

Конкурс состоял из трех задач, имеющих практическое приложение к деятельности сайта: участникам предлагалось спрогнозировать обращение в колл-центр, предсказать вероятность отказа от созданного заказа и ухода посетителя с сайта.

В конкурсе приняли участие около 50 человек.

Другие конкурсы

— TunedIT (www.tunedit.org/challenges) — международная платформа конкурсов в области DM.
— Cybersecurity Data Mining Competition, CDMC (www.csmining.org/cdmc2013/) — международный конкурс по DM в области информационной безопасности.
— Large Scale Hierarchical Text Classification (www.lshtc.iit.demokritos.gr/) — конкурс в области Text Mining.
— DataDigger (www.ithouse.by/?page_id=6303&sub=1) — конкурс DM в Беларуси.

Знаете другие конкурсы? Пожалуйста, поделитесь ссылкой на них в комментариях, и я их добавлю в статью.

Один из характерных признаков в области DM — их демократичность. Принять в них участие может любой зарегистрировавшийся пользователь. Во многих случаях данные для анализа доступны даже после подведения официальных итогов.

Так что пробовать уже можно сегодня :)

Впервые опубликовано: здесь, в 2014 году

Поделиться
Отправить
Запинить
2018  
Популярное