Посоревнуемся?

Человечество производит и собирает необозримое количество разнообразной информации. Размеры собранных баз данных безнадежно далеко превосходят любые возможности человеческого восприятия. Соответственно развиваются разнообразные методы автоматического поиска интересных закономерностей в существующем океане данных. Для таких задач даже придумали специальные модные термины, такие как Data mining (добыча данных), Knowledge Discovery in Data (извлечение знаний), интеллектуальный анализ данных и т.п. По большей части все это есть ни что иное, как старая добрая статистическая обработка.

Так или иначе, разнообразные подходы к анализу накопленных данных очень популярны и несомненно будут активно развиваться. Одним из признаков этого являются многочисленные соревнования, где участникам предоставляется гигабайт-другой каких-нибудь дынных и предлагается что-нибудь наилучшим образом аппроксимировать, классифицировать или предсказать. Поскольку значительная часть дисциплин специализации на нашей кафедре связана с анализом данных, кажется небезынтересным собрать ссылки на такие соревнования.

Итак, патриотично начнем с нашего российского конкурса:

1. Интернет-математика 2011

Ежегодный конкурс, проводимый компанией Яндекс. В этом году предлагается соревноваться в поиске одинаковых объектов на фотографиях. Фотографии получены при изготовлении панорамных снимков для Яндекс.Карт. Всего их 30000 штук (6000 серий по 5 фотографий). В каждой серии присутствуют части одной панорамы, которые частично перекрываются. Однако в некоторые серии подмешаны посторонние фотографии, не имеющие перекрытий с другими. Задача состоит в том, чтобы автоматически обнаруживать такие снимки.

Решения принимаются до 16 мая. Текущие результаты участников можно посмотреть здесь. Тот, чей алгоритм будет работать точнее всех, получит 100 тыс. рублей (и приглашение поработать в Яндексе, как я подозреваю).

2. KDD Cup 2011

Ежегодное международное соревнование по анализу данных (KDD — Knoledge Dicovery and Data mining). В этом году спонсором выступает компания Yahoo!. Пользователи сервиса Yahoo! Music могут выставлять оценки прослушанным композициям. Предполагается, что по выставленным оценкам можно определить вкусы человека и соответственно выдать ему рекомендации, что еще послушать.

Итак, имеется миллион пользователей сервиса и более 300 миллионов оценок. Для каждого пользователя часть оценок скрыта — их нужно предсказать по имеющимся открытым оценкам.

Конкурс проходит с 15 апреля по 30 июня. Текущие результаты участников можно посмотреть здесь. За 1-е, 2-е и 3-е место полагается по 5000$, 2000$ и 1000$ соответственно.

3. Data Mining Cup

Ежегодное студенческое соревнование. Будет проходить с 15 апреля по 31 мая. Задача еще не опубликована. Победителям обещают по 2500, 1500 и 1000 евро за 1-е, 2-е и 3-е места соответственно.

4. Deloitte/FIDE Chess Rating Challenge

Члены FIDE (Международная шахматная федерация) за последние 11 лет сыграли 1.84 миллиона партий в которых приняли участие более 54000 шахматистов. Результаты последовавших за этим 100 тыс. партий скрыты. Их нужно предсказать. Предсказывать предлагается с 7 февраля по 4 мая 2011 года. За лучший прогноз — 10 тыс. долларов.

5. Don’t Overfit!

По искусственно сгенерированному набору данных содержащему 250 точек требуется аппроксимировать функцию 200 переменных. Очевидная проблема в таких условиях — это переобучение модели (overfitting). Кто лучше всех избежит этой проблемы и предскажет поведение функции в еще 19750 точках, получит 500$.

6. Open Data Chellenge

Имеется масса разнообразных открытых статистических данных о странах евросоюза (например). Участникам соревнования предлагается до 5-го июня сделать с ними что-нибудь полезное :). Отдельные призы предлагаются за
  а) лучшую идею, как их можно использовать;
  б) лучшую программу, уже их использующую;
  в) лучшую визаулизацию;
  г) лучший производный набор данных, каким-либо образом полученный на основе уже имеющихся.

7. The 2nd Cybersecurity Data Mining Competition (CDMC2011)

Соревнование приуроченное к конференции International Conference on Neural Information Processing (ICONIP2011), Shanghai, China, November 14 — 17, 2011. Будет проходить с 1 мая по 31 июля.

8. Heritage Health Prize Competition

Американские врачи ведут обязательный электронный учет пациентов. Соответственно образуется, что-то вроде электронных мед. карточек с данными о посещениях врачей, диагнозах, назначениях и т.п. Участникам предлагается на основе этой информации спрогнозировать, сколько времени каждый пациент проведет в больнице в следующем году. Конкурс продолжается с 4 апреля 2011 года по 3 апреля 2013.

Сделавшему наилучший прогноз, полагается 3 миллиона долларов, если точность превысит заданный порог, и жалкие 500 тысяч долларов, если не превысит. Кроме того, трижды будут присуждаться призы за лучшие промежуточные результаты.

 

Информацию о свежих конкурсах можно найти на страничке http://www.kdnuggets.com/datasets/competitions.html

Kaggle — платформа для организации соревнований по анализу данных.
http://www.kaggle.com/c/informs2010/Index — список последних соревнований.

Также подобные конкурсы часто проводятся на Innocentive.com — сервисе, организующем соревнования по решению различных научных и технических задач.

Добавить комментарий