Посоревнуемся? |
15.04.2011
|
Человечество производит и собирает необозримое количество разнообразной информации. Размеры собранных баз данных безнадежно далеко превосходят любые возможности человеческого восприятия. Соответственно развиваются разнообразные методы автоматического поиска интересных закономерностей в существующем океане данных. Для таких задач даже придумали специальные модные термины, такие как Data mining (добыча данных), Knowledge Discovery in Data (извлечение знаний), интеллектуальный анализ данных и т.п. По большей части все это есть ни что иное, как старая добрая статистическая обработка. Так или иначе, разнообразные подходы к анализу накопленных данных очень популярны и несомненно будут активно развиваться. Одним из признаков этого являются многочисленные соревнования, где участникам предоставляется гигабайт-другой каких-нибудь дынных и предлагается что-нибудь наилучшим образом аппроксимировать, классифицировать или предсказать. Поскольку значительная часть дисциплин специализации на нашей кафедре связана с анализом данных, кажется небезынтересным собрать ссылки на такие соревнования. Итак, патриотично начнем с нашего российского конкурса:
1. Интернет-математика 2011Ежегодный конкурс, проводимый компанией Яндекс. В этом году предлагается соревноваться в поиске одинаковых объектов на фотографиях. Фотографии получены при изготовлении панорамных снимков для Яндекс.Карт. Всего их 30000 штук (6000 серий по 5 фотографий). В каждой серии присутствуют части одной панорамы, которые частично перекрываются. Однако в некоторые серии подмешаны посторонние фотографии, не имеющие перекрытий с другими. Задача состоит в том, чтобы автоматически обнаруживать такие снимки. Решения принимаются до 16 мая. Текущие результаты участников можно посмотреть здесь. Тот, чей алгоритм будет работать точнее всех, получит 100 тыс. рублей (и приглашение поработать в Яндексе, как я подозреваю). 2. KDD Cup 2011Ежегодное международное соревнование по анализу данных (KDD — Knoledge Dicovery and Data mining). В этом году спонсором выступает компания Yahoo!. Пользователи сервиса Yahoo! Music могут выставлять оценки прослушанным композициям. Предполагается, что по выставленным оценкам можно определить вкусы человека и соответственно выдать ему рекомендации, что еще послушать. Итак, имеется миллион пользователей сервиса и более 300 миллионов оценок. Для каждого пользователя часть оценок скрыта — их нужно предсказать по имеющимся открытым оценкам. Конкурс проходит с 15 апреля по 30 июня. Текущие результаты участников можно посмотреть здесь. За 1-е, 2-е и 3-е место полагается по 5000$, 2000$ и 1000$ соответственно. 3. Data Mining CupЕжегодное студенческое соревнование. Будет проходить с 15 апреля по 31 мая. Задача еще не опубликована. Победителям обещают по 2500, 1500 и 1000 евро за 1-е, 2-е и 3-е места соответственно. 4. Deloitte/FIDE Chess Rating ChallengeЧлены FIDE (Международная шахматная федерация) за последние 11 лет сыграли 1.84 миллиона партий в которых приняли участие более 54000 шахматистов. Результаты последовавших за этим 100 тыс. партий скрыты. Их нужно предсказать. Предсказывать предлагается с 7 февраля по 4 мая 2011 года. За лучший прогноз — 10 тыс. долларов. 5. Don’t Overfit!По искусственно сгенерированному набору данных содержащему 250 точек требуется аппроксимировать функцию 200 переменных. Очевидная проблема в таких условиях — это переобучение модели (overfitting). Кто лучше всех избежит этой проблемы и предскажет поведение функции в еще 19750 точках, получит 500$. 6. Open Data ChellengeИмеется масса разнообразных открытых статистических данных о странах евросоюза (например). Участникам соревнования предлагается до 5-го июня сделать с ними что-нибудь полезное :). Отдельные призы предлагаются за 7. The 2nd Cybersecurity Data Mining Competition (CDMC2011)Соревнование приуроченное к конференции International Conference on Neural Information Processing (ICONIP2011), Shanghai, China, November 14 — 17, 2011. Будет проходить с 1 мая по 31 июля. 8. Heritage Health Prize CompetitionАмериканские врачи ведут обязательный электронный учет пациентов. Соответственно образуется, что-то вроде электронных мед. карточек с данными о посещениях врачей, диагнозах, назначениях и т.п. Участникам предлагается на основе этой информации спрогнозировать, сколько времени каждый пациент проведет в больнице в следующем году. Конкурс продолжается с 4 апреля 2011 года по 3 апреля 2013. Сделавшему наилучший прогноз, полагается 3 миллиона долларов, если точность превысит заданный порог, и жалкие 500 тысяч долларов, если не превысит. Кроме того, трижды будут присуждаться призы за лучшие промежуточные результаты.
Информацию о свежих конкурсах можно найти на страничке http://www.kdnuggets.com/datasets/competitions.html Kaggle — платформа для организации соревнований по анализу данных. Также подобные конкурсы часто проводятся на Innocentive.com — сервисе, организующем соревнования по решению различных научных и технических задач.
|