Супер Боул 2015. Сравниваем команды
1 февраля (утром 2 февраля по московскому времени) в Глендейле, Аризона состоится очередная игра Супер Боул. Это финальная игра сезона Национальной футбольной лиги США. В этом году звание чемпиона будут оспаривать победитель прошлого года, команда «Сиэтл Сихокс» («Ястребы») и «Нью-Ингленд Пэтриотс» («Патриоты»).
Супер Боул — это не только матч, красочное шоу и почти национальный праздник в США. Это еще и большой тотализатор. В этом году в букмекерских казино штата Невада, а это единственные легальные пункты приема ставок на игру, было поставлено в сумме около 100 миллионов долларов. Ресурс Bettingexpert оценивает объем нелегальных ставок в четыре миллиарда долларов.
Игроки на ставках при выборе своего фаворита руководствуются различными соображениями. Одни полагаются на интуицию, вторые читают все сообщения про форму команд. Третьи используют подход, основанный на данных.
В круг сторонников дата-подхода входит и Шираз Азиф (Shiraz Asif). В статье Шираз предлагает алгоритм, позволяющий сравнить характеристики команд-финалистов. Хотя подход автора намного более простой по сравнению с алгоритмами главных героев фильма Moneyball, он имеет хорошие шансы на успех из-за особенностей американского футбола. Также в статье показывается пример работы с облачным сервисом BigQuery от Google.
Прогноз на игру состоит из трех этапов:
- C сайта ESPN выгружается статистика команд в сезоне 2014-2015 года. Она состоит из трех файлов: статистика нападения, статистика защиты и дополнительных показателей. Игра в нападении и защите характеризуется четырьмя парами показателей. Каждая пара состоит из показателя за сезон и среднего за игру. Эти пары:
— пройденные ярды;
— дальность выполненных передач;
— пронесенные ярды (игрок пробегает дистанцию с мячом в руках);
— набранные за игру очки;
— плюс два специальных показателя — забитые и пропущенные полевые (удар наносится ногой с места или с полулета) голы.
- Данные загружаются в BigQuery. Это можно сделать тремя разными способами. Наиболее доступный и демократичный из них — прямая загрузка файла в формате CSV/JSON.
- В BigQuery работа с данными аналогична SQL. Например, чтобы вывести список команд, отсортированный по общей сумме ярдов, пройденных в нападении, нужно выполнить запрос
SELECT team, yds FROM [superbowl2015.offense] order by yds DESC
Выполним следующий запрос.
SELECT team,
rank() OVER (ORDER BY yds DESC) rk_yds,
rank() OVER (ORDER BY yds_g DESC) rk_yds_g,
rank() OVER (ORDER BY pass DESC) rk_pass,
rank() OVER (ORDER BY pass DESC) rk_p_yds_g,
rank() OVER (ORDER BY pass DESC) rk_rush,
rank() OVER (ORDER BY pass DESC) rk_r_yds_g,
rank() OVER (ORDER BY pass DESC) rk_pts,
rank() OVER (ORDER BY pass DESC) rk_pts_g,
FROM [superbowl2015.offense] WHERE
team='Seattle' or team='New England' LIMIT 1000
Его результат.
По шести показателям из восьми в нападении Патриоты опережают Ястребов. Если убрать по одному избыточному показателю из каждой пары показателей, можно сказать, что это раунд Ястребы выигрывают со счетом 3 балла против 1.
Результат аналогичного запроса для анализа защитных характеристик: 0:4 в пользу Ястребов.
По двум специальным показателям счет оказался 1:2 опять же в пользу Ястребов (в сумме получается три, поскольку один из показателей у команд идентичен, и в этом случае каждой из них был присвоен один балл).
Простым сложением всех баллов автор получил результат 4:7 за Ястребов. Довольно убедительная победа. Этот результат соотносится с распространенным мнением, что в американском футболе выигрывает команда с лучшей защитой.
В букмекерских конторах шансы команд оцениваются почти как равные, и коэффициенты на победу каждой из команд близки к двум.
Подводя итог этому нехитрому анализу, автор задает вопрос, достаточны ли эти данные для точного предсказания победителя? Нет. Как и в бизнесе, полученные результаты нужно рассматривать как сигнал, определенный фон и направление для действий. Системы принятия решений, жестко основанные только на данных, обречены. Равно как и компании, которые их не анализируют. Наиболее успешный подход — рассматривать результаты как хорошее дополнение для собственных идей и видения.
Возвращаясь к матчу, фаворитом мы будем считать Ястребов. А как все получится на самом деле, мы увидим уже завтра.
Впервые опубликовано blog.datasense.ru/view/super-boul-2015-sravnivaem-komandy, 30 января 2015 года