Rose debug info
---------------

Супер Боул 2015. Сравниваем команды

1 февраля (утром 2 февраля по московскому времени) в Глендейле, Аризона состоится очередная игра Супер Боул. Это финальная игра сезона Национальной футбольной лиги США. В этом году звание чемпиона будут оспаривать победитель прошлого года, команда «Сиэтл Сихокс» («Ястребы») и «Нью-Ингленд Пэтриотс» («Патриоты»).

Супер Боул — это не только матч, красочное шоу и почти национальный праздник в США. Это еще и большой тотализатор. В этом году в букмекерских казино штата Невада, а это единственные легальные пункты приема ставок на игру, было поставлено в сумме около 100 миллионов долларов. Ресурс Bettingexpert оценивает объем нелегальных ставок в четыре миллиарда долларов.

Игроки на ставках при выборе своего фаворита руководствуются различными соображениями. Одни полагаются на интуицию, вторые читают все сообщения про форму команд. Третьи используют подход, основанный на данных.

В круг сторонников дата-подхода входит и Шираз Азиф (Shiraz Asif). В статье Шираз предлагает алгоритм, позволяющий сравнить характеристики команд-финалистов. Хотя подход автора намного более простой по сравнению с алгоритмами главных героев фильма Moneyball, он имеет хорошие шансы на успех из-за особенностей американского футбола. Также в статье показывается пример работы с облачным сервисом BigQuery от Google.

Прогноз на игру состоит из трех этапов:

  1. C сайта ESPN выгружается статистика команд в сезоне 2014-2015 года. Она состоит из трех файлов: статистика нападения, статистика защиты и дополнительных показателей. Игра в нападении и защите характеризуется четырьмя парами показателей. Каждая пара состоит из показателя за сезон и среднего за игру. Эти пары:
    — пройденные ярды;
    — дальность выполненных передач;
    — пронесенные ярды (игрок пробегает дистанцию с мячом в руках);
    — набранные за игру очки;
    — плюс два специальных показателя — забитые и пропущенные полевые (удар наносится ногой с места или с полулета) голы.
  1. Данные загружаются в BigQuery. Это можно сделать тремя разными способами. Наиболее доступный и демократичный из них — прямая загрузка файла в формате CSV/JSON.
  1. В BigQuery работа с данными аналогична SQL. Например, чтобы вывести список команд, отсортированный по общей сумме ярдов, пройденных в нападении, нужно выполнить запрос
SELECT team, yds FROM [superbowl2015.offense] order by yds DESC

Выполним следующий запрос.

SELECT team,
      rank() OVER (ORDER BY yds DESC) rk_yds,
      rank() OVER (ORDER BY yds_g DESC) rk_yds_g,
      rank() OVER (ORDER BY pass DESC) rk_pass,
      rank() OVER (ORDER BY pass DESC) rk_p_yds_g,
      rank() OVER (ORDER BY pass DESC) rk_rush,
      rank() OVER (ORDER BY pass DESC) rk_r_yds_g,
      rank() OVER (ORDER BY pass DESC) rk_pts,
      rank() OVER (ORDER BY pass DESC) rk_pts_g,
      FROM [superbowl2015.offense] WHERE
      team='Seattle' or team='New England' LIMIT 1000

Его результат.

По шести показателям из восьми в нападении Патриоты опережают Ястребов. Если убрать по одному избыточному показателю из каждой пары показателей, можно сказать, что это раунд Ястребы выигрывают со счетом 3 балла против 1.

Результат аналогичного запроса для анализа защитных характеристик: 0:4 в пользу Ястребов.

По двум специальным показателям счет оказался 1:2 опять же в пользу Ястребов (в сумме получается три, поскольку один из показателей у команд идентичен, и в этом случае каждой из них был присвоен один балл).

Простым сложением всех баллов автор получил результат 4:7 за Ястребов. Довольно убедительная победа. Этот результат соотносится с распространенным мнением, что в американском футболе выигрывает команда с лучшей защитой.

В букмекерских конторах шансы команд оцениваются почти как равные, и коэффициенты на победу каждой из команд близки к двум.

Подводя итог этому нехитрому анализу, автор задает вопрос, достаточны ли эти данные для точного предсказания победителя? Нет. Как и в бизнесе, полученные результаты нужно рассматривать как сигнал, определенный фон и направление для действий. Системы принятия решений, жестко основанные только на данных, обречены. Равно как и компании, которые их не анализируют. Наиболее успешный подход — рассматривать результаты как хорошее дополнение для собственных идей и видения.

Возвращаясь к матчу, фаворитом мы будем считать Ястребов. А как все получится на самом деле, мы увидим уже завтра.

Впервые опубликовано blog.datasense.ru/view/super-boul-2015-sravnivaem-komandy, 30 января 2015 года

Поделиться
Отправить
Запинить