Rose debug info
---------------

product management | маркетинг | психология | аналитика | книги | истории

«Хотя язык, на котором я пишу, был и есть лучший язык тех, на котором они писали» (М. М. Жванецкий)

Позднее Ctrl + ↑

Польза от тепловых карт

Существует много типов диаграмм и различных способов отображения данных. Одни из них традиционные и, если вы их используете, у вас очень много шансов быть верно понятыми без лишних усилий и комментариев. Другие встречаются заметно реже. Однако с ними часто сложно рассчитывать на «понимание по умолчанию». Тепловые карты (heatmap) относятся к последним. Тем не менее, они имеют свою область применения и там очень эффективны.

Недавно в газете Washington Post была опубликована точечная диаграмма. Каждая точка соответствует одному американскому городу, а ее положение — проценту белокожего населения (по горизонтальной оси абсцисс) и проценту белокожих полицейских (по вертикальной оси ординат). Цвет точек не имеет принципиального значения: синим цветом показаны те города, в которых процент белокожих полицейских больше процента белокожих жителей; серый соответственно, наоборот.

Проблема этого решения в том, что оно плохо отвечает на вопрос о плотности точек. Правый верхний угол: там сконцентрированы точки, и непонятно, сколько их. То есть: «Как много городов, в которых все полицейские белокожие (100% по ординате) и процент белокожего населения велик (70-100%)?». Эта проблема связана с излишней дисперсностью диаграммы: если какой-то показатель отличается у двух городов на 0,1% — это будут две, наезжающие друг на друга, точки.

Решение проблемы — использование тепловой карты (heatmap): обе оси делятся на 5%-е интервалы, составляя тем самым 400 квадратов. Цвет квадрата показывает, сколько городов относятся к соответствующему диапазону.

Теперь, конечно, не увидеть каждый город, но возникает общее понимание ситуации, в том числе ясно, что концентрация показателей в правом верхнем углу значительна. В бледно-желтых квадратах — от 1 до 5 городов. Именно этот масштаб пока не дает полного представления, поскольку каждый пятый город имеет только белокожих полицейских.

Обратимся к содержанию статьи, которую иллюстрировала точечная диаграмма. Она посвящена резонансному для США событию: 4 апреля 2015 года в городе Норт-Чарлстон (Южная Каролина) белокожий полицейский из соображений самообороны застрелил чернокожего нарушителя. В Норт-Чарлстоне имеет место расовый дисбаланс: от общего числа жителей чернокожие занимают больше половины, однако среди полицейских преобладают белокожие (более 80%).

Это знание позволяет упростить диаграмму. Предположим, что в городах с большой долей белокожих в полиции (100%) расовый момент неприменим. Удалим соответствующие точки из выборки. Получается уточненная картина, дающая хороший вывод, — есть прямая корреляция между процентом белокожего населения и полицейских. Увеличивая масштаб по каждой из сторон клетки с 5% до 10%, получим следующий вид, отражающий прямую зависимость двух показателей.

Какие выводы можно сделать из данных Washington Post:

  1. Наблюдается определенная тенденция: процент белокожих полицейских выше процента белокожих жителей в населенных пунктах. При этом, конечно, есть исключения.
  2. Почти в каждом пятом городе полицейская служба состоит только из белокожих (на графике эти города не представлены).
  3. Стоит обратить внимание на города, которые сильно отстоят от среднего значения, т. е. в которых процент белокожих полицейских несравнимо выше процента белокожего населения и наоборот.

Еще один вывод: в некоторых случаях исключение отдельных сегментов данных (здесь — городов со 100%-й белокожей полицейской службой) не только не портит картину, но и дает ее лучшее понимание.

Пост основан на публикации в блоге Junk Charts.

Впервые опубликовано: blog.datasense.ru/view/polza-ot-teplovih-kart, 27 апреля 2015 года

Конкурсы по Data-mining

Область интеллектуального анализа данных, как никакая другая, способствует проведению открытых профессиональных конкурсов.

Для авторов задач это способ не только получить решение своей проблемы, но провести очень красивую PR- и HR-кампанию. Кампанию не для всех, но очень весомую для разбирающейся публики. Здорово, что этот инструмент опробуют и российские компании — Яndex, Wikimart.

Для участников — это лишний способ опробовать алгоритмы на больших, действительно больших массивах данных. И, что самое примечательное, — быть полезным, то есть предложить свое решение для реально существующей проблемы.

Недаром конкурсы по Data Mining (DM) стартовали с социальных задач. В последние годы, конечно, явно преобладают коммерческие запросы. И соответствующие призовые фонды.

Конкурсные задания обычно основаны на задачах классификации или регрессии. Намного реже речь идет о кластеризации, анализе последовательностей.

Для решения задачи участникам предоставляются два массива. Один, большой, массив — это данные для обучения алгоритма. Второй, поменьше, — для тестирования. Собственно, результат применения алгоритма на тестовом массиве и является решением.

Ниже привожу обзор наиболее значимых и регулярных событий в области DM. Помимо этого, существует большой список конкурсов и испытаний, которые организуются в образовательных целях. Так, например, компания SAS проводит конкурсы совместно с Университетом Технологии Сиднея UTS; свою программу имеет Microsoft.

KDD Cup — от родоначальников темы

Первый KDD Cup был проведен в 1997 году. Событие было организовано сообществом со сложным названием ACM SIGKDD (Special Interest Group on Knowledge Disovery and Data Mining), по факту являющимся наиболее известным объединением профессионалов в области машинного обучения.

В первый год участникам было предложено оказать содействие организации Paralyzed Veterans of America (PVA). Организация обладает более чем 13 миллионной базой жертвователей в США. Задачей участников было предсказание факта пожертвования конкретным жертвователем. Эта информация использовалась для оптимизации адресной рассылки.

Первые два года победителем становилась американская компания Urban Science Applications с ПО GainSmarts. В 1998 году ей удалось даже обогнать признанного лидера отрасли — SAS Institute. Сегодня компания Urban Science поставляет решения и консалтинговые услуги практически для всех компаний автомобильной отрасли в 70 странах мира.

Примечательно, что уже в 2000 году на KDD Cup в качестве объекта была выбрана база данных посещений веб-сайта. И задачи были связаны с анализом последовательности (сиквенциальным анализом).

Netflix Prize — отнюдь не первый, но самый значимый

Если в области конкурсов по Data Mining ввести индекс цитирования, то конкурс от американского прокатчика фильмов Netflix в 2007-2009 году, я уверен, был бы абсолютным лидером. И выделялся он из общего ряда потрясающим бюджетом в $1,000,000.

Участникам марафона предлагалось улучшить алгоритм Cinematch фирмы Netflix. Этот алгоритм прогнозировал оценку, которую поставит пользователь тому или иному фильму по пятибалльной шкале. Среднеквадратическое отклонение алгоритма Cinematch на тренировочной выборке составило 0,95; участникам предстояло улучшить данный показатель на 10%. Главный приз предполагалось выплатить только при достижении одной из команд данного уровня.

В итоге на третьем году конкурса добиться требуемого уровня СКО удалось команде BellKor’s Pragmatic Chaos, составленной из участников изначально трех независимых команд.

Head Health Challenge — на порядок круче Netflix

На порядок круче с точки зрения денежного фонда соревнования, который составил $20,000,000. Спонсорами конкурса выступают General Electric, Under Armour, а также североамериканская лига американского футбола NFL.

Миссия конкурса — научиться лучше понимать последствия черепно-мозговых травм и вовремя диагностировать опасные последствия. К сожалению, тема таких травм очень критична для американского футбола.

Head Health Challenge начался в марте 2013 года, и его соревновательная завершилась в феврале 2014 года. Вручение наград запланировано на сентябрь 2014 года.

KAGGLE — самая популярная платформа

KAGGLE — платформа, созданная в 2010 году австралийским математиком Энтони Голдблумом (Anthony Goldbloom) для проведения конкурсов в области интеллектуального анализа данных.

На начало 2014 года в проекте зарегистрировано почти 150 тыс. исследователей из разных стран мира, из которых более 10 тыс. имеют рейтинговые очки (приняли активное индивидуальное участие или в составе группы в одном из конкурсов).

С момента создания было проведено 130 конкурсов, часть из которых являются «закрытыми», т. е. доступны только для участников с максимальным рейтингом. Часть конкурсов не имеют призового фонда, в некоторых случаях он символический. Призовой фонд семи конкурсов превышает $100,000, в том числе: от страховой компании Heritage Provider Network, четыре конкурса от General Electric, два — от фонда Hewlett Foundation.

В январе 2014 года на сайте был подведен итог конкурса от Яндекса с призовым фондом в $9,000. Целью конкурса был алгоритм ранжирования документов с учетом пользовательских предпочтений, как исторических, так и относящихся к конкретной поисковой сессии.

Олимпиада Wikimart — пионеры в России

В 2013 году был проведен первый конкурс DM центром онлайн-торговли Wikimart.

Конкурс состоял из трех задач, имеющих практическое приложение к деятельности сайта: участникам предлагалось спрогнозировать обращение в колл-центр, предсказать вероятность отказа от созданного заказа и ухода посетителя с сайта.

В конкурсе приняли участие около 50 человек.

Другие конкурсы

— TunedIT (www.tunedit.org/challenges) — международная платформа конкурсов в области DM.
— Cybersecurity Data Mining Competition, CDMC (www.csmining.org/cdmc2013/) — международный конкурс по DM в области информационной безопасности.
— Large Scale Hierarchical Text Classification (www.lshtc.iit.demokritos.gr/) — конкурс в области Text Mining.
— DataDigger (www.ithouse.by/?page_id=6303&sub=1) — конкурс DM в Беларуси.

Знаете другие конкурсы? Пожалуйста, поделитесь ссылкой на них в комментариях, и я их добавлю в статью.

Один из характерных признаков в области DM — их демократичность. Принять в них участие может любой зарегистрировавшийся пользователь. Во многих случаях данные для анализа доступны даже после подведения официальных итогов.

Так что пробовать уже можно сегодня :)

Впервые опубликовано: blog.datasense.ru/view/konkursy-po-data-mining, в 2014 году

Анализируйте, а не предоставляйте данные

Сегодня данные не только не радуют их пользователей, но и наводят уныние.

Век информационных технологий открывает для бизнеса огромные возможности. Big-big data. Любой маркетолог из 60-х позавидовал бы, узнав какие данные о клиентах доступны сегодня, как легко получить к ним доступ, хранить, обрабатывать.

А что мы обычно имеем на выходе работы с данными? Цифры, которые не позволяют ни получить понимание ситуации, ни принять какое-либо решение.

Это разочаровывающий, депрессивный итог, особенно если посмотреть на ресурсы, потраченные на работу с данными.

Дата-депрессия началась не вчера. Еще во времена первого фильма о «Терминаторе» об этом явлении писал Джон Нейсбитт (John Naisbitt) в суперкниге «Мегатренды».

Джон Нейсбитт: «Мы тонем в информации, но испытываем голод по знанию»

За тридцать лет немногое изменилось. Не правда ли?

Применительно к данным, проблема информация-знания синонимична проблеме отчетность-аналитика.

Чем отличается аналитика от отчетности? В аналитике, кроме данных, дается понимание, инсайт, оценка; в отчетности — простая констатация фактов.

Чем отличается статистика от дата-майнинга? Тем же самым.

К вам приходит коллега и говорит, что выручка и прибыль компании в прошлом году выросли в два раза. Что стоит за этой фразой?

Во-первых, это некоторое усилие по сбору данных.

Во-вторых, простейшие математические операции, сравнение с предыдущим годом и собственно отчетность. На этот раз в словесной форме.

Полезна ли такая информация? Да, безусловно. Особенно, если коллега — бухгалтер, и была поставлена задача получить две цифры: приросты по выручке и прибыли.

С точки зрения аналитики — это слабая попытка. Так как отсутствует инсайт.

Как воспринимать рост в два раза? Это позитивная или негативная новость? Какие еще есть важные замечания и нюансы?

Почва для подобных выводов — это вопросы, позволяющие установить контекст. В данном конкретном случае такими вопросами могут быть:

— как компания росла в предыдущие годы, и как растут конкуренты;
— как соотносятся эти два финансовых показателя с другими финансовыми KPI;
— за счет чего были достигнуты эти результаты, и вписываются ли они в общую стратегию компании.

Простейший способ перевести отчетность в аналитику, это добавить: «Мы выросли в два раза по выручке и прибыли, и ... с учетом конъюнктуры я считаю это хорошим результатом».

Как бы по-детски ни звучало — «хороший результат», это уточнение переводит работу на качественно новый уровень. Уровень аналитики.

Итак, три этапа: сбор данных — отчетность — аналитика.

Из известных мне авторов первым в завершенном формате подобный подход предложил Авинаш Кошик (Avinash Kaushik), гуру веб-аналитики, а в последнее время — и большой специалист в области digital-маркетинга.

В терминах Авинаша три этапа выглядят как DC-DR-DA (data collection, data reporting, data analysis). Аналитика, конечно, наиболее важный этап, на который он рекомендует тратить 65% бюджетов и сил. На DC и DR — 15% и 20% соответственно.

Почему так? Потому что сбор и отчетность требуют минимального погружения в бизнес. Сданная только отчетность означает, что задача анализа перевешивается на заказчика. Ему самому нужно погружаться в тему, выявлять инсайт. И на это он потратит гораздо более 65% бюджета.

Вот интересная сводная таблица от Авинаша, которая показывает его видение рынка консалтинга в области веб-аналитики в разрезе этапов DC-DR-DA.

Сделать хорошую аналитику в отрыве от контекста невозможно. Однако именно аналитика является панацеей от дата-депрессии. И для исполнителя, получающего удовлетворение от своей работы, и для клиента, получающего видение за пределами цифр.

Мы в Datasense верим в аналитику. Аналитика данных, интеллектуальный анализ, требующий понимания и погружения в бизнес клиента, — наша специализация.

Как итог.

Из опасения утонуть сегодня многие предпочитают вообще не заходить в океан данных. В принципе не собирают данные, или собирают и их игнорируют. Второе еще более преступно, чем первое.

Но в любом случае, это слабая позиция. Мы все способны на гораздо большее.

Простой шаг — попробуйте внести в отчеты немного аналитики, вашего видения, инсайта. Не важно, что это за отчет, и какие в нем данные: показатели производства, продаж, посещения сайта, затраты на рекламу... Продвиньтесь от унылых: «было выпущено X единиц, что на Y больше прошлого периода, в средний ежегодный прирост за Z лет — А%».

Оцените их. Наполните смыслом свою работу. И для себя, и для потребителя ваших данных.

Насколько серьезна дата-депрессия? Как из нее выйти? Что предпочитают ваши руководители: отчетность или аналитику? Если есть добавления, возражения; хотите поделиться своим опытом и соображениями, добро пожаловать в «Комментарии».

Впервые опубликовано: здесь, в 2014 году

Ранее Ctrl + ↓