Маркетинг, аналитика и дизайн данных, путешествия, книги и разное

Хотя язык, на котором я пишу, был и есть лучший язык тех, на котором они писали (М. М. Жванецкий).

Позднее Ctrl + ↑

Какой не должна быть инфографика. Часть 2 — Неожиданные примеры плохой визуализации

Хорхе Камоишь (Jorge Camoes) в своем блоге Excel Charts приводит примерынеудачной визуализации от вполне уважаемых авторов и изданий, которые могли бы справиться с задачей лучше. Примеры на португальском языке, но часто можно увидеть проблему и без понимания сути. Попробуем разобраться, в чем дело, а также предложить альтернативные решения.

Первый пример — представление барьеров, которые ограничивают португальскую экономику.

Здесь неудачно, в первую очередь, разделение графической части и легенды — проще было подписать названия категорий непосредственно рядом с шестеренками. Далее, сама форма шестеренки дает намек, что соседние барьеры каким-то образом связаны. Этот смысловой оттенок ввиду симметрических черт изображения, весьма сомнителен. Наконец, сходу непонятно: какой все-таки из барьеров основной для португальской экономики.

Второй пример — газета Publico и географически привязанные пай-чарты и столбчатые диаграммы.

В круговых диаграммах одна категория стабильно меньше 1% — возможно был смысл ее опустить. В целом, нужно либо упрощать графическую часть, либо не привязывать ее к карте страны.

Третий пример принадлежит Государственному совету по образованию Португалии.

График должен показать по годам распределение учебных заведений страны в зависимости от числа студентов. Всего сегментация по 2 категориям и выделяется 110 «ячеек». Насколько можно понять задумку автора, главная мысль — в последние годы увеличивается число крупных учебных заведений. Альтернативное решение для подобных задач — это групповые горизонтальные бары: например, можно попробовать нарисовать 10 баров по годам для каждой из групп учреждений по численности и выделить отмеченный тренд. Можно было также подумать об объединении некоторых сегментов по численности.

Последний пример — график от фонда FFMS — независимой организации, чья миссия заключается в объективном освещении ситуации в стране. Фонд опубликовал следующую визуализацию статистики адептов католической религии в Испании, Италии и Португалии по годам.

Подобное решение делает совершенно несравнимыми показатели отдельных лет по странам. Альтернатива аналогична предыдущему пункту — группы горизонтальных баров.

Впервые опубликовано: здесь, 2 ноября 2015 года

Инфографика как средство привлечения внимания к проблемам

Порой, для того, чтобы понять серьезность той или иной проблемы, необходимо видеть картину в целом. Так, мы периодически слышим об авариях на газопроводах, нефтепроводах, разливах нефтепродуктов. Однако при этом мало кто догадывается о реальных последствиях таких событиях. Инфографика — идеальный инструмент для того, чтобы дать полное понимание, обозначить масштаб, способствовать инициативам решить проблему.

Журнал Politico в апреле этого года опубликовал материал про аварии на трубопроводах в США. Цифры из статьи впечатляющие: аварии разной степени тяжести происходят в стране каждый день. За 13 лет они унесли жизни 199 человек, и пострадали еще 799 человек. Материальный ущерб только в 2014 году оценивается в 300 млн долл.

Иллюстрации для материала делала компания 5W Infographics. В работе были использованы сервисы Tableau и Illustrator. Tableau пригодился для того, чтобы оценить возможность визуализации большого массива данных.

Карту аварий дополняют иллюстрации, дающие понимание причин аварий, статистику человеческих жертв. Так, главная причина аварий — это отказ оборудования; число аварий по этой причине увеличилось к 2014 году на 60% по сравнению с минимальным уровнем в 2007 году. Вторая по распространенности причина — это коррозия труб.

Есть корреляция между числом проверок деятельности трубопроводных операторов и числом аварий. Также показано, насколько ничтожны штрафы за аварии (не более 2 млн долл. за каждый случай) по сравнению с наносимым материальным ущербом: в период 2002-2014 гг. суммарный ущерб составил 5,6 млрд долл. при том, что штрафов было собрано всего на 44,2 млн долл.

Впервые опубликовано: здесь, 27 июля 2015 года

2018  

Инфографика: удачное представление результатов соцопросов

В инфографике большое мастерство — это, конечно, расставить акценты на статической картинке таким образом, чтобы читатель однозначно понял все сообщения автора.

Однако бывает, что данных и их измерений очень и очень много. Например, это результаты соцопроса.

В таких случаях отобразить удобным образом полученные знания весьма непросто. Замечательно, что тем не менее удачные решения существуют. И здесь отлично срабатывает интерактивность, дающая возможность в разное время отобразить тот или иной срез данных.

Этот пост вновь написан по мотивам поста, опубликованного в блоге Junk Charts Кайзера Фунга (Kaiser Fung). В нем речь пойдет об интерактивной визуализации результатов соцопроса. Опрос сравнивает отношение жителей Восточной и Западной Германии к социальным трендам, а также показывает динамику мнений в течение последних 25 лет, т. е. с момента воссоединения страны.

Как и в любом опросе респонденты были сегментированы, в данном случае — на 9 групп: по полу, уровеню образования (3 категории), возрастной группе (4 категории).

Можно ли одновременно отобразить на одном графике 20 временных трендов (9 групп и среднее отдельно по Восточной и Западной Германии)?

Можно! Вот, что сделали авторы из издания Zeit Online (кстати, у них очень хорошие примеры интерактивной инфографики). Это типовой интерфейс их инфографики; он демонстрирует результат ответа на один вопрос.

Вопрос анкеты звучал так: «Согласны ли Вы, что с точки зрения воспитания ребенка работающая мать более предпочтительный вариант, чем мать-домохозяйка?». График показывает число согласных (от 0 до 100%).

Толстые линии соответствуют средним значениям: синяя — среди жителей Восточной Германии; желтая — среди жителей Западной Германии. Разрыв в отношении к этому социальному явлению между двумя регионами значителен и со временем почти не сократился на фоне общего тренда поощрения работы матерей.

Каждая из тонких фоновых линий — это один из разрезов респондентов. Доступ к разделу происходит через кнопки в верхней части интерфейса. Вот результат выбора сегмента «Мужчины» (выбранный сегмент прорисован толстой серой линией).

Что не удивительно, в обоих регионах мужчины больше поощряют женский труд, чем население в среднем, и, следовательно, чем женщины. При этом с точки зрения временной динамики тренд этой группы практически полностью повторяет тренд среднего.

Обратите внимание, насколько «чистым» и простым выглядит интерфейс: хотя на нем практически отсутствуют подписи числовых значений (а они появляются только для выбранного сегментов), зритель сразу может охватить картину в целом.

Дополнительные преимущества этой работы:

— Результаты ответов на все вопросы представлены в едином стиле и зрители не тратят время на то, чтобы перенастроить свое восприятие инфографики на новые образы и закономерности.
— Справа предложен удобный навигационный инструмент для того, чтобы перемещаться между разными вопросами анкеты.

Компании, проводящие опросы, — примите на заметку! Datasense поможет Вам создать удобные и понятные интерактивные интерфейсы для представления сегментированных результатов Ваших опросов.

Впервые опубликовано: здесь, 10 июля 2015 года

Польза от тепловых карт

Существует много типов диаграмм и различных способов отображения данных. Одни из них традиционные и, если вы их используете, у вас очень много шансов быть верно понятыми без лишних усилий и комментариев. Другие встречаются заметно реже. Однако с ними часто сложно рассчитывать на «понимание по умолчанию». Тепловые карты (heatmap) относятся к последним. Тем не менее, они имеют свою область применения и там очень эффективны.

Недавно в газете Washington Post была опубликована точечная диаграмма. Каждая точка соответствует одному американскому городу, а ее положение — проценту белокожего населения (по горизонтальной оси абсцисс) и проценту белокожих полицейских (по вертикальной оси ординат). Цвет точек не имеет принципиального значения: синим цветом показаны те города, в которых процент белокожих полицейских больше процента белокожих жителей; серый соответственно, наоборот.

Проблема этого решения в том, что оно плохо отвечает на вопрос о плотности точек. Правый верхний угол: там сконцентрированы точки, и непонятно, сколько их. То есть: «Как много городов, в которых все полицейские белокожие (100% по ординате) и процент белокожего населения велик (70-100%)?». Эта проблема связана с излишней дисперсностью диаграммы: если какой-то показатель отличается у двух городов на 0,1% — это будут две, наезжающие друг на друга, точки.

Решение проблемы — использование тепловой карты (heatmap): обе оси делятся на 5%-е интервалы, составляя тем самым 400 квадратов. Цвет квадрата показывает, сколько городов относятся к соответствующему диапазону.

Теперь, конечно, не увидеть каждый город, но возникает общее понимание ситуации, в том числе ясно, что концентрация показателей в правом верхнем углу значительна. В бледно-желтых квадратах — от 1 до 5 городов. Именно этот масштаб пока не дает полного представления, поскольку каждый пятый город имеет только белокожих полицейских.

Обратимся к содержанию статьи, которую иллюстрировала точечная диаграмма. Она посвящена резонансному для США событию: 4 апреля 2015 года в городе Норт-Чарлстон (Южная Каролина) белокожий полицейский из соображений самообороны застрелил чернокожего нарушителя. В Норт-Чарлстоне имеет место расовый дисбаланс: от общего числа жителей чернокожие занимают больше половины, однако среди полицейских преобладают белокожие (более 80%).

Это знание позволяет упростить диаграмму. Предположим, что в городах с большой долей белокожих в полиции (100%) расовый момент неприменим. Удалим соответствующие точки из выборки. Получается уточненная картина, дающая хороший вывод, — есть прямая корреляция между процентом белокожего населения и полицейских. Увеличивая масштаб по каждой из сторон клетки с 5% до 10%, получим следующий вид, отражающий прямую зависимость двух показателей.

Какие выводы можно сделать из данных Washington Post:

  1. Наблюдается определенная тенденция: процент белокожих полицейских выше процента белокожих жителей в населенных пунктах. При этом, конечно, есть исключения.
  2. Почти в каждом пятом городе полицейская служба состоит только из белокожих (на графике эти города не представлены).
  3. Стоит обратить внимание на города, которые сильно отстоят от среднего значения, т. е. в которых процент белокожих полицейских несравнимо выше процента белокожего населения и наоборот.

Еще один вывод: в некоторых случаях исключение отдельных сегментов данных (здесь — городов со 100%-й белокожей полицейской службой) не только не портит картину, но и дает ее лучшее понимание.

Пост основан на публикации в блоге Junk Charts.

Впервые опубликовано: здесь, 27 апреля 2015 года

Конкурсы по Data-mining

Область интеллектуального анализа данных, как никакая другая, способствует проведению открытых профессиональных конкурсов.

Для авторов задач это способ не только получить решение своей проблемы, но провести очень красивую PR- и HR-кампанию. Кампанию не для всех, но очень весомую для разбирающейся публики. Здорово, что этот инструмент опробуют и российские компании — Яndex, Wikimart.

Для участников — это лишний способ опробовать алгоритмы на больших, действительно больших массивах данных. И, что самое примечательное, — быть полезным, то есть предложить свое решение для реально существующей проблемы.

Недаром конкурсы по Data Mining (DM) стартовали с социальных задач. В последние годы, конечно, явно преобладают коммерческие запросы. И соответствующие призовые фонды.

Конкурсные задания обычно основаны на задачах классификации или регрессии. Намного реже речь идет о кластеризации, анализе последовательностей.

Для решения задачи участникам предоставляются два массива. Один, большой, массив — это данные для обучения алгоритма. Второй, поменьше, — для тестирования. Собственно, результат применения алгоритма на тестовом массиве и является решением.

Ниже привожу обзор наиболее значимых и регулярных событий в области DM. Помимо этого, существует большой список конкурсов и испытаний, которые организуются в образовательных целях. Так, например, компания SAS проводит конкурсы совместно с Университетом Технологии Сиднея UTS; свою программу имеет Microsoft.

KDD Cup — от родоначальников темы

Первый KDD Cup был проведен в 1997 году. Событие было организовано сообществом со сложным названием ACM SIGKDD (Special Interest Group on Knowledge Disovery and Data Mining), по факту являющимся наиболее известным объединением профессионалов в области машинного обучения.

В первый год участникам было предложено оказать содействие организации Paralyzed Veterans of America (PVA). Организация обладает более чем 13 миллионной базой жертвователей в США. Задачей участников было предсказание факта пожертвования конкретным жертвователем. Эта информация использовалась для оптимизации адресной рассылки.

Первые два года победителем становилась американская компания Urban Science Applications с ПО GainSmarts. В 1998 году ей удалось даже обогнать признанного лидера отрасли — SAS Institute. Сегодня компания Urban Science поставляет решения и консалтинговые услуги практически для всех компаний автомобильной отрасли в 70 странах мира.

Примечательно, что уже в 2000 году на KDD Cup в качестве объекта была выбрана база данных посещений веб-сайта. И задачи были связаны с анализом последовательности (сиквенциальным анализом).

Netflix Prize — отнюдь не первый, но самый значимый

Если в области конкурсов по Data Mining ввести индекс цитирования, то конкурс от американского прокатчика фильмов Netflix в 2007-2009 году, я уверен, был бы абсолютным лидером. И выделялся он из общего ряда потрясающим бюджетом в $1,000,000.

Участникам марафона предлагалось улучшить алгоритм Cinematch фирмы Netflix. Этот алгоритм прогнозировал оценку, которую поставит пользователь тому или иному фильму по пятибалльной шкале. Среднеквадратическое отклонение алгоритма Cinematch на тренировочной выборке составило 0,95; участникам предстояло улучшить данный показатель на 10%. Главный приз предполагалось выплатить только при достижении одной из команд данного уровня.

В итоге на третьем году конкурса добиться требуемого уровня СКО удалось команде BellKor’s Pragmatic Chaos, составленной из участников изначально трех независимых команд.

Head Health Challenge — на порядок круче Netflix

На порядок круче с точки зрения денежного фонда соревнования, который составил $20,000,000. Спонсорами конкурса выступают General Electric, Under Armour, а также североамериканская лига американского футбола NFL.

Миссия конкурса — научиться лучше понимать последствия черепно-мозговых травм и вовремя диагностировать опасные последствия. К сожалению, тема таких травм очень критична для американского футбола.

Head Health Challenge начался в марте 2013 года, и его соревновательная завершилась в феврале 2014 года. Вручение наград запланировано на сентябрь 2014 года.

KAGGLE — самая популярная платформа

KAGGLE — платформа, созданная в 2010 году австралийским математиком Энтони Голдблумом (Anthony Goldbloom) для проведения конкурсов в области интеллектуального анализа данных.

На начало 2014 года в проекте зарегистрировано почти 150 тыс. исследователей из разных стран мира, из которых более 10 тыс. имеют рейтинговые очки (приняли активное индивидуальное участие или в составе группы в одном из конкурсов).

С момента создания было проведено 130 конкурсов, часть из которых являются «закрытыми», т. е. доступны только для участников с максимальным рейтингом. Часть конкурсов не имеют призового фонда, в некоторых случаях он символический. Призовой фонд семи конкурсов превышает $100,000, в том числе: от страховой компании Heritage Provider Network, четыре конкурса от General Electric, два — от фонда Hewlett Foundation.

В январе 2014 года на сайте был подведен итог конкурса от Яндекса с призовым фондом в $9,000. Целью конкурса был алгоритм ранжирования документов с учетом пользовательских предпочтений, как исторических, так и относящихся к конкретной поисковой сессии.

Олимпиада Wikimart — пионеры в России

В 2013 году был проведен первый конкурс DM центром онлайн-торговли Wikimart.

Конкурс состоял из трех задач, имеющих практическое приложение к деятельности сайта: участникам предлагалось спрогнозировать обращение в колл-центр, предсказать вероятность отказа от созданного заказа и ухода посетителя с сайта.

В конкурсе приняли участие около 50 человек.

Другие конкурсы

— TunedIT (www.tunedit.org/challenges) — международная платформа конкурсов в области DM.
— Cybersecurity Data Mining Competition, CDMC (www.csmining.org/cdmc2013/) — международный конкурс по DM в области информационной безопасности.
— Large Scale Hierarchical Text Classification (www.lshtc.iit.demokritos.gr/) — конкурс в области Text Mining.
— DataDigger (www.ithouse.by/?page_id=6303&sub=1) — конкурс DM в Беларуси.

Знаете другие конкурсы? Пожалуйста, поделитесь ссылкой на них в комментариях, и я их добавлю в статью.

Один из характерных признаков в области DM — их демократичность. Принять в них участие может любой зарегистрировавшийся пользователь. Во многих случаях данные для анализа доступны даже после подведения официальных итогов.

Так что пробовать уже можно сегодня :)

Впервые опубликовано: здесь, в 2014 году

2018  
Ранее Ctrl + ↓