10 заметок с тегом

аналитика

Позднее Ctrl + ↑

Инфографика: удачное представление результатов соцопросов

В инфографике большое мастерство — это, конечно, расставить акценты на статической картинке таким образом, чтобы читатель однозначно понял все сообщения автора.

Однако бывает, что данных и их измерений очень и очень много. Например, это результаты соцопроса.

В таких случаях отобразить удобным образом полученные знания весьма непросто. Замечательно, что тем не менее удачные решения существуют. И здесь отлично срабатывает интерактивность, дающая возможность в разное время отобразить тот или иной срез данных.

Этот пост вновь написан по мотивам поста, опубликованного в блоге Junk Charts Кайзера Фунга (Kaiser Fung). В нем речь пойдет об интерактивной визуализации результатов соцопроса. Опрос сравнивает отношение жителей Восточной и Западной Германии к социальным трендам, а также показывает динамику мнений в течение последних 25 лет, т. е. с момента воссоединения страны.

Как и в любом опросе респонденты были сегментированы, в данном случае — на 9 групп: по полу, уровеню образования (3 категории), возрастной группе (4 категории).

Можно ли одновременно отобразить на одном графике 20 временных трендов (9 групп и среднее отдельно по Восточной и Западной Германии)?

Можно! Вот, что сделали авторы из издания Zeit Online (кстати, у них очень хорошие примеры интерактивной инфографики). Это типовой интерфейс их инфографики; он демонстрирует результат ответа на один вопрос.

Вопрос анкеты звучал так: «Согласны ли Вы, что с точки зрения воспитания ребенка работающая мать более предпочтительный вариант, чем мать-домохозяйка?». График показывает число согласных (от 0 до 100%).

Толстые линии соответствуют средним значениям: синяя — среди жителей Восточной Германии; желтая — среди жителей Западной Германии. Разрыв в отношении к этому социальному явлению между двумя регионами значителен и со временем почти не сократился на фоне общего тренда поощрения работы матерей.

Каждая из тонких фоновых линий — это один из разрезов респондентов. Доступ к разделу происходит через кнопки в верхней части интерфейса. Вот результат выбора сегмента «Мужчины» (выбранный сегмент прорисован толстой серой линией).

Что не удивительно, в обоих регионах мужчины больше поощряют женский труд, чем население в среднем, и, следовательно, чем женщины. При этом с точки зрения временной динамики тренд этой группы практически полностью повторяет тренд среднего.

Обратите внимание, насколько «чистым» и простым выглядит интерфейс: хотя на нем практически отсутствуют подписи числовых значений (а они появляются только для выбранного сегментов), зритель сразу может охватить картину в целом.

Дополнительные преимущества этой работы:

— Результаты ответов на все вопросы представлены в едином стиле и зрители не тратят время на то, чтобы перенастроить свое восприятие инфографики на новые образы и закономерности.
— Справа предложен удобный навигационный инструмент для того, чтобы перемещаться между разными вопросами анкеты.

Компании, проводящие опросы, — примите на заметку! Datasense поможет Вам создать удобные и понятные интерактивные интерфейсы для представления сегментированных результатов Ваших опросов.

Впервые опубликовано: здесь, 10 июля 2015 года

2018   аналитика

Польза от тепловых карт

Существует много типов диаграмм и различных способов отображения данных. Одни из них традиционные и, если вы их используете, у вас очень много шансов быть верно понятыми без лишних усилий и комментариев. Другие встречаются заметно реже. Однако с ними часто сложно рассчитывать на «понимание по умолчанию». Тепловые карты (heatmap) относятся к последним. Тем не менее, они имеют свою область применения и там очень эффективны.

Недавно в газете Washington Post была опубликована точечная диаграмма. Каждая точка соответствует одному американскому городу, а ее положение — проценту белокожего населения (по горизонтальной оси абсцисс) и проценту белокожих полицейских (по вертикальной оси ординат). Цвет точек не имеет принципиального значения: синим цветом показаны те города, в которых процент белокожих полицейских больше процента белокожих жителей; серый соответственно, наоборот.

Проблема этого решения в том, что оно плохо отвечает на вопрос о плотности точек. Правый верхний угол: там сконцентрированы точки, и непонятно, сколько их. То есть: «Как много городов, в которых все полицейские белокожие (100% по ординате) и процент белокожего населения велик (70-100%)?». Эта проблема связана с излишней дисперсностью диаграммы: если какой-то показатель отличается у двух городов на 0,1% — это будут две, наезжающие друг на друга, точки.

Решение проблемы — использование тепловой карты (heatmap): обе оси делятся на 5%-е интервалы, составляя тем самым 400 квадратов. Цвет квадрата показывает, сколько городов относятся к соответствующему диапазону.

Теперь, конечно, не увидеть каждый город, но возникает общее понимание ситуации, в том числе ясно, что концентрация показателей в правом верхнем углу значительна. В бледно-желтых квадратах — от 1 до 5 городов. Именно этот масштаб пока не дает полного представления, поскольку каждый пятый город имеет только белокожих полицейских.

Обратимся к содержанию статьи, которую иллюстрировала точечная диаграмма. Она посвящена резонансному для США событию: 4 апреля 2015 года в городе Норт-Чарлстон (Южная Каролина) белокожий полицейский из соображений самообороны застрелил чернокожего нарушителя. В Норт-Чарлстоне имеет место расовый дисбаланс: от общего числа жителей чернокожие занимают больше половины, однако среди полицейских преобладают белокожие (более 80%).

Это знание позволяет упростить диаграмму. Предположим, что в городах с большой долей белокожих в полиции (100%) расовый момент неприменим. Удалим соответствующие точки из выборки. Получается уточненная картина, дающая хороший вывод, — есть прямая корреляция между процентом белокожего населения и полицейских. Увеличивая масштаб по каждой из сторон клетки с 5% до 10%, получим следующий вид, отражающий прямую зависимость двух показателей.

Какие выводы можно сделать из данных Washington Post:

  1. Наблюдается определенная тенденция: процент белокожих полицейских выше процента белокожих жителей в населенных пунктах. При этом, конечно, есть исключения.
  2. Почти в каждом пятом городе полицейская служба состоит только из белокожих (на графике эти города не представлены).
  3. Стоит обратить внимание на города, которые сильно отстоят от среднего значения, т. е. в которых процент белокожих полицейских несравнимо выше процента белокожего населения и наоборот.

Еще один вывод: в некоторых случаях исключение отдельных сегментов данных (здесь — городов со 100%-й белокожей полицейской службой) не только не портит картину, но и дает ее лучшее понимание.

Пост основан на публикации в блоге Junk Charts.

Впервые опубликовано: здесь, 27 апреля 2015 года

2018   аналитика

Доступность — главный враг данных

Данные — они везде. Продажи, закупки, посетители на сайте, характеристики процессов... Я могу продолжать и продолжать этот список.

Парадокс, но чем более доступны данные, тем их хуже анализируют. Доступность и очень близкий в данном контексте синоним — открытость, девальвируют ценность данных.

Как с этим бороться? В конце поста я приведу три рекомендации по работе с доступными данными.

Вот первый пример. Возьмем любую систему веб-статистики. Google Analytics, Яндекс Метрика, Liveinternet и другие дают пользователям десятки уже готовых отчетов. Эти возможности дополнены еще функционалом создания индивидуальных отчетов, разрезов (сегментов), настраивания целей. «Вау, возможности безграничны!», — думает каждый новый владелец аккаунта.

И что же получаем на выходе?

Обычно — многостраничные отчеты с графиками и расчетами, которые не дают понимания глубинных причин взаимосвязей.

Второй пример — открытые данные статистических служб мира. По моему опыту работы в нашей исследовательской компании Research.Techart, отношение аналитиков (людей, выполняющих анализ данных) к этим данным двойственно.

[Конечно, к любой государственной статистике, тем более Росстата, стоит относиться весьма критически. Например, китайская служба выдает со статистически неправдоподобной частотой «круглые» показатели с нулем и пятью десятыми в дробной части].

В начале работы над новой темой официальные данные часто помогают определить направления для дальнейшего исследования.Потом им в отчете уделяется весьма скромное место. Обычно все сводится к трансляции простейших таблиц и выборок. И логика здесь простая: эти данные открыты и доступны. Значит для покупателя и заказчика они не представляют большую ценность. Но за этими цифрами стоит большой труд по переписи людей, предприятий и организаций, их характеристик.

Почему доступность данных и качество их анализа имеют отрицательную корреляцию?

По моему опыту, здесь есть две основные причины.

  1. Эйфория от доступа к большому массиву данных. Обычная реакция аналитика на большой массив — начинать с ним разбираться, делать выборки, выявлять доступные значения и их разброс, создавать новые поля.

Все мы любим «поиграть» с данными, неправда ли?

Только в одном из десяти случаев аналитик сначала досконально разберется с тем, что же означают приводимые показатели, каковы их взаимосвязями и как они были получены. Еще в одном случае из десяти он это сделает впоследствии. В остальных случаях обращение к мануалу происходит по мере необходимости. Т. е. по мере выявления ошибок в расчетах, отчетах.

  1. Отсутствие четких целей. Когда аналитик сам скрупулезно собирает по зернам данные... Или, конечно, просит кого-то это сделать :)... В любом случае он, во-первых, хорошо понимает их глубинную сущность и всевозможные оговорки. Во-вторых, он часто имеет представление, как эти данные будут использоваться.

Собирать данные без понимания их последующего использования — это особая тема и особое преступление перед своей компанией. Собирать данные для архива, чтобы сделать один отчет, «чтобы было». Настаиваю, что каждая из этих формулировок по-своему преступна. Услышав ее, сделайте все, что в ваших силах, чтобы остановить бесцельную трату времени на сбор данных. Они вряд ли принесут пользу в будущем.

Доступные данные — это изначально данные, собранные без твоего участия, и без учета твоих целей! Поэтому они не настолько бесплатны — ты должен заплатить временем и усилием для того, чтобы их понять.

3 совета по работе с доступными данными

##1. Не подстраивайте свои цели под доступные данные
Если вы уже задали хорошие и правильные бизнес-вопросы к данным, не стоит их ослаблять только по той причине, что нет таких доступных данных. Очень часто намного больший эффект даст сохранение вопроса и дополнительные инвестиции в модификацию данных.

Например, ни одна из систем веб-статистики не умеет работать с концепцией жизненной ценности клиента (Lifetime value, LTV). Не умеет, и вряд ли в ближайшем будущем научится с достаточной степенью достоверности.

Допустим, ваша компания уже готова к этой трансформации мышления и переходу на LTV. Это само по себе похвально, и наверняка вы вот-вот победите всех своих конкурентов. Отказываться от LTV лишь потому, что Яндекс.Метрика или Google Analytics не умеют с ним работать, очень глупо.

Так зачем же ставить себя в зависимость от состава доступных в других случаях? Правильно, не стоит.

2. Разберитесь последовательно со значениями всех показателей

У вас есть 50, 100, 500 различных показателей, вы видите данные впервые. Какими бы ни казались однозначными, простыми, интуитивно понятными показатели, потратьте 30 минут и прочитайте сопровождающее описание. Эти полчаса на периоде работ в дни, недели и месяца позволят вам сэкономить уйму времени.

Не ставьте перед собой цель запомнить все!

Описания содержат какую-либо понятную структуру. Речь, конечно, про хорошие описания. Так вот, ознакомьтесь с этой структурой, чтобы для начала хотя бы знать, где что искать.

3. Уделите время поиску описания кейсов использования данных

Данные доступны, и, скорее всего, вы не первый, кто работает с ними! Наверное, в интернете уже вас ждут красивые и содержательные истории успеха других сотрудников и пока не знакомых вам людей.

Следуя этим трем простым советам, вы избавите себя от многих проблем и ограничений, связанных с доступными данными.

Были ли полезны эти советы? Можете что-то добавить? Есть истории успеха в работе с доступными данными?

Жду ваших комментариев. Спасибо за уделенное прочтению поста время.

Впервые опубликовано: здесь, в 2014 году

2018   аналитика
Ранее Ctrl + ↓