Доступность — главный враг данных

Данные — они везде. Продажи, закупки, посетители на сайте, характеристики процессов... Я могу продолжать и продолжать этот список.

Парадокс, но чем более доступны данные, тем их хуже анализируют. Доступность и очень близкий в данном контексте синоним — открытость, девальвируют ценность данных.

Как с этим бороться? В конце поста я приведу три рекомендации по работе с доступными данными.

Вот первый пример. Возьмем любую систему веб-статистики. Google Analytics, Яндекс Метрика, Liveinternet и другие дают пользователям десятки уже готовых отчетов. Эти возможности дополнены еще функционалом создания индивидуальных отчетов, разрезов (сегментов), настраивания целей. «Вау, возможности безграничны!», — думает каждый новый владелец аккаунта.

И что же получаем на выходе?

Обычно — многостраничные отчеты с графиками и расчетами, которые не дают понимания глубинных причин взаимосвязей.

Второй пример — открытые данные статистических служб мира. По моему опыту работы в нашей исследовательской компании Research.Techart, отношение аналитиков (людей, выполняющих анализ данных) к этим данным двойственно.

[Конечно, к любой государственной статистике, тем более Росстата, стоит относиться весьма критически. Например, китайская служба выдает со статистически неправдоподобной частотой «круглые» показатели с нулем и пятью десятыми в дробной части].

В начале работы над новой темой официальные данные часто помогают определить направления для дальнейшего исследования.Потом им в отчете уделяется весьма скромное место. Обычно все сводится к трансляции простейших таблиц и выборок. И логика здесь простая: эти данные открыты и доступны. Значит для покупателя и заказчика они не представляют большую ценность. Но за этими цифрами стоит большой труд по переписи людей, предприятий и организаций, их характеристик.

Почему доступность данных и качество их анализа имеют отрицательную корреляцию?

По моему опыту, здесь есть две основные причины.

  1. Эйфория от доступа к большому массиву данных. Обычная реакция аналитика на большой массив — начинать с ним разбираться, делать выборки, выявлять доступные значения и их разброс, создавать новые поля.

Все мы любим «поиграть» с данными, неправда ли?

Только в одном из десяти случаев аналитик сначала досконально разберется с тем, что же означают приводимые показатели, каковы их взаимосвязями и как они были получены. Еще в одном случае из десяти он это сделает впоследствии. В остальных случаях обращение к мануалу происходит по мере необходимости. Т. е. по мере выявления ошибок в расчетах, отчетах.

  1. Отсутствие четких целей. Когда аналитик сам скрупулезно собирает по зернам данные... Или, конечно, просит кого-то это сделать :)... В любом случае он, во-первых, хорошо понимает их глубинную сущность и всевозможные оговорки. Во-вторых, он часто имеет представление, как эти данные будут использоваться.

Собирать данные без понимания их последующего использования — это особая тема и особое преступление перед своей компанией. Собирать данные для архива, чтобы сделать один отчет, «чтобы было». Настаиваю, что каждая из этих формулировок по-своему преступна. Услышав ее, сделайте все, что в ваших силах, чтобы остановить бесцельную трату времени на сбор данных. Они вряд ли принесут пользу в будущем.

Доступные данные — это изначально данные, собранные без твоего участия, и без учета твоих целей! Поэтому они не настолько бесплатны — ты должен заплатить временем и усилием для того, чтобы их понять.

3 совета по работе с доступными данными

##1. Не подстраивайте свои цели под доступные данные
Если вы уже задали хорошие и правильные бизнес-вопросы к данным, не стоит их ослаблять только по той причине, что нет таких доступных данных. Очень часто намного больший эффект даст сохранение вопроса и дополнительные инвестиции в модификацию данных.

Например, ни одна из систем веб-статистики не умеет работать с концепцией жизненной ценности клиента (Lifetime value, LTV). Не умеет, и вряд ли в ближайшем будущем научится с достаточной степенью достоверности.

Допустим, ваша компания уже готова к этой трансформации мышления и переходу на LTV. Это само по себе похвально, и наверняка вы вот-вот победите всех своих конкурентов. Отказываться от LTV лишь потому, что Яндекс.Метрика или Google Analytics не умеют с ним работать, очень глупо.

Так зачем же ставить себя в зависимость от состава доступных в других случаях? Правильно, не стоит.

2. Разберитесь последовательно со значениями всех показателей

У вас есть 50, 100, 500 различных показателей, вы видите данные впервые. Какими бы ни казались однозначными, простыми, интуитивно понятными показатели, потратьте 30 минут и прочитайте сопровождающее описание. Эти полчаса на периоде работ в дни, недели и месяца позволят вам сэкономить уйму времени.

Не ставьте перед собой цель запомнить все!

Описания содержат какую-либо понятную структуру. Речь, конечно, про хорошие описания. Так вот, ознакомьтесь с этой структурой, чтобы для начала хотя бы знать, где что искать.

3. Уделите время поиску описания кейсов использования данных

Данные доступны, и, скорее всего, вы не первый, кто работает с ними! Наверное, в интернете уже вас ждут красивые и содержательные истории успеха других сотрудников и пока не знакомых вам людей.

Следуя этим трем простым советам, вы избавите себя от многих проблем и ограничений, связанных с доступными данными.

Были ли полезны эти советы? Можете что-то добавить? Есть истории успеха в работе с доступными данными?

Жду ваших комментариев. Спасибо за уделенное прочтению поста время.

Впервые опубликовано: здесь, в 2014 году

Поделиться
Отправить
Запинить
Популярное