Опубликовано: Сентябрь 10, 2024
Вы когда нибудь делали когортный анализ? Если да, то скорее всего одним из типов когорт были когорты удержания (retention cohorts). Посмотрите на пример таких когорт ниже. Предположим за выбранный период времени для пользователей проводились различные маркетинговые активности направленные на их удержание. Что можно сказать, посмотрев на эти данные? Эффективность привлечения 9-ой когорты была самая лучшая? Прекращение активностей по удержанию пятой когорты после первой недели вызвало отток (67 снизилось до 51)?
Week 1 | Week 2 | Week 3 | Week 4 | Week 5 | Week 6 | Week 7 | Week 8 | Week 9 | Week 10 | |
---|---|---|---|---|---|---|---|---|---|---|
Cohort 1 | 57 | 57 | 55 | 72 | 57 | 69 | 62 | 70 | 54 | 56 |
Cohort 2 | 59 | 52 | 44 | 55 | 70 | 62 | 58 | 50 | 56 | 0 |
Cohort 3 | 54 | 69 | 51 | 52 | 63 | 48 | 57 | 55 | 0 | 0 |
Cohort 4 | 58 | 55 | 60 | 60 | 46 | 63 | 60 | 0 | 0 | 0 |
Cohort 5 | 67 | 51 | 55 | 56 | 50 | 51 | 0 | 0 | 0 | 0 |
Cohort 6 | 52 | 49 | 70 | 52 | 60 | 0 | 0 | 0 | 0 | 0 |
Cohort 7 | 58 | 64 | 72 | 54 | 0 | 0 | 0 | 0 | 0 | 0 |
Cohort 8 | 59 | 65 | 60 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Cohort 9 | 70 | 70 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Cohort 10 | 67 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Идея примера взята из поста Рона Кохави в linkdin.
На самом деле в этих данных нет абсолютно никаких паттернов — все ячейки сформированы с одной и той же биномиальной вероятностью 0.06
, примененной к 1000 пользователей одной строчкой Python кода:
cohorts = [np.concatenate((np.random.binomial(1000, 0.06, num_weeks-i), np.zeros(i)), axis=0) \
for i in range(cohorts_size)]
Другими словами, если бы 2000 случайно выбранных пользователей нашего сайта или приложения, которые имеют тенденцию возвращаться на недельном интервале с вероятностью 6% мы поделили на две группы, то их когорты приблизительно отличались бы таким образом. В теории контролируемых экспериментов это называется "A/A" тест, который в том числе помогает наблюдать и оценить "шум" анализируемых данных.
Вышеописанное — это один из примеров с отсылкой к "статистическому мышлению". Мы можем встретить разные определения этого понятия, например:
"Статистическое мышление касается связи данных и реальной задачи, часто при наличии изменчивости и неопределенности. Это старание уточнить, что данные говорят нам об интересующей нас проблеме". (Маллоуз, 1998)
На мой взгляд статистическое мышление побуждает вас проверять данные, видвигать и проверять гипотезы и взвешенно оценивать результаты.
Рассмотрим составляющие этого подхода на примере задачи увеличения CTR страницы товара.
Представим, что на сайте мы рекомендуем товары разной ценовой категории. Проанализировав, мы видим, что они имеют следующий CTR:
Однако при взгляде на покупки картина меняется:
Таким образом, мы можем получить смешанную картину:
Или же предположим, что нам нужно проанализировать фидбек пользователей на основе виджета с бальной системой оценки или NPS опросника. Характеристиками могут быть: - скорость загрузки страницы (оценка пользователей) - качество фото товаров - удобство поиска товаров - удобство фильтров - и т.д.
Одним из интересных моментов здесь в том, что мы можем посчитать не только абсолютные величины, но и отношения между оценками по каждому пользователю.
Описательная статистика. Может включать среднее значение, медиану, стандартное отклонение и процентили для каждого показателя. Это даст общее представление о том, как пользователи оценивают каждую характеристику. Например, вы можете обнаружить, что пользователи в целом удовлетворены скоростью загрузки сайта и качеством фотографий товаров, но их меньше устраивает эффективность поиска и удобство фильтров:
Metric | Mean | Standard Deviation | Median | Percentile 25 | Percentile 75 |
---|---|---|---|---|---|
Скорость загрузки | 4.2 | 0.8 | 4.0 | 3.5 | 4.8 |
Качество фото товара | 4.5 | 0.7 | 4.5 | 4.0 | 5.0 |
Качество поиска | 3.8 | 1.0 | 4.0 | 3.0 | 4.5 |
Удобство фильтров | 4.0 | 1.2 | 4.0 | 3.2 | 4.8 |
Корреляции. Рассчитайте корреляции между различными показателями. Это поможет вам увидеть, есть ли между ними какие-либо связи. Например, вы можете обнаружить, что существует корреляция между скоростью загрузки страницы и удобством поиска. Это означает, что пользователи, которые не довлетворены скоростью загрузки, в результате могут быть и не удовлетворены удобством поиска.
Анализ сегментов. Сегментируйте пользователей по различным критериям (например, демографическим данным, истории покупок) и сравнивайте их отзывы. Это поможет вам выявить группы пользователей, которые особенно удовлетворены или недовольны определенными характеристиками.
Анализ тональности. Если данные вашего отзыва включают текстовые комментарии, вы можете использовать анализ тональности, чтобы понять тональность отзыва. Это может помочь вам определить области, в которых у пользователей возникают проблемы или где они особенно довольны.
Это всего лишь несколько примеров того, как можно использовать статистическое мышление для анализа вашего продукта. Используя различные методы, вы можете получить ценную информацию о том, как пользователи воспринимают ваш продукт или услугу, и определить области для улучшения.