websitelytics

Menu

A/B-тесты для бизнеса

Опубликовано: 09 фев 2023

You can't say "optimization" without "experimentation"

Поводом для написания этой статьи стал один случай — меня спросили могу ли я подсчитать денежный эффект от потенциального внедрения некой фичи на основе ретроспективных данных. Возможно кто-то из вас скажет "да, конечно" и от части будет прав. Мы можем в принципе посчитать что угодно, но насколько полученные цифры будут объективны, а не субъективны?

Итак, что же нас может смутить в этом вопросе, и почему представители бизнеса продолжают его спрашивать?

Современный бизнес точно знает, что хочет быть data-driven, но не всегда, к сожалению, до конца понимает, а что для этого требуется. Чаще такое встречается, если бизнес по профилю далек от диджитал. Это понятная ситуация, и она постепенно исправляется. Надеюсь моя статья также будет каплей, которая будет этому способствовать.

Можно долго рассуждать, почему нам трудно будет ответить на заданный вопрос на основе ретроспективных данных, но я назову лишь ключевой момент — чтобы понять размер эффекта от новой фичи, нам нужно сравнить результат "с фичей" и "без фичи" в условиях "при прочих равных". Тогда, если выражаться образно, мы можем "измерить линейкой" разницу — это и будет первоначальная оценка эффекта.

"При прочих равных" здесь означает учитывание и нивелирование всех "спутывающих факторов" за счет рандомизации и равного распределения. Речь идет о таких факторах, как:

Это и есть одно из ключевых правил, котрое легло в основу практики контролируемых экспериментов, "a/b-тестов", как метода проверки гипотез в data-driven подходе.

Почему же бизнес иногда закрывает на это глаза? Ответ может лежать на поверхности — "хочется простого решения", без погружения и денежных вложений в новую и непонятную тему каких-то там экспериментов. Под вложениями здесь можно понимать траты на инженерные и интеллектуальные ресурсы, развитие того, что называют "культурой экспериментов".

Мотивацией для таких вложений, на мой скромный взгляд, может стать понимание, что польза от такого подхода — это перспектива улучшения data-driven процессов внутри компании.

Размер эффекта

Так как же нам замерить размер эффекта? Допустим мы провели эксперимент, и по накоплению 95% наблюдений, необходимых для принятия решения, мы видим - "о, ура" с окупаемостью в 1%, мы наблюдаем (статистический) эффект, равный 2% в пользу нашей фичи (пример для наглядности). Можем ли мы сделать вывод, что внедрение фичи даст нам соответствующий прирост дохода, и мы должны поспешить с ее внедрением?

На самом деле, думаю понятно, что не все так просто. Помимо того, что метрика, которую мы замеряем, не обязательно должна трансформироваться один к одному в чистый доход, нужно помнить о том, что мы по прежнему даже в случае "доказанной" статистической разницы продолжаем иметь дело с вероятностью. Реальный эффект на практике после внедрения фичи может быть как больше, так и меньше. Т.е. пока может получиться так, что внедрение фичи не будет окупаемой по причине неучтенной неопределенности.

Снизить такие риски можно измерив эту неопределенность. И здесь не обойтись без математики и статистики. Не будем погружаться здесь в формулы расчета, они будут зависеть от того, какой статистический фреймворк вы применяете, а проиллюстрируем принцип решения на картинке.

Здесь хорошо видно, как соотносятся замеренный эффект и его потенциальные границы, которые определяются соответствующими доверительными интервалами.

С помощью такого анализа мы можем снизить риски оценки окупаемости и эффекта внедрения новых фич.