Опубликовано: 17 фев 2023
Если вы занимаетесь a/b-тестами, у вас наверняка есть список каких-то моментов, о которых вы стараетесь никогда не забывать. Ниже делюсь своим списком.
История развития статистических методов, которые стоят за расчетами в a/b-тестах достаточно интересна сама по себе. Понимание того, как трансформировался "фреймворк" от Р.А.Фишера к варианту Неймана-Пирсона и вплоть до "дельта метода" — может помочь в поиске оптимального решения.
В одном из своих выступлений Рон Кохави рассказывал о том, как хайтек гиганты проводили a/b-эксперимент с целью измерения выручки в поисковой выдаче при добавлении подчеркивания к ссылкам рекламных объявлений. Выручка оказалась выше, но от явного подчеркивания все же решили отказаться в пользу чистого дизайна. Интересный пример.
В русскоязычном интеренете были истории с хайтек-гигантами, которые учат нас, что новый интерфейс лучше выкатывать градиентным увеличением выборки, применяя сплитование и мониторя при этом пользовательские метрики подобно a/b-эксперименту.
Одна из замечательных сентенций из книги Рона Кохави: развитие внутренней платформы экспериментов можно разделить на четыре фазы — "ползать, ходить, бегать, летать". Вы как бы не можете взять и перепрыгнуть.
При дизайне a/b-теста следует помнить о том, что является единицей сплитования, а что аналитической единицей в вашем эксперименте. Это один из главных моментов для правильного измерения/расчета дисперсии изучаемой метрики.
Учитывайте "эффект новизны" и другие эффекты, которые могут повлиять на восприятие пользователями тестируемой фичи. К примеру, можно добавить расчет когорт.
Помните о "спутывающих факторах" (confounders) для вашего эксперимента. Именно поэтому правильная рандомизация так важна — она помогает "нейтрализовать" их влияние за счет равномерного воздействия.
A/a тест — этой первый шаг к a/b тесту.
Один из основных естественных способов проверки корректности инженерного решения сплитования — это проверка SRM (неравномерности выборок).
Бизнесу интересны totals и деньги (выручка), как метрики оценки результатов a/b-тестов. Но totals далеко не всегда обладают нужной чувствительностью. Прокси-метрики (простые или составные) могут больше подходить на роль OEC (overall evaluation criterion).