Андрей Романов, тимлид аналитики Sales Tech в Авито, опубликовал разбор A/B-тестирования на малых выборках — ситуации, когда в каждой группе не тысячи пользователей, а 10–40 менеджеров, регионов или товарных категорий. Материал основан на реальном эксперименте: команда тестировала автоматизированный инструмент для звонков, сравнивая продуктивность менеджеров, которые звонят вручную, с теми, кто использует инструмент. Единицей рандомизации выступали сами менеджеры.
Малые выборки создают две независимые проблемы. Первая — чувствительность: минимально детектируемый эффект (MDE) оказывается выше, чем реально ожидаемое изменение метрики, и тест почти гарантированно не даст значимого результата. Вторая — валидность: при небольшом числе наблюдений любая ошибка в балансе групп, выборе метрики или интерпретации результата многократно опаснее, чем в стандартном эксперименте.
| n | ddof = 0 (std) | ddof = 1 (std) | ~ разница |
|---|---|---|---|
| 10 | 4.74 | 5 | 5.5% |
| 100 | 4.97 | 0.5% | |
| 10 000 | 4.999 | 0.005% |
Романов выделяет несколько ключевых принципов работы до запуска. Первый — глубокое погружение в контекст: без понимания механики изменения легко выбрать метрику, которая физически не может отреагировать на воздействие, или включить в выборку участников, которые в принципе не затронуты экспериментом. Второй — построение DAG (directed acyclic graph, направленного ациклического графа) и дерева метрик: это позволяет заранее увидеть, через какие промежуточные звенья изменение должно дойти до целевой метрики, и где могут возникнуть побочные эффекты. Третий — заблаговременное определение критериев исключения: в эксперименте Авито за день до сплита Романов получал список сотрудников в отпусках, на больничных и планирующих увольнение — они исключались до начала, а не постфактум.
Хоторнский эффект искажает результаты: менеджеры из тестовой группы могут перформить лучше из-за управленческого давления, а не из-за инструмента.
Отдельный блок посвящён Хоторнскому эффекту — феномену, при котором метрика меняется не из-за самого инструмента, а из-за того, что участники знают об эксперименте или получают повышенное внимание. В B2B-контексте это выражается конкретно: руководители могут сильнее давить на менеджеров из тестовой группы ради выполнения OKR. Романов рекомендует после завершения эксперимента смотреть на динамику обеих групп — вырос ли контроль до уровня теста или тест откатился к уровню контроля. Это не строгий тест причинности, но рабочая диагностика.
Для повышения чувствительности автор предлагает три тактики, каждая из которых имеет свою цену. Сужение выборки до сегмента с максимальным ожидаемым эффектом улучшает соотношение сигнала и шума, но ограничивает вывод этим сегментом. Батчинг — объединение нескольких связанных изменений в один тест — увеличивает суммарный эффект, но смешивает вклад отдельных фич. Усиленное внедрение (обучение, напоминания, контроль adoption rate) делает воздействие более явным, но превращает тест в проверку не только продукта, но и процесса его внедрения. По мнению Романова, в условиях малых выборок это разумный компромисс: лучше получить ответ на практический вопрос «стоит ли запускать это решение», чем не получить никакого ответа.
Гайд охватывает 26 шагов, разбитых по этапам: подготовка до дизайна, дизайн метрик, дизайн эксперимента по чувствительности и валидности, действия после запуска. Автор подчёркивает, что 90% описанных подходов применимы к стандартным экспериментам с большими выборками — малые выборки лишь делают каждую ошибку дороже и каждый правильный шаг ценнее.
