Андрей Романов, тимлид аналитики Sales Tech в Авито, опубликовал разбор A/B-тестирования на малых выборках — ситуации, когда в каждой группе не тысячи пользователей, а 10–40 менеджеров, регионов или товарных категорий. Материал основан на реальном эксперименте: команда тестировала автоматизированный инструмент для звонков, сравнивая продуктивность менеджеров, которые звонят вручную, с теми, кто использует инструмент. Единицей рандомизации выступали сами менеджеры.

Малые выборки создают две независимые проблемы. Первая — чувствительность: минимально детектируемый эффект (MDE) оказывается выше, чем реально ожидаемое изменение метрики, и тест почти гарантированно не даст значимого результата. Вторая — валидность: при небольшом числе наблюдений любая ошибка в балансе групп, выборе метрики или интерпретации результата многократно опаснее, чем в стандартном эксперименте.

nddof = 0 (std)ddof = 1 (std)~ разница
104.7455.5%
1004.970.5%
10 0004.9990.005%

Романов выделяет несколько ключевых принципов работы до запуска. Первый — глубокое погружение в контекст: без понимания механики изменения легко выбрать метрику, которая физически не может отреагировать на воздействие, или включить в выборку участников, которые в принципе не затронуты экспериментом. Второй — построение DAG (directed acyclic graph, направленного ациклического графа) и дерева метрик: это позволяет заранее увидеть, через какие промежуточные звенья изменение должно дойти до целевой метрики, и где могут возникнуть побочные эффекты. Третий — заблаговременное определение критериев исключения: в эксперименте Авито за день до сплита Романов получал список сотрудников в отпусках, на больничных и планирующих увольнение — они исключались до начала, а не постфактум.

Хоторнский эффект искажает результаты: менеджеры из тестовой группы могут перформить лучше из-за управленческого давления, а не из-за инструмента.

Отдельный блок посвящён Хоторнскому эффекту — феномену, при котором метрика меняется не из-за самого инструмента, а из-за того, что участники знают об эксперименте или получают повышенное внимание. В B2B-контексте это выражается конкретно: руководители могут сильнее давить на менеджеров из тестовой группы ради выполнения OKR. Романов рекомендует после завершения эксперимента смотреть на динамику обеих групп — вырос ли контроль до уровня теста или тест откатился к уровню контроля. Это не строгий тест причинности, но рабочая диагностика.

Для повышения чувствительности автор предлагает три тактики, каждая из которых имеет свою цену. Сужение выборки до сегмента с максимальным ожидаемым эффектом улучшает соотношение сигнала и шума, но ограничивает вывод этим сегментом. Батчинг — объединение нескольких связанных изменений в один тест — увеличивает суммарный эффект, но смешивает вклад отдельных фич. Усиленное внедрение (обучение, напоминания, контроль adoption rate) делает воздействие более явным, но превращает тест в проверку не только продукта, но и процесса его внедрения. По мнению Романова, в условиях малых выборок это разумный компромисс: лучше получить ответ на практический вопрос «стоит ли запускать это решение», чем не получить никакого ответа.

Гайд охватывает 26 шагов, разбитых по этапам: подготовка до дизайна, дизайн метрик, дизайн эксперимента по чувствительности и валидности, действия после запуска. Автор подчёркивает, что 90% описанных подходов применимы к стандартным экспериментам с большими выборками — малые выборки лишь делают каждую ошибку дороже и каждый правильный шаг ценнее.