26 шагов для A/B-тестов на малых выборках: опыт аналитика Авито

Подготовлено редакцией Malakhov AI

Habr AI·6 дней назад·3 минРоссияКод

Тимлид аналитики Авито Андрей Романов собрал практический гайд из 26 шагов для A/B-тестов, где в группе 10–40 наблюдений — менеджеров, регионов или категорий. Такие эксперименты страдают одновременно по двум осям: чувствительность падает, а цена любой ошибки в дизайне растёт.

Кратко

—В малых выборках MDE часто превышает реально ожидаемый эффект — тест заведомо ничего не покажет.
—Хоторнский эффект искажает результаты: менеджеры из тестовой группы могут перформить лучше из-за управленческого давления, а не из-за инструмента.
—Батчинг изменений и сужение выборки до целевого сегмента помогают увеличить измеримый эффект, но ограничивают вывод.
—Исключение нерелевантных участников — новичков, отпускников, увольняющихся — повышает и чувствительность, и валидность до запуска.
—90% описанных подходов применимы к стандартным A/B-тестам с большими выборками.

Глоссарий · 7 терминов▾

MDE (минимально детектируемый эффект): Наименьший размер эффекта, который эксперимент способен надёжно обнаружить при заданных параметрах дизайна — размере выборки, уровне значимости и мощности.
DAG (directed acyclic graph): Направленный ациклический граф — схема причинно-следственных связей, которая показывает, через какие промежуточные переменные воздействие влияет на целевую метрику.
Хоторнский эффект: Изменение поведения участников эксперимента не из-за самого воздействия, а из-за осознания факта наблюдения или повышенного внимания к ним.
Батчинг изменений: Объединение нескольких связанных изменений в один эксперимент вместо последовательного тестирования каждого по отдельности.
Adoption rate: Доля участников, которые реально используют новый инструмент или функцию, — показывает, насколько полно воздействие было применено в тестовой группе.
Единица рандомизации: Объект, который случайным образом распределяется между группами теста и контроля — пользователь, менеджер, регион или категория товаров.
p-value: Вероятность получить наблюдаемый результат (или более экстремальный) при условии, что никакого реального эффекта нет; чем меньше значение, тем менее вероятна случайность.

Андрей Романов, тимлид аналитики Sales Tech в Авито, опубликовал разбор A/B-тестирования на малых выборках — ситуации, когда в каждой группе не тысячи пользователей, а 10–40 менеджеров, регионов или товарных категорий. Материал основан на реальном эксперименте: команда тестировала автоматизированный инструмент для звонков, сравнивая продуктивность менеджеров, которые звонят вручную, с теми, кто использует инструмент. Единицей рандомизации выступали сами менеджеры.

Малые выборки создают две независимые проблемы. Первая — чувствительность: минимально детектируемый эффект (MDE) оказывается выше, чем реально ожидаемое изменение метрики, и тест почти гарантированно не даст значимого результата. Вторая — валидность: при небольшом числе наблюдений любая ошибка в балансе групп, выборе метрики или интерпретации результата многократно опаснее, чем в стандартном эксперименте.

n	ddof = 0 (std)	ddof = 1 (std)	～ разница
10	4.74	5	5.5%
100	4.97	0.5%
10 000	4.999	0.005%

Романов выделяет несколько ключевых принципов работы до запуска. Первый — глубокое погружение в контекст: без понимания механики изменения легко выбрать метрику, которая физически не может отреагировать на воздействие, или включить в выборку участников, которые в принципе не затронуты экспериментом. Второй — построение DAG (directed acyclic graph, направленного ациклического графа) и дерева метрик: это позволяет заранее увидеть, через какие промежуточные звенья изменение должно дойти до целевой метрики, и где могут возникнуть побочные эффекты. Третий — заблаговременное определение критериев исключения: в эксперименте Авито за день до сплита Романов получал список сотрудников в отпусках, на больничных и планирующих увольнение — они исключались до начала, а не постфактум.

Хоторнский эффект искажает результаты: менеджеры из тестовой группы могут перформить лучше из-за управленческого давления, а не из-за инструмента.

Отдельный блок посвящён Хоторнскому эффекту — феномену, при котором метрика меняется не из-за самого инструмента, а из-за того, что участники знают об эксперименте или получают повышенное внимание. В B2B-контексте это выражается конкретно: руководители могут сильнее давить на менеджеров из тестовой группы ради выполнения OKR. Романов рекомендует после завершения эксперимента смотреть на динамику обеих групп — вырос ли контроль до уровня теста или тест откатился к уровню контроля. Это не строгий тест причинности, но рабочая диагностика.

Для повышения чувствительности автор предлагает три тактики, каждая из которых имеет свою цену. Сужение выборки до сегмента с максимальным ожидаемым эффектом улучшает соотношение сигнала и шума, но ограничивает вывод этим сегментом. Батчинг — объединение нескольких связанных изменений в один тест — увеличивает суммарный эффект, но смешивает вклад отдельных фич. Усиленное внедрение (обучение, напоминания, контроль adoption rate) делает воздействие более явным, но превращает тест в проверку не только продукта, но и процесса его внедрения. По мнению Романова, в условиях малых выборок это разумный компромисс: лучше получить ответ на практический вопрос «стоит ли запускать это решение», чем не получить никакого ответа.

Гайд охватывает 26 шагов, разбитых по этапам: подготовка до дизайна, дизайн метрик, дизайн эксперимента по чувствительности и валидности, действия после запуска. Автор подчёркивает, что 90% описанных подходов применимы к стандартным экспериментам с большими выборками — малые выборки лишь делают каждую ошибку дороже и каждый правильный шаг ценнее.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам