A/B-тестирование: что тестировать и как анализировать

A/B-тестирование — единственный надёжный способ узнать, какое решение работает лучше. Не мнение дизайнера, не интуиция маркетолога, не «лучшие практики» из блога — а данные реальных пользователей. Но тесты дают результат только при правильной методологии. Разберём, что тестировать, как считать и какие ошибки обнулят ваши усилия.

Принцип работы

Трафик делится на две группы: контрольная (A) видит текущую версию, тестовая (B) — изменённую. Измеряется целевая метрика — конверсия, выручка, время на сайте. Если разница статистически значима — внедряем победителя.

Что тестировать: приоритеты

Тестировать можно всё, но время и трафик ограничены. Расставляйте приоритеты по потенциальному влиянию:

Приоритет	Элемент	Ожидаемый эффект
Высокий	Оффер / ценностное предложение	+20–50% конверсии
Высокий	CTA (текст и расположение кнопки)	+10–30% конверсии
Высокий	Структура лендинга / порядок блоков	+15–40% конверсии
Средний	Заголовок страницы	+5–20% конверсии
Средний	Форма (количество полей)	+10–25% заполнений
Средний	Социальное доказательство	+5–15% конверсии
Низкий	Цвет кнопки	+1–5% (чаще незначимо)
Низкий	Шрифт / размер текста	+0–3%

Сколько трафика нужно

Главная ошибка — остановить тест слишком рано. Для статистически значимого результата нужен достаточный объём выборки.

Формула зависит от трёх параметров: текущая конверсия, минимальный детектируемый эффект (MDE) и уровень статистической значимости. Практические ориентиры:

Текущая конверсия 5%, хотим увидеть эффект 20% (абсолютная конверсия вырастет до 6%) → нужно ~16 000 визитов на вариант
Текущая конверсия 2%, хотим увидеть эффект 25% → ~25 000 визитов на вариант
Текущая конверсия 10%, хотим увидеть эффект 10% → ~14 000 визитов на вариант

Используйте калькулятор размера выборки (Evan Miller, Optimizely, VWO) перед запуском теста. Если трафика не хватает — тестируйте элементы с большим потенциальным эффектом.

Пример расчёта статистической значимости

Допустим, вы тестируете два варианта лендинга. Результаты за 2 недели:

Вариант	Визиты	Конверсии	CR
A (контроль)	5 200	156	3.00%
B (новый заголовок)	5 150	185	3.59%

Разница: +0.59 п.п., относительный рост +19.7%. Звучит хорошо, но значимо ли это? Подставляем в калькулятор: при p-value = 0.08 результат не достигает порога 95%. Нужно ещё 3 000–4 000 визитов на вариант. Остановить тест сейчас и внедрить B — ошибка: с вероятностью 8% разница случайна.

Мультивариантные тесты (MVT)

A/B-тест проверяет одну переменную. Мультивариантный тест — несколько одновременно. Например, 3 варианта заголовка × 2 варианта CTA = 6 комбинаций. MVT находит лучшую комбинацию, а не лучший отдельный элемент.

Когда использовать MVT:

Достаточно трафика — минимум 10 000 визитов на комбинацию. Для 6 комбинаций = 60 000 визитов
Подозреваете взаимное влияние элементов — например, короткий заголовок работает лучше с длинным CTA, и наоборот
Хотите ускорить процесс — вместо 3 последовательных A/B-тестов проводите 1 MVT

Когда не использовать: на сайтах с менее 50 000 визитов в месяц — не хватит трафика для значимых результатов.

5 мифов об A/B-тестировании

«Зелёная кнопка конвертирует лучше красной» — ни один цвет не побеждает универсально. Важен контраст с окружением, а не сам цвет. Тесты с цветом кнопки редко дают значимый результат
«Тест можно остановить, когда видна разница» — нет. Нужна статистическая значимость (p < 0.05). Ранняя остановка даёт ложноположительный результат в 30–40% случаев
«Больше тестов = больше рост» — если тестируете мелочи (иконки, отступы), 100 тестов не дадут кумулятивного роста. Один тест оффера перевесит 20 тестов цвета
«Победитель теста работает вечно» — аудитория, сезонность и рынок меняются. Перетестируйте ключевые элементы раз в 6–12 месяцев
«Нужен огромный трафик» — для крупных эффектов (+30–50%) достаточно 2 000–3 000 визитов на вариант. Маленький сайт может тестировать оффер и CTA

Как анализировать результаты

Дождитесь статистической значимости — минимум 95% confidence level. Если p-value > 0.05 — результат неотличим от случайности
Учитывайте сезонность — тест должен захватить минимум один полный бизнес-цикл (обычно 1–2 недели). Не сравнивайте будни с выходными
Смотрите на абсолютные числа — «конверсия выросла на 50%» может означать рост с 0.2% до 0.3%. Убедитесь, что абсолютный эффект коммерчески значим
Проверяйте сегменты — вариант B может побеждать в среднем, но проигрывать у мобильных пользователей. Анализируйте по устройствам, источникам, гео
Один тест — одна переменная — если изменили заголовок, кнопку и картинку одновременно, невозможно определить, что именно повлияло

Инструменты

VWO — визуальный редактор, сегментация, мультивариантные тесты. От $99/мес
Optimizely — enterprise-уровень, полнофункциональная платформа экспериментов
PostHog — open-source, Feature Flags + A/B тесты + аналитика в одном
Statsig — бесплатный для малого трафика, продвинутая статистика
Google Tag Manager + GA4 — бесплатная связка для простых тестов без сторонних платформ

Культура экспериментов

A/B-тестирование — это не разовое мероприятие, а культура принятия решений. Компании с сильной культурой экспериментов (Booking, Netflix, Amazon) запускают сотни тестов одновременно. Каждое изменение — гипотеза, каждое решение — подкреплено данными.

Начните с одного теста в месяц. Выберите страницу с максимальным трафиком, сформулируйте гипотезу, запустите тест, дождитесь результата. Через полгода ваша конверсия вырастет кумулятивно — и вы уже не сможете представить принятие решений без тестов.