A/B-тестирование — единственный надёжный способ узнать, какое решение работает лучше. Не мнение дизайнера, не интуиция маркетолога, не «лучшие практики» из блога — а данные реальных пользователей. Но тесты дают результат только при правильной методологии. Разберём, что тестировать, как считать и какие ошибки обнулят ваши усилия.

Принцип работы

Трафик делится на две группы: контрольная (A) видит текущую версию, тестовая (B) — изменённую. Измеряется целевая метрика — конверсия, выручка, время на сайте. Если разница статистически значима — внедряем победителя.

Что тестировать: приоритеты

Тестировать можно всё, но время и трафик ограничены. Расставляйте приоритеты по потенциальному влиянию:

Приоритет Элемент Ожидаемый эффект
Высокий Оффер / ценностное предложение +20–50% конверсии
Высокий CTA (текст и расположение кнопки) +10–30% конверсии
Высокий Структура лендинга / порядок блоков +15–40% конверсии
Средний Заголовок страницы +5–20% конверсии
Средний Форма (количество полей) +10–25% заполнений
Средний Социальное доказательство +5–15% конверсии
Низкий Цвет кнопки +1–5% (чаще незначимо)
Низкий Шрифт / размер текста +0–3%

Сколько трафика нужно

Главная ошибка — остановить тест слишком рано. Для статистически значимого результата нужен достаточный объём выборки.

Формула зависит от трёх параметров: текущая конверсия, минимальный детектируемый эффект (MDE) и уровень статистической значимости. Практические ориентиры:

  • Текущая конверсия 5%, хотим увидеть эффект 20% (абсолютная конверсия вырастет до 6%) → нужно ~16 000 визитов на вариант
  • Текущая конверсия 2%, хотим увидеть эффект 25% → ~25 000 визитов на вариант
  • Текущая конверсия 10%, хотим увидеть эффект 10% → ~14 000 визитов на вариант

Используйте калькулятор размера выборки (Evan Miller, Optimizely, VWO) перед запуском теста. Если трафика не хватает — тестируйте элементы с большим потенциальным эффектом.

Пример расчёта статистической значимости

Допустим, вы тестируете два варианта лендинга. Результаты за 2 недели:

Вариант Визиты Конверсии CR
A (контроль) 5 200 156 3.00%
B (новый заголовок) 5 150 185 3.59%

Разница: +0.59 п.п., относительный рост +19.7%. Звучит хорошо, но значимо ли это? Подставляем в калькулятор: при p-value = 0.08 результат не достигает порога 95%. Нужно ещё 3 000–4 000 визитов на вариант. Остановить тест сейчас и внедрить B — ошибка: с вероятностью 8% разница случайна.

Мультивариантные тесты (MVT)

A/B-тест проверяет одну переменную. Мультивариантный тест — несколько одновременно. Например, 3 варианта заголовка × 2 варианта CTA = 6 комбинаций. MVT находит лучшую комбинацию, а не лучший отдельный элемент.

Когда использовать MVT:

  • Достаточно трафика — минимум 10 000 визитов на комбинацию. Для 6 комбинаций = 60 000 визитов
  • Подозреваете взаимное влияние элементов — например, короткий заголовок работает лучше с длинным CTA, и наоборот
  • Хотите ускорить процесс — вместо 3 последовательных A/B-тестов проводите 1 MVT

Когда не использовать: на сайтах с менее 50 000 визитов в месяц — не хватит трафика для значимых результатов.

5 мифов об A/B-тестировании

  1. «Зелёная кнопка конвертирует лучше красной» — ни один цвет не побеждает универсально. Важен контраст с окружением, а не сам цвет. Тесты с цветом кнопки редко дают значимый результат
  2. «Тест можно остановить, когда видна разница» — нет. Нужна статистическая значимость (p < 0.05). Ранняя остановка даёт ложноположительный результат в 30–40% случаев
  3. «Больше тестов = больше рост» — если тестируете мелочи (иконки, отступы), 100 тестов не дадут кумулятивного роста. Один тест оффера перевесит 20 тестов цвета
  4. «Победитель теста работает вечно» — аудитория, сезонность и рынок меняются. Перетестируйте ключевые элементы раз в 6–12 месяцев
  5. «Нужен огромный трафик» — для крупных эффектов (+30–50%) достаточно 2 000–3 000 визитов на вариант. Маленький сайт может тестировать оффер и CTA

Как анализировать результаты

  1. Дождитесь статистической значимости — минимум 95% confidence level. Если p-value > 0.05 — результат неотличим от случайности
  2. Учитывайте сезонность — тест должен захватить минимум один полный бизнес-цикл (обычно 1–2 недели). Не сравнивайте будни с выходными
  3. Смотрите на абсолютные числа — «конверсия выросла на 50%» может означать рост с 0.2% до 0.3%. Убедитесь, что абсолютный эффект коммерчески значим
  4. Проверяйте сегменты — вариант B может побеждать в среднем, но проигрывать у мобильных пользователей. Анализируйте по устройствам, источникам, гео
  5. Один тест — одна переменная — если изменили заголовок, кнопку и картинку одновременно, невозможно определить, что именно повлияло

Инструменты

  • VWO — визуальный редактор, сегментация, мультивариантные тесты. От $99/мес
  • Optimizely — enterprise-уровень, полнофункциональная платформа экспериментов
  • PostHog — open-source, Feature Flags + A/B тесты + аналитика в одном
  • Statsig — бесплатный для малого трафика, продвинутая статистика
  • Google Tag Manager + GA4 — бесплатная связка для простых тестов без сторонних платформ

Культура экспериментов

A/B-тестирование — это не разовое мероприятие, а культура принятия решений. Компании с сильной культурой экспериментов (Booking, Netflix, Amazon) запускают сотни тестов одновременно. Каждое изменение — гипотеза, каждое решение — подкреплено данными.

Начните с одного теста в месяц. Выберите страницу с максимальным трафиком, сформулируйте гипотезу, запустите тест, дождитесь результата. Через полгода ваша конверсия вырастет кумулятивно — и вы уже не сможете представить принятие решений без тестов.