A/B-тестирование: как провести его правильно

A/B-тестирование (иногда его также называют сплит-тестированием) — популярный метод UX-исследований, получивший широкое распространение в самых разных отраслях.

В сегодняшней статье мы разберем:

зачем проводить A/B-тесты,
как подготовиться к их проведению,
какие ограничения и распространенные ошибки встречаются в этой области.

A/B-тестирование (иногда его также называют сплит-тестированием) — популярный метод UX-исследований, получивший широкое распространение в самых разных отраслях. Чтобы всегда получать надежные, по-настоящему ценные результаты, следуйте лучшим практикам и избегайте распространенных ошибок, которые мы разберем в этой статье.

Что такое A/B-тестирование?

A/B-тестирование — метод количественного исследования, суть которого заключается в следующем: пользователям показывают две или более версии дизайна, чтобы определить, какая из них работает лучше в соответствии с заранее определенным набором метрик.

Для проведения A/B-тестирования требуется реализованный продукт. Чаще всего мы сравниваем оригинальный дизайн A, так называемую контрольную версию, и дизайн B, так называемый вариант. В идеале вариант должен отличаться от оригинального дизайна только одним элементом, например кнопкой, изображением или описанием.

*A/B-тест CTA-кнопки «Все курсы» на сайте Nielsen Norman Group*

В ходе A/B-теста входящий трафик разделяется таким образом, чтобы каждый пользователь попадал на одну из версий тестовой страницы. Такое разделение бывает равномерным (50/50) либо может быть скорректировано в зависимости от бизнес-целей и потенциальных рисков (например, если менять дизайн для половины пользователей слишком опасно).

Перед началом тестирования необходимо составить список метрик, которые помогут определить, какой вариант дизайна стимулирует желаемое поведение пользователей и тем самым лучше соответствует целям компании.

Как правило (но не всегда), если вариант статистически значимо превзошел оригинальный дизайн, его стоит сделать основным. Если же тест не дал результатов или исходный дизайн оказался эффективнее, его следует сохранить. В этом случае рассмотрите возможность тестирования других альтернативных решений.

Зачем проводить A/B-тесты

A/B-тесты помогают командам определить, как улучшить UX, чтобы он способствовал успешному достижению бизнес-целей. Кроме того, они позволяют принимать более обоснованные дизайн-решения, которые повышают окупаемость инвестиций (ROI) и упрощают коммуникацию с заинтересованными сторонами.

Благодаря A/B-тестам вы можете постепенно делать свой продукт удобнее и эффективнее, не прибегая к масштабным изменениям.

Распространенные кейсы

Для A/B-тестирования необходимы однозначные метрики, которые четко показывают, превосходит ли вариант исходный дизайн. Они зачастую фокусируются на денежных аспектах, таких как доход или затраты.

Самые популярные метрики для A/B-тестирования: коэффициент конверсии, коэффициент кликов, коэффициент отказов, коэффициент удержания и доход на одного пользователя.

Где A/B-тестирование применяется чаще всего:

Электронная коммерция (например, Amazon)
Развлекательные продукты (например, Netflix, Spotify)
Социальные сети (например, Instagram*, TikTok).
SaaS-продукты (например, Salesforce, Office365)
Онлайн-издания (например, The New York Times)
Email-маркетинг

Элементы дизайна, которые чаще всего являются предметом тестирования:

CTA-кнопки
Заголовки
Лейауты
Текст
Страницы оформления заказа
Формы

4 шага для подготовки A/B-тестирования

Следуйте этой инструкции, чтобы получить надежный, значимый результат.

1. Начните с гипотезы

Прежде чем приступать к A/B-тестированию, необходимо выдвинуть гипотезу о том, как те или иные изменения дизайна могут повлиять на выбранные метрики. Чем больше эта гипотеза основана на исследованиях пользователей и бизнес-инсайтах, тем выше вероятность того, что ваш A/B-тест будет успешным. Гипотеза должна быть напрямую связана с той целью, которую вы перед собой поставили.

Пример: Вам нужно провести A/B-тестирование для сайта электронной коммерции. В ходе качественных юзабилити-тестов вы заметили, что многие участники игнорируют CTA-кнопку «Купить». Ваша гипотеза заключается в том, что изменение дизайна этой страницы повысит коэффициент конверсии, что в конечном итоге приведет к росту продаж.

2. Определите, какие изменения необходимо внести

У вас есть сильная гипотеза? Теперь нужно решить, что следует изменить в дизайне, чтобы ее проверить. Изменения должны касаться только одного элемента за раз. Опять же, чем больше это решение будет основано на результатах пользовательских исследований, тем выше шансы, что ваш тест будет успешным.

Пример: Основываясь на результатах качественного юзабилити-тестирования, вы решили изменить подпись на CTA-кнопке. В ходе тестов вы заметили, что участники замечали кнопку, но не решались на нее нажать. Поэтому вы сохраняете ее визуальное оформление, но меняете подпись на «Купить сейчас».

3. Выберите контрольные метрики

Четко определите, какие показатели вы хотите отслеживать для оценки успеха вашего A/B-теста. Это должны быть основные метрики (primary metrics), которые покажут, привело ли изменение дизайна к ожидаемому изменению поведения, а также барьерные метрики (guardrail metrics), которые помогут определить, действительно ли изменения в поведении пользователей положительно влияют на бизнес.

Пример: Чтобы понять, приведет ли изменение подписи на «Купить сейчас» к увеличению продаж, вы решили отслеживать количество кликов по CTA-кнопке. Вы также будете отслеживать количество покупок и средний чек. Эти барьерные метрики помогут определить, как повлияет на бизнес более высокий показатель кликов.

4. Определите сроки проведения теста

Наконец, необходимо решить, сколько времени продлится A/B-тестирование. Этот параметр зависит от размера выборки. Чтобы определить необходимый размер выборки для вашего теста, вам нужно знать три числа:

Базовое значение контрольной метрики (например, коэффициент конверсии, количество кликов) для вашего исходного дизайна.

Минимальный обнаруживаемый эффект — наименьшее относительное изменение контрольной метрики, которое вы хотите выявить.

Порог статистической значимости (обычно 95%) — желаемая степень уверенности в том, что результат теста достоверен.

Установив эти три метрики, вы можете воспользоваться калькулятором размера выборки. Даже при достаточном трафике мы рекомендуем проводить A/B-тест не менее 1–2 недель, чтобы учесть возможные колебания в поведении пользователей.

Пример: На основе данных аналитики вы определили, что базовый показатель кликов для CTA-кнопки «Купить» равняется 3%. Вы решили, что минимальный обнаруживаемый эффект должен составлять 20% (другими словами, вы хотите отслеживать изменения, составляющие 20% от базового показателя, то есть 3% +/- 0,6%), а статистическая значимость теста должна быть 95% (p=0,05). С помощью калькулятора, вы определяете, что необходимый размер выборки составляет 13 000 пользователей. Учитывая, что ежедневно на вашем сайте в среднем бывает 1 000 пользователей, вы решаете проводить A/B-тестирование в течение 14 дней, что обеспечит достаточно большой размер выборки, а также позволит учесть возможные колебания в поведении пользователей.

Чтобы выбрать значение минимального обнаруживаемого эффекта, спросите себя, какое изменение контрольной метрики даст эффект, практически значимый для вашего бизнеса и оправдывающий затраты. В нашем примере минимальный обнаруживаемый эффект в 1% означал бы возможность определить, что показатель кликов стал всего на 0,03% больше, чем текущий. Чтобы достичь статистической значимости для такой маленькой разницы, потребуется выборка гораздо большего размера. Изменение на 0,03%, скорее всего, окажет на бизнес незначительное влияние, поэтому нам не стоит тратить усилия на то, чтобы его отследить.

Выбираем инструмент для A/B-тестирования

Если вы решили добавить A/B-тестирование в свой арсенал методов исследования, вам необходимо выбрать, какой инструмент использовать. Существует множество вариантов. Всё зависит от контекста и ваших уникальных потребностей.

Учитывайте следующие факторы:

Бюджет: Инструменты A/B-тестирования могут быть как бесплатными, так и стоить несколько тысяч долларов в месяц.

Сложность теста: Разные инструменты допускают разные по уровню сложности изменения: от простых вариаций цвета или текста до более сложных перестроек лейаута страницы, многовариантного тестирования или тестирования с разными URL-адресами.

Простота использования: Убедитесь, что вашей команде будет нетрудно освоить новый инструмент и что у вас достаточно времени для выполнения этой задачи.

Технические требования: Убедитесь, что инструмент легко интегрируется в техническую инфраструктуру вашей организации.

Выбрав инструмент, который, как вам кажется, соответствует вашим потребностям, протестируйте его перед проведением первого A/B-теста. Тестирование поможет убедиться, что ПО настроено правильно и работает так, как задумано. Один из распространенных способов — A/A-тест, в ходе которого вы создаете точно такой же вариант, как и ваш исходный дизайн.

Сопоставление двух идентичных дизайнов должно дать результат, не позволяющий сделать какие-либо определенные выводы. Если же вы видите явные различия, постарайтесь выяснить, что могло стать их причиной. Такой подход позволяет свести ошибки к минимуму и гарантирует правильную предварительную настройку вашего инструмента для A/B-тестирования.

Ограничения и распространенные ошибки в A/B-тестировании

Как и любой другой метод исследования, A/B-тестирование связано с определенными ограничениями. При неправильном применении оно может оказаться пустой тратой ресурсов или даже навредить.

Ограничения

A/B-тестирование не подходит для:

Страниц с низким трафиком: Для того чтобы A/B-тестирование дало статистически значимый результат, чаще всего требуются тысячи активных пользователей.

Тестирования нескольких изменений одновременно: Как мы уже говорили, не стоит менять несколько элементов дизайна одновременно. Хотя технически это возможно, у вас не получится точно оценить влияние каждого отдельного изменения. Чтобы протестировать несколько изменений за раз, проведите многовариантное тестирование, но имейте в виду, что для получения достоверных результатов здесь требуется еще больше данных.

Понимания причин изменения поведения пользователей: Как и другие количественные методы исследования, A/B-тестирование позволяет понять, как меняется поведение пользователей, но не дает представления о причинах этих изменений. Таким образом, A/B-тесты приносят наибольшую пользу в сочетании с качественными методами исследования. Этот подход называется триангуляцией.

Распространенные ошибки

Игнорирование ограничений и несоблюдение лучших практик может привести к ошибочным, потенциально вредным результатам. Вот несколько наиболее распространенных ошибок, которых следует избегать:

Отсутствие четко определенных целей: Вы должны четко понимать, какой результат вы ожидаете получить. Цели помогут вашей команде понять, зачем проводится тест, на что ориентироваться при создании вариантов дизайна, а также как составить дорожную карту A/B-тестирования на основе ожидаемой окупаемости инвестиций (ROI).

Слишком раннее прекращение тестирования: Если данных недостаточно, A/B-тесты дают ненадежный результат. Тем не менее, некоторые команды отслеживают тестирование в режиме реального времени и слишком рано делают выводы. Чтобы получить статистически достоверные результаты, необходимо дождаться, пока будет достигнут нужный размер выборки. Только после этого можно заканчивать A/B-тест.

Тестирование без сильной гипотезы: Только один из семи A/B-тестов оказывается успешным. И этот показатель, скорее всего, будет еще ниже, если вы будете тестировать элементы дизайна, не имея убедительной, основанной на данных гипотезы. Чем больше информации вы получаете из исследований пользователей, тем выше шансы на эффективный результат.

Фокус на одной метрике: Целью A/B-теста часто является увеличение или уменьшение определенной метрики. Однако если вы измеряете лишь один показатель, чтобы оценить успешность теста, вы можете пропустить важную информацию. Например, если вы используете в одном из вариантов дизайна темный паттерн, он может положительно повлиять на какую-то метрику (коэффициент конверсии), но при этом отрицательно сказаться на остальных (коэффициент удержания и т.д.). Вот почему необходимо отслеживать более одного показателя, в том числе барьерные метрики, которые могут дать представление об истинном влиянии изменений дизайна.

Пренебрежение качественными исследованиями и бизнес-контекстом: Тот факт, что A/B-тест показал статистически значимый результат, не означает, что вы должны следовать ему слепо. В конце концов, тестирование может дать ложноположительный или ложноотрицательный результат, вы можете допустить ошибку измерения, или ваш результат может быть статистически значимым, но не практически значимым. Комбинируйте результаты A/B-тестов с вашими знаниями о пользователях и бизнесе, чтобы сделать правильные выводы.

Спасибо за внимание!

* Meta признана в РФ экстремистской организацией.

Больше классных проектов в uprock.design

Источник

NN/g