Как определить размер выборки для A/B-теста

Как определить размер выборки для A/B-теста
Январь 2025
4 минуты
  1. Главная
  2. Блог
  3. Статьи по аналитике
  4. Как определить размер выборки для A/B-теста
Когда в команде нет согласия по поводу нового дизайна или результаты страницы сайта оказались ниже ожидаемых, на помощь приходит A/B-тест, с помощью которого можно выбрать самый удачный вариант методом проверки на реальных пользователях. В этой статье поговорим о том, как определить и рассчитать размер выборки для A/B-теста.

Что такое выборка в A/B‑тестировании

Выборка в A/B-тестировании ― это количество людей, на которых вы планируете проверять гипотезы. С помощью правильно определенной выборки можно получить достоверную информацию о том, какой баннер на странице сайта привлекает больше внимания клиентов, или не вырастет ли конверсия в заказ, если упростить оформление покупки.

От того, насколько корректной будет выборка количества людей, зависит достоверность результатов исследования. Если взять слишком маленькую выборку, например, 10 человек, то двое из них могут сказать, что решение компании им не понравилось. И получится целых 20% опрошенных против 100%. Однако, если увеличить выборку до 100 опрошенных, то голоса этих двух человек уже будут не такими весомыми. Результат будет — 98% людей, довольных новым решением.

В то же время, если сделать выборку слишком большой, например, 1000 человек, то тестирование обойдется компании в копеечку. Придется привлекать дополнительных клиентов, и не факт, что вновь пришедшие люди совершат покупку, так как часть из них все же не знакома с этой компанией. Также при большом количестве опрашиваемых есть риск собрать мнение нерелевантной аудитории, а следовательно, получить нерепрезентативные результаты.

Важно, чтобы выборка была рандомизированной. Например, вариант рекламного баннера А и вариант В должны посмотреть пользователи, отсортированные в случайном порядке. В некоторых случаях выборку можно сделать стратифицированной: чтобы оба варианта баннера увидело одинаковое количество клиентов из разных сегментов.

Если вы хотите узнать больше о том, как проводить тестирование, пройдите курс «Навык: A/B-тестирование» от ProductStar. За два месяца обучения вы научитесь работать с инструментами аналитики, изучите подходы к A/B-тестированию и поймете, как применять их для проверки гипотез и поиска точек роста. После курса вы сможете самостоятельно проводить релевантные A/B-тестирования и правильно интерпретировать результаты.

Как определить размер выборки для A/B-теста

Формула расчета размера выборки для A/B-теста довольно сложная: она состоит из десятков параметров, из множеств которых нужно извлекать квадратные корни. Но можно не считать все это вручную, а ввести только несколько параметров в одном из онлайн-калькуляторов.

Для этого важно познакомиться с этими параметрами поближе. Для примера возьмем A/B-тест, в котором будем проверять новый дизайн рекламного баннера на главной странице.

Сначала нужно указать базовый коэффициент конверсии (Baseline conversion rate) ― сколько процентов посетителей переходит по баннеру на данный момент. Предположим, что из 1000 посетителей сайта по нему кликают 200 человек, то есть 20%.

Далее необходимо указать минимальный обнаруживаемый эффект (Minimum Detectable Effect). Этот показатель означает, какую разницу хотелось бы видеть между баннером А и баннером В. Например, мы уверены, что вариант B лучше А, если по нему кликают на 10% чаще. Поэтому укажем 10% как минимальный обнаруживаемый эффект. Чем больше этот показатель, тем больше понадобится времени и трафика на тест.

Далее идет статистическая мощность теста (Statistical power) ― коэффициент, который показывает, насколько точные результаты нас устроят. Обычно по умолчанию выбирают 80%, что позволяет интерпретировать результаты теста однозначно. И для этого потребуется не так много времени и трафика как для 100% точности результата.

Еще один важный показатель ― ожидаемый прирост конверсии (Significance level) — насколько хотим увеличить конверсию баннера на главной странице. Обычно выставляют 5%, чтобы не делать выборку слишком большой.

Вводим все эти параметры в калькулятор, и он показывает следующий результат: 263 человека должны увидеть баннер B, чтобы мы с уверенностью до 80% могли утверждать, что он работает более эффективно, чем баннер А.

Как запустить A/B-тестирование

После того как размер выборки определен, можно запускать тестирование. Для этого понадобится один из инструментов тестирования, например, Google Optimize, Optimizely или VWO.

В программе создаем новый A/B-тест. Оставляем версию А в исходном виде и вносим изменения в версию В. В нашем случае ― меняем рекламный баннер на главной странице.

Далее понадобится указать, как будем распределять трафик между двумя вариантами. По умолчанию используется показатель 50 на 50. Далее указываем размер выборки, который получили с помощью онлайн-калькулятора, в нашем случае ― 263 человека.

Теперь можно запускать тест, дождаться результатов и интерпретировать их: действительно ли новый баннер работает эффективнее и привлекает больше траффика или наша гипотеза оказалась неверной.
Интенсив РБК Pro на выбор
3 мини-курса в подарок
Подписка РБК Pro на 6 месяцев
Профессия Аналитик со скидкой до 57% и подарками на 135 000 ₽

Основные ошибки при A/B‑тестировании

  1. Недостаточный размер выборки

Если у теста слишком мало респондентов, то его результаты не могут быть репрезентативными: при масштабировании решения может оказаться, что большинство людей реагируют на вариант В не так, как реагировали в тесте.

2. Неправильная рандомизация

Если респонденты распределяются между вариантами не в рандомном порядке, а по какому-то параметру, например, вариант А видят жители Москвы, а вариант В ― остальной России, то результаты теста будут неверными.

3. Неконтролируемые внешние факторы

Может получиться так, что какие-то внешние обстоятельства повлияют на тест, например, предпраздничные дни, когда покупатели очень активны. Такие факторы сложно предугадать и внести корректировки в тесты.

4. Игнорирование статистической значимости

Если принимать решения на основе теста, который проводился с невысокой статитической мощностью, например, 50%, то вероятность, что будет выбрана неправильная гипотеза, тоже будет равна 50%.

5. Игнорирование времени теста

Если проводить тест за короткий промежуток времени или, наоборот, растягивать его на недели, результаты могут оказаться нерелевантными.

Чтобы быть уверенными в результатах вашего тестирования и принять на его основе решение, которое действительно будет работать, стоит правильно указывать все необходимые параметры в калькуляторе выборки для A/B-теста и стараться избегать перечисленных выше ошибок.

Комментарии

Нажимая кнопку «Получить консультацию», вы подтверждаете согласие на обработку персональных данных в соответствии с условиями Политики конфиденциальности

Проконсультируйтесь
с карьерным специалистом

Проанализируем ваши навыки, сферу интересов и дадим рекомендации по дальнейшему профессиональному развитию

Вам может понравиться

3
дн.
час.
мин.
сек.
:
00
:
00
:
00
скидка до 57% и подарки на 135 000 ₽
Когда в команде нет согласия по поводу нового дизайна или результаты страницы сайта оказались ниже ожидаемых, на помощь приходит A/B-тест, с помощью которого можно выбрать самый удачный вариант методом проверки на реальных пользователях. В этой статье поговорим о том, как определить и рассчитать размер выборки для A/B-теста. Что такое выборка в A/B‑тестировании Выборка в A/B-тестировании ― это количество людей, на которых вы планируете проверять гипотезы. С помощью правильно определенной выборки можно получить достоверную информацию о том, какой баннер на странице сайта привлекает больше внимания клиентов, или не вырастет ли конверсия в заказ, если упростить оформление покупки. От того, насколько корректной будет выборка количества людей, зависит достоверность результатов исследования. Если взять слишком маленькую выборку, например, 10 человек, то двое из них могут сказать, что решение компании им не понравилось. И получится целых 20% опрошенных против 100%. Однако, если увеличить выборку до 100 опрошенных, то голоса этих двух человек уже будут не такими весомыми. Результат будет — 98% людей, довольных новым решением. В то же время, если сделать выборку слишком большой, например, 1000 человек, то тестирование обойдется компании в копеечку. Придется привлекать дополнительных клиентов, и не факт, что вновь пришедшие люди совершат покупку, так как часть из них все же не знакома с этой компанией. Также при большом количестве опрашиваемых есть риск собрать мнение нерелевантной аудитории, а следовательно, получить нерепрезентативные результаты. Важно, чтобы выборка была рандомизированной. Например, вариант рекламного баннера А и вариант В должны посмотреть пользователи, отсортированные в случайном порядке. В некоторых случаях выборку можно сделать стратифицированной: чтобы оба варианта баннера увидело одинаковое количество клиентов из разных сегментов. Если вы хотите узнать больше о том, как проводить тестирование, пройдите курс «Навык: A/B-тестирование» от ProductStar. За два месяца обучения вы научитесь работать с инструментами аналитики, изучите подходы к A/B-тестированию и поймете, как применять их для проверки гипотез и поиска точек роста. После курса вы сможете самостоятельно проводить релевантные A/B-тестирования и правильно интерпретировать результаты. Как определить размер выборки для A/B-теста Формула расчета размера выборки для A/B-теста довольно сложная: она состоит из десятков параметров, из множеств которых нужно извлекать квадратные корни. Но можно не считать все это вручную, а ввести только несколько параметров в одном из онлайн-калькуляторов. Для этого важно познакомиться с этими параметрами поближе. Для примера возьмем A/B-тест, в котором будем проверять новый дизайн рекламного баннера на главной странице. Сначала нужно указать базовый коэффициент конверсии (Baseline conversion rate) ― сколько процентов посетителей переходит по баннеру на данный момент. Предположим, что из 1000 посетителей сайта по нему кликают 200 человек, то есть 20%. Далее необходимо указать минимальный обнаруживаемый эффект (Minimum Detectable Effect). Этот показатель означает, какую разницу хотелось бы видеть между баннером А и баннером В. Например, мы уверены, что вариант B лучше А, если по нему кликают на 10% чаще. Поэтому укажем 10% как минимальный обнаруживаемый эффект. Чем больше этот показатель, тем больше понадобится времени и трафика на тест. Далее идет статистическая мощность теста (Statistical power) ― коэффициент, который показывает, насколько точные результаты нас устроят. Обычно по умолчанию выбирают 80%, что позволяет интерпретировать результаты теста однозначно. И для этого потребуется не так много времени и трафика как для 100% точности результата. Еще один важный показатель ― ожидаемый прирост конверсии (Significance level) — насколько хотим увеличить конверсию баннера на главной странице. Обычно выставляют 5%, чтобы не делать выборку слишком большой. Вводим все эти параметры в калькулятор, и он показывает следующий результат: 263 человека должны увидеть баннер B, чтобы мы с уверенностью до 80% могли утверждать, что он работает более эффективно, чем баннер А. Как запустить A/B-тестирование После того как размер выборки определен, можно запускать тестирование. Для этого понадобится один из инструментов тестирования, например, Google Optimize, Optimizely или VWO. В программе создаем новый A/B-тест. Оставляем версию А в исходном виде и вносим изменения в версию В. В нашем случае ― меняем рекламный баннер на главной странице. Далее понадобится указать, как будем распределять трафик между двумя вариантами. По умолчанию используется показатель 50 на 50. Далее указываем размер выборки, который получили с помощью онлайн-калькулятора, в нашем случае ― 263 человека. Теперь можно запускать тест, дождаться результатов и интерпретировать их: действительно ли новый баннер работает эффективнее и привлекает больше траффика или наша гипотеза оказалась неверной. Основные ошибки при A/B‑тестировании 1. Недостаточный размер выборки Если у теста слишком мало респондентов, то его результаты не могут быть репрезентативными: при масштабировании решения может оказаться, что большинство людей реагируют на вариант В не так, как реагировали в тесте. 2. Неправильная рандомизация Если респонденты распределяются между вариантами не в рандомном порядке, а по какому-то параметру, например, вариант А видят жители Москвы, а вариант В ― остальной России, то результаты теста будут неверными. 3. Неконтролируемые внешние факторы Может получиться так, что какие-то внешние обстоятельства повлияют на тест, например, предпраздничные дни, когда покупатели очень активны. Такие факторы сложно предугадать и внести корректировки в тесты. 4. Игнорирование статистической значимости Если принимать решения на основе теста, который проводился с невысокой статитической мощностью, например, 50%, то вероятность, что будет выбрана неправильная гипотеза, тоже будет равна 50%. 5. Игнорирование времени теста Если проводить тест за короткий промежуток времени или, наоборот, растягивать его на недели, результаты могут оказаться нерелевантными. Чтобы быть уверенными в результатах вашего тестирования и принять на его основе решение, которое действительно будет работать, стоит правильно указывать все необходимые параметры в калькуляторе выборки для A/B-теста и стараться избегать перечисленных выше ошибок.