Сколько надо пользователей, чтобы… Часть 1. О формуле Нильсена и вероятности.

20 min readDec 4, 2019

В индустрии стандартом необходимого количества пользователей для юзабилити исследований давно стало число 5.

Результаты поиска гугла по запросу “сколько пользователей необходимо для юзабилити тестирования” выглядят как заочный холивар:

… Why You Only Need to Test with 5 Users

… 5 users is not enough

…„5 Users Are Enough“…for what, exactly?

… Why 5 is the magic number for UX usability testing

… why five users are not really enough

… Usability Testing: Why 5 Users Is Enough

И лейтмотивом каждой статьи звучит имя — Якоб Нильсен.

Именно его принято считать главным популяризатором идеи о достаточности 5 пользователей для выявления около 85% ошибок интерфейса.

В статьях одних авторов Нильсен олицетворяет дракона, которого они как герои должны одолеть, разоблачив его идеи как миф. Другие, напротив, говорят о его работе как одной из наиболее сильно повлиявших на область UX. Третьи же принимают позицию — “It depends…”.

Я предлагаю разобраться самим откуда взялась идея о достаточности 5 пользователей, что за ней стоит и как ее надо понимать, ну и выслушать мнение исследователей которые не согласны с таким подходом.

Правило 5 пользователей

Первым делом надо определить предмет исследования.

Итак, у нас есть общепринятое правило, что 5 пользователей достаточно для выявления 85% юзабилити ошибок. Но в таком виде будет преждевременно связывать это правило с Нильсеном. Часто упускается из вида, что в основе его утверждения лежит формула:

Которая гласит, что если интерфейс содержит N ошибок и средняя вероятность обнаружения ошибки во время одного тестирования будет λ, то число ошибок, которые встретились хотя бы один раз в процессе тестирования i пользователей, будет равняется Found.

Соотношения найденных ошибок Found к их общему числу N — это наши 85%.

i — число пользователей , из правила оно равняется 5

хм.. получается мы забыли про третий фактор — среднюю вероятность обнаружения проблемы в одном тестировании — λ. По результатам своих экспериментов Нильсен определил среднюю вероятность обнаружения ошибки при одном тестировании как 31%.

Добавим λ к правилу: 5 пользователей достаточно для выявления 85% ошибок при условии, что вероятность обнаружения ошибки в процессе одного тестирования будет 31%.

Назовем это правилом 5 пользователей.

История

В конце каждой научной публикации есть раздел ссылок на литературу, потому что становлению теории обычно предшествует изучение работ других авторов. И правило 5 пользователей не исключение. Работе Нильсена предшествовали другие исследования.

Если хотите больше узнать о ключевых моментах в становлении образа “5 пользователей”, то рекомендую прочитать статью Джефа Соро A Brief History of the Magic number 5 in usability testing, я же кратко остановлюсь на четырех авторах.

Начнем мы с Джима Льюиса, того самого Льюиса из IBM, который был соавтором книг и научных публикаций Джефа Соро. В 1982 году он публикует работу, в которой рассуждает о том как частота появления ошибки определяет число необходимых тестов для ее обнаружения. Для описания этой проблемы он предлагает использовать биномиальное распределение и иллюстрирует это примером — если вы хотите обнаружить ошибку которые будет затрагивать по меньшей мере 50% пользователей, то надо будет проводить тестирования с привлечением хотя бы трех пользователей. Но эта тема затрагивается вскользь и никаких формул автор не приводит.

В конце 80-х -начале 90-х проблемой определения оптимальной выборки заинтересовался Robert Virzi. Он становится одним из первых, кто, основываясь на эмпирических данных, пришел к выводу, что зависимость числа респондентов к проценту обнаруженных ошибок, близко аппроксимируется к формуле

Для эксперимента он пригласил юзабилити экспертов и попросил их найти юзабилити ошибки. По результатам он получил данные похожие на такие:

Данные в этой таблички не имеют никакого отношения к эксперименту Virzi. Это просто придуманный пример, исключительно для иллюстрации.

Используя метод Монте Карло, он смоделировал 500 комбинаций различных групп пользователей, без проведения дополнительных экспериментов. Как то: а что было бы если бы были протестированы только пользователь #1, #5, #7, #9 или только пользователи #2, #4, #6 и тд.

Проанализировав все данные Virzi делает 3 вывода:

4–5 пользователя достаточно, что бы идентифицировать 80% проблем.
каждое последующее тестирование обнаруживает меньше неизвестных ошибок.
наиболее серьезные проблемы идентифицируются уже первыми пользователями.

Что же касается Нильсена, то в 80-х он работает профессором в университете, после того как ушел из исследовательского центра IBM. Бюджеты, которые выделяли обе эти организации на исследования сильно отличались, поэтому ему пришлось перестроить весь исследовательский процесс, чтобы вписываться в новые бюджеты. С этого момента Нильсен начинает развивать идею “Discount Usability”. Такого себе юзабилити по дешевке — lo-fi прототипы, эвристики, Wizard of Oz тестирования, итеративный дизайн и тд.

В продолжение темы, Нильсен с коллегами задался вопросом определения числа пользователей достаточных для поиска проблем в интерфейсах. Laundaure и Nielsen (1993), используя модель Пуассона, вывели формулу определения числа юзабилити ошибок, которую я уже упоминал выше:

Они также предоставили эмпирические данные основанные на 11 исследованиях, 5 с привлечением реальных пользователей и 6 эвристических оценок, которые хорошо ложились на расчетные значения с использованием этой формулы.

Также в результате экспериментов Laundaure и Nielsen определили, что среднея вероятность обнаружения ошибок одним пользователем/исследователем была в районе 30%.

Позже Lewis (1994) провел исследование офисного софта в рамках компании IBM. После чего, используя метод Монте Карло смоделировал 500 различных групп пользователей. Полученные данные, также говорили о состоятельности формулы

при оценке размера выборки.

Позже мы еще подробнее вернемся к некоторым экспериментам. А пока сделаем небольшое резюме:

Нильсен не единственный и даже не первый автор, который работал в этом направлении. Поэтому все шишки и благодарности сыпать исключительно на него будет не совсем корректно.
Существует две похожие формулы. Одна, которая упоминается в работах Lewis(1982) и Virzi(1990, 1992), в основе которой лежит биномиальное распределение. И вторая Nielsen (1993), выведенная из модели Пуасона.
В работах всех вышеперечисленных авторов под юзабилити исследовании понимается поиск ошибок проектирования интерфейса. Поэтому все предложенные выводы относятся только к этому виду исследований. Вопрос о масштабировании выводов на другие виды исследований ни одним из авторов не поднимался.

Правило 5 пользователей — это не просто мнение одного человека. Это теория в основе которой лежит математическая формула, работоспособность которой подтверждена рядом исследований, при чем разных авторов. Поэтому недостаточно просто сказать, что взгляды Нильсена устарели или Нильсен говорит надо 5, а мы рекомендуем 15–20 респондентов. Опровергать надо не мнение автора, а выводы его исследования. Поэтому сперва надо выделить какие-то конкретные критерии, по которым данный подход к оценке размера выборки не состоятелен. А если не получается этого сделать, то тогда придется принять, что формула является, по крайней мере временно, верной.

Если мы хотим сделать свои выводы то придется сначала разобраться с математической составляющей.

Выведение формулы

Я уже упоминал о том, что Нильсен в своей работе указывает на то, что его формула основывается на модели Пуассона.

we can expect a Poisson model to describe the finding of usability problems (Nielsen & Laundaure, 1993)

Но, к сожалению, он не демонстрирует каким именно образом была выведена эта формула.

В своей работе Lewis (2009) так же упоминает разговор с Landauer (соавтор Нильсен по работе 1993 года), где Landauer говорил, что они вывели уравнение из:

the constant probability path independent Poisson process model

Мои познания в статистике и теории вероятностей достаточно поверхностные, но почему Пуассон?

Так или иначе распределение Пуассона связано с непрерывными событиями [26] , такими как время или площадь. Если мы говорим о вероятности обращения в суппорт в единицу времени — это Пуассон. Если мы задумываемся о том сколько изюма надо добавить в тесто, что бы по итогу на 5 кубических сантиметров теста приходилось около 10 изюминок — то тут нам тоже может помочь распределение Пуассона. Но мы говорим о количестве событий в определенном числе испытаний, а это уже биномиальное распределение.

Да, существует случай когда, распределение Пуассона становится частным случаем биномиального распределения. [21] Но при этом число испытаний должно быть очень большим, а вероятность возникновения события очень маленькой. Что опять не наш случай.

Ну да ладно, пока просто отметим, что есть способ выведения интересующей нас формулы через процесс Пуассона.

Перейдем к биномиальному распределению на которое ссылаются работы Lewis(1982, 1994) и Virzi(1990, 1992). В работе Lewis (1994) объясняется принцип выведения формулы:

Нам потребуется формула Бернулли, математический смысл которой выражается так:

Если вероятность p наступления некоторого события в каждом испытании постоянна, то вероятность P(k/n) того, что это событие наступит k раз, в n независимых испытаниях, равна:

Где,

C(k/n) — число комбинаций исходов испытаний, для которых это событие наступает k раз в n независимых испытаниях. Рассчитывается оно по формуле:

а q — это вероятность того, что интересующее нас событие не наступит. А поскольку не возможна ситуация когда событие одновременно и наступило и не наступило бы, то вычисляется оно очень просто:

Давайте теперь перефразируем эту форму в терминах близких к юзабилити исследованию.

Если вероятность p обнаружения ошибки в интерфейсе постоянна, то вероятность P(k/n) того, что ошибка будет выявлена k раз при тестировании с привлечением n пользователей будет равна (окончательно подставив все значения):

Но пугаться не стоит, сейчас все упростим.

Давайте попробуем определить вероятность того, что в процессе тестирования, мы не найдем ни одной ошибки, то есть ситуацию, когда k = 0

Вспоминаем, что любое число в степени 0, у нас 1. 0! так же равняется 1 [24] . Получаем:

Сокращаем n! и получаем окончательную формулу, для вероятности того, что мы в процессе не найдем ни одной ошибки.

Из этой формулы, теперь легко вычислить чему будет равняться вероятность того, что мы найдем хотя бы одну ошибку. Опять же таки, поскольку обнаружение хотя бы одной ошибки и обнаружения 0 ошибок являются противоположными событиями, то их сумма будет равна 1, а значит:

Ну или:

Важно. У каждого распределения есть условия применения. И биномиальное распределение не исключение. Для того что бы мы могли применить эту формулу, должны соблюдаться следующие условия:

случайная выборка
независимые наблюдения
две взаимоисключающие и исчерпывающие категории событий
вероятность возникновения события на протяжении всех наблюдений не должна меняться.

Lewis (1994) пишет, что, в целом, формат юзабилити тестирования соответствует этим требованиям:

Хотя по-настоящему случайная выборка редко встречается в юзабилити исследованиях, но тем не менее осознанного отбора респондентов модераторами не проводится, так что можно считать выборку квазислучайной.
Наблюдения являются независимыми, поскольку тестирование проводится с каждым респондентом по отдельности. И ошибки, с которыми столкнулся один участник не могут повлиять на другого.
Двумя взаимоисключающими и исчерпывающими категориями обнаружения проблем являются: респондент столкнулся с ошибкой и респондент прошел сценарий без проблем.
В теории вероятностей это иллюстрируют корзина с шарами. Допустим, в корзине 10 шаров, 3 из которых белых и 7 черных. Вероятность вытянуть белый шар 3/10. Допустим, мы в первом испытании достанем шар и он окажется белым. Если мы не вернем его обратно в корзину, то вероятность вытянуть белый шар в последующих испытаниях поменяется и будет уже 2/9. Но в случае юзабилити тестирований ошибки не “вытаскиваются из корзины” и вероятность возникновения одной ошибки в последующих испытаниях никак не зависят от того сколько пользователей столкнулись с ней в предыдущих тестах.

Связь формулы Lewis-Virzi с формулой Nielsen & Laundaure

Как вы уже заметили, формулы Lewis-Virzi и Nielsen & Laundaure, похожи. Объяснить их связь нам поможет классическое определение вероятности.

Вероятностью события А называется отношение числа m элементарных событий, благоприятствующих событию А, к числу n всех элементарных событий этой схемы. [25]

Если мы говорим в рамках формулы Lewis-Virzi о вероятности возникновения ошибки во время тестирования хотя бы 1 раз

m — положительные исходы, в нашем случае — это обнаружение ошибки хотя бы раз.

n — общее число элементарных событий, в нашем случае это число всех ошибок в интерфейсе.

подставим это отношения в формулу Lewis-Virzi:

e — от error

Умножим обе части на общее число ошибок. В левой части сокращаем их и получается:

А теперь вернемся к формуле Нильсена (Nielsen и Laundaure, 1993).

Напомню обозначения из той же статьи:

Found — число юзабилити ошибок, которые могут быть обнаружены хотя бы 1 раз в процессе тестирования i пользователей

N — это общее число юзабилити ошибок в интерфейсе,

λ — это средняя вероятность обнаружения проблемы во время одного тестирования.

То есть мы получили 2 одинаковые формулы.

Пусть вас не вводит в заблуждение то, что в одном случае используется λ, а в другом p. Обозначают они одно и тоже. Этот момент разъясняется в статье Nielsen (2006):

Nielsen and Landauer used lambda rather than p, but the two concepts are essentially equivalent. In the literature, λ (lambda), L, and p are commonly used to represent the average likelihood of problem discovery. Throughout this article, we will use p.

Мы можем спокойно записать эту формулу в таком виде

В дальнейшем, я не буду разделять формулы Lewis-Virzi и Nielsen, а просто буду называть ее формулой правила 5.

Смысл формулы правила 5

Вообще это формула не претендует на уникальность. Тяжело будет найти хоть один учебник по теории вероятностей, где бы эта формула не упоминалась в разделе умножения вероятностей. И выводится она куда проще.

Вероятность появления хотя бы одного из событий A1, A2, …, An, независимых в совокупности, равна разности между единицей и произведением вероятностей противоположных событий. [28]

Если события A1, A2, …, An имеют одинаковую вероятность p, то формула принимает простой вид:

Вуаля!

Теперь, наверное, не самый очевидный момент. Вероятность, которая обозначается большой буковой P — это вероятность обнаружения ошибки хотя бы один раз, вероятность появления которой в отдельном испытании равна p. Одной ошибки. И если у нас, к примеру, в интерфейсе 6 ошибок с разной вероятностью обнаружения, то в общем случае у нас будет:

где, pE1, pE2 … pE6 — это вероятности того, что в процессе тестирования один пользователь столкнется с ошибкой этого типа.

Что на практике, грубо говоря, означает — если вероятность, к примеру, pE1 равна 1. То мы можем быть уверены, что в процессе тестирования каждый из пользователей столкнется с ошибкой #1. А если вероятность возникновения ошибки, к примеру — pE6, равна 0.01, то в этом случае только 1 пользователь из 100 может столкнуться с ошибкой #6.

Давайте попробуем рассчитать вероятность обнаружения ошибки хотя бы 1 раз в процессе тестирования, используя значения из правила 5 пользователей. То есть, когда вероятность возникновения определенной ошибки в процессе тестирования одного пользователя p = 0.31, a число испытаний n = 5.

Тоесть мы можем сказать, что при тестировании 5 пользователей, с вероятность 85% мы увидим эту ошибку хотя бы 1 раз.

Но Нильсен не делает отдельных просчётов для каждой ошибки. Но при этом он делает вывод о всех ошибках.

Суть вывода относительно всех ошибок в том, что если мы можем быть уверены, что в результате тестирования увидим ошибку, вероятность возникновения которой 0.3, то мы также, вероятно, увидим ошибки вероятность появления которых в одном испытании будет выше.

А это значит, результат вычислений выше можно интерпретировать, как то, что в результате тестирования мы с вероятностью 84.4% можем увидеть хотя бы раз ошибки, вероятность обнаружения которых в одном тесте от 0.31 до 1. Для упрощения понимания давайте перенесем наш расчет на эксперимент с обычным шестигранным кубиком.

p = 0.31 — это приблизительно 2/6. 2 грани из 6 будут считаться успехом, этого испытания. И скажем, пусть это будет 5 и 6. То есть если во время броска мы выкинули 5 или 6. То случилось интересующее нас событие

Теперь по нашим расчетам. Если мы сделаем 5 бросков с вероятностью 84.4% хотя бы раз выпадет 5 или 6. Можете сами попробовать.

А теперь давайте представим, что у нас есть еще одно успешное событие, вероятность которого будет p = 0.5 или 3/6. Успешной комбинацией будем считать грани 4, 5, 6.

И если мы уверены с вероятностью P = 84.4%, выпадут грани 5 или 6 хотя бы в одном испытании, то мы уж тем более можем быть уверены что выпадет грань 4, 5 или 6.

Ну а в остальных 15.6% случаях мы увидим, что-нибудь вроде такого:

И об этом не стоит забывать тоже.

Что же касается ошибок, вероятность обнаружения которых в одном испытании ниже p = 0.31, то они могут быть обнаружены тоже, но мы не можем быть в этом уверены. Попробуйте сами в рандомайзере последить за еще одним событием, к примеру выпадение 1 при 5 бросках кубика. Вероятность события выпадения 1 будет p = 0.16.

Резюме. При тестировании 5 пользователей с вероятность 84.4% мы сможем увидеть хотя бы раз ошибки, вероятность обнаружения которых в одном испытании 0.31 и выше.

Но теперь возникает другой вопрос. А откуда взялась цифра 85% всех ошибок? Ведь мы пока говорим о вероятность обнаружения ошибок хотя бы 1 раз во время тестирования.

Это все из классического определения вероятности. Давайте опять воспользуемся шестигранными кубиками как метафорой эксперимента.

Мы уже выяснили, что с вероятностью 84.4, хоть раз мы увидим ошибку, вероятность обнаружения которой в одном испытании будет 0.31.

0.84 это приблизительно 5/6

Представим, что событие обнаружения хотя бы одной ошибки определенного типа при тестировании с 5 респондентами определяется обычным шестигранным кубиком. Исходя из расчета по формуле мы знаем, что в 5 из 6 случаев, мы обнаружим хотя бы одну ошибку. Кидаем кубик и если выпадает любая грань кроме единиц, то мы считаем, что мы смогли обнаружить интересующую нас ошибку хотя бы 1 раз. В противном случае — не повезло.

А,теперь представим, что у нас в интерфейсе 6 ошибок . Кидаем 6 кубиков.

И видим, что мы смогли обнаружить целых 5 ошибок. Что прблезительно 85%.

Если 20. То же самое. Кидаем 20 кубиков

И находим 17 ошибок. 17/20 равно 0.85

Если 100. …думаю, принцип вы поняли. Отсюда и идут пресловутые — 5 пользователей обнаруживают 85% всех ошибок. Собственно вот так и работает формула правила 5.

Применение

Теперь давайте разберемся как пользоваться формулой правила 5 на практике.

Для начала напомню, что формула от Нильсена требует знания общего числа ошибок в интерфейсе.

Но если мы знаем, сколько у нас ошибок, то мы наверное знаем какие они. И от тестирования пользователей нам никакого проку не будем. А сочинять приблизительные значения чревато погрешностями в расчетах. Поэтому предлагаю остановиться на более простой в применении вариации Lewis-Vrizi:

Напомню, мы здесь собрались, чтобы рассчитать оптимальный объем выборки. То есть нам надо вывести из этой формулы n.

Переносим 1 и сразу умножаем на -1, чтобы избавиться от минуса перед скобочкой.

Для того чтобы избавиться от степени нам надо логарифмировать обе части уравнения.

Отсюда n равно:

Проверяем, подставив наши расчетные значения:

Формула готова, но вот только вопрос, а где нам взять эти вероятности?

0.844 -это вероятность обнаружения ошибки хотя бы 1 раз. Хотите быть больше уверены в достижении цели исследования, увеличивайте эту вероятность. Но помните, чем выше вероятность вы поставите, тем больше пользователей вам понадобится. Lewis (1994) сделал табличку, показывающую зависимость числа выборки от p и P :

колонки 0.01–0.75 — это p, вероятность обнаружения ошибки при тестировании одного пользователя

строки 0.04–0.99 — это P, вероятность обнаружить ошибку хотя бы один раз по результатам всего тестирования

Если по какой-то причине вас интересует повторяемость тестирования, то вы должны стремиться к максимально высокой вероятности получения этих результатов.

Габор Сикея в своей книге привел хороший пример:

Парадокс событий происходящих почти наверно Рассмотрим события, происходящие с вероятностью 0.99 и 0.9999 соответственно. Можно сказать, что обе вероятности практически одинаковы, оба события происходят почти наверно. Тем не менее в некоторых случаях разница становится заметной. Рассмотрим, например, независимые события, которые могут происходить в любой день года с вероятностью p=0.99; тогда вероятность, того, что они будут происходить каждый день в течении года, меньше, чем P=0.03, в то же время, если p=0.9999, то P = 0.97.

Это обычное умножение вероятностей. В примере Сикея он 0.99 умножил само на себя 365 раз. Ну или просто возвел в степень. В результате получил вероятность, что-то около 0.026.

Поэтому, если вероятность достижения какого-то результата во время тестирования 0.85, а вы при этом хотите получить схожие результаты и при следующем тестировании, то вероятность такого события будет

Но если вероятность достижения результата будет 0.95, то вероятность достичь такого же результат и при повторном тестировании будет уже:

Главное 100% не подставляйте. А то потом будет…

А что касается средней вероятности обнаружения ошибки в процессе одного испытания, тут есть два пути. Сложный, с весьма сомнительной точностью, и простой, но основанный на допущении.

Сложный.

Для этого надо провести тестирование на небольшой выборке, к примеру на 3 пользователях. По результатам мы обнаружим какое-то число ошибок и сможем просчитать вероятность обнаружения каждой из ошибок при одном тесте. А отсюда вычислим среднюю вероятность.

К примеру, мы провели тест и нашли 10 ошибок, при этом каждый из пользователей нашел такие ошибки:

Получаем для этого примера среднюю вероятность обнаружения ошибки при одном тестировании 0.53.

Для того, чтобы понять почему такой подход сомнителен, посмотрите еще раз на табличку, которую я сделал по мотивам работы Lewis(1994).

Серым я отметил случаи, которые будут работать для выборки из 3 человек. То есть мы можем с 95% вероятностью судить о том, что мы найдем ошибку, вероятность появления которой в одном испытании p = 0.75. Но если мы говорим об ошибках, для которых p = 0.31, то тут уже вероятность обнаружения хотя бы одной такой ошибки при тестировании на трех пользователях будет 50%, что уже так себе, не говоря про более редкие ошибки.

Простой.

Джеф Соро в одной из своих статей предложил не гадать и плодить погрешности, а просто выбрать минимальную вероятность ошибок, которые вы хотите обнаружить во время тестирования. К примеру, вы можете сказать, что во время тестирования нам достаточно обнаружить ошибки, которые затрагивают 50% пользователей — p = 0.5 или наоборот, хотите обнаружить ошибки, которые затрагивают даже 1% пользователей, тогда p = 0.01.

Собственно и все. Подставляем значения и рассчитываем выборку.

Заключение

Теперь, с учетом всего выше описанного можно перефразировать правило 5, что бы оно больше соответствовало действительности:

Если во время тестирования эксперименты будут независимыми, а выборка по крайней мере квазислучайной, то мы можем предположить, что при тестировании 5 пользователей мы обнаружим 85% ошибок, с которыми сталкиваются не менее 31% пользователей.

Но точку ставить на этом пока рано, мы еще не рассмотрели ни одного голоса против. А значит, продолжение следует.

Литература

Научные работы

Bevan, N., Barnum, C., Cockton, G., Nielsen, J., Spool, J., Wixon, D. (2003). The “magic number 5”: Is it enough for web testing?. CHI Extended Abstracts. 698–699.
Caulton, D. (2001). Relaxing the homogeneity assumption in usability testing. Behaviour & Information Technology, 20(1), 1–7.
Cazañas-Gordón, A. & Miguel, A. & Parra Mora, E. (2017). Estimating Sample Size for Usability Testing. ENFOQUE UTE. 8. 172–185.
Crouch, M., & McKenzie, H. (2006). The logic of small samples in interview-based qualitative research. Social Science Information, 45(4), 18.
Faulkner, L. (2003). Beyond the five-user assumption: Benefits of increased sample sizes in usability testing. Behavior Research Methods, Instruments, & Computers 35: 379
Fusch, P. I., & Ness, L. R. (2015). Are we there yet? Data saturation in qualitative research. The Qualitative Report, 20(9), 1408–1416.
Grosvenor, L. (1999).Software usability: Challenging the myths and assumptions in an emerging field. Unpublished master’s thesis, University of Texas, Austin.
Guest, G., Bunce, A., & Johnson, L. (2006). How many interviews are enough? An experiment with data saturation and variability. Field Methods, 18(1), 24.
Henstam, P. (2018) How many participants areneeded when usabilitytesting physical products?
Katz, Michael & Rohrer, Christian. (2004). How Many Users Are Really Enough…And More Importantly When?
Kessner, M., Wood, J., Dillon, R., West, R. (2001). On the reliability of usability testing.
Lewis, J. (1982) Testing Small System Customer Setup. Proceedings of the Human Factors Society 26th Annual Meeting p. 718–720
[13] Lewis, J. (1994). Sample Sizes for Usability Studies: Additional Considerations. Human factors. 36.
Lewis, J. (2009). Evaluation of Procedures for Adjusting Problem-Discovery Rates Estimated From Small Samples. International Journal of Human–Computer Interaction
Molich, R., Bevan, N., Curson, I., Butler, S., Kindlund, E., Miller, D., Kirakowski, J. (1998). Comparative evaluation ofusability tests. In Proceedings of the Usability Professionals Association (pp. 189–200). Washington, DC: UPA
Nielsen, J. and Molich, R. (1990). Heuristic evaluation of user interfaces. In Proc ACM CHI’90.
Nielsen, J., Landauer, T. (1993). A mathematical model of the finding of usability problems. In Proceedings of the INTERACT ’93 and CHI ’93 Conference on Human Factors in Computing Systems (CHI ‘93). ACM, New York, NY, USA, 206–213
Nielsen, J., Turner, C., Lewis, J. (2002). Current Issues in the Determination of Usability Test Sample Size: How Many Users is Enough?
Nielsen, J., Turner, C., Lewis, J. (2006). Determining Usability Test Sample Size.
Sauro J. (2008). Deriving a Problem Discovery Sample Size
Spool, J., Schroeder, W. (2001). Testing Web Sites: Five Users Is Nowhere Near Enough.
Thomson, Stanley. (2011). Sample Size and Grounded Theory. JOAAG. 5
Vasileiou, K., Barnett, J., Thorpe, S. et al. (2018). Characterising and justifying sample size sufficiency in interview-based studies: systematic analysis of qualitative health research over a 15-year period. BMC Med Res Methodol 18, 148
Virzi, R. A. (1990). Streamlining the design process: Running fewer subjects. Proceedings of the Human Factors Society 34th Annual Meeting p. 291–294
Virzi, R. A. (1992). Refining the test phase of usability evaluation: how many subjects is enough? Human Factors, 34, 457–468.
Walker, J. L. (2012). The use of saturation in qualitative research. Canadian Journal of Cardiovascular Nursing, 22(2), 37–46.
Woolrych, Alan., Gilbert, C. (2001). Why and when five test users aren’t enough.
Wright, Peter & Monk, Andrew. (1991). A Cost-Effective Evaluation Method for Use by Designers. International Journal of Man-Machine Studies. 35. 891–912. 10.1016/S0020–7373(05)80167–1.

Статьи

[1] A Brief History Of The Magic Number 5 In Usability Testing https://measuringu.com/five-history/
[2] Filling Up Your Tank, Or How To Justify User Research Sample Size And Data https://www.smashingmagazine.com/2017/03/user-research-sample-size-data/
[3] Getting Big Ideas Out of Small Numbers https://www.cooper.com/journal/2013/05/getting-big-ideas-out-of-small-research/
[4] How Many Test Users in a Usability Study? https://www.nngroup.com/articles/how-many-test-users/
[5] How to Determine the Right Number of Participants for Usability Studies https://www.uxmatters.com/mt/archives/2016/01/how-to-determine-the-right-number-of-participants-for-usability-studies.php
[6] How Investing in UX Will Save Your Business Money & Time https://www.marketpath.com/blog/investing-in-ux-will-save-business-money-time?fbclid=IwAR0IwK09D1bXQAIKAwBZf8NtJWkX4Ybc4X-FWQxKWJVmXnDrati9kG5llt8
[7] Jeff Sauro’s thoughts about sample size https://measuringu.com/tag/sample-size/
[8] Qualitative Sample Size — How Many Participants is Enough? https://www.drjohnlatham.com/many-participants-enough/
[9] The 5 User Sample Size myth: How many users should you really test your UX with? https://www.experiencedynamics.com/blog/2019/03/5-user-sample-size-myth-how-many-users-should-you-really-test-your-ux
[10] The Five Most Influential Papers In Usability https://measuringu.com/five-papers/
[11] What sample size do you really need for UX research? https://www.userzoom.com/blog/what-sample-size-do-you-really-need-for-ux-research/
[12] Why its bullshit to test with 5 users (unless you are asking the right questions) https://conversionista.com/en/blogg/why-its-bullshit-to-test-with-5-users/
[13] Why you don’t need a representative sample in your user research https://www.userfocus.co.uk/articles/myth-of-the-representative-sample.html
[14] User Research: is more the merrier? https://uxdesign.cc/user-research-is-more-the-merrier-9ee4cfe46c7a
[15] User testing: How many users do you need? https://blog.maze.design/user-testing-how-many-users/
[16] Сколько нужно респондентов для юзабилити-тестирования https://usabilitylab.ru/blog/usability-testing-respondents/

Калькуляторы

[17] Испытания по схеме Бернулли https://math.semestr.ru/math/tests-bernoulli.php
[18] Рандомизер кубиков https://www.random.org/dice

О методе Монте Карло

[19] Паньгина Н.Н., Паньгин А. А., (2002) Статистическое моделирование: метод Монте Карло https://cyberleninka.ru/article/n/statisticheskoe-modelirovanie-metod-monte-karlo
[20] Метод Монте-Карло и его точность https://habr.com/ru/post/274975/

Математика

[21] Deriving the Poisson Distribution from the Binomial Distribution https://medium.com/@andrew.chamberlain/deriving-the-poisson-distribution-from-the-binomial-distribution-840cc1668239
[22] Difference between Poisson and Binomial distributions. https://math.stackexchange.com/questions/1050184/difference-between-poisson-and-binomial-distributions
[23] Poisson Processes https://images-na.ssl-images-amazon.com/images/G/01/books/stech-ems/Intro-to-Stochastic-Modeling-4E-sample-9780123814166._V154961835_.pdf
[24] 0! = 1? или почему факториал нуля равен единице https://habr.com/ru/post/60306/
[25] Барковская Л.С., Станишевская Л.В., Черторицкий Ю.Н., Теория вероятностей (Практикум)
[26] «Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни» https://habr.com/ru/post/311092/
[27] Распределение Пуассона и футбольные ставки https://habr.com/ru/post/318150/
[28] Сложение и умножение вероятностей https://www.matburo.ru/tvbook_sub.php?p=par14