Сколько надо пользователей, чтобы… Часть 2. Критика выводов Нильсена.

16 min readDec 13, 2019

Perhaps the most disturbing aspect of the 5-user assumption is that practitioners have so readily and widely embraced it without fully understanding its origins and the implications — Faulkner (2003)

“Возможно, самое тревожное в концепции 5-пользователей — это то, с какой легкостью практикующие специалисты ее приняли особо не вникая в теоретические основы и смысл.”

Так Лора Фолкнер в 2003 году подготавливает читателей к выводам по своему исследованию. Но спустя 15 лет в среде UX-специалистов по прежнему нет четкого понимания смысла правила 5-ти пользователей. В первой части я пытался разобраться откуда взялась формула и как ее понимать. А в этой части я попытаюсь проализировать публикаций критически настроенных авторов для того чтобы понять границы применения этой формулы.

Взглянем еще раз на публикацию Nielsen и Landauer (1993). В рамках работы они проводит 11 полноценных исследований разных продуктов, начиная с транспортного информационного табло и заканчивая офисными программами. В рамках исследований Нильсен и Ландаурер проверяют два разных вида исследований. В 5-ти случаях это юзабилити тестирования с привлечением реальных пользователей. В 6-ти других — это эвристическая оценка с привлечением как юзабилити специалистов, так и просто студентов, которые были знакомы с эвристической оценкой.

В каждом исследовании учувствовало по меньшей мере 11 человек, в самом масштабном 77, в среднем порядка 26 респондентов на исследование. По результатам каждого исследования они фиксируют количество найденных ошибок. На основе этих данных Нильсен и Ландаурер вычисляют среднюю вероятность обнаружения проблемы в одном испытании по всем исследованием равную p = 0.33.

После чего используя метод Монте Карло моделируют по 100 различных групп пользователей для каждого исследования и на основе уже этих данных вычисляют смоделированную среднюю вероятность обнаружения ошибки в исследовании. И по итогу находят среднее значение по всем исследованиям равное p = 0.31. Что демонстрирует весьма не плохое соответствие между реальными и расчетными данными.

Именно допущение о том, что средняя вероятность равная 0.31 является типичной для любого исследования подверглось наибольшей критике.

0.3 как типичное среднее и падение вероятности обнаружения новых ошибок в каждом последующем испытании.

Nielsen (2000) пишет:

The typical value of L is 31%, averaged across a large number of projects we studied.

Но в тоже время существуют исследования, в которых авторы получили несколько иные данные. К примеру Spool и Schroeder (2001) и Lewis (1994) рассчитали среднюю вероятность обнаружения ошибки в одном исследовании на основе данных своих экспериментов и полученные значения не превышали 0.16.

Вероятность обнаружения ошибки в одном испытании равная 31%, является основополагающей для вывода о достаточности 5-ти человек для обнаружения 85% проблем. И, как следствие, для вывода, что 5 пользователей найдут большинство ошибок, а в результате последующих испытаний будут обнаруживаться все меньше и меньше новых ошибок.

After the fifth user, you are wasting your time by observing the same findings repeatedly but not learning much new. (Nielsen, 2000)

Но что будет если вдруг вероятность будет ниже, а мы по прежнему привлечем к тестам только 5 респондентов?

Результат такого эксперимента отлично продемонстрировали все те же Spool и Schroeder (2001). Они провели исследование 4-х онлайн магазинов, в котором приняло участие 49 пользователей. Перед респондентами стояла всего одна задача — выбрать товар, который они хотят купить и собственно заказать его.

При тестировании первого магазина 18-ю пользователями было найдено всего 114 ошибок. И только 38 из них были найдены первыми 5-ю пользователями. Аналогичная ситуация была и со вторым магазином — первые 5 пользователей обнаружили 27 ошибок. А последующие 13 столкнулись с еще 37-ю новыми ошибками.

Итог подвели Woolrych и Cockton (2001). Проведя анализ как своих данных так и данных ряда публикаций других авторов, они делают вывод о том, что средняя вероятность обнаружения ошибки в одном испытании может быть отличной 0.3, а для того что бы рассчитать выборку при помощи которой можно будет обнаружить определенный процент ошибок интерфейса надо учитывать индивидуальные различия проблем.

Поэтому в первой части мы сделали вывод, что в результате исследования мы можем обнаружить 85% лишь тех ошибок, которые затрагивают по крайней мере треть пользователей.

Spool и Schroeder (2001) видят разницу их результата p=0.16, в сравнении с исследованием Нильсена p=0.31 в том, что сценарии в их исследования были более сложными и более разнообразными.

К аналогичному выводу приходят Perfetti и Landesman (2001), которые провели юзабилити тестирование онлайн магазина по продаже дисков. В их тестировании приняли участие 18 пользователей, перед которыми стояла задача выбрать себе понравившейся диск и купить его. Для чистоты эксперимента средства на покупку выделялись исследователями. По итогу пользователи столкнулись с 247 “препятствиями”. При этом первые 5 пользователей обнаружили лишь 35% ошибок от общего числа. Причиной этому Perfetti и Landesman видят так же в более сложных сценариях ecommerce систем по сравнению с простыми экспериментами Virzi и Nielsen.

Но объективности ради, подобные результаты можно было объяснить еще и через различия в исследователях.

Molich в 1998 году опубликовал результаты своего эксперимента, в котором две независимые группы юзабилити экспертов тестировали приложение-календарь. После чего он сравнил отчеты каждой из групп и обнаружил существенное расхождение в количестве обнаруженных проблем. При этом лишь только треть проблем пересекалась между обоими группами, а все остальные полностью отличались.

В 2001 году Kessner публикует отчет о исследовании в котором учувствовало уже 6 групп юзабилити экспертов, которым предложили протестировать прототип диалогового окна. По итогу было обнаружено 36 ошибок интерфейса. При этом не было ни одной проблемы, которая была бы обнаружена каждой из команд, 2 проблемы пересекались в отчетах 5-ти команд, 4 были в отчетах 4-ех команд, 7 сходных проблем упоминались в отчетах 3-ех команд и еще 7 в отчетах 2-ух. В общей сложности каждой из команд было обнаружено не более 16-ти ошибок, что составило 44% от общего числа обнаруженных проблем.

Разные исследователи могут интерпретировать одну и ту же ситуацию как ошибку и нормальное взаимодействие с интерфейсом. В конце концов именно из-за субъективности интерпретации, команда исследователей из Microsoft убрала эту метрику из суммарной оценки юзабилити (Waardhuizen, 2019).

А вот Caulton(2001) предлагает третье объяснение. Он соглашается, что вероятность обнаружения неизвестных ошибок с каждым новым пользователем будет падать только при условии, что вероятность обнаружения каждой из ошибок в отдельном испытании будет одинаковой, а если это не так, то момент “насыщения ошибки” становится уже не столько очевидным. А причину он объясняет не сложностью сценариев, а индивидуальными различиями пользователей.

Наличие разных категорий пользователей уменьшает пропорцию обнаруженных ошибок по результатам исследования.

Caulton (2001) обращает внимание на то, что в своих работах Virziне учитывает возможную неоднородность пользователей. Разный уровень опыта взаимодействия с интерфейсом может вызывать разные систематические ошибки.

Частичное согласие с его идеей демонстрируют Woolrych и Cockton (2001), рассуждая, что если мы привлечем к тестированию только неопытных пользователей, мы можем обнаружить огромный объем юзабилити ошибок, но мы не сможем выявить критичные ошибки для уже опытных пользователей. И аналогично наоборот, если мы пригласим только экспертов, то упустим из виду фатальные ошибки для новичков.

Caulton предполагает, что в интерфейсе будут присутствовать как общие ошибки для всех пользователей, так и уникальные для каждой из возможных категорий. Пропорцию уникальных проблем он предлагает рассчитывать по формуле:

где,

nsubj — это число испытаний, наш размер выборки

ngroups — это число различных категорий пользователей

Так, если мы предположим, что у нас 4 различных категорий пользователей

Что несколько меньше ожидаемых 85%.

С увеличением числа групп пропорция обнаруженных ошибок продолжит падать.

Но поскольку какая-то часть ошибок может пересекаться между каждой из групп, то для более точной оценки нам придется учитывать оба типа ошибок. Поэтому для просчета пропорции всех ошибок Caulton предлагает использовать следующую формулу:

где

nunique и nshared — это количество уникальных и общих ошибок в интерфейсе.

p(n)shared — пропорция общих ошибок. Для ее корректировок нет необходимости, так что это просто формула правила 5.

Как и в формуле Нильсена, вариант Caulton демонстрирует зависимость обнаруженных ошибок от их общего числа, даже больше того, Caulton разделяет их на два типа: уникальные и общие. Вся сложность в том, что эти значения мы можем получить только основываясь на эмпирических данных. А если эмпирические данные будут собраны на маленькой выборки, то в результате мы получим большую погрешность. Поэтому на практике будет достаточно проблематично, используя эту форму, рассчитать размер выборки. Но теоретически мы можем перейти к пропорциям как в формуле Lewis-Virzi.

И тогда мы получим такую зависимость выборки от пропорции уникальных ошибок, при p=0.31, числе категорий пользователей — 4.

К сожалению, эмпирических данных подтверждающих применимость этой формулы я не нашел. Но теоретически эта формула актуальна только когда в одной выборке будут представители разных категорий.

Для случая же когда мы можем сделать случайную выборку по каждой из категорий пользователей отдельно Caulton(2001), собственно как и Nielsen(2000), считают, что будет более уместным проведение отдельного тестирования для каждой из категорий. То есть фактически общее число выборки будет равно произведению числа категорий на объем выборки для тестирования одной категории. Но вот только такой подход никак не учитывает общие ошибки для разных категорий. А значит такая выборка будет излишней, и по факту могло бы хватить и меньшего числа респондентов.

У Nielsen (2000) есть фраза:

In testing multiple groups of disparate users, you don’t need to include as many members of each group as you would in a single test of a single group of users. The overlap between observations will ensure a better outcome from testing a smaller number of people in each group. I recommend:

3–4 users from each category if testing two groups of users

3 users from each category if testing three or more groups of users (you always want at least 3 users to ensure that you have covered the diversity of behavior within the group)

Снижение объема выборки при увеличении числа категорий можно как раз объяснить мыслями Caulton о том, что часть ошибок будет пересекаться между разными группами. Но вот только это моя интерпретация. Nielsen не объясняет откуда взялись эти цифры. Поэтому прежде чем применять такой подход, я бы дважды подумал.

Но давайте пойдем дальше и зададимся вопросом, а постоянна ли вероятность обнаружения определенной ошибки при одном тестировании для неоднородных пользователей?

Caulton(2001) показал, что разные категории пользователей могут сталкиваться с разными ошибками.

К примеру, для пользователей которые только осваивают взаимодействие с компьютером посредством клавиатуры, ключевым фактором успешности будет — как быстро они найдут нужную клавишу. Поэтому для них может быть важен шрифт на клавишах, подсветка и все в таком духе. В то время как для уже опытных пользователей, возможно даже обладающими способностями печати вслепую, будут актуальны другие факторы, может быть форма клавиш или сила нажатия. А это значит существует вероятность того, что ошибки взаимодействия для обоих этих категорий пользователей будут отличаться.

Пример выше описывает уникальные ошибки, но давайте подумаем насчет общих ошибок и рассмотрим как пример — случайное нажатие клавиши. Итак, у нас есть одна категория пользователей, которые тратят время на поиск нужной клавиши и уделяют внимание валидации правильности выбора. И другая категория, для которой важна скорость набора при этом не глядя на клавиатуру. Можем ли мы предположить, что во втором случае вероятность непреднамеренного нажатия клавиши будет выше в отдельном испытании?

А если вспомнить дизайн клавиатур популярный лет 10 тому назад:

Или еще более экстремальный вариант:

То такая ошибка будет еще и крайне критичная.

Но если у нас вероятность обнаружения одной ошибки будет отличаться для разных категорий пользователей, то в таком случае мы не сможем применить формулы, основанные на биноминальном распределении.

Вспомним математический смысл формулы Бернулли, из которой мы вывели формулу правила 5:

Если вероятность p наступления некоторого события в каждом испытании постоянна, то вероятность P(k/n) того, что это событие наступит k раз, в n независимых испытаниях, равна:

или:

…Если события A1, A2, …, An имеют одинаковую вероятность p, то формула принимает простой вид:

Обязательным условием в обоих случаях является одинаковая вероятность наступления события в каждом испытании. То есть мы просто не смогли бы получить формулу:

А это значит, что если у нас генеральная совокупность имеет нескольких категорий пользователей. И если мы при этом делаем выборку сразу по всем категориям, мы не сможем спрогнозировать вероятность обнаружения ошибок, вероятность возникновения которых в отдельном испытании будет варьироваться между разными категориями пользователей.

Учитывая все выше сказанное, мы можем сделать вывод, что для того чтобы работало правило 5 в случае когда у нас несколько категорий пользователей, надо тестировать каждую категорию независимо.

Собственно Нильсен тоже согласен с такой мыслью:

The formula only holds for comparable users who will be using the site in fairly similar ways. (Nielsen, 2000)

В общем, описать точно влияние числа категорий и их неоднородность на объем необходимой выборки тяжело из-за недостатка исследований в этом направлении. Но выводы Caulton (2001) говорят, что оба эти факта приводят к снижению пропорции обнаруженных ошибок по результату тестирования.

Но на этом случаи, когда мы можем упустить из виду часть ошибок, не заканчиваются. И один из таких случаев “зашит” в самой формуле.

Маленькая выборка и погрешность среднего

Всякий раз, когда всплывает среднее значение надо интересоваться вариативностью признака.

Так, к примеру, среднее 11 и 13 будет 12. Но среднее между 1 и 23, также будет 12.

Faulkner (2003) в своей работе обращает внимание на вариативность такого показателя как пропорция найденных ошибок к их общему числу. Nielsen и Landauer (1993) по результату моделирования 100 групп пользователей по 5 респондентов делает вывод о средней пропорции найденных ошибок на уровне 85%, с стандартным отклонением 9.3 и погрешность при 95% доверительном ±18.5%. А это значит, что при тестировании с привлечением 5-ти пользователей в одном случае мы обнаружим условно все ошибки, а в другом, с таким же успехом, немногим больше половины.

Faulkner (2003) показывает, что увеличивая объем выборки мы получаем более точные данные:

Как видно из расчетов, чем больше выборка, тем меньше вариативность. А значит выше вероятность того, что результат исследования будет соответствовать расчетному значению.

В рамках этого исследования при разборе правила 5-ти пользователей мы часто говорим о статистике. Но исходя из этого не стоит делать вывод, что выборка в 5 человек позволит нам судить о статистической значимости.

Малая выборка и генеральная совокупность

Бывает так, что во время юзабилити тестирования или любого другого исследования с привлечением малого числа пользователей, можно обнаружить какой-то признак у каждого респондента. 5 из 5-ти. И тогда возникает желание сказать, что этот признак типичен для всех пользователей. Но в этот момент лучше остановиться. При условии, что генеральная совокупность достаточно велика, основываясь на выборке в 5 человек, нельзя судить о всех пользователях.

Точнее, такое предположение можно сделать, но вероятность того, что вы ошибетесь будет крайне высокой. Можно взять какой-нибудь калькулятор и посмотреть как размер генеральной совокупности, уровень значимости или погрешность будут влиять на размер выборки по которой можно будет судить о генеральной совокупности.

Но дело в том, что в общем случае нам этого и не надо.

Если мы увидели как кто-то перецепился через кирпич, то для того чтобы убрать этот кирпич нам не надо проводить масштабный эксперимент в результате которого мы получим статистически значимые данные, которые подтверждали бы, что кирпич действительно мешает прохожим.

Некоторые авторы пытаются объяснить такой подход через противопоставление качественных и количественных исследований — это количественным исследования нужна значимость, а качественные не про это.

A common concern for clients and stakeholders is that the small number of users necessary for a qualitative study doesn’t seem “scientific”. Qualitative research is backed by behavioral and cognitive science but does not need large numbers of participants to achieve meaningful results. Because of this we need not be concerned with statistical significance; qualitative research is not statistically significant and that’s ok. It’s simply important to speak with enough participants to uncover and explore high-level goals. — Getting Big Ideas Out of Small Numbers

На такое объяснение может способствовать неправильному пониманию. Отсутствие необходимости в статистической значимости привязано не к типу исследования, а к его цели.

Исследования делятся на качественные и количественные по способу описания данных. А это значит, что одно и тоже исследование может быть как качественным, так и количественным в зависимости от того, какие мы данные собираем. Так, к примеру, во время интервью мы можем собирать исключительно какую-то частотную характеристику, а значит в этом случае это будет количественное исследование.

Katz и Roher (2004) говорят о присутствии в сфере юзабилистов фундаментального недопонимания смысла юзабилити исследований. Все чаще специалисты обращают внимание только на те проблемы, которые актуальны для значительной части выборки, что позволило бы им судить о значимости обнаруженных проблем в масштабах генеральной совокупности. И, как следствие, гонятся за частотной характеристикой, устанавливая минимальный порог частоты обнаружения ошибок.

Look for repetition and things that may be caused by common underlying problems… Having grouped all the observations, go through the groups and consolidate them, separating the groups of unrelated topics. Throw away those that only have one or two individual observations. — Kuniavsky (2003)

Цель юзабилити исследований состоит не в том чтобы получить данные которые были значимы для генеральной совокупности, а в том чтобы выявить области в которых у пользователей могут возникнуть сложности. Поэтому Katz и Roher считают, что в рамках юзабилити тестирования оправдано использование малых выборок.

Но если вам действительно необходимо сделать вывод о распространенности ошибки в генеральной совокупности, то тогда не стоит руководствоваться правилом 5-ти пользователей. Как впрочем и такой вид исследований как юзабилити тестирование, может оказаться слишком трудозатратным в этом случае.

Другое следствие завышения важности частоты по мнению Katz и Roher (2004) это искаженное представление о критичности ошибки. Некоторые авторы в своей оценке важности проблемы опираются на то, как много пользователей с ней сталкиваются, что далеко не всегда дает нам полную картину.

Наиболее критичные ошибки обнаруживают уже первые пользователи.

Nielsen(1993) и Virzi(1992) на основе своих исследований говорят о том, что критичные ошибки легче обнаружить во время юзабилити тестирования, чем менее серьезные.

Если под критичностью подразумевать частоту обнаружения ошибки, то такое утверждение правомерно. Чем больше пользователей сталкивается с определенной ошибкой, тем выше вероятность того, что она будет обнаружена уже при первых тестах.

Такой подход к оценки важности проблемы подвергся критике многими авторами.

Spool и Schroeder (2001) в своих тестах продолжали обнаруживать новые критичные ошибки даже после 13-ти испытаний.

Lewis (1994) считает крайне нереалистичным допущение о том, что частота ошибок может стать единственным критерием при анализе юзабилити проблем. Более продуктивным будет анализировать влияния ошибки на сценарий, нежели просто отбрасывать ошибки, которые встречаются меньше N раз. По результатам своего эксперимента Lewis не нашел корреляции между важностью проблемы и вероятностью обнаружения проблемы в одном испытании.

Katz и Roher (2004):

Задают вопрос — какая из проблем более приоритетна?

Та, в которой 9 из 12-ти пользователей столкнулись с проблемой во время выполнения сценария, но тем не менее его выполнили
Или та, в которой 3 пользователя из 12-ти не смогли выполнить сценарий по причине проблем интерфейса.

Faulkner (2003) как довод о критичности редких ошибок приводит в пример катастрофу рейса 965 American Airlines в 1995 году.

Хотя аргументация и выглядит убедительной, но, к сожалению, на сегодняшний день, нет универсальной эмперически подтвержденной методологии оценки важности ошибок.

Как альтернативу количественному подходу Lewis (1994) предлагает классифицировать ошибки по степени их влияния на прохождение сценария пользователем:

Провал сценария. Ошибка помешала пользователю закончить сценарий, либо по итогу пользователь получил неправильный результат.
Ошибка с значительным влиянием. Либо пользователь обдумывал как перейти к следующему шагу в течении более 1 минуты, либо столкнулся с одной и той же проблемой в течении сценария несколько раз.
Ошибка с незначительным влиянием. Пользователь столкнулся с ошибкой единожды или потратил менее минуты для ее преодоления.
Неэффективность. Пользователь прошел сценарий без проблем, но использовал не самый оптимальный путь.

Woolrych и Cockton (2001) оценивают ошибки и по частоте и по степени влияния.

По частоте:

Высокая частота — ошибка была обнаружена тремя пользователями и более
Средняя частота — два пользователя
Низкая частота — ошибка встретилась единожды.

По степени влияния:

Критичная — пользователь потратил более двух минут на то чтобы продвинуться к следующему шагу сценария или сценарий был полностью прерван.
Помеха — сложность в результате которой пользователь несколько минут не мог продвинуться дальше по сценарию или ошибка каким-то образом повлияла на результат выполнения сценария.
Малое влияние — выражается в виде сложности, которая не повлияла на прохождение сценария.

Но в то же время Woolrych и Cockton не объясняют какой из показателей является первостепенным. Поэтому вопрос Katz и Roher (2004), который я описал выше, остался бы без ответа.

Есть еще работа Henstam (2018), в которой он, ссылаясь на соглашение конфиденциальности не описывает методику оценки важности ошибок, но акцентирует внимание на том, что она учитывает effectiveness, efficiency и satisfaction.

Резюме

Не воспринимайте вероятность возникновения ошибки в одном испытании как нечто случайное. Это значение определяется процентом пользователей, которые сталкиваются с определённой проблемой во время взаимодействия с интерфейсом. А на причину того, почему некоторые пользователи сталкиваются с проблемой, а другие нет, будет влиять вариативность категорий пользователей, наличие альтернативных путей прохождения сценария, разнообразие и сложность сценариев взаимодействия с интерфейсом и многое другое.
Каждый новый респондент во время исследования будет обнаруживать меньше новых ошибок. Но это верно только при условии, что все ошибки будут затрагивать приблизительно равную долю пользователей. При большой вариативности вероятности обнаружения ошибки в одном испытании такого происходить не будет.
Обнаружение ошибок это субъективный процесс, который сильно зависит от исследователя. Разные команды исследователей могут обнаружить разные ошибки.
Формула 5-ти пользователей покажет себя лучшим образом в том случае, если генеральная совокупность максимально однородна. Если же среди пользователей выделяются четкие подкатегории, то точность определения выборки будет падать вплоть до получения практически случайного значения. Поэтому каждую из категорий пользователей лучше тестировать независимо.
Для разных категорий пользователей можно будет выделить как уникальные, так и общие ошибки.
Чем критичнее обнаружение проблемы, тем больше должна быть выборка (см. табличку Faulkner, 2003).
Не стоит переносить выводы, сделанные на основе исследования с привлечением 5-ти человек на всю генеральную совокупность. Велика вероятность того, что можно ошибиться.
При оценке критичности ошибки лучше отслеживать ее влияние на прохождение сценария, а не частоту выявления.

Заключение

Идеальными условиями для применения формулы правила 5-ти пользователей будут однородность пользователей и равномерная распространённость ошибок. Во всех остальных случаях придется думать.

А это значит, что ответ на вопрос “Так сколько надо пользователей.. ?” будет звучать как “It depends” — зависит от ситуации. И я надеюсь, что это статья поможет вам понять, как разные факторы будут влиять на результаты юзабилити тестирования.

Ну а пока можно констатировать, что требуются дальнейшие исследования и точку ставить рано. Продолжение следует?

Литература

Научные публикации

Caulton, D.A. (2001). Relaxing the homogeneity assumption in usability testing.
Grosvenor, L. (1999). Software usability: Challenging the myths and assumptions in an emerging field.
Kuniavsky, M. (2003) Observing the user experience: A practitioner’s guide to user research. San Francisco,CA: Morgan Kaufmann
Macefield, R. (2009). How to specify the participant group size for usability studies: a practitioner’s guide. Journal of Usability studies Vol 5. Issue 1. pp 34–45
Perfetti, C.A., & Landesman, L. (2001). Eight is not enough.
Waardhuizen, M.R., McLean-Oliver, J., Perry, N., & Munko, J. (2019). Explorations on Single Usability Metrics. CHI Extended Abstracts.

Другое:

Common Industry format for usability test reports v 2.0 (CIF) http://www.idemployee.id.tue.nl/g.w.m.rauterberg/lecturenotes/common-industry-format.pdf
Степин В.С., Елсуков А.Н., Голдберг Ф.И., 2019 Методы научного познания

Тут также актуальны ссылки на литературу из прошлой части.