Резюме: Плохо спланированное качественное или количественное исследование может дать неверные результаты. Избегайте поощрения определенных ответов или поведения участников исследования, убедитесь, что условия и участники вашего исследования являются репрезентативными.
Любое UX исследование направлено на то, чтобы ответить на основные вопросы о дизайне или о наших пользователях. Какой процент наших пользователей сможет подписаться на нашу рассылку новостей? С какими серьезными проблемами удобства использования нашего сайта его посетители могут столкнуться? Является ли дизайн A более удобным для нашей целевой аудитории, чем дизайн B? Но всякий раз, когда мы проводим UX-исследование, будь то количественное или качественное, существует опасность, что оно не будет отражать реальность, которую мы хотим зафиксировать, потому что исследование некорректно спланировано.
Есть два основных типа ошибок дизайн-исследования:
- Ошибки внутренней валидности (мера соответствия методик и результатов исследования поставленным задачам), которые склоняют участников к определенному ответу или поведению.
- Ошибки внешней валидности, которые фиксируют поведение или ситуации, не характерные для нашей целевой аудитории.
Поговорим о каждой из них отдельно. Но, прежде чем мы это сделаем, отметим, что валидность отличается от достоверности. Достоверность исследования просто означает, что вы получите тот же результат, если повторите исследование. Другими словами, результаты не случайны. Существует множество статистических методов для расчета степени надежности исследования, и основной способ повысить достоверность - протестировать большее количество участников. Но достоверность бесполезна без валидности: исследование с высокой надежностью и низкой валидностью — это исследование, в котором вы действительно хорошо оцениваете не то, что нужно.
Внутренняя валидность для UX-исследований
Представим себе исследование, в котором сравниваются два сайта — сайт A и сайт B. Вы пытаетесь решить, какой из двух лучше и вы всегда сначала показываете участникам исследования дизайн сайта A, просите их выполнить некоторые задания, а затем показываете сайт B и просите решить те же задачи. Может ли этот план исследования дать точные результаты, отражающие реальность? Другими словами, определит ли это исследование лучший дизайн?
Не обязательно. Этот план исследования более благосклонен к дизайну сайта B, потому что, когда респонденты дойдут до его оценки, они уже будут ознакомлены с этапами тестирования и с предметной областью - если они, к примеру, тестируют сайты аренды автомобилей, они уже будут знать, что такое LDW (отказ от возмещения ущерба), и, когда они попадут на сайт B, у них уже могут быть определенные ожидания относительно этапов процесса аренды. Они также будут знать, чего вы от них ожидаете и как они должны выполнять задачу. Таким образом, это исследование не имеет внутренней валидности.
(Основное решение этой проблемы состоит в том, чтобы попеременно выбирать, какой сайт исследовать первым, и сначала попросить половину пользователей проанализировать сайт B).
Вывод: исследование имеет внутреннюю валидность, если оно не способствует или не поощряет какую-либо реакцию или поведение конкретного участника.
Недостаток внутренней валидности является проблемой как качественных, так и количественных исследований. При проведении качественных исследований, исследователь может непреднамеренно вызвать у участников предвзятость или определенную реакцию. Например, даже простые вопросы, такие как «Вам было сложно оформить заказ?» может сделать результаты исследования недействительными, потому что респондентов натолкнули на размышления о трудностях, которых может показаться больше, чем обычно (по аналогии с заявлением Ричарда Никсона «Я не мошенник»).
В случае количественных исследований отсутствие внутренней валидности может привести к результатам, которые тяготеют к какому-то одному выводу, но не отражают реальность. Например, в ходе сравнительного исследования вы можете обнаружить, что показатели затраты времени на решение задачи лучше в обновленной версии сайта, чем в оригинальной, и вы можете сделать вывод, что вы отлично справились с редизайном, хотя на самом деле разница было связана с различными условиями исследования — при тестировании исходного сайта использовалось условие «думай вслух», а при тестировании редизайна сайта- нет. (А размышление вслух требует дополнительного времени, поэтому время выполнения задачи может увеличиться.)
В этом примере условие является примером некорректной переменной — скрытой переменной, которая может повлиять на результаты вашего исследования, но которую вы не приняли во внимание при разработке исследования.
Внешняя валидность
Внешняя валидность показывает, насколько ваше исследование натуралистично.
Если вы разрабатываете сайт для пожилых людей и набираете респондентов среди всего населения, будет ли это исследование действительным? Покажет ли это исследование результаты, соответствующие вашей целевой аудитории?
Возможно, нет, потому что более молодые участники, вероятно, будут выполнять задания иначе, чем старшие. Или, если вы тестируете дизайн для мобильных устройств на персональном компьютере, будут ли ваши выводы применимы к мобильному дизайну в реальных условиях? Может быть, да, а может быть, нет — это невозможно узнать наверняка (только если вы не проведете еще одно исследование). В обеих этих ситуациях исследованиям не хватает внешней достоверности (внешней валидности)
Вывод: исследование имеет внешнюю валидность, если участники и структура исследования являются репрезентативными для реальной ситуации, в которой используется дизайн.
Концепция внешней валидности также применима как к качественным, так и к количественным исследованиям — что очевидно.
Рекомендации по дизайн исследованию.
Ниже привожу несколько рекомендаций, которые помогут вам провести исследования, имеющие как внутреннюю, так и внешнюю валидность.
Внутренняя валидность
Случайность важна для обеспечения внутренней валидности.
1. Используйте случайный порядок выполнения задач.
Порядок выполнения задач может влиять на их решение. В начале исследования люди обычно плохо знакомы как со сферой исследования, так и с системой, которую они тестируют. Это нормально, если в процессе выполнения им потребуется больше времени для решения первых задач, возможно, они допустят больше ошибок, чем обычно. С другой стороны, задачи, которые будут им предоставлены в конце выполнения, могут вызвать утомление респондентов.
Вот почему мы настоятельно рекомендуем в любом тесте, качественном или количественном, давать выполнять задачи респондентам в максимально случайном порядке. (Иногда, однако, следование этой рекомендации может быть не совсем выполнимым — например, если задачами являются «вход в систему» и проверка «баланса счета», проверка «баланса счета» не может идти перед «входом в систему»).
Кроме того, чтобы облегчить этап обучения в начале каждого занятия, мы рекомендуем вам подготовить 1-2 разминки (психологи называют их практическими испытаниями, разогревом), которые не имеют отношения к вашему исследованию и предназначены для ознакомления участников с учебной средой и процедурой исследования. Мне нравится выбирать простые задания, которые укрепляют уверенность респондентов и заставляют их расслабиться. Но, если вы все-таки используете задания на разминку, убедитесь, что вы не включаете их результаты в свой анализ.
2. Если ваше исследование сопоставляет два условия и более (например, вы хотите сравнить свой сайт с сайтом конкурента) и каждый респондент будет отвечать на одни и те же вопросы (например, оценивание внутрипредметного дизайна), вам следует сбалансировать или организовать порядок задач для выполнения пользователем таким образом, чтобы не возникало никакой определённой модели или системы (например, порядок, в котором они видят ваш сайт и сайт вашего конкурента).
Эта рекомендация связана с предыдущей — случайный порядок задач. Однако, если вы тестируете, скажем, 2 сайта электронной коммерции, иногда может быть некорректно или невозможно попросить участника сделать покупки на сайте 1, затем добавить элемент в вишлист на сайте 2, затем вернуться на сайт 1 и подписаться на информационную рассылку, а затем совершить покупки на сайте 2 — это будет неправильной и, возможно, запутанной процедурой, если вы хотите, например, собрать анкеты после тестирования, такие как SUS и NPS, для двух дизайнов в конце тестирования.
В этой ситуации мы рекомендуем вам сгруппировать отдельно все задачи для оценки дизайна первого сайта и отдельно для второго. Однако следует рандомизировать порядок, в котором респонденты видят два дизайна: одни сначала видят дизайн 1, а другие - дизайн 2. И в каждой оценке дизайна сайта порядок задач должен быть случайным.
3. Постоянно контролируйте процедуру исследования и ищите некорректные переменные — скрытые факторы, которые могут повлиять на ваши результаты.
Например, предположим, что исследователь заинтересован в сравнении двух сайтов и использует межпредметный дизайн. Она решает изучить сайт A с респондентами, которые приходят утром и сайт B с респондентами, приходящими после обеда. Если исследователь в конечном итоге обнаружит, что показатели респондентов лучше, скажем, при тестировании сайта А, это может быть не потому, что сайт А лучше, а потому, что люди меньше устают по утрам. Точно так же, если вы разделяете с коллегой работу над исследованием, к примеру вы курируете тестирование сайта A, а коллега — сайта B, куратор - это скрытая переменная. Может случиться так, что поведение одного куратора более предвзято, чем поведение другого, или что один из них от природы более приятный человек, и участники чувствуют себя с ней более разговорчивыми и расслабленными.
Таким образом, если вы знаете, что будут какие-либо факторы, которые нужно будет варьировать от одного исследования к другому, убедитесь, что они меняются для всех параметров вашего исследования.
Когда вы составляете программу сравнительного анализа для своей организации, важно тщательно спланировать внутреннюю валидность. Вы должны очень тщательно задокументировать структуру вашего исследования (формулировка задачи, протокол исследования, использовалось ли размышление вслух и т. д.), чтобы на нее можно было положиться в дальнейших исследованиях, которые вы будете проводить для определения результатов улучшения дизайна с течением времени. В противном случае разница в результатах оценки текущей версии сайта и предыдущей версии может быть связана просто с организацией исследования, а не с улучшением удобства использования.
Внешняя валидность.
4. Выбирайте респондентов, которые представляют вашу целевую аудиторию - как с точки зрения демографии, так и с точки зрения пользовательских целей. В целом, исследователи очень тщательно подходят к сбору первичной информации, которая точно соответствует демографическим характеристикам населения, но этого может быть недостаточно для обеспечения внешней валидности. Возможно, участники исследования принадлежат к необходимой демографической группе, но имеют совсем другие цели, чем ваши пользователи (или они просто недостаточно мотивированы). Всегда стремитесь найти респондентов, которые, вероятно, будут преследовать те же цели, что и ваши пользователи.
5. Воспроизведите, насколько это возможно, естественную ситуацию, в которой участники будут использовать пользовательский интерфейс, который они тестируют.
Ваши участники должны использовать ваше мобильное приложение для ремонта автомобилей в своем гараже? Тогда не заставляйте их тестировать его в конференц-зале. Окружающая среда - освещение, грязные руки, место, где находится телефон, доступное время, доступные инструменты - все, вероятно, будет играть роль в том, насколько пригодно это приложение.
Однако, иногда исследование не может быть признано внешне валидным.
Всегда ли возможна внешняя валидность?
В некотором смысле любое исследование не будет иметь внешней достоверности - мы редко используем интерфейсы, когда незнакомец смотрит через плечо или мы сидим за столом или в лаборатории. (В некоторой степени можно даже утверждать, что некоторые дистанционные исследования более результативны с позиции внешней валидности, чем тет-а-тет тестирования, потому что, по крайней мере, участники могут находиться в их естественной среде обитания). Мы также знаем, что респонденты, как правило, ведут себя несколько иначе - они более сговорчивы и более усердны — в ситуации, когда они тестируют приложение, чем сами по себе.
Хотя, иногда дизайн-тестирование в естественной среде может быть слишком дорогостоящим. Например, мы большие сторонники бумажного прототипирования, но у этих типов тестов всегда будет недостаток внешней валидности. Так что же нам делать?
В таких ситуациях неидеальное тестирование лучше, чем отсутствие тестирования в принципе. При бумажном прототипировании страницы вашего сайта или приложения могут оказаться не совсем точными, и вам придется повторно протестировать их позже в естественных условиях. Но цель бумажного прототипа — выявить серьезные препятствия, чтобы вы не тратили деньги на реализацию чего-то совершенно неправильного. Итак, запустите исследование бумажного прототипа, определите серьезные проблемы, исправьте их, а затем перейдите к детализированному прототипу, который вы могли бы протестировать в естественных условиях, на устройстве, которое участники будут использовать для выполнения задачи.
Еще одна распространенная ситуация, не имеющая внешней валидности, - это мобильное тестирование: большинство участников не будут использовать мобильные приложения и сайты с мобильными версиями без перерыва, сидя за столом и подключенными к Wi-Fi. Однако, может быть приемлемо протестировать приложение и в этом случае, чтобы выявить те проблемы, которые будут встречаться даже в идеальных условиях, когда соединение будет отличным и без перерывов. Вероятно, это первые проблемы, которые необходимо будет решить многим сайтам с мобильными версиями - если на сайте есть проблемы даже в идеальных условиях, дизайн необходимо исправить. После того, как вы устраните эти проблемы, вам все равно придется провести повторное тестирование в более реалистичных условиях.
Точно так же некоторые специалисты по количественным исследованиям рекомендуют включать в определенные количественные исследования только экспертов, чтобы уменьшить количество вариантов ответов (отсутствие слишком разных ответов приводит к более низкой погрешности результатов исследования и может позволить исследователям уменьшить количество участников). Опытные пользователи предложат вам лучший сценарий, которым вы будете удовлетворены, при условии, что вы не предполагаете, что результаты будут характерны для абсолютно всех ваших пользователей.
В общем, если вы обнаружите, что вынуждены пожертвовать некоторой внешней достоверностью, крайне важно, чтобы вы всегда интерпретировали свои выводы в контексте и понимали, что они могут не соответствовать действительности, если исследование будет воспроизведено в реальных условиях.
Заключение
Плохо спланированное исследование приведет к некорректным результатам. Возможно, вы потратили впустую время и деньги на проведение исследования, которое ничего не скажет вам о вашем продукте или вашей аудитории. Обратите внимание на внутреннюю и внешнюю валидность вашего исследования — постарайтесь набрать респондентов, которые представляют вашу целевую аудиторию, и убедитесь, что структура исследования воспроизводит то, как ваши пользователи будут применять систему в реальной жизни, и что она не поощряет какую-либо одну реакцию или поведение.