Надежность и валидность: качественный план UX‑исследования

Какие существуют методы оценки надежности и валидности, а также способы их применения для создания качественного плана исследования.

В рамках проекта по созданию пользовательского интерфейса (UI) и пользовательского опыта (UX), мы, исследователи, принимаем участие на всех стадиях создания оптимального продукта:

  • Изучаем, как пользователи действуют, думают, что они говорят и чувствуют;
  • Создаем опросники и используем различные методы исследования, чтобы найти ответы на наши ключевые вопросы;
  • Получаем новый взгляд на проблему и определяем, какие возможности нам доступны для создания качественного и интуитивно понятного дизайна;
  • Выявляем лучшие из возможных решений, анализируя исследовательские данные.

Но как оценить надежность и достоверность полученных данных? Часто ли можно встретить оценку надежности и валидности в нашем плане исследования? Часто ли они встречаются на ряду с целью исследования, критериями отбора участников, методами исследования и их расчетными сроками и результатами выполнения? В большинстве случаев ответ будет отрицательным.

Надежность исследования представляет собой результаты тестирований, которые являются повторяющимися и воспроизводимыми. При проведении этого же исследования в таких же условиях, но на другой группе участников, должны получиться такие же результаты. Это подтвердит результаты, полученные в ходе проведения исследования и гарантирует эффективность принятых решений.

Однако ценность исследований определяется не только их надежностью. Такой показатель, как валидность плана исследования, определяет его общую полезность и на усиливает достоверность результатов. Валидность (или достоверность) — это то, насколько соответствует метод исследования и его результаты поставленным задачам. Высокая валидность характеризуется правильно подобранным методом исследования, который верно определяет, измеряет и интерпретирует изучаемый объект.

Надежность и валидность являются необходимыми составляющими для определения общего успеха исследовательского проекта. Теперь давайте посмотрим, как мы можем оценить надежность результатов наших исследований и обеспечить валидность методов, используемых в нашем исследовании.

1. Методы оценки надежности

Существует три метода, с помощью которых можно определить надежность результатов исследований:

  • ретестовая надежность (устойчивость результатов теста);
  • надежность параллельных форм;
  • межэкспертная надежность.

Давайте рассмотрим каждый из этих методов оценки надежности и выясним, какой лучше всего подходит для UX-исследования.

Ретестовая надежность

Метод ретестовой надежности предполагает повторение проведения одного и того же исследования с тем же составом участников и используя одни и те же методики в течении двух разных промежутков времени. Данный метод основан на предположении о том, что существенных различий в ответах выявлено не будет. Предположение, лежащее в основе этого метода, заключается в том, что значительных различий в ответах выявлено не будет. 

Коэффициент надежности в этом случае измеряется корреляцией между баллами, полученными одним и тем же участником при проведении двух последовательных исследований. Интервал между проведением двух исследований имеет решающее значение: чем короче временной интервал, тем выше значение корреляции и наоборот. Исследование является надежным, если баллы, полученные при проведении первого тестирования более или менее равны баллам, полученным при проведении второго тестирования. Коэффициент надежности считается значимым если он больше или равен 0,7 по шкале от 0 до 1.

Данный метод оценки надежности лучше всего подходит тех случаях, когда исследование проводится в виде опросников или анкет. Процесс оценки надежности ретестовым методом включает следующие этапы:

  • Первый этап: мы формируем группу испытуемых и отправляем им опросник;
  • Второй этап: по истечении определенного промежутка времени мы посылаем такой же опросник той же группе людей;
  • Заключительный этап: мы сравниваем результаты проведения двух исследований, чтобы подтвердить или опровергнуть наши гипотезы.

Однако даже такой простой в проведении метод обладает некоторыми ограничениями:

  • Эффект запоминания. Чаще всего это случается, когда два исследования проводятся с небольшим временным промежутком, поэтому участники запоминают свои ответы, и, как следствие, может возникать ложный коэффициент надежности. 
  • Участники могут выбывать из исследования. Не важно, по каким причинам это происходит, главное, что они отсутствуют при проведении второго исследования;
  • Ответы могут меняться. Поскольку UX-исследования ориентированы на измерение отношения и чувств людей, ответы действительно могут измениться с течением времени. Как результат — низкий коэффициент надежности, который, по сути, не может указывать на ненадежные результаты.
Надежность параллельных форм

Метод надежности параллельных форм (эквивалентных форм) гарантирует одну из самых точных оценок надежности при проведении UX-исследований. Суть данного метода заключается в следующем: сравнение результатов двух эквивалентных форм тестирования, которые измеряют один и тот же параметр исследуемого объекта. 

Метод оценки надежности параллельных форм лучше всего использовать в тех случаях, когда мы включаем длинный список вопросов в наш план исследования, а затем разбиваем его на два сходных набора. Например, мы заранее подготавливаем  два набора вопросов по теме контекстных запросов и задаем их одной и той же выборке людей в течение двух сессий. После завершения исследования мы сравниваем данные, полученные в каждой сессии.

Как правило, оба теста проводятся на одной и той же группе участников в один и тот же день. В таких случаях единственными источниками вариаций коэффициента надежности являются либо случайные ошибки, либо разница между формами теста. В случаях, когда тесты проводятся в разные дни, при анализе надежности также учитываются ошибки, связанные с параметром времени. Как и при использовании метода ретестовой надежности, мы дважды проводим исследования на одном и том же составе испытуемых. 

Также, эти методы имеют схожие недостатки:

  • участники могут выбывать из исследования, поэтому вторую сессию приходится проводить без них; 
  • если у вас сравнительно небольшой бюджет на исследование, могут возникнуть трудности с его организацией; 
  • трудности в связи с жесткими и узкими временными рамками, которых зачастую требует данный подход.
Межэкспертная надежность

Межэкспертная надежность — это метод оценки надежности, используемый для оценки степени согласия различных исследователей в своих оценочных решениях. Дело в том, что мнения исследователей относительно интерпретации поведения испытуемых очень редко совпадают, поэтому полагаться на экспертную оценку только одного из исследователей — неразумно. Межэкспертную надежность следует применять в тех случаях, когда метод исследования включает:

  • наблюдения;
  • полевые наблюдения;
  • контекстный запрос.

Исследователи могут расходиться во мнении относительно того, насколько хорошо определенные ответы демонстрируют естественное поведение испытуемого, слабых мест исследования и возможностей для улучшения. Чаще всего проблема разрозненной оценки хорошо нивелируется путем внедрения системы оценок и обучением группы наблюдателей их использовать. Таким образом, все наблюдатели, ответственные за выставление баллов, используют объективный, взаимно согласованный набор оценок.

В зависимости от используемого метода исследования, мы должны включать, по крайней мере, один из вышеперечисленных методов оценки надежности в план исследования каждого проекта.

2. Методы обеспечения валидности

Валидность — важный аспект при проведении исследований, поскольку она помогает установить достоверность и полезность полученных результатов. Для определения валидности метода исследования его необходимо сравнить с какой-то идеальной независимой мерой или критерием. Коэффициент корреляции, вычисленный между методом исследования и идеальным критерием, известен как коэффициент валидности (который, как и другие коэффициенты корреляции, находится в диапазоне от 0 до 1).

Коэффициенты корреляции могут быть измерены только в том случае, если результаты наших исследований представлены в цифрах, а не в словах или концепциях. Но вот некоторые методы оценки валидности, которые мы можем использовать без вычисления коэффициентов.

Очевидная валидность

Очевидная валидность означает, что метод исследования был создан, опираясь на внешние характеристики объекта исследования.  Каждый вопрос в исследовании тщательно изучается и модифицируется до тех пор, пока исследователь не убедится, что это точная мера оценки нужного параметра. Оценка очевидной валидности основана на субъективном восприятии исследователя.

Содержательная валидность

Содержательная валидность — это нестатистический тип валидности, при котором оценивается содержание плана исследования, чтобы убедиться, что он включает в себя все признаки изучаемого объекта. Когда вопросы, включенные в план исследования, охватывают весь необходимый спектр возможных параметров объекта, исследование может быть заявлено как имеющее содержательную валидность.

Например, если исследователь хочет разработать план для определения потока задач приложения, он должен определить все элементы, присутствующие при запуске и дальнейшем использовании приложения. К этим элементам могут относиться:

  • все настройки и конфигурации;
  • скорость запуска;
  • приветственный экран;
  • понятный и удобный интерфейс;
  • опции для восстановления приложения до состояния “по умолчанию”;
  • опции для сохранения текущего состояния приложения и его закрытия. 

Затем исследователь должен создать тестовый сценарий или руководство по эксплуатации, с подробным описанием всех шагов.

Конструктная валидность

Конструктная валидность позволяет оценить, насколько хорошо исследование измеряет параметры, для оценки которых оно было создано. В гуманитарных науках данный тип валидности может включать в себя оценку субъективных параметров, таких как:

  • эмоциональная зрелость;
  • готовность к тестированию;
  • способность к построению удовлетворительных взаимоотношений. 

В нашей сфере данный метод применяется к A/B-тестированию или другим формам юзабилити-тестирования, а также мы можем использовать более простые показатели, такие как:

  • время на выполнение задания;
  • количество кликов. 

Если наша тестовая гипотеза утверждает, что увеличение времени на выполнение задачи приводит к снижению удовлетворенности от взаимодействия с нашим приложением, то мы можем зафиксировать объективный параметр — время, потраченное на выполнение задания. Мы можем сравнивать показатели времени, полученные в разных условиях и так же можем их сравнивать с выявленными нормами в популяции. Время выполнения задачи — это объективный параметр, с помощью которого можно измерить валидность нашего исследования.

3. Лучшие практики для создания надежного плана исследований

Важный этап каждого исследовательского проекта — оценка надежности и валидности. Более того, идеальной надежности и валидности добиться очень сложно (практически невозможно). Тем не менее, мы можем обеспечить максимальную, насколько это возможно, надежность и валидность нашего исследовательского плана, придерживаясь следующих правил:

  1. Необходимо следить за тем, чтобы цели и задачи исследования были четко определены и реализованы на практике;
  2. Необходимо подобрать наиболее подходящий для наших целей и задач метод исследования;
  3. Необходимо предоставить цели и задачи исследования на оценку стороннему независимому эксперту в исследуемой области;
  4. Необходимо сравнить полученные данные  с другими опубликованными в литературе результатами;
  5. Необходимо свести к минимуму ограничения, которые могут поставить под сомнение надежность и валидность наших исследований, например, использовать рандомизацию выборки и исключить конфликт интересов у исследователя;

Исследования с высокой надежностью и валидностью, основанные на статистически значимых результатах,  являются одним из ключевых элементов для привлечения к области UX-исследований внимание скептически настроенной общественности. А это, в свою очередь, повлечет за собой финансирование дальнейших исследований и, как следствие, переход на качественно другой уровень исследуемых объектов, и конечного практического результата.

Источник:
uxpamagazine.org
arrow