ГОСТ Р 56044-2014. Национальный стандарт Российской Федерации. Оценка медицинских технологий. Общие положения

7.2. Внутренняя валидность исследования

Внутренняя валидность или достоверность результатов демонстрирует точность полученных характеристик технологии в отношении выборки больных, включенных в исследование. Достоверность (внутренняя валидность) результатов определяется методикой исследования, в котором она получена: способом построения - дизайном, структурой исследования и минимизацией ошибок.

Выделяют два вида ошибок в исследованиях: случайная и систематическая.

Случайная ошибка - отклонение результата в выборке от истинного значения в популяции в результате случайности. Случайная ошибка обусловлена особенностями метода исследований: результаты исследований в выборке всегда отличаются от таковых в генеральной совокупности. Случайную ошибку полностью устранить невозможно, но можно уменьшить за счет правильно спланированного исследования и заранее рассчитанного необходимого числа наблюдений. При увеличении числа наблюдений или при повторных исследованиях на выборках полученные результаты будут колебаться вокруг истинного значения. Отклонения результатов повторных исследований от истинного значения в среднем стремятся к нулю и не изменяют значения измеряемого параметра. Влияние случайной ошибки определяется через расчет доверительных интервалов.

Систематическая ошибка (смещение) - осознанная или не осознанная ошибка, заложенная в дизайне исследования или возникающая в его ходе, приводящая к однонаправленному искажению результатов влияния медицинской технологии на патологический процесс; она происходит из-за недоучета неспецифического для данной технологии любого фактора, системно влияющего на исход.

Систематическая ошибка может быть связана с различными особенностями проведения исследований:

1) Ошибки в отборе обусловлены включением в исследование участников, существенно отличающихся от лиц, не включенных в него.

Пример - Включение в исследование только больных, госпитализированных в специализированный стационар, в то время как большая часть подобных больных лечится на уровне первичной помощи, или включение в исследование лиц, дающих согласие, тогда как большинство тех, кому предлагают участие отказываются от него по религиозным соображениям, или невключение в исследование больных, которых врач-исследователь посчитал "не перспективными" для применения данной технологии.

Разновидностью ошибки в отборе является ошибка в ответах, когда испытуемые не отвечают на все или часть вопросов анкеты, причем из анализа в контрольной или, наоборот, испытуемой группе выбывает не одинаковое число включенных лиц (чаще это связано с ошибками в формулировках вопросов анкеты).

2) Ошибки в формировании групп наблюдения обусловлены неслучайным распределением участников на группы. Различия в характеристиках больных в группах не позволяют исключить влияния этих различий на исход.

Пример - Если больные в одной группе моложе или страдают менее тяжелой формой заболевания, большая частота достижения благоприятного исхода в данной группе может быть обусловлена именно этими различиями, а не применением исследуемой технологии.

3) Ошибки в измерении показателей обусловлены:

- различиями в методах и критериях измерения показателей в группах (информационные ошибки или ошибки классификации).

Пример - При отсутствии стандартизированных критериев осложнений исследователи могут одни и те же события регистрировать как осложнения в контрольной группе и не учитывать в основной, или сниженная приверженность к лечению в одной из групп вызывает смещение результатов;

- отсутствием "ослепления" - метода, при применении которого одной или нескольким участвующим в клиническом исследовании сторонам (пациентам, врачам, исследователям) неизвестно, какая лечебная медицинская технология - теститруемая или контрольная - применена к субъекту исследования (простой слепой метод предусматривает неосведомленность о назначенном им виде лечения пациентов, двойной слепой метод подразумевает неосведомленность пациентов и врачей-исследователей, тройной слепой метод подразумевает еще и неосведомленность мониторов и, в некоторых случаях, лиц, выполняющих статистическую обработку данных); при отсутствии "ослепления" повышается влияние особенностей человеческого восприятия на оценку результатов, вследствие чего одни и те же события трактуются исследователем по-разному в разных группах;

- отсутствием сокрытия назначения - обеспечения неосведомленности о назначаемом лечении до и во время распределения участников исследования в группы, направленного на предотвращение систематической ошибки отбора. Сокрытие назначения отличается от "ослепления", которое действует уже после распределения участников на группы на протяжении всего исследования и направлено на предотвращение систематической ошибки, связанной с наблюдением за пациентом и оценкой эффекта от лечения.

Пример - Методом сокрытия назначения является использование запечатанных конвертов с инструкциями для рандомизации.

4) Ошибки, обусловленные исследователями и исследовательскими центрами, в том числе, ошибки интервьюера, связанные с его личностью.

Пример - Интервьюер по-разному задает вопросы разным пациентам или в некоторых случаях пускается в рассуждения, или заполняет за больного вопросник, который должен быть заполнен больным лично, или один интервьюер опрашивают группу применения технологии, а второй - группу контроля.

5) Ошибки, связанные с неправильным выбором центров: выбранные для проведения исследований исследовательские центры не отражают возможности других центров выполнять медицинскую технологию (данная систематическая ошибка больше влияет на внешнюю валидность).

6) Ошибки вследствие миграции обусловлены частым выбытием участников из-под наблюдения. Большое число выбывших заставляет сомневаться в достоверности результатов, особенно если причины выбытия были связаны с оценкой результатов.

Пример - Выбытие пациентов из исследования, проводимого на амбулаторной группе, вследствие госпитализаций или смертей в основной группе может быть результатом осложнений тестируемой медицинской технологии.

7) Вмешивающиеся внешние факторы (неспецифические воздействия) - ошибки, обусловленные наличием факторов, одновременно связанных и с исследуемой технологией, и с исходом, но не учтенные при составлении протокола (дизайна) исследования. Вмешивающиеся факторы являются источником систематической ошибки в тех случаях, когда два фактора взаимосвязаны, при этом один из них искажает эффект другого.

Пример - При оценке эффективности лечения в исследовании-наблюдении меньшая частота летальных исходов в основной группе может быть связана не собственно с лечением, а с тем, что доступ к лечению или дополнительному наблюдению у врача имели пациенты с более высоким уровнем дохода и лучшими условиями жизни, исходно характеризующиеся меньшим риском смерти. Социальный статус в данном случае выступает как неспецифический внешний вмешивающийся фактор.

8) Ошибки "памяти" обусловлены тем, что больные, более чем здоровые, склонны вспоминать факты воздействия на них патогенных факторов, или, больше "прислушиваясь" к своему состоянию, отмечать малейшие изменения, связанные с применением технологии; такие ошибки характерны для исследований, в которых факт воздействия причинного фактора выявляется на основании опроса пациентов - участников исследования (например, в исследованиях "случай - контроль").

Для выявления систематической ошибки эксперты должны проанализировать следующие элементы отчета, определяющие методическое качество исследований:

1) Наличие четко сформулированного клинического вопроса, поиску ответа на который посвящено исследование. Четко сформулированный клинический вопрос включает четыре элемента:

- описание группы пациентов, участвующих в исследовании;

- наименование технологии, которая является объектом исследования;

- наименование технологии сравнения (альтернативы для сравнения);

- наименование исхода, который рассматривается как результат применения технологии. Под исходом понимается критерий оценки изменения состояния здоровья пациента под воздействием технологии, т.е. событие, по которому исследователь судит о результате применения технологии.

Пример - Четко сформулированным клиническим вопросом является оценка влияния профилактического применения антибактериального лекарственного средства на частоту развития гнойно-септических осложнений у больных в послеоперационном периоде по сравнению с отсутствием антибактериальной терапии.

2) Наличие ясных критериев включения пациентов в исследование и исключения пациентов из исследования. Должны быть описаны критерии, в соответствии с которыми больные включаются в исследование. Однородность группы обеспечивает достоверность результатов исследования. Соответствие критериев включения и исключения характеристикам больных, которые наблюдаются в практике, обеспечивает обобщаемость результатов исследования.

3) Обоснованность выбора технологии сравнения (альтернативы для сравнения). Выбор технологии для сравнения зависит от целей и задач исследования и должен быть обоснован исследователем. Плацебо-контроль является распространенной технологией для сравнения в рандомизированных исследованиях, однако данных о преимуществах изучаемой технологии по сравнению с плацебо обычно недостаточно, чтобы сделать заключение о месте технологии в практике, оценить ее преимущества по сравнению с альтернативными технологиями, применяемыми в аналогичных ситуациях. Во многих случаях плацебо-контроль невозможен.

Пример - По этическим соображениям исследование нового противоопухолевого средства при наличии традиционно используемой терапии возможно только при сравнении с имеющейся "традиционной" технологией.

4) Выбытие участников из исследования. Участники исследования могут быть потеряны в ходе наблюдения или досрочно исключены из исследования, вследствие чего число включенных в окончательный анализ пациентов отличается от числа участников в начале исследования. Большое число выбывших из исследования (ориентировочно более 20%) повышает вероятность систематической ошибки. В исследовании должна быть представлена информация о числе участников, выбывших из исследования, причины выбытия и характеристики выбывших из исследования участников в сравнении с оставшимися в исследовании.

5) Клиническая значимость критериев, по которым оценивались результаты применения технологии. Эксперты анализируют, какие исходы (критерии результативности) были использованы в исследовании для оценки эффективности и безопасности технологии:

- объективные критерии - показатели медицинской эффективности технологии;

- субъективные критерии - отражающие оценку результатов применения технологии самими пациентами.

В качестве объективных критериев могут быть использованы показатели, отражающие:

а) динамику физиологических и биохимических параметров, на изменение которых направлено действие медицинской технологии, - снижение артериального давления, прирост гемоглобина, уменьшение размера опухоли и т.п. - так называемые "суррогатные" точки оценки эффективности;

б) важные для пациентов изменения в их жизни и состоянии здоровья - необратимая потеря функций (хроническая недостаточность) или отдельных органов (экстирпация), или частей тела (ампутация), необратимые изменения структур органов (инфаркт, инсульт) - так называемые "мягкие" конечные точки оценки эффективности, или "твердые" конечные точки, связанные со смертью: смертность, выживаемость, продолжительность жизни и т.п.

Предпочтительным является оценка с использованием показателей группы б) (окончательных критериев), при отсутствии подобных данных допускается использование показателей группы а) (промежуточных "суррогатных" критериев).

При использовании промежуточных "суррогатных" критериев должны существовать полученные в научных исследованиях высокого методического качества доказательства того, что суррогатный показатель с высокой степенью вероятности связан с окончательным исходом и может расцениваться как его предиктор.

Пример - Снижение уровня артериального давления (АД) может рассматриваться как суррогатный критерий исхода для антигипертензивного средства, поскольку существуют исследования, доказавшие, что существует прямая связь между уровнем АД и повышением заболеваемости болезнями системы кровообращения, и смертности от них. Вместе с тем следует учитывать результаты исследований, свидетельствующих, что препараты, очень быстро снижающие АД в острых случаях (гипертонический криз), увеличивают частоту инсультов, что не позволяет считать критерий снижения АД оптимальным и достаточным для исследования гипотензивных препаратов.

В качестве субъективных критериев могут быть использованы показатели, отражающие самочувствие, функциональное состояние, качество жизни и отношение пациентов к процессу лечения.

6) Адекватность статистической обработки данных, полученных в исследовании. Методы статистической обработки данных должны быть описаны в исследовании. Эксперты, проводящие оценку медицинской технологии, оценивают, правильно ли выбраны и применены статистические методы с учетом характера изучаемых признаков (качественные, количественные, порядковые), их распределения, числа сравниваемых групп участников исследования (две или более) и того, относятся ли изучаемые признаки к разным группам или к одной группе до и после какого-либо воздействия. При включении исследования в оценку медицинской технологии эксперты также оценивают, было ли рассчитано необходимое число наблюдений до начала исследования, представлены ли доверительные интервалы для показателей исходов.