ГОСТ Р 50779.60-2017 (ИСО 13528:2015). Национальный стандарт Российской Федерации. Статистические методы. Применение при проверке квалификации посредством межлабораторных испытаний

9. Вычисления статистик функционирования лабораторий

9.1 Общие положения при определении качества работы лабораторий

9.1.1 Статистики, используемые при определении качества работы лабораторий, должны соответствовать цели(ям) программы проверки квалификации.

Примечание - Статистики функционирования более полезны, если участники и заинтересованные стороны понимают их структуру и вывод.

9.1.2 Индексы функционирования должны быть легко анализируемыми для всех уровней измеряемой величины и различных раундов программы проверки квалификации.

9.1.3 Результаты участников должны быть определены и проанализированы относительно выполнения предположений, используемых при разработке программы проверки квалификации, чтобы обеспечить значимость статистики функционирования. Например, проверить, не существует ли каких-либо доказательств ухудшения образца для проверки квалификации, или не смешаны ли группы участников, или нет ли серьезных нарушений статистических предположений о свойствах данных.

9.1.4 В общем случае нецелесообразно использовать методы оценки, которые намеренно устанавливают фиксированную долю результатов для получения сигнала к действиям.

9.2 Ограничения неопределенности приписанного значения

9.2.1 Если стандартная неопределенность u(x_pt) приписанного значения велика по сравнению с критерием оценки функционирования лаборатории, то существует риск того, что некоторые участники получат сигнал к действиям и сигнал предупреждения из-за неточностей в определении приписанного значения, а не по причине плохой работы участника. Поэтому стандартная неопределенность приписанного значения должна быть определена заранее и сообщена всем участникам (см. 4.4.5 и 4.8.2 ГОСТ ISO/IEC 17043-2013).

Если соблюдены приведенные ниже критерии, то неопределенность приписанного значения можно считать пренебрежимо малой и ее можно не учитывать при интерпретации результатов раунда проверки квалификации

. (10)

Примечание - , если |z| >= 3,0 - зона сигнала к действиям.

9.2.2 Если этот критерий не выполняется, то провайдер проверки квалификации должен выполнить перечисленные ниже действия, гарантируя при этом, что любые предпринятые действия по-прежнему соответствуют согласованной политике в области оценки функционирования лаборатории в программе проверки квалификации:

a) следует выбрать метод определения приписанного значения таким образом, чтобы неопределенность приписанного значения удовлетворяла неравенствам (10);

b) необходимо использовать неопределенность приписанного значения при анализе результатов программы проверки квалификации (см. 9.5 для z-индексов, 9.6 для или 9.7 для E_n-индексов);

c) если приписанное значение получено по результатам участников и из-за различий между подгруппами участников неопределенность приписанного значения слишком велика, следует использовать значения неопределенности для каждой подгруппы участников (например, сгруппировать участников по видам используемых методов измерений).

Примечание - В гармонизированном протоколе IUPAC [1] описана конкретная процедура обнаружения бимодальности, основанная на проверке графика плотности ядра с установленной "шириной полосы пропусканий";

d) должны информировать участников о том, что неопределенность приписанного значения не является незначительной и это может повлиять на оценку их работы.

Если неприменимо ни одно из перечислений a) - d), то участники должны быть проинформированы, что приписанное значение и индексы функционирования не могут быть определены достоверно.

Примечание - Методы, представленные в данном разделе, приведены в E.3 и E.4 приложения E.

9.3 Оценка отклонения (погрешности измерений)

9.3.1 Пусть x_i представляет результат измерений характеристики свойства образца для проверки квалификации (или среднее арифметическое репликаций измерений), указанных в отчете i-го участника в одном из раундов программы проверки квалификации. Тогда простая мера качества работы участника может быть вычислена как разность между результатом x_i и приписанным значением x_pt

D_i = x_i - x_pt. (11)

D_i можно интерпретировать как погрешность измерений результатов в той степени, в которой приписанное значение можно рассматривать как обычное или опорное значение количественной величины.

Разность D_i может быть выражена в тех же единицах, что и приписанное значение, или в процентах, вычисленных по формуле

D_i % = 100(x_i - x_pt)/x_pt %. (12)

9.3.2 Разность D или D %, как правило, сопоставляют с критерием , основанным на соответствии цели или данных предыдущих раундов программы проверки квалификации; критерий, обозначаемый здесь как , представляет собой припуск к погрешности измерений. Если , то работу лаборатории можно считать приемлемой (сигнал отсутствует). (Тот же критерий применяют для D % в зависимости от выражения для .)

9.3.3 Значение тесно связано с , используемым для расчета z-индексов (9.4), если определено на основе соответствия цели или ожидания от предыдущих раундов. Соотношение определяется критерием оценки для z-индексов. Например, если z >= 3 определяют как границу сигнала к действиям, то или эквивалентно . Различные выражения для являются обычными при проверке квалификации в области медицины или в функциональных требованиях к методам измерений и продукции.

9.3.4 Преимущества D как статистики и как критерия функционирования состоят в том, что у участников существует интуитивное понимание этих статистик, так как они непосредственно связаны с погрешностью измерений и являются общими в качестве критериев соответствия цели. Преимущество статистики D % состоит в том, что она является интуитивно понятной, стандартизирована для уровня измеряемой величины и связана с общими причинами погрешности (например, некорректная калибровка или смещение при разбавлении растворов).

9.3.5 Недостатками этой статистики может быть то, что она не является общепринятой при проверке квалификации во многих странах и областях измерений, а также и то, что D не стандартизована, и это не дает возможности простого просмотра отчетов для определения сигналов к действиям в программах проверки квалификации с несколькими аналитами, или в том случае, где критерии соответствия цели могут изменяться в зависимости от уровня измеряемой величины.

Примечание - Использование D и D % обычно предполагает симметричность функции распределения результатов участников в том смысле, что областью приемлемых значений является диапазон - .

9.3.6 Для сравнения различных уровней измеряемой величины в том случае, когда критерий соответствия цели может изменяться, или для объединения раундов или измеряемых величин D и D % могут быть преобразованы в стандартизованный индекс функционирования, который показывает разности с критерием для измеряемых величин. Для этого следует вычислить "процент допустимого отклонения" P_A для каждого результата:

. (13)

Следовательно, P_A >= 100% или P_A <= -100% указывает на сигнал к действиям (неприемлемости функционирования).

Примечание 1 - Можно сопоставлять значения P_A для различных уровней измеряемых величин и различных раундов программы проверки квалификации или отображать их на графиках. Эти оценки функционирования аналогичны по использованию и интерпретации z-индексам, которые имеют общий критерий оценки, такой как z <= -3 или z >= 3 для сигналов к действиям.

Примечание 2 - Часто используют вариации этой статистики, особенно в медицине, где проверку квалификации проводят более часто с использованием большого количества аналитов.

Примечание 3 - Иногда целесообразно использовать абсолютное значение P_A для того, чтобы отразить приемлемость (или неприемлемость) результатов относительно приписанного значения.

9.4 z-индексы

9.4.1 z-индекс для результата проверки квалификации x_i вычисляют по следующей формуле

ГОСТ Р 50779.60-2017 (ИСО 13528:2015). Национальный стандарт Российской Федерации. Статистические методы. Применение при проверке квалификации посредством межлабораторных испытаний , (14)

где x_pt - приписанное значение;

- стандартное отклонение для оценки квалификации.

9.4.2 Общепринятая интерпретация z-индекса состоит в следующем (см. B.4.1.1 приложения B ГОСТ ISO/IEC 17043-2013):

- результат считают приемлемым, если |z| <= 2,0;

- результат находится в зоне предупреждения (сигнал предупреждения), если 2,0 < |z| < 3,0;

- результат считают неприемлемым (сигнал к действиям), если |z| >= 3,0.

Участникам необходимо проверить процедуры измерений при появлении предупреждающего сигнала, так как он служит признаком появившейся или повторяющейся проблемы.

Примечание 1 - В некоторых случаях в качестве границы зоны сигнала к действиям провайдеры используют z-индекс, равный 2.

Примечание 2 - Выбор в качестве критерия допускает вышеуказанную интерпретацию. Этот критерий широко используют для оценки квалификации, и такая интерпретация очень похожа на границы контрольных карт.

Примечание 3 - Обоснование для использования границ 2,0 и 3,0 для z-индексов состоит в следующем. Правильно выполненные измерения предполагают получение результатов, которые могут быть описаны (после преобразования при необходимости) распределением со средним x_pt и стандартным отклонением . Тогда z-индексы тоже подчиняются нормальному распределению со средним 0 и стандартным отклонением 1. В этом случае в среднем только около 0,3% результатов выйдут за пределы интервала -3,0 <= z <= 3,0 и только около 5% результатов выйдут за пределы интервала -2,0 <= z <= 2,0. Так как вероятность выхода за границы +/- 3,0 очень мала, то вероятность случайного появления сигнала к действиям очень низка, и такой выход означает появление реальных аномалий.

Примечание 4 - Предположения, на которых основана эта интерпретация, относятся только к гипотетическому распределению квалифицируемых лабораторий, но не к распределению наблюдаемых результатов. Не требуется предположений о самих наблюдаемых результатах.

Примечание 5 - Если истинная межлабораторная изменчивость менее , то вероятность ошибок сокращается.

Примечание 6 - Если стандартное отклонение для оценки квалификации устанавливают в соответствии с 8.2 или 8.4, оно может существенно отличаться от (робастного) стандартного отклонения результатов и доли результатов, выходящих за границы +/- 2,0 и 3,0, также могут существенно отличаться от 5 и 0,3% соответственно.

9.4.3 Провайдер проверки квалификации определяет правила округления для полученных z-индексов на основе количества значащих цифр для результатов приписанного значения и стандартного отклонения для проверки квалификации. Эта информация должна быть доступна всем участникам.

Примечание - Обычно редко используют более двух знаков после запятой.

9.4.4 Если в качестве стандартного отклонения результатов участников используют и количество участников проверки слишком велико, провайдер проверки квалификации может проверить нормальность распределения, используя реальные результаты или z-индексы. С другой стороны, если количество участников слишком мало, сигнал к действиям может вообще не появиться. В этом случае более полезными являются графические методы, которые дают возможность проследить за индексами функционирования в течение нескольких раундов, что может обеспечить более полезные данные о квалификации участников, чем результаты отдельных раундов.

9.5 z'-индексы

9.5.1 Если появляются опасения по поводу неопределенности приписанного значения u(x_pt), например если , то эта неопределенность может быть учтена путем добавления ее в знаменатель при расчете z-индекса, который в этом случае называют z'-индексом и вычисляют (в обозначениях 9.4) следующим образом:

Примечание - Если x_pt и/или вычисляют по результатам участников, то индексы функционирования коррелируют с результатами отдельных участников, потому что эти результаты влияют на робастные среднее и стандартное отклонения. Корреляция для отдельного участника зависит от весового коэффициента, назначенного этому участнику в объединенной статистике. По этой причине индекс функционирования, включающий неопределенность приписанного значения без учета корреляции, дает заниженный индекс и заниженные результаты по сравнению с ситуацией, когда ковариацию учитывают. Например, если , то снижение оценки z'-индекса составляет около 10. Таким образом, формулу (15) следует использовать, если x_pt и/или определяют по результатам участников.

9.5.2 Индексы D и D % также могут быть модифицированы для учета неопределенности приписанного значения с помощью следующей формулы, обеспечивающей получение :

, (16)

где U(x_pt) - расширенная неопределенность приписанного значения x_pt, вычисленная с коэффициентом охвата k = 2.

9.5.3 z'-индекс можно интерпретировать тем же способом, что и z-индекс (см. 9.4), и использовать те же критические значения 2,0 и 3,0 в зависимости от программы проверки квалификации. Аналогично D и D % следует затем сравнивать с (см. 9.3).

9.5.4 Сравнение формул для расчета индексов z и z' в соответствии с 9.4 и 9.5 для раунда программы проверки квалификации показывает, что z'-индекс всегда меньше z-индекса. Отношение z'-индекса к z-индексу составляет

В случае введения ограничений на неопределенность приписанного значения в соответствии с 9.2.1 это значение находится в интервале:

В этом случае z'-индекс почти совпадает с z-индексом, и можно сделать вывод, что при оценке функционирования неопределенностью приписанного значения можно пренебречь.

Если требования 9.2.1 на неопределенность приписанного значения не выполнены, то разность значений z'-индекс и z-индекс может быть столь существенной, что когда z-индекс достигает значений 2 или 3, что соответствует "сигналу предупреждения" и "сигналу к действиям", z'-индекс не достигает таких критических значений и, следовательно, не дает никаких сигналов.

В общем случае для ситуаций, когда приписанное значение и/или не определяют по результатам участников, использование z'-индекса может быть предпочтительнее, поскольку когда критерий в соответствии с 9.2.1 выполнен, разность между z'-индексом и z-индексом пренебрежимо мала.

9.6 Дзета-индекс

9.6.1 Применение дзета-индекса полезно, если целью программы проверки квалификации является оценка способности участника получать результаты, близкие к приписанному значению в пределах указанной участником неопределенности.

С учетом обозначений, использованных в 9.4, вычисляют по следующей формуле

где u(x_i) - собственная оценка лабораторией стандартной неопределенности ее результата x_i;

u(x_pt) - стандартная неопределенность приписанного значения x_pt.

Примечание 1 - Если приписанное значение x_pt рассчитывают на основе согласованного значения результатов участников, то x_pt коррелирует с результатами участников. Корреляция для отдельного участника зависит от весового коэффициента этого участника в приписанном значении и в меньшей степени от неопределенности приписанного значения. По этой причине оценки функционирования, включая неопределенность приписанного значения, но не включая припуск на корреляцию, являются заниженными оценками, то есть оценками при отсутствии корреляции. Занижение оценки несущественное, если неопределенность приписанного значения мала; при использовании робастных методов для большинства внешних участников опасность получения неблагоприятных значений индекса функционирования очень мала. Следовательно, формула (17) может быть использована с согласованными статистиками без учета корреляции.

Примечание 2 - Дзета-индекс отличается от E_n-индекса (см. 9.7) использованием стандартных неопределенностей u(x_i) и u(x_pt), а не расширенных неопределенностей U(x_i) и U(x_pt). Значение выше 2 или ниже -2 может быть вызвано систематическим смещением метода или плохой оценкой неопределенности результатов измерений участником. Следовательно, обеспечивает строгую оценку полного результата, предоставленного участником.

9.6.2 Использование дзета-индексов позволяет осуществлять прямую оценку способности лаборатории обеспечить корректные результаты, то есть результаты, согласованные с x_pt в пределах неопределенности их результатов измерений. Дзета-индексы могут быть интерпретированы с использованием тех же значений 2,0 и 3,0, как и z-индексы, или с умножением на коэффициент охвата, используемым при оценке расширенной неопределенности. Однако неблагоприятный дзета-индекс может указывать либо на большое отклонение x_i от x_pt, либо на недооценку неопределенности участником, или на то и другое одновременно.

Примечание - Для провайдера полезно получить дополнительную информацию о достоверности зафиксированных в отчете неопределенностей. Полезные указания по такой оценке приведены в 9.8.

9.6.3 Дзета-индексы могут быть использованы в сочетании z-индексами как дополнительное средство для улучшения работы участников. Если участник получает z-индекс, многократно превышающий критическое значение 3,0, необходимо проанализировать методику исследований шаг за шагом и получить для нее оценку неопределенности. Оценка неопределенности позволит идентифицировать те шаги в процессе измерений, в которых появляется большая неопределенность, и участники могут увидеть, где необходимо затратить усилия, чтобы добиться улучшений. Если дзета-индексы участника также повторно превышают критическое значение 3,0, это означает, что оценка неопределенности участника не включает в себя все существенные источники неопределенности (то есть пропущено что-то важное). И наоборот, если участник повторно получает дзета-индекс более или равный трем, а дзета-индекс - менее двух, это указывает на то, что участник точно оценивает неопределенность своих результатов, но его результаты не соответствуют ожидаемому уровню работы для программы проверки квалификации. Это может быть в случае, например, если участник использует метод скрининга в процессе измерений, а другие участники применяют количественные методы. Если участник считает, что неопределенность его результатов обоснована, то никаких действий проводить не требуется.

Примечание - Если дзета-индекс использован самостоятельно, он может быть интерпретирован только для проверки соответствия неопределенности результатов участника конкретному наблюдаемому отклонению и не может быть использован как признак соответствия результатов конкретного участника целям испытаний.

Определение соответствия целям может быть сделано отдельно (например, участником или органом по аккредитации) с помощью проверки отклонений разности (x - x_pt) или объединенных стандартных неопределенностей по сравнению с целевой неопределенностью.

9.7 E_n-индексы

9.7.1 E_n-индексы могут быть использованы в том случае, если целью программы проверки квалификации является оценка способности участников получать результаты, близкие к приписанному значению в пределах заявленной ими расширенной неопределенности. Эта статистика является обычной для проверки квалификации при калибровке, но может быть использована и для других видов проверки квалификации. Эту статистику вычисляют по формуле

где x_pt - приписанное значение, определенное в эталонной лаборатории;

U(x_i) - расширенная неопределенность результатов участника x_i;

U(x_pt) - расширенная неопределенность приписанного значения x_pt.

Примечание - Непосредственное объединение расширенных неопределенностей не соответствует требованиям [6] и не эквивалентно расчету объединенной расширенной неопределенности, за исключением случая, когда коэффициент охвата и число эффективных степеней свободы одинаковы для U(x_i) и U(x_pt).

9.7.2 E_n-индекс следует интерпретировать с осторожностью, поскольку он является отношением двух отдельных (независимых) показателей функционирования. Числитель представляет собой отклонение результата от приписанного значения (рассмотрение интерпретации этого показателя приведено в 9.3). Если участник правильно определил U(x_i) и провайдер проверки квалификации правильно определил U(x_pt), знаменатель представляет собой объединенную расширенную неопределенность, которая не должна быть больше отклонений числителя. Таким образом, значения E_n >= 1,0 или E_n <= -1,0 могут указывать на необходимость анализа оценок неопределенности или на необходимость коррекции выполнения измерений; аналогично -1,0 < E_n < 1,0 следует рассматривать как признак успешной работы только в том случае, если неопределенности валидированы и отклонение (x_i - x_pt) меньше, чем необходимо заказчику участника.

Примечание - Несмотря на то что интерпретация E_n-индексов может быть достаточно сложной, это не препятствует их использованию. Включение информации о неопределенности в интерпретацию результатов проверки квалификации может играть важную роль в улучшении понимания участниками неопределенности измерений и ее оценки.

9.8 Оценки неопределенности результатов участников

9.8.1 Применение ГОСТ ИСО/МЭК 17025 обеспечивает более глубокое понимание неопределенности измерений. Использование оценок неопределенности при оценке функционирования лабораторий распространено в программах проверки квалификации в различных областях калибровки (так же как E_n-индексов, но при проверке квалификации испытательных лабораторий не применялось). , описанные в 9.6, и E_n-индексы, описанные в 9.7, представляют собой варианты оценки результатов по отношению к заявленной неопределенности.

9.8.2 Некоторые провайдеры проверки квалификации признали, что указание лабораториями в отчете неопределенности результатов при проверке квалификации является полезным. Это может быть полезно даже тогда, когда неопределенности не используют в расчетах. Существуют несколько целей сбора такой информации:

a) органы по аккредитации могут гарантировать, что участники укажут неопределенности, которые соответствуют их области аккредитации;

b) участники могут проанализировать свою неопределенность по отношению к другим участникам и получить возможность определить, учтены ли в их оценке неопределенности все возможные составляющие неопределенности и не завышена ли неопределенность некоторых составляющих;

c) проверка квалификации может быть использована для подтверждения заявленной неопределенности, и это легче сделать, когда неопределенность указана вместе с результатом.

Примечание - Пример анализа данных, когда неопределенности указаны, приведен в E.3 приложения E.

9.8.3 Если x_pt определено в соответствии с процедурами, установленными в 7.3 - 7.6, и u(x_pt) соответствует критерию 9.2.1, то маловероятно, что результат участника будет иметь меньшую стандартную неопределенность, тогда u(x_pt) может быть использована в качестве нижнего предела при скрининге, то есть как u_min. Если приписанное значение определяют по результатам участников (см. 7.7), то провайдер проверки квалификации должен определить границы реального скрининга для u_min.

Примечание - Если u(x_pt) включает изменчивость вследствие неоднородности или нестабильности, u(x_i) участников может быть меньше u_min.

9.8.4 Маловероятно также, что все участники указали стандартную неопределенность, более чем в 1,5 раза превышающую робастное стандартное отклонение участников 1,5 s*, это значение может быть использовано как реальная верхняя граница для скрининга зафиксированных неопределенностей, называемая u_max.

Примечание - Коэффициент 1,5 является верхним пределом изменчивости стандартных отклонений, который можно ожидать для согласованного стандартного отклонения десяти или более результатов на основе квадратного корня процентили F-распределения. Провайдер проверки квалификации может использовать и другое значение этого коэффициента.

9.8.5 Если для определения отклоняющих неопределенностей используют u_min или u_max или другие критерии, провайдер проверки квалификации должен объяснить участникам, что указанная ими неопределенность u(x_i) должна быть валидирована, даже если она менее u_min или более u_max. Если это происходит, участники и все заинтересованные стороны должны проверить результат или оценку неопределенности. Аналогично, если указанная неопределенность больше u_min и меньше u_max, это не обеспечивает ее валидацию. Это всего лишь индикатор.

9.8.6 Провайдеры проверки квалификации могут также обратить внимание на необычно высокие или низкие значения неопределенности на основе:

- установленных квантилей, соответствующих указанным неопределенностям (например, ниже 5-й процентили и выше 95-й процентили для указанных стандартных или расширенных неопределенностей);

- границ, построенных на предполагаемом распределении, со шкалой, созданной на разбросе указанных неопределенностей;

- требуемой неопределенности результатов измерений.

Примечание - Поскольку маловероятно, что неопределенности подчиняются нормальному распределению, будет необходимо выполнение преобразования при использовании границ, полученных на основе приближенно нормального или нормального распределения, например, границы на диаграмме "ящик с усами" основаны на межквартильном размахе и имеют вероятностную интерпретацию только тогда, когда распределение является приближенно нормальным.

9.9 Комбинированные индексы функционирования

9.9.1 Обычно в пределах одного раунда программы проверки квалификации должны быть получены результаты для нескольких образцов или нескольких измеряемых величин. В этом случае результаты для каждого образца проверки квалификации и каждой измеряемой величины необходимо интерпретировать в соответствии с 9.3 - 9.7; то есть результаты для каждого образца и каждой измеряемой величины следует рассматривать отдельно.

9.9.2 Существуют случаи, когда в программу проверки квалификации включены два или более образцов со специально разработанными уровнями для измерения других аспектов работы лаборатории, например, для исследования повторяемости, систематической погрешности или линейности модели. Например, два аналогичных образца могут быть использованы в программе проверки квалификации с применением графика Юдена (см. 10.5). В такой ситуации провайдер проверки квалификации должен предоставить участникам полное описание плана эксперимента и используемых процедур.

9.9.3 Рекомендуется использовать графические методы, описанные в 10, если результаты получены по нескольким исследуемым образцам или нескольким измеряемым величинам, при условии, что они тесно связаны между собой и/или получены одним тем же методом. Значения показателей объединяют подобного рода способами, которые не скрывают информацию о высоких значениях отдельных показателей. Таким образом, может быть получена дополнительная информация о работе лабораторий, например, как корреляция между результатами для различных измеряемых величин, не очевидная по данным таблиц для отдельных показателей.

9.9.4 В схемах проверки квалификации, в которых использовано большое количество измеряемых величин для оценки качества работы, могут быть применены подсчет или соотношение количества сигналов к действиям и предупреждения.

9.9.5 Комбинированные индексы функционирования либо поощрительные или штрафные индексы следует использовать с осторожностью, так как может быть трудно описать лежащие в основе статистические предположения. В то же время комбинированные индексы функционирования в случае использования нескольких образцов и единственной измеряемой величины могут иметь ожидаемые распределения и быть полезны для выявления постоянного смещения, усреднение или суммирование индексов для нескольких измеряемых величин и одних и тех же или разных образцов может замаскировать смещение результатов для измеряемой величины. Таким образом, метод расчета, интерпретации и ограничений всех комбинированных или штрафных индексов должен быть понятен участникам.