ГОСТ Р 50779.60-2017 (ИСО 13528:2015). Национальный стандарт Российской Федерации. Статистические методы. Применение при проверке квалификации посредством межлабораторных испытаний
8. Определение критериев оценки работы лабораторий
8.1 Подходы к определению критериев оценки
8.1.1 Основным подходом во всех случаях является сопоставление результатов измерений, выполненных на образце xi, с приписанным значением xpt. Для оценки работы разность сравнивают с допустимой погрешностью измерений. Это сравнение обычно выполняют для стандартизованной статистики (например, z, z', , En) в соответствии с 9.4 - 9.7. Также эту разность можно сравнивать с определенным критерием (D или D % сравнивают с
) в соответствии с 9.3. Альтернативным подходом является сопоставление разности с неопределенностью результатов, заявленной участниками, объединенной с неопределенностью приписанного значения En и
.
8.1.2 Если обязательные требования или соответствие цели заданы в виде стандартного отклонения, то оно может быть использовано непосредственно как . Если обязательные требования или цели заданы в виде максимально допустимой погрешности измерений, то для получения
критерий может быть поделен на значение границы зоны действия. Установленная максимально допустимая погрешность может быть использована непосредственно в качестве
для использования с D или D %. Преимущества такого подхода для непрерывных программ состоят в следующем:
a) оценки функционирования лабораторий имеют последовательную интерпретацию с точки зрения соответствия конкретной цели в каждом раунде;
b) оценки функционирования зависят от ожидаемой вариации при оценке разброса по фиксированным результатам.
Пример - Если критерием оценки работы является максимально допустимая погрешность и 3,0 - граница зоны действия при оценке с z-индексом, то для определения значение установленного критерия делят на 3,0.
8.1.3 Если критерий оценки работы основан на согласованных статистиках из текущего или предыдущего раундов программы проверки квалификации, то предпочтительной статистикой является робастная оценка стандартного отклонения результатов участников. При использовании такого подхода, как правило, удобнее всего использовать при оценке работы z-индекс и установить в качестве стандартного отклонения для оценки квалификации выборочное стандартное отклонение.
8.2 Чувствительность экспертов
8.2.1 Значение максимально допустимой погрешности или стандартного отклонения для оценки квалификации может быть установлено как значение, которое соответствует такому уровню работы, который, по мнению органа по аккредитации или технических экспертов провайдера, является приемлемым для участников.
8.2.2 Установленная максимальная допустимая погрешность может быть преобразована в стандартное отклонение для оценки квалификации путем деления ее предельного значения на число кратное , которое используют для определения границ зоны действия (или неприемлемого результата). Аналогично установленное значение
может быть преобразовано в
.
8.3 Оценка на основе данных предыдущих раундов проверки квалификации
8.3.1 Стандартное отклонение для оценки квалификации и максимально допустимая погрешность
могут быть определены на основе данных предыдущих раундов проверки квалификации для одной и той же измеряемой величины со сопоставимыми значениями показателей, если участники используют согласованные процедуры измерений. Это полезный подход, если нет согласия между экспертами относительно соответствия установленным целям. Преимущества данного подхода:
- оценки основаны на разумных ожиданиях качества работы участников;
- критерии оценки не изменяют во всех раундах из-за случайных вариаций или изменений в составе участников;
- критерии оценки не меняют для различных провайдеров, если для испытаний или калибровки утверждены два или более провайдеров.
8.3.2 Анализ предыдущих раундов программы проверки квалификации должен включать рассмотрение показателей компетентных участников и не затронутых влиянием новых участников или не затронутых случайными изменениями, например, сокращением группы или других факторов, присущих конкретному раунду. Заключения могут быть сделаны субъективно, на основе изучения данных предыдущих раундов, объективно - в соответствии среднему или регрессионной модели, установленной для измеряемой величины. Линия регрессии может быть прямой или кривой [7]. Стандартные отклонения и относительные стандартные отклонения следует рассматривать с учетом значений, более подходящих области значений измеряемых величин. Соответствующая максимально допустимая погрешность может быть рассчитана таким же способом.
8.3.3 Если критерии для оценки показателя функционирования основаны на согласованных статистиках предыдущих раундов программы проверки квалификации, следует использовать робастную оценку стандартного отклонения.
Примечание 1 - Алгоритм S (см. C.4 приложения C) обеспечивает определение робастного общего стандартного отклонения и применим в том случае, когда все рассматриваемые предыдущие раунды программы проверки квалификации имеют одинаковое среднее стандартное отклонение или (если для оценки использованы относительные отклонения) то же относительное стандартное отклонение.
Примечание 2 - Пример вывода значения по данным предыдущих раундов программы проверки квалификации приведен в E.8 приложения E.
8.4 Использование общей модели
8.4.1 Значение стандартного отклонения для оценки квалификации может быть получено из общей модели воспроизводимости метода измерений. Преимуществами этого метода являются объективность и согласованность измеряемых величин, а также его эмпирическая основа. В зависимости от используемой модели такой подход можно рассматривать как частный случай соответствия целевому критерию.
8.4.2 Все средние стандартные отклонения, выбранные с помощью общей модели, должны быть обоснованы. Если результаты очень большой или очень маленькой доли участников попали в зону сигнала к действиям и сигнала предупреждения, провайдер проверки квалификации должен гарантировать, что это согласуется с целью программы проверки квалификации.
8.4.3 Конкретная оценка, учитывающая особенности проблемы измерений, как правило, предпочтительнее подхода на основе общей модели. Следовательно, перед использованием общей модели следует изучить возможность применения подходов, приведенных в 8.2, 8.3 и 8.5.
Пример - Кривая Хорвица.
Общая модель для применения при проведении химических исследований описана Хорвицем [8] и модифицирована Томпсоном [7]. Такой подход дает общую модель воспроизводимости аналитических методов, которая может быть использована для вывода выражения для стандартного отклонения воспроизводимости:
(8)
где c - массовая доля химических соединений, которые необходимо определить, 0 <= c <= 1.
Примечание 1 - Модель Хорвица является эмпирической, основанной на наблюдениях в течение длительного периода времени в совместных испытаниях с большим количеством параметров. Значения являются средними верхними границами межлабораторной изменчивости в совместных испытаниях в тех случаях, когда совместные испытания не имеют значимых проблем. Следовательно, значение
не может быть подходящим критерием при определении квалификации в программе проверки квалификации.
Примечание 2 - Пример определения значения на основе модифицированной модели Хорвица приведен в E.9 приложения E.
8.5 Использование стандартного отклонения повторяемости и воспроизводимости на основе данных предварительных совместных исследований прецизионности метода измерений
8.5.1 Если метод измерений, используемый в программе проверки квалификации, стандартизован, и информация о стандартном отклонении повторяемости и стандартном отклонении воспроизводимости
метода доступна, стандартное отклонение для оценки квалификации
может быть вычислено с использованием следующего выражения:
, (9)
где m - количество репликаций измерений, которые каждый участник должен выполнить в раунде программы проверки квалификации.
Примечание - Данное выражение получено из основной модели случайных воздействий в соответствии с ГОСТ Р ИСО 5725-2.
8.5.2 Если стандартные отклонения повторяемости и воспроизводимости зависят от среднего арифметического результатов испытаний, функциональные зависимости должны быть получены с помощью методов, приведенных в ГОСТ Р ИСО 5725-2. Эти зависимости должны быть использованы для расчета значений стандартных отклонений повторяемости и воспроизводимости соответствующего приписанного значения, используемого в программе проверки квалификации.
8.5.3 Для валидации вышеуказанных методов должно быть проведено совместное исследование в соответствии с требованиями ГОСТ Р ИСО 5725-2 или аналогичного документа.
Примечание - Пример представлен в E.10 приложения E.
8.6 Использование данных, полученных в том же раунде программы проверки квалификации
8.6.1 В данном подходе стандартное отклонение для оценки квалификации вычисляют по результатам участников, полученных в одном и том же раунде программы проверки квалификации. При использовании такого подхода, как правило, удобнее всего использовать индексы, характеризующие работу лаборатории, такие как z-индексы. Как правило, для расчета
используют робастную оценку стандартного отклонения результатов, представленных всеми участниками, которая получена с использованием методов, перечисленных в приложении C. В общем случае оценки с D или D % и использующие
не подходят в таких ситуациях, однако PA может быть применима в качестве стандартизованного индекса для сопоставления со всеми измеряемыми величинами (см. 9.3.6).
8.6.2 Использование результатов участников может приводить к определению неподходящих критериев оценки функционирования лаборатории. Провайдер проверки квалификации должен обеспечивать, чтобы , используемое для оценки работы лаборатории, соответствовало целям проверки квалификации.
8.6.2.1 Провайдер проверки квалификации должен установить ограничение на наименьшее значение для случая, когда робастное стандартное отклонение очень мало. Это ограничение должно быть выбрано таким образом, чтобы, когда погрешность измерений является удовлетворительной в подавляющем количестве случаев, z-индекс имел значение менее 3,0.
Пример - В программе проверки квалификации лаборатория определяет плотность ткани, измеряемой величиной является количество нитей на 1 см ткани. Робастное стандартное отклонение в некоторых раундах может быть небольшим (менее 1 см ткани), а погрешность менее четырех нитей на сантиметр считают незначительной. Провайдер определяет, что робастное стандартное отклонение используют как , в этом случае
менее 1,3 нити на 1 см, поэтому
.
8.6.2.2 Провайдер проверки квалификации должен установить ограничение на наибольшее используемое значение или на результаты измерений, которые следует оценивать как приемлемые (нет сигнала), в том случае, когда значение робастного стандартного отклонения очень большое. Это ограничение должно быть выбрано таким образом, чтобы результаты, которые не соответствуют целям, воспринимались как сигнал к действиям.
8.6.2.3 Иногда провайдер проверки квалификации может устанавливать верхнюю и нижнюю границы на результаты, которые могут быть оценены как приемлемые (нет сигнала предупреждения или сигнала к действиям), когда симметричные интервалы включают результаты, не соответствующие установленным целям.
Пример - При определении качества не питьевой (технической) воды в схеме проверки квалификации лабораторий установлено, что результаты должны находиться в пределах от робастного среднего результатов участников. Однако поскольку в некоторых случаях размах приемлемых результатов может включать 0 мg/дм3, все результаты менее 10% установленного значения должны вызывать сигнал к действиям (являются неприемлемыми). Образец для проверки квалификации составляет 4,0 мg/дм3 регламентированного вещества. Робастное среднее участников составляет 3,2 мg/дм3 и
. Следовательно, возможно представление участником результата 0,0 мg/дм3, который находится в пределах
, но все результаты менее 0,4 мg/дм3 будут признаны как неприемлемые.
8.6.3 Основными преимуществами такого подхода являются простота и успешное применение во многих ситуациях. Иногда он может быть единственно возможным.
8.6.4 Существует несколько недостатков данного подхода:
a) значение может существенно меняться при переходе от раунда к раунду программы проверки квалификации, что затрудняет участникам использование значения z-индекса для выявления трендов, которые сохраняются в течение нескольких раундов;
b) стандартные отклонения могут быть недостоверными, когда количество участников программы проверки квалификации мало или когда объединяют результаты различных методов измерений. Например, если p = 20, стандартное отклонение для данных из нормального распределения может изменяться на +/- 30% от его истинного значения от одного раунда программы проверки квалификации к другому;
c) использование мер рассеяния, полученных на основе данных, может приводить к приблизительно постоянной пропорции приемлемых индексов. Очевидно, что в этом случае плохое функционирование лаборатории может быть не обнаружено с помощью индексов, а в целом хорошие показатели могут стать причиной того, что хороший участник получит плохую оценку;
d) отсутствие полезных интерпретаций относительно соответствия конечному использованию результатов.
Примечание - Примеры использования данных участников приведены в комплексном примере (см. E.3 приложения E).
8.7 Мониторинг межлабораторных соглашений
8.7.1 Для проверки работы участников, а также оценки преимуществ программы проверки квалификации для участников, провайдеру проверки квалификации следует применять процедуру мониторинга межлабораторных соглашений, чтобы отслеживать изменения в работе лабораторий и обеспечивать обоснованность применения статистических процедур.
8.7.2 Результаты, полученные в каждом раунде программы проверки квалификации, необходимо использовать для расчета оценок стандартных отклонений воспроизводимости метода измерений (и повторяемости, при необходимости), используя робастные методы, описанные в приложении C. Эти оценки необходимо наносить на график последовательно или в виде временных рядов вместе со значениями стандартного отклонения повторяемости и воспроизводимости, полученными при исследовании прецизионности в соответствии с ГОСТ Р ИСО 5725-2 (при наличии) и/или , если использованы методы, приведенные в 8.2 - 8.4.
8.7.3 Полученные графики должны быть исследованы провайдером проверки квалификации. Если графики показывают, что прецизионность значений, полученных в конкретном раунде проверки квалификации, в два или более раз больше значений, ожидаемых на основе ранее полученных данных или из опыта, то провайдер проверки квалификации должен исследовать причину того, что согласование в данном раунде хуже, чем в предыдущем. Аналогично тенденция к улучшению или ухудшению значения прецизионности становится основанием для анализа наиболее вероятных причин этого явления.
