БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 50779.60-2017 (ИСО 13528:2015). Национальный стандарт Российской Федерации. Статистические методы. Применение при проверке квалификации посредством межлабораторных испытаний

6. Предварительный анализ образцов и результатов при проверке квалификации

 

6.1 Однородность и стабильность образцов при проверке квалификации

6.1.1 Провайдер проверки квалификации должен гарантировать, что партии образцов для проверки квалификации являются достаточно однородными, стабильными и пригодными для целей программы проверки квалификации. Провайдер должен оценить однородность и стабильность образцов с использованием критериев, позволяющих гарантировать, что неоднородность и нестабильность образцов не оказывают отрицательного влияния на оценку работы участника. При оценке однородности и стабильности следует использовать один или несколько из следующих подходов:

a) экспериментальные исследования, описанные в приложении B, или альтернативные экспериментальные методы, которые обеспечивают равную им или большую уверенность в однородности и стабильности образцов;

b) использование аналогичных образцов в предыдущих раундах программы проверки квалификации, подтверждающие приемлемость образцов для текущего раунда;

c) оценка данных участников в текущем раунде программы проверки квалификации для доказательства согласованности с предыдущими раундами, то есть для доказательства возможных изменений после подготовки отчета или в порядке производства и всех неожиданных отклонений, характерных для неоднородности или нестабильности.

Примечание 1 - Эти подходы могут быть применены с использованием соответствующих статистических методов и технического обоснования для каждого подхода. В течение срока действия программы проверки квалификации подход может быть применен многократно, накопленный опыт со временем снижает первоначальную потребность в экспериментальных исследованиях.

Примечание 2 - Эксперимент [см. перечисления a) - c)] является разумной основой до тех пор, пока выполняются следующие требования:

1 В процессе изготовления партий образцов для проверки квалификации не возникают изменения, которые могут повлиять на однородность образцов.

2 Материалы, используемые в производстве образцов для проверки квалификации, не изменяются таким образом, что могут повлиять на однородность образцов.

3 Не появляются нарушения однородности, выявленные с помощью проверки на однородность или по реакции участников.

4 Требования к однородности материала регулярно анализируют с учетом предполагаемого использования материала при проведении анализа, чтобы гарантировать, что однородность, достигнутая за счет производственного процесса, остается пригодной для целей проверки квалификации.

 

Пример - Если в предыдущих раундах программы проверки квалификации использованы проверенные образцы, которые были в наличии, и продемонстрировано, что их однородность и стабильность являются достаточными, и участники проверки не изменились в новом раунде, то, если межлабораторное стандартное отклонение в текущем раунде не превышает стандартного отклонения в предыдущих раундах, это является доказательством достаточной однородности и стабильности образцов в текущем раунде.

6.1.2 Для программ проверки квалификации при калибровке, когда один и тот же артефакт используют несколько участников, провайдер проверки квалификации должен гарантировать его стабильность в течение всего раунда или иметь процедуры идентификации и оценки его нестабильности в процессе выполнения раунда программы проверки квалификации. Необходимо также исследовать тенденции изменения отдельных образцов и измеряемых величин, такие как дрейф. По возможности для уверенности в стабильности следует учитывать влияние использования одинаковых артефактов из различных партий.

6.1.3 Все результаты измерений величин (или свойств) должны быть проверены на однородность и стабильность. Однако если показано, что некоторое подмножество свойств может обеспечить хорошую индикацию однородности и стабильности для всех наблюдаемых свойств в этом раунде, программы проверки квалификации оценки, описанные в 6.1.1, могут быть ограничены этим подмножеством свойств. Проверяемые измеряемые величины должны быть чувствительными к источникам неоднородности и нестабильности в процессе работы с образцами для проверки квалификации. Некоторые важные случаи:

a) если результатом измерений является доля, характерная особенность которой ее небольшое значение, эта величина может быть трудно управляемой и более чувствительной к изменениям однородности;

b) если испытуемый образец нагревается во время работы с ним, то в качестве измеряемой величины следует выбрать величину, чувствительную к неравномерному нагреву;

c) если измеряемая величина характеризует свойство, зависящее от отстаивания, выпадения осадка и других явлений, зависящих от времени подготовки образца, то это свойство следует проверять косвенным способом.

Пример - В программе проверки квалификации при определении содержания токсичных металлов в почве результат зависит от влажности образца почвы. Последовательная проверка содержания влаги в почве может быть признана достаточной для обеспечения адекватной стабильности содержания токсичных металлов.

Примечание - Пример проверки на однородность и стабильность с использованием статистических методов, рекомендованных в приложении B, приведен в E.2 приложения E.

 

6.2 Анализ различных методов измерений

6.2.1 Если все участники проверки должны сообщать значение одной и той же измеряемой величины, приписанное значение обычно должно быть одинаковым для всех участников. Но если участникам предоставлен выбор собственного метода измерений, то возможно, что единственное приписанное значение для каждого исследуемого вещества или свойства не будет подходить для всех участников. Однако существует вероятность того, что при использовании различных методов измерений результаты будут несопоставимыми. В этом случае провайдер проверки квалификации может использовать для каждого метода измерений свое приписанное значение.

Примеры

a) Медицинские исследования, в которых при установлении диагноза для одного и того же исследуемого материала различные методы измерений дают различные результаты и имеют различные диапазоны нормальных значений.

b) Оперативно определяемые измеряемые величины, такие как выщелачиваемые токсичные металлы в почвах, для которых доступны различные стандартные методы измерений и прямое сравнение величин не предполагается, по программе проверки квалификации устанавливают без ссылки на установленный метод испытаний.

6.2.2 При разработке программы проверки квалификации следует рассматривать необходимость использования различных приписанных значений (например, сделать заготовки для отчетов по конкретным методам), а также при анализе данных по каждому раунду.

6.3 Удаление грубых ошибок

6.3.1 В B.2.5 ГОСТ ISO/IEC 17043-2013 и согласованном протоколе IUPAC рекомендуют удалять очевидные грубые ошибки из набора данных на ранней стадии анализа данных перед использованием любой робастной процедуры или любого теста по выявлению статистических выбросов. Как правило, эти результаты следует рассматривать отдельно (например, по согласованию с участником). Некоторые грубые ошибки можно исправить, но это должно быть сделано только в соответствии с утвержденной политикой и процедурами.

Примечание - Очевидные грубые ошибки, такие как результаты, указанные в отчете в неправильных единицах измерений, спутанные результаты различных образцов, возникают в большинстве раундов проверки квалификации, и эти результаты только ухудшают применение последующих статистических методов.

 

6.3.2 При наличии подозрений в том, что результат является грубой ошибкой, он должен быть сохранен в наборе данных и подвергнут последующей обработке в соответствии с 6.4 - 6.6.

6.4 Визуальный анализ данных

6.4.1 В качестве первого этапа анализа данных провайдер должен организовать визуальный анализ данных, проводимый человеком, имеющим адекватные технические и статистические знания и опыт. Этот анализ необходим для подтверждения ожидаемого распределения результатов, а также для выявления аномалий или непредвиденных источников изменчивости. Например, бимодальное распределение может быть свидетельством того, что данные представляют собой смесь результатов из различных совокупностей, полученных различными методами, или использования загрязненных проб, или применения плохо сформулированных инструкций. Эта ситуация должна быть разрешена до выполнения анализа или оценки.

Примечание 1 - Наиболее полезным и широко доступным способом определения вида распределения является гистограмма. Она позволяет определить унимодальность и симметричность распределения, а также выявить необычные выбросы (см. 10.2). Однако интервалы, используемые для составления гистограммы, и количество результатов в интервале влияют на качество гистограммы, при небольшом количестве точек гистограммы ее может быть трудно построить. Более полезным для выявления возможной бимодальности или отсутствия симметрии является график плотности (см. подраздел 10.3).

Примечание 2 - Также могут быть полезны и другие методы, например, график кумулятивной функции распределения или диаграмма "стебель с листьями". Некоторые графические методы анализа данных приведены в E.3 и E.4 приложения E.

 

6.4.2 Если проведение визуального анализа всех наборов данных невозможно, должна быть предусмотрена процедура предупреждения появления неожиданной вариации в наборе данных, например с помощью сравнительного анализа неопределенности приписанного значения и ее сопоставления с критериями или с предыдущими раундами программы проверки квалификации.

6.5 Робастные статистические методы

6.5.1 Робастные статистические методы могут быть использованы для описания центральной части нормального распределения набора результатов без идентификации выбросов и исключения их из последующего анализа. На 1-м этапе большинство используемых робастных методов в качестве параметров применяют оценки медианы и размаха для центральных 50% результатов - это показатели положения центра и разброса данных, аналогичные среднему и стандартному отклонению. В общем случае при проведении анализа надо отдавать предпочтение робастным методам, а не тем, для которых перед использованием требуется удаление выбросов.

Примечание - Стратегии, которые используют классические статистики, такие как стандартное отклонение, после удаления выбросов, как правило, приводят к заниженной оценке дисперсии для приблизительно нормальных данных; робастные статистики, как правило, дают несмещенные оценки дисперсии.

 

6.5.2 В качестве простых оценок применимы медиана, масштабированная медиана абсолютного отклонения MAD и нормированный межквартильный размах n/QR. Алгоритм A преобразует исходные данные с помощью процесса, называемого винсоризацией, для получения альтернативных оценок среднего и стандартного отклонения для данных, не подчиняющихся нормальному распределению, и является наиболее полезным, когда ожидаемая доля выбросов составляет менее 20%. Методы Qn и Q для оценки стандартного отклонения (см. приложение C) особенно полезны в той ситуации, когда в большинстве случаев (> 20%) результаты являются несоответствующими или когда специалисты не могут достоверно проанализировать данные. Другие методы, описанные в приложении C, также достаточно эффективны, если ожидаемая доля экстремальных значений составляет более 20% (см. приложение D).

Примечание - Медиана, среднее абсолютное отклонение, межквартильный размах и масштабированная медиана абсолютного отклонения имеют большую изменчивость, чем среднее и стандартное отклонения при применении к данным, подчиняющимся распределению близкому к нормальному. Более сложные робастные оценки дают более высокую эффективность для данных с распределением близким к нормальному, обеспечивая при этом большую устойчивость при использовании выбросов за счет использования медианы и межквартильного размаха.

 

6.5.3 Выбор статистических методов является обязанностью провайдера проверки квалификации. Робастные среднее и стандартное отклонения могут быть использованы для различных целей, оценка работы участников - лишь одна из них. Робастные средние и стандартные отклонения могут быть также использованы в качестве общих статистик для различных групп участников или для конкретных методов.

Примечание - Более подробно робастные процедуры описаны в приложении C. В E.3 и E.4 приложения E приведены примеры, иллюстрирующие использование робастных статистических методов, приведенных в приложении C.

 

6.6 Методы работы с выбросами для индивидуальных результатов

6.6.1 Проверка на выбросы может быть использована при визуальном анализе аномальных значений или в случае исключения выброса для обеспечения устойчивости к экстремальным значениям при вычислении общих статистик. При использовании методов выявления выбросов следует подтвердить выполнение предположений, лежащих в их основе, чтобы обеспечить пригодность этих методов для целей программы проверки квалификации, в частности многие критерии используют предположение о нормальности распределения данных.

Примечание - В ГОСТ Р ИСО 16269-4 и ГОСТ Р ИСО 5725-2 приведено несколько процедур идентификации выбросов, применимых к межлабораторным данным.

 

6.6.2 Если робастные методы не применяют (см. 6.5.1), то допускается использование стратегии отклонения выбросов, которая основана на исключении из обработки выбросов, обнаруженных с помощью соответствующих критериев с высоким уровнем доверия, и дальнейшем применении простых статистик, таких как среднее и стандартное отклонения. При использовании стратегий исключения выбросов провайдер проверки квалификации должен:

a) документировать критерии и уровень доверия, применяемые для выявления исключаемого выброса;

b) устанавливать ограничения на долю исключенных данных при применении тестов выявления выбросов в случае их использования;

c) демонстрировать, что полученные оценки параметров положения и (при необходимости) масштаба обладают достаточными свойствами (включая эффективность и смещение) для целей программы проверки квалификации.

Примечание - В ГОСТ Р ИСО 5725-2 приведены рекомендации по выбору уровня доверия, подходящего для отклонения выбросов в межлабораторных исследованиях по определению прецизионности методов испытаний. В частности, в соответствии с ГОСТ Р ИСО 5725-2 рекомендуется исключать данные только в том случае, когда при выявлении выброса был использован уровень доверия 99%, если нет другого основания отказаться от конкретного результата.

 

6.6.3 В тех случаях, когда исключение выброса является частью процедуры обработки данных и результат удаляют как выброс, работу участника тем не менее следует оценивать в соответствии с критериями, используемыми для всех участников программы проверки квалификации.

Примечание 1 - Выбросы среди зарегистрированных значений часто идентифицируют с помощью критерия Граббса для выявления выбросов в соответствии с ГОСТ Р ИСО 5725-2. Оценку в этой процедуре определяют с использованием стандартного отклонения всех участников, включая возможные выбросы. Поэтому данную процедуру необходимо применять, когда показатели работы участников соответствуют ожиданиям, основанным на результатах предыдущих раундов, а количество выбросов невелико (один или два выброса с каждой стороны среднего). Обычные таблицы для критерия Граббса предполагают одно применение для возможного выброса или два - для установленного параметра положения, но допустимо последовательное применение этого критерия. Если таблицы Граббса применяют последовательно, вероятности ошибки I рода для испытаний можно не применять.

Примечание 2 - Если результаты репликаций совпадают или если в раунде программы проверки квалификации использованы идентичные образцы, это является основанием для использования критерия Кохрена для повторяющихся выбросов в соответствии с ГОСТ Р ИСО 5725-2.

Примечание 3 - Выбросы также могут быть идентифицированы с помощью робастных или непараметрических методов: например, если вычислены робастное среднее и стандартное отклонение значения, отклоняющиеся от вычисленного среднего более чем на три робастных стандартных отклонения, могут быть идентифицированы как выбросы.