БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 50779.60-2017 (ИСО 13528:2015). Национальный стандарт Российской Федерации. Статистические методы. Применение при проверке квалификации посредством межлабораторных испытаний

11. Планирование эксперимента и анализ программ проверки квалификации для качественных показателей (включая номинальные и порядковые свойства)

 

11.1 Вид качественных данных

Довольно часто при проверке квалификации используют свойства, которые идентифицируют по качественной шкале. Среди видов качественных данных различают программы проверки квалификации, в которых:

- результаты фиксируют по категориальной шкале (иногда называемой "номинальной шкалой"), где характеристика свойства не имеет числового значения (например, тип вещества или организма);

- фиксируют наличие или отсутствие свойства, определяемого по субъективным критериям или значению сигнала при выполнении процедуры измерений. Эту ситуацию можно рассматривать как частный случай категориальной или порядковой шкалы с двумя значениями (также называемой "дихотомической" или "бинарной");

- результаты фиксируют по порядковой шкале, эти результаты могут быть упорядочены, но для них арифметические соотношения неприменимы. Например, порядковая шкала может иметь значения "высокий", "средний", "низкий".

Такие программы проверки квалификации требуют особого внимания на этапах планирования эксперимента, выбора приписанного значения и оценки показателей функционирования (индексов), так как:

- приписанные значения очень часто основаны на мнении экспертов;

- статистическая обработка, предназначенная для непрерывных значений и количественных данных, не применима к качественным данным. Например, при определении результатов по порядковой шкале не имеет смысла применять средние и стандартные отклонения, даже если результаты могут быть ранжированы.

В следующих подразделах приведены рекомендации по планированию, выбору приписанного значения и оценке функционирования для схем проверки квалификации с использованием качественных характеристик.

Примечание - Рекомендации для порядковых данных не применяют к результатам измерений, которые основаны на количественной шкале с дискретными показателями (см. 5.2.2).

 

11.2 Статистическое планирование эксперимента

11.2.1 Для программ проверки квалификации, в которых мнение экспертов используют при определении приписанного значения или оценке отчетов участников, необходимо собрать комиссию из квалифицированных экспертов и дать ей время для обсуждения и выработки согласованного мнения. Там, где есть необходимость полагаться на мнение отдельных экспертов при выборе индексов или назначении величин, провайдер проверки квалификации должен дополнительно обеспечить оценку и проверку согласованности мнений различных экспертов.

Пример - В программе проверки квалификации в клинике, где для диагностики используют микроскоп, для оценки предметных стекол, предоставляемых участникам, используют экспертное заключение, которое обеспечивает соответствующий клинический диагноз для образцов проверки квалификации. Провайдер проверки квалификации может выбрать и раздать членам экспертной комиссии образцы вслепую (без указания участника) для обеспечения согласованности диагноза или проводить периодические совещания для получения согласованной оценки всех членов экспертной комиссии.

11.2.2 Для программ проверки квалификации, в которых участники фиксируют простые, однозначные, категоризированные или порядковые результаты, провайдеру проверки квалификации следует рассмотреть возможность:

- обеспечения двух или более образцов проверки квалификации в раунде;

- запроса результатов репликаций измерений для каждого образца проверки квалификации в соответствии с количеством установленных заранее репликаций измерений.

Любая из этих стратегий позволяет подсчитывать результат для каждого участника, который может быть использован либо в анализе данных, либо для расчета индексов. Использование двух или более образцов обеспечивает дополнительную информацию об особенностях ошибок, а также позволяет определить более сложные индексы при оценке квалификации.

Пример 1 - В программе проверки квалификации фиксируют наличие или отсутствие загрязняющего вещества, предоставленные образцы содержат некоторый диапазон уровней загрязняющего вещества на каждом уровне его содержания как функцию уровня содержания загрязняющего вещества. Это может быть использовано, например, для предоставления информации участникам о возможности обнаружения выбранным методом испытаний загрязняющего вещества или для получения средней вероятности обнаружения и последующего определения индексов функционирования, которые в свою очередь могут быть распределены среди участников на основе оценок вероятностей конкретных моделей отклика.

Пример 2 - Проверка квалификации для судебно-медицинских исследований часто требует сопоставления образцов на предмет того, получены они из одного и того же источника или из различных источников (например, отпечатки пальцев, ДНК, гильзы от пули, следы и т.д.). В большинстве случаев возможен ответ "не определено". Программа проверки квалификации может включать в себя несколько образцов из различных источников, и участников просят для каждой пары образцов установить, принадлежат ли они одному и тому же источнику, различным источникам или их источник не может быть определен. Это позволяет дать объективные оценки в виде числа (или %) правильных или неправильных заключений или количества правильных решений о соответствии или отклонении. Затем могут быть установлены критерии их функционирования по степени пригодности использования или сложности задачи.

11.2.3 Однородность должна быть подтверждена анализом соответствующей выборки из образцов, каждый из которых должен продемонстрировать ожидаемое свойство. Для некоторых качественных показателей, например наличие или отсутствие чего-либо, может быть возможна проверка однородности с помощью измерений количественных показателей, таких как микробиологический подсчет объектов или спектр поглощения выше заданного порога. В таких ситуациях могут быть целесообразны испытания на однородность или демонстрация всех результатов выше или ниже заданного значения.

11.3 Приписанное значение для качественных показателей

11.3.1 Приписанные значения для образцов могут быть установлены на основе:

a) экспертной оценки;

b) использования стандартных образцов в качестве образцов для проверки квалификации;

c) сведений о происхождении или подготовке образца(ов);

d) использования моды или медианы результатов участника (медиана подходит только для порядковых значений).

Для получения достоверных результатов может быть использован также любой другой способ выбора приписанного значения. Ниже рассмотрена каждая из перечисленных выше стратегий.

Примечание - Эти способы обычно не подходят для обеспечения количественной информации о неопределенности приписанного значения в программах проверки квалификации, использующих качественные показатели. Тем не менее в соответствии с 11.3.2 - 11.3.5 необходима такая базовая информация о достоверности приписанного значения, чтобы участники могли взвешенно оценить, может ли полученный плохой результат быть связан с ошибкой при установлении приписанного значения.

 

11.3.2 Значения, присвоенные на основании заключения экспертов, обычно должны базироваться на согласованном мнении всех квалифицированных экспертов. Любое значимое расхождение между членами комиссии должно быть записано в отчете по результатам раунда. Если комиссия не может достичь соглашения в отношении конкретного образца, провайдер может рассмотреть альтернативный способ присвоения приписанного значения из перечисленных в 11.3.1. Если этот способ не подходит, образец не должен быть использован для оценки работы участников.

Примечание - В некоторых случаях приписанное значение может определить единственный эксперт.

 

11.3.3 Если в качестве образца для проверки квалификации участникам предоставляют стандартный образец в качестве приписанного значения для данного раунда, следует использовать соответствующее опорное значение или сертифицированное значение. Информация, представленная вместе со стандартным образцом, относящаяся к обоснованию правильности установления приписанного значения, должна быть доступна для участников следующих раундов.

Примечание - Ограничения данного подхода приведены в 7.4.1.

 

11.3.4 Если образцы получены из известного источника, приписанное значение может быть определено на основании информации об источнике получения материала. Провайдер должен сохранять записи о происхождении, транспортировании и обработке используемых материалов. В связи с этим следует соблюдать осторожность для подтверждения загрязнения образцов, которое может привести к неверным результатам участников. Сведения об источнике и/или детали подготовки образцов должны быть доступны участникам после завершения раунда или по запросу, или в качестве части отчета о раунде по проверке квалификации.

Пример - Образцы вина, представленные участникам программы проверки квалификации для проверки его подлинности, могут быть закуплены непосредственно у изготовителя в указанном регионе или через коммерческого поставщика, способного обеспечить свидетельства подлинности.

11.3.4.1 По возможности рекомендуется проводить подтверждающие испытания или измерения, особенно если использование образца может привести к его загрязнению. Например, образец, идентифицированный как экземпляр одного вида микроорганизмов, растений или животных, как правило, должен быть проверен на наличие отклика для других соответствующих видов. Такие испытания должны быть по возможности максимально чувствительными, чтобы гарантировать либо отсутствие загрязняющих видов, либо количественное определение уровня загрязнения.

11.3.4.2 Провайдер должен предоставить информацию о каких-либо обнаруженных загрязнениях или сомнениях о происхождении образца, которые могут поставить под угрозу его использование.

Примечание - Более подробное описание таких образцов выходит за рамки области применения настоящего стандарта.

 

11.3.5 В качестве приписанного значения для результатов по категориальной или порядковой шкале может быть использована мода (наиболее частое наблюдение), для результатов на порядковой шкале в качестве приписанного значения также может быть использована медиана. При использовании этих статистик в отчет о раунде проверки квалификации следует включать указание доли результатов, использованных при выборе приписанного значения. Нецелесообразно рассчитывать средние значения или стандартные отклонения для результатов проверки квалификации для качественных показателей, в том числе для порядковых значений, поскольку для этих величин неприменимы арифметические операции.

11.3.6 Если приписанные значения определяют на основе измеримых величин (например, наличие или отсутствие), то приписанное значение обычно может быть определено достаточно точно, то есть с низкой неопределенностью. Статистические расчеты при определении неопределенности могут быть применены для уровней измеряемой величины как "неопределенный" или "сомнительный".

11.4 Оценка функционирования и определения индексов для качественных показателей

11.4.1 Оценка работы участников в программе проверки квалификации, использующей качественные показатели, частично зависит от характера требуемого отчета. В некоторых программах проверки квалификации, где требуется значимое количество оценок участников и выводы должны быть тщательно проанализированы и точно сформулированы, отчеты участников могут быть переданы экспертам для общей оценки и направлены для общего учета. С другой стороны, для оценки работы участника иногда достаточно выяснить, насколько точно его результаты совпадают с приписанным значением для соответствующего образца проверки квалификации. Ниже приведены рекомендации относительно оценки функционирования и определения индексов для целого ряда обстоятельств.

11.4.2 Для экспертной оценки отчетов участников требуется один или несколько экспертов для анализа каждого отчета участника для каждого образца и назначения оценки или индекса функционирования. В такой программе проверки квалификации провайдер должен гарантировать:

- что конкретный участник эксперту неизвестен, в частности отчет не должен включать информацию, по которой эксперт может идентифицировать участника;

- анализ, маркировка и оценка функционирования соответствуют ранее установленным критериям и по возможности соответствующим целям:

- положения 11.3.2 в отношении согласованности между экспертами выполнены;

- при необходимости для участника предусмотрена возможность обжалования мнения конкретного эксперта и/или проведения повторного анализа заключений вблизи важных границ функционирования.

11.4.3 При наличии единственного зафиксированного результата качественного показателя на основе приписанного значения могут быть использованы две системы определения индекса:

i) каждый результат считают приемлемым (или успешным), если он точно совпадает с приписанным значением, и неприемлемым, имеющим неблагоприятный индекс функционирования, в противном случае.

Пример - В программе проверки квалификации при определении наличия или отсутствия загрязняющего вещества правильному результату присваивают единицу, а неверному - нуль;

ii) результаты, точно совпадающие с приписанным значением, считают приемлемыми, и им присваивают соответствующий индекс, результатам, не точно совпадающим с приписанным значением, присваивают индекс, который зависит от особенностей несоответствия. Такая система должна присваивать более низкие индексы более хорошей работе для согласования такой системы с другими типами индексов (например, z-индексы, PA-индексы, ГОСТ Р 50779.60-2017 (ИСО 13528:2015). Национальный стандарт Российской Федерации. Статистические методы. Применение при проверке квалификации посредством межлабораторных испытаний и En).

Пример 1 - В программе проверки квалификации при оценке клинической патологии провайдер присваивает оценку 0 для абсолютно точной идентификации микробиологического вида, оценку 1 для неверного результата с правильным лечением (например, при идентификации другого микробиологического вида с правильным и аналогичным лечением) и оценку 3 для неверной идентификации, приводящей к неправильному лечению пациента. Эта система оценок, как правило, требует экспертной оценки характера несоответствий, по возможности полученной до присвоения оценки.

Пример 2 - В программе проверки квалификации, в которой возможны шесть ранжированных ответов, соответствующему присваивают индекс 0, и индекс увеличивается на 2 для каждого следующего значения из возможных шести (так, ближайший результат к приписанному значению имеет индекс 2).

Участникам должны быть предоставлены их индивидуальные индексы функционирования для каждого образца. При репликациях наблюдений могут быть представлены суммарные индексы для каждого результата.

11.4.4 Если для каждого образца зафиксировано несколько результатов репликаций или если каждому участнику предоставлено несколько образцов, провайдер может рассчитать и использовать комбинированные индексы функционирования или суммарный индекс. Комбинированные или суммарные индексы функционирования могут быть вычислены, например, в виде:

- суммы всех индексов для всех образцов;

- суммы для каждого назначенного уровня функционирования;

- доли правильных результатов;

- метрического расстояния, определенного на основе разностей результатов и приписанных значений.

Пример - В качестве метрического расстояния иногда используют такую статистику для качественных данных, как коэффициент Гауэра [12]. Она позволяет объединить количественные и качественные данные на основе объединения аналогичных индексов. Для категоризированных или бинарных данных индекс равен 1 в случае точного соответствия категории и 0 в противоположном случае; для порядковых данных индекс равен 1 минус разность рангов, деленная на количество имеющихся рангов; для интервальной шкалы или шкалы отношений индекс равен 1 минус абсолютная величина разности, деленная на наблюдаемый размах всех значений. Эти индексы находятся в интервале от 0 до 1, их суммируют и используют сумму, деленную на количество используемых переменных. Также может быть применен вариант с использованием весовых коэффициентов.

Комбинированные индексы функционирования можно рассматривать как общую оценку функционирования лаборатории. Например, работу можно считать приемлемой при наличии установленной доли (как правило, высокой) правильных результатов, если это соответствует целям программы проверки квалификации.

11.4.5 Для предоставления участникам информации об их работе могут быть использованы графические методы или представлены общие данные в отчете по раунду.

Примечание - Пример анализа порядковых данных приведен в E.15 приложения E.