БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ ISO 12099-2017. Межгосударственный стандарт. Корма, зерно и продукты его переработки. Руководство по применению спектрометрии в ближней инфракрасной области

Приложение C

(справочное)

 

ДОПОЛНИТЕЛЬНЫЕ ТЕРМИНЫ И ОПРЕДЕЛЕНИЯ

 

C.1 Общие положения

C.1.1 стандартный (контрольный) метод (reference method): Проверенный метод анализа, признанный экспертами на международном уровне или принятый по согласованию сторон.

Примечания

1 Стандартный (контрольный) метод дает "истинное значение" или "приписанное значение" измеряемой величины.

2 Взято из ISO 8196-1/IDF 128-1:2009 [23], 3.1.2.

 

C.1.2 непрямой (косвенный) метод (indirect method): Метод, с помощью которого измеряют свойства, функционально связанные с параметром, который необходимо определить, и который связан с "истинным" значением, определенным стандартным методом.

C.1.3 спектроскопия в ближней инфракрасной области (ИК-спектроскопия) (near infrared spectroscopy; NIRS): Измерение интенсивности поглощения ближнего инфракрасного света пробой в пределах диапазона длин волн от 770 до 2 500 нм (от 12 900 до 4 000 см-1).

Примечание - ИК-анализаторы используют или всю область в целом, или отдельные диапазоны этой области (например, от 400 до 2 500 нм). Методы многофакторной градуировки используются для того, чтобы соотнести комбинацию значений поглощающей способности либо с составом, либо с определенным свойством проб.

 

C.1.4 отражательная способность в ближней ИК-области спектра (near infrared reflectance; NIR): тип ИК-спектроскопии, основанный на измерении поглощения света ближней ИК-области, диффузно-отраженного от поверхности пробы и попавшего на детектор, расположенный перед пробой.

C.1.5 пропускающая способность в ближней ИК-области спектра (near infrared transmittance; NIT): Тип ИК-спектроскопии, основанный на измерение поглощения света ближней ИК-области, прошедшего через пробу и попавшего на детектор, расположенный за пробой.

C.1.6 сеть ИК-анализаторов (NIRS network): Ряд ИК-анализаторов, работающих по одинаковым моделям градуировки, которые обычно стандартизуют таким образом, чтобы свести к минимуму разности в прогнозируемых значениях для выборки стандартных проб.

C.1.7 стандартизация прибора (standardization of an instrument): Процесс, посредством которого группу ИК-анализаторов отлаживают таким образом, чтобы они прогнозировали одинаковые значения при работе по одной и той же градуировочной модели на одной и той же пробе.

Примечание - Можно использовать ряд методов, которые должны в широком смысле определяться либо как методы "пред-прогноза", в которых спектры проб регулируют таким образом, чтобы свести к минимуму разности между откликом "ведущего" прибора и каждого прибора в группе, и методы "пост-прогноза", в которых используется линейная регрессия для регулирования прогнозируемых значений, полученных на каждом приборе, чтобы сблизить их, по возможности, со значениями, полученными на "ведущем" анализаторе.

 

C.1.8 z-показатель (z-score): Критерий эффективности, вычисленный путем деления разности (между прогнозируемым результатом в ближней ИК-области спектра и истинным или приписанным значением) на целевое значение стандартного отклонения [обычно стандартного отклонения для оценки эффективности (опытности персонала)].

Примечание - Это стандартизованный критерий лабораторной систематической погрешности, рассчитанный по приписанному значению и стандартному отклонению для оценки эффективности.

 

C.2 Техника градуировки

C.2.1 анализ основных компонентов (principal component analysis; PCA): Форма обработки данных, которая для выборки работает только с x (спектральными) данными и находит основные компоненты (факторы) по правилу, в котором каждый основной компонент (PC = principal component) выражает максимальное изменение в данных в любой момент и не коррелирует с любым другим PC.

Примечание - Первоначальный PC выражает, по возможности, изменчивость исходных данных. Его значение затем вычитают из x-данных, и новый выведенный PC снова максимально выражает изменчивость оставшихся данных. Можно вывести столько PC, сколько имеется элементов данных в спектре или проб в выборке, но главные эффекты в спектрах, как можно показать, сосредоточены в нескольких первых PC и поэтому количество данных, которые необходимо рассмотреть, заметно сокращается.

 

PCA дает два новых набора переменных на каждом этапе: PC-метки представляют отклик каждой пробы на каждый PC; PC-загрузки представляют относительную важность каждого элемента данных в исходных спектрах для PC.

PCA широко используется, например, в интерпретации спектров, особенно в идентификации спектральных выбросов.

C.2.2 регрессия основных компонентов (principal component regression PCR): техника, которая использует метки на каждом основном компоненте в качестве независимых переменных в множественной линейной регрессии против y-значений, представляющих состав проб.

Примечание - Поскольку каждый PC ортогонален каждому другому PC, метки образуют некоррелируемый набор данных с лучшими свойствами, чем исходные спектры. Пока возможно выбрать комбинацию PC для регрессии на основе того, насколько хорошо каждый PC коррелирует с рассматриваемым компонентом, большинство коммерческих программ заставляет регрессию использовать все PC вплоть до самого высокого PC, выбранного для модели ("нисходящий принцип").

 

При использовании в NIRS, коэффициенты регрессии в пространстве PC обычно конвертируют обратно в модель прогнозирования, используя все элементы данных в пространстве длин волн.

C.2.3 регрессия методом дробных наименьших квадратов (partial least squares regression; PLS): Форма обработки данных, которая использует правило вывода факторов, состоящее в разрешении каждого фактора по очереди, чтобы максимизировать ковариацию между y-данными и всеми возможными линейными комбинациями x-данных

Примечание - PLS - это баланс между дисперсией и корреляцией, причем на каждый фактор воздействуют оба эффекта. Факторы PLS поэтому в большей степени связаны напрямую с изменчивостью y-значений, чем основные компоненты. PLS дает три новых переменных, вводимые веса (которые не ортогональны друг другу), загрузки и метки, которые одинаково ортогональны.

 

Модели PLS получают посредством регрессии меток PLS против y-значений. Аналогично PCR, при использовании в NIRS, коэффициенты регрессии в пространстве PLS обычно конвертируются обратно в модель прогнозирования, используя все элементы данных в пространстве длин волн.

C.2.4 множественная линейная регрессия (multiple linear regression; MLR): Техника применения комбинации нескольких переменных x для прогнозирования одной переменной y.

Примечание - В NIRS, x-значения - это либо значения оптической плотности при выбранных длинах волн в ближней ИК-области, либо производные переменные, например, метки PCA или PLS.

 

C.2.5 искусственная нервная сеть (система) (artificial neural network; ANN): Техника нелинейного моделирования, основанная в общих чертах на архитектуре биологических нервных систем.

Примечание - Эту сеть сначала "обучают" посредством предоставления набора данных с несколькими x-значениями (спектральные или производные переменные, например, отметки PCA) и опорными y-значениями. В процессе обучения архитектура сети может быть модифицирована, и нейронам присвоены весовые коэффициенты для вводов и выводов, чтобы получить максимально надежные прогнозы значений параметров.

 

Нервные сети требуют большого количества данных при обучении.

C.2.6 многомерная модель (multivariate model): Любая модель, в которой некоторое количество x-значений используются для прогнозирования одной или нескольких y-переменных.

C.2.7 выброс (outlier): Член набора значений, который не согласуется с другими членами этого набора.

[ISO 5725-1:1994 [21], 3.21]

Примечание - Для данных NIRS выбросами являются точки в любом наборе данных, в отношении которых можно статистически показать, что их значения лежат далеко в стороне от ожидаемого. Выбросы обычно классифицируют либо как x-(спектральные) выбросы, либо как y-(опорные данные) выбросы.

 

C.2.8 x-выброс (x-outlier): Выброс, связанный с ближней ИК-областью спектра (NIR).

Примечание - x-выброс может появиться из спектра, полученного в результате неисправностей прибора или в зависимости от типа пробы, которая радикально отличается от других проб, или в прогнозе от типа пробы, не включенного в исходный градуировочный набор.

 

C.2.9 y-выброс (y-outlier): Выброс, связанный с погрешностью в исходных данных, например, ошибка в транскрипции или в значении, полученном метрологической лабораторией.

C.2.10 балансировка (leverage): Индикатор, указывающий на то, как далеко находится какая-либо проба от центра пространства множества, определенного моделью.

Примечание - Пробы с высокой балансировкой имеют большое влияние на модель. Балансировку рассчитывают посредством измерения расстояния между спроецированной точкой и центром модели.

 

C.2.11 расстояние Махаланобиса (Mahalanobis distance) глобальное h-значение (global h-value): Расстояние в пространстве PC между элементом данных и центром пространства PC.

Примечания

1 Расстояние Махаланобиса является нелинейным измерением. В пространстве PC набор проб обычно образует распределение в форме кривой. Эллипсоид, который наилучшим образом представляет вероятностное распределение набора, можно оценить посредством построения матрицы ковариаций проб.

Расстояние Махаланобиса - это просто расстояние точки измерения от центра массы, деленное на ширину эллипсоида в направлении этой точки измерения.

2 В некоторых программах расстояние Махаланобиса называют "глобальным h-значением", а выявление выброса зависит от того, на сколько стандартных отклонений h находится проба от центра.

 

C.2.12 окрестность h (neighbourhood h): Расстояние в пространстве основного компонента между элементом данных и ее n ближайшими соседями, которое показывает, является ли проба изолированной или она расположена в густо-населенной части распределения.

C.2.13 разность (residual): Разность между наблюдаемым значением результирующей (зависимой) переменной и соответствующим спрогнозированным значением этой переменной.

[ISO 3534-3:1999 [20], 1.21]

Примечание - Для данных NIRS разность представляет собой разность между опорным значением и значением, предсказанным регрессионной моделью. Разности используют для расчета регрессионных статистик.

 

C.2.14 спектральная разность (spectral residual): Разность после хемометрической обработки (например, PCA, PLS) спектра, возникший из спектрального изменения, не описанного данной моделью.

C.2.15 анализируемая выборка (test set): При испытании регрессионной модели, любой набор проб, который исключает те пробы, которые использовались при проведении градуировки.

C.2.16 независимая анализируемая выборка (independent test set): Выборка, которая включает пробы из другого географического региона, нового промышленного объекта или отобранные в более позднее время (например, из другого урожая), по сравнению с теми, которые использовались для создания и валидации регрессионной модели.

Примечание - Эти пробы образуют "истинный" критерий модели прогноза.

 

C.2.17 выборка для валидации (validation set): Пробы, используемые для валидации или "подтверждения" градуировки.

Примечание - Выборка для валидации обычно включает пробы, имеющие одинаковые характеристики с пробами, отобранными для градуировки. Зачастую альтернативные или n-ные пробы (расположенные в порядке рассматриваемых компонентов) помещают по очереди в выборку для градуировки и выборку для валидации из одной и той же совокупности проб.

 

C.2.18 выборка для мониторинга (monitoring set): Набор проб, который используется для повседневного контроля градуировочных моделей.

C.2.19 перекрестная проверка (с исключением) (cross-validation): Метод получения статистик прогноза; там, где систематически исключают подвыборку проб из градуировочного множества, рассчитывают модель на остающихся пробах и разностях, вычисленных на подвыборке для валидации; после неоднократного повторения этого процесса рассчитывают статистики прогноза по всем разностям.

Примечание - При полной перекрестной проверке исключают по одной пробе каждый раз, и процесс повторяют n раз (там где имеется n градуировочных проб). Там где исключают большее количество проб, цикл перекрестной проверки обычно повторяют не менее восьми раз, прежде чем статистики будут рассчитаны. В конечном итоге рассчитывают модель, используя все градуировочные пробы.

 

ВНИМАНИЕ! - В использовании перекрестной проверки с исключением имеются свои недостатки. Во-первых, статистики перекрестной проверки имеют тенденцию к оптимистичности при сопоставлении со статистиками для независимой выборки. Во-вторых, если имеется дублирование в градуировочных данных (например, одна и та же проба сканируется на нескольких приборах или в разное время), необходимо всегда относить все копии одной и той же пробы к одному и тому же сегменту перекрестной проверки, в противном случае получатся очень оптимистичные статистики.

C.2.20 чрезмерно близкая подгонка (overfitting): Добавление избыточного количества членов регрессии в множественную линейную регрессию.

Примечание - Результат чрезмерно близкой подгонки, когда прогнозируются пробы не в градуировочной выборке, заключается в том, что такие статистики как RMSEP или SEP будут заметно хуже, чем ожидается.

 

C.2.21 метка (score), график меток (score plot): График, в котором метка на одном основном компоненте (PC) или коэффициент дробных наименьших квадратов (PLS) наносятся против другого коэффициента PC или PLS.

Примечание - Метки наиболее полезны, если проба ID или значения концентрации используются для идентификации каждой точки на графике. Тогда будут видны группы среди данных, которые неочевидны среди необработанных данных.

 

C.3 Статистические выражения

См. также раздел 6.

C.3.1 систематическая погрешность, смещение (bias; ГОСТ ISO 12099-2017. Межгосударственный стандарт. Корма, зерно и продукты его переработки. Руководство по применению спектрометрии в ближней инфракрасной области): Разность между средним опорным значением, ГОСТ ISO 12099-2017. Межгосударственный стандарт. Корма, зерно и продукты его переработки. Руководство по применению спектрометрии в ближней инфракрасной области и средним значением, спрогнозированным ИК-моделью, ГОСТ ISO 12099-2017. Межгосударственный стандарт. Корма, зерно и продукты его переработки. Руководство по применению спектрометрии в ближней инфракрасной области).

C.3.2 доверительный предел смещения (bias confidence limit; BCL Tb): Граница, выше которой смещение значительно отличается от нуля на заданном доверительном уровне.

Примечание - См. 6.3.

 

C.3.3 стандартная ошибка градуировки (standard error of calibration; SEC, sSEC): Выражение средней разности между прогнозируемым и опорным значениями для проб, используемых для построения для градуировочной модели.

Примечание - Что касается определений C.3.4 - C.3.7, в данной статистике, такое выражение средней разности относится к корню квадратному из суммы квадратов значений разностей, деленному на число значений, скорректированных по степеням свободы, где 68% ошибок будут ниже этого значения.

 

C.3.4 стандартная ошибка перекрестной проверки (с исключением) (standard error of cross-validation; SECV, sSECV): Выражение средней разности между прогнозируемым и опорным значениями для подвыборки проб градуировочной модели, выбранных как прогнозируемые пробы в процессе перекрестной проверки (см. C.2.19)

C.3.5 стандартная ошибка прогноза (standard error of prediction) стандартная ошибка прогноза с поправкой на смещение (standard error of prediction corrected for the bias; SEP, SEP(C), sSEP): Выражение средней разности между прогнозируемым и опорным значениями, прогнозируемой регрессионной моделью, применительно к набору проб, не включенных в построение этой модели.

Примечание - SEP охватывает доверительный интервал 68% (умноженный на 1,96 интервал 95%).

 

C.3.6 среднеквадратическая ошибка прогноза (root mean square error of prediction; RMSEP sRMSEP): Выражение средней разности между опорными значениями и значениями, прогнозируемыми регрессионной моделью, применительно к набору проб, не включенных в построение этой модели.

Примечание - RMSEP включает любую систематическую погрешность в прогнозах.

 

C.3.7 среднеквадратическая ошибка перекрестной проверки (root mean square error of cross-validation; RMSECV, sRMSECV): Выражение средней разности между прогнозируемым и опорным значениями для подвыборки проб, выбранных в качестве проб для прогноза в процессе перекрестной проверки (см. C.2.19).

Примечание - RMSECV включает любую систематическую погрешность в прогнозах.

 

C.3.8 доверительный предел необъяснимой ошибки (unexplained error confidence limit; UECL, TUE): Предел, который SEP валидации должна расширить, чтобы значительно отличаться от стандартной ошибки градуировки в заданном доверительном интервале.

C.3.9 RSQ ГОСТ ISO 12099-2017. Межгосударственный стандарт. Корма, зерно и продукты его переработки. Руководство по применению спектрометрии в ближней инфракрасной области: Квадрат коэффициента множественной корреляции между прогнозируемыми и опорными значениями.

Примечание - При выражении в процентах он представляет долю изменчивости, объясняемую регрессионной моделью.

 

C.3.10 наклон (линия регрессии) (slope; b): Представление увеличения величины y с увеличением x.

C.3.11 отсекаемый отрезок (линия регрессии) (intercept): Значение y при x равном нулю.

C.3.12 стандартное отклонение разности (residual standard deviation; sres): Выражение средней величины разности между опорным и подобранным значениями после выполнения коррекции наклона и отсекаемого отрезка

C.3.13 ковариация (covariance; ГОСТ ISO 12099-2017. Межгосударственный стандарт. Корма, зерно и продукты его переработки. Руководство по применению спектрометрии в ближней инфракрасной области): Мера совместного изменения двух случайных переменных.

Примечание - Если для множества проб увеличение x находится в соответствии с увеличением y, тогда ковариация между этими двумя переменными будет положительной. Если увеличение x сопровождается соответствующим уменьшением y, тогда ковариация будет отрицательной. Если значения не коррелируют, то ковариация равна нулю.