БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

5.2 Метрики робастности, имеющиеся в распоряжении статистических методов

5.2.1 Общие положения

В настоящем пункте представлена справочная информация о доступных статистических показателях, которые обычно применяют к выходу нейронных сетей. Здесь приведено описание целей робастности с использованием шага 1 на рисунке 1. Цели робастности должны быть четко определены. Например, простая формулировка, такая как "обученная нейронная сеть должна быть робастной к входным данным, отличным от тех, на которых она была обучена", является недостаточно четко определенной. В зависимости от входных данных нейронная сеть может полностью соответствовать или вовсе не соответствовать этой целевой функции. С одной стороны, нейронная сеть может быть полностью робастной к входным данным, которые следуют распределению, отличному от исходных обучающей и тестовой выборок, но остаются в пределах области определения. С другой стороны, вполне возможна нейронная сеть, которая вообще не соответствует требованиям, если входные данные находятся в совершенно другой области определения, чем те, на которых она была обучена.

Следовательно, целевая функция робастности должна быть сформулирована в достаточной степени, чтобы можно было определить робастность нейронной сети.

Пример четко поставленной цели (структурированной из трех частей) выглядит следующим образом:

- нейронная сеть должна быть устойчивой к входным данным, отличным от тех, на которых она была обучена;

- предполагается, что входные данные относятся к одной области и могут включать как физически реализуемые, так и гипотетические;

- показатели, которые могут быть использованы, включены в 5.2.2.

В зависимости от задачи, решаемой системой ИИ (например, классификация, интерполяция/регрессия), возможны различные статистические метрики. В настоящем подразделе описаны общие статистические метрики и способ их вычисления. Список не является исчерпывающим, и некоторые из этих показателей совместимы с другими задачами. Их можно использовать как отдельно, так и в комбинации. В зависимости от применения существует также множество метрик, специфичных для конкретной задачи [например, BLEU, TER или METEOR для машинного перевода, отношение пересечений и объединений (intersection over union) для обнаружения объектов на изображениях или средняя точность (mean average precision) для качественного ранжированного поиска], но их описание выходит за рамки настоящего стандарта.

5.2.2 Примеры метрик эффективности для интерполяции

5.2.2.1 Среднеквадратичная ошибка или среднеквадратичное отклонение

Среднеквадратичная ошибка (RMSE) - это стандартное отклонение остатков (ошибок прогнозирования). Ошибки прогнозирования - это показатель того, насколько далеко от линии регрессии находятся точки данных, а RMSE - это показатель разброса остатков.

5.2.2.2 Максимальная ошибка

Максимальная ошибка (max error) - это абсолютная или относительная метрика, вычисляющая значение в исходных данных и соответствующее значение в прогнозе системы ИИ. Абсолютная максимальная ошибка - это максимальная разность между значением в исходных данных и соответствующим значением в прогнозе системы ИИ. Относительная максимальная ошибка - это отношение абсолютной максимальной ошибки к реально измеренному значению.

5.2.2.3 Фактическая и прогнозируемая корреляции

Фактическая/прогнозируемая корреляция (actual/predicted correlation) - это линейная корреляция (в статистическом смысле) между фактическими значениями и прогнозируемыми значениями для каждого значения, рассматриваемого в наборе.

5.2.3 Примеры показателей эффективности для классификации

5.2.3.1 Общие понятия и связанные с ними базовые метрики

Набор образцов может иметь следующие характеристики:

- общая совокупность (total population): общее количество образцов в данных;

- положительные образцы (condition positive, CP): количество реальных положительных образцов в данных;

- отрицательные образцы (condition negative, CN): количество реальных отрицательных образцов в данных;

- положительный прогноз (prediction positive, PP): количество образцов, классифицированных как положительные;

- отрицательный прогноз (prediction negative, PN): количество образцов, классифицированных как отрицательные;

- распространенность (prevalence): доля определенного класса в общем количестве образцов.

Каждый экземпляр в наборе образцов классифицируется системой классификации по одному из следующих принципов:

- истинно положительный экземпляр (TP, попадание): экземпляр принадлежит классу и прогнозируется как принадлежащий классу;

- истинно отрицательный экземпляр (TN, правильный отказ): экземпляр не принадлежит классу и прогнозируется как не принадлежащий классу;

- ложноположительный экземпляр (FP, ложная тревога, ошибка типа I): экземпляр не принадлежит классу и прогнозируется как принадлежащий классу;

- ложноотрицательный экземпляр (FN, промах, ошибка типа II): экземпляр принадлежит классу и прогнозируется как не относящийся к классу.

Несколько метрик построены на основе этих выборочных характеристик, как представлено в таблице 1:

- доля истинно положительных результатов (true positive rate, TPR), чувствительность (sensitivity): доля истинно положительных результатов (также известная как чувствительность, полнота или вероятность обнаружения) указывает на долю объектов, правильно классифицированных как положительные, в общем количестве действительно положительных объектов;

- доля истинно отрицательных результатов (true negative rate, TNR), специфичность (specificity): доля истинно отрицательных результатов (также известная как специфичность или избирательность) указывает долю объектов, правильно классифицированных как отрицательные, в общем количестве отрицательных объектов;

- доля ложноположительных результатов (false positive rate, FPR): доля ложноположительных результатов (также известная как выпадение или вероятность ложной тревоги) указывает долю объектов, ошибочно классифицированных как положительные, которые являются отрицательными. Таким образом задается вероятность ложной тревоги;

- доля ложноотрицательных результатов (false negative rate, FNR): доля ложноотрицательных результатов (также известная как доля промахов) указывает на долю объектов, ложно классифицированных как отрицательные, в общем количестве положительных объектов;

- достоверность (accuracy, ACC): достоверность указывает долю всех правильно классифицированных объектов;

- положительная прогностическая ценность (positive predictive value, PPV): положительная прогностическая ценность (также известная как точность или релевантность) указывает долю результатов, правильно классифицированных как положительные среди общего числа результатов, классифицированных как положительные;

- отрицательная прогностическая ценность (negative predictive value, NPV): отрицательная прогностическая ценность (также известная как способность разделения) указывает долю результатов, правильно классифицированных как отрицательные среди общего числа результатов, классифицированных как отрицательные;

- коэффициент ложного обнаружения (false discovery rate, FDR): коэффициент ложного обнаружения указывает соотношение ошибочно отклоненных нулевых гипотез (ложные срабатывания, ложные тревоги, ошибки типа I) к общему количеству отклоненных нулевых гипотез (положительные результаты прогнозирования);

- коэффициент ложных пропусков (false omission rate, FOR): коэффициент ложных пропусков указывает на соотношение ошибочно отклоненных ложных отрицательных результатов к общему количеству прогнозируемых отрицательных результатов;

- отношение положительного правдоподобия RL+ (likelihood relation RL+): положительное отношение правдоподобия указывает отношение истинных положительных результатов к количеству ложноположительных результатов;

- отношение отрицательного правдоподобия RL- (likelihood relation RL-): отношение отрицательного правдоподобия указывает отношение ложноотрицательных результатов к количеству истинно отрицательных результатов;

- диагностическая вероятность (diagnostic odds rate, DOR): указывает отношение вероятности истинных положительных результатов к вероятности ложных положительных результатов и не зависит от распространенности.

 

Таблица 1

 

Характеристики выборки и соответствующие базовые показатели,

построенные на их основе

 

 

Истинные

 

 

Вся популяция, общее количество

Положительные образцы CP

Отрицательные образцы CN

Распространенность

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Достоверность

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Предсказанные

Положительные образцы

Истинно положительные экземпляры TP

Мощность

Ложноположительные экземпляры FP

Ошибка I рода

Положительная прогностическая ценность VP+

Точность, релевантность

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Доля ложных открытий

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Отрицательные образцы

Ложноотрицательные экземпляры FN

Ошибка II рода

Истинно отрицательные экземпляры TN

Коэффициент ложных пропусков

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Отрицательная прогностическая ценность

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

 

Доля истинно положительных результатов RT+

Чувствительность, полнота

Вероятность определения

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Доля ложноположительных результатов RF+

fall-out, вероятность ложной тревоги

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Отношение положительного правдоподобия RL+

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Диагностическая вероятность

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Оценка F1

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Доля ложноотрицательных результатов RF-

Доля промахов,

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Доля истинно отрицательных результатов RT-

Специфичность, избирательность

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

Отношение отрицательного правдоподобия RL-

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

 

где NT+ - количество истинных положительных результатов;

NT- - количество истинных отрицательных значений;

NF+ - количество ложноположительных результатов;

NF- - количество ложноотрицательных результатов;

NC+ - число положительных условий;

NC- - число отрицательных условий;

Ptot - общее количество наблюдений;

NP+ - число положительных прогнозов;

NP- - число отрицательных прогнозов;

RT+ - доля истинно положительных результатов;

RT- - доля истинно отрицательных результатов;

RF+ - доля ложноположительных результатов;

RF- - доля ложноотрицательных результатов;

RL+ - отношение положительного правдоподобия;

RL- - отношение отрицательного правдоподобия;

VP+ - величина положительной прогностической ценности.

В таблице 1 представлено обобщенное представление характеристик и показателей выборки, описанных в настоящем подразделе. Все эти выборочные характеристики и метрики применимы в первую очередь к бинарной классификации, но также имеют обобщенные определения в многоклассовых случаях и случаях со множественными метками.

5.2.3.2 Расширенные метрики

Кривая точности - полноты

Пары метрик "точность/полнота" вычисляют при разных пороговых значениях вывода. Пары "точность/полнота" отражают компромиссы между точностью и полнотой, когда эти метрики используют для оценки робастности.

Рабочая характеристика приемника (ROC)

Кривая ROC (Receiver operating characteristic) представляет собой график зависимости пропорции истинно положительных результатов в зависимости от пропорции ложноположительных результатов при различных настройках гиперпараметров (например, порога принятия решения).

ROC отражает компромисс между долями истинно положительных и ложноположительных показателей, когда эти показатели используют для оценки робастности. Кривые ROC применяют, когда один показатель связан со значительными затратами или преимуществами при оценке робастности, например: в области медицины, где ложные диагнозы могут приводить к критическим последствиям.

5.2.3.3 Подъем (lift)

Метрика подъема - это мера, сравнивающая относительную эффективность системы прогнозирования с другой контрольной группой (обычно выбираемой случайным образом).

5.2.3.4 Площадь под кривой

Площадь под кривой измеряет интеграл кривой рабочих характеристик приемника ROC, которая представляет эффективность модели для каждого порога классификации. Кривая ROC показывает долю истинных положительных результатов относительно доли ложноположительных результатов.

5.2.3.5 Сбалансированная достоверность

Сбалансированная достоверность (balanced accuracy) - это средняя полнота, полученная по каждому классу [12].

5.2.3.6 Микроусреднение и макроусреднение

В случаях несбалансированных наборов данных такие показатели, как точность или полнота, рассчитанные для всего набора данных, иногда дезориентируют. Возможной стратегией для решения этой проблемы является вычисление метрики макроусреднения, которая представляет собой среднее значение показателя, вычисленного для каждого класса отдельно, вместо метрики микроусреднения, которую используют стандартным вычислением без разделения классов [13].

5.2.3.7 Коэффициент корреляции Мэтьюза

Коэффициент корреляции Мэтьюза (Matthews correlation coefficient, MCC) - это мера по набору классификаций (предсказаний). Его диапазон лежит в пределах [-1,+1], в котором +1 представляет точное предсказание, -1 - противоположное предсказание, а 0 - среднее предсказание. Следует отметить, что эта метрика обобщается в тех случаях, когда классы не сбалансированы в исходных данных (то есть значение MCC равно 0 для случайного классификатора на N классах, даже если точность этого классификатора отличается от 1/N) [14], [15].

Коэффициент корреляции Мэтьюза MCC вычисляют по формуле

 

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор, (1)

 

где NT+ - количество истинных положительных результатов;

NT- - количество истинных отрицательных значений;

NF+ - количество ложноположительных результатов;

NF- - количество ложноотрицательных результатов.

5.2.3.8 Матрица ошибок и связанные метрики

Матрица ошибок (confusion matrix) позволяет провести подробный анализ эффективности классификатора и помочь обойти или выявить слабые места отдельных метрик, поскольку она обеспечивает более четкий и всесторонний анализ эффективности классификатора. Напротив, использование матрицы ошибок в качестве единственной меры эффективности классификатора недостаточно информативно для проведения этого анализа, так как оно не указывает, какие классы наиболее распознаются или какой тип ошибок совершает классификатор.

Матрица ошибок C представляет собой квадратную матрицу, где запись Cr,c в строке r и столбце c - это количество экземпляров, принадлежащих к классу или категории r, которые классифицируют как принадлежащие к классу c.

Матрицы ошибок включают количество истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов: на их основе можно рассчитать такие метрики, как достоверность, полнота по классам и точность. Из элементов матрицы ошибок могут быть получены дополнительные метрики, такие как энтропия гистограммы, представленная матрицей.

5.2.4 Другие меры

5.2.4.1 Кусочно-линейная функция потерь

Кусочно-линейная функция потерь (hinge loss) - верхняя граница количества ошибок, сделанных классификатором. В общем случае для классификации с несколькими классами дистанцию до границы вычисляют методом Краммера - Зингера [16].

5.2.4.2 Каппа Коэна

Каппа Коэна - это мера согласия между экспертами, выполняющими такую же задачу, как и оцениваемая система ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор, вычисляемая по формуле

 

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор, (2)

 

где po - априорная вероятность согласованности меток на любой выборке в наблюдаемых данных;

pe - ожидаемое согласие, когда каждый из двух экспертов присваивает метки независимо и в соответствии с собственными измеренными априорными распределениями с учетом эмпирических данных.

Эта мера полезна, когда не обязательно существует золотой стандарт оценки, например когда метки, предоставленные человеком, также являются неточными или когда таких меток не существует, и для сравнения доступны только автоматизированные методы.

В основном эту меру используют для оценки качества данных после сделанных человеком аннотаций (подверженных ошибкам), но ее также применяют в качестве вспомогательного метода оценки, когда метки отсутствуют, путем сравнения двух классификаторов друг с другом.