ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения

8.2 Функциональные возможности (functionality) СИИ. Метрики

8.2.1 Для оценки функциональных возможностей СИИ рекомендуется применять следующий набор субхарактеристик: функциональная пригодность (functional appropriateness), функциональная корректность (правильность) (functional correctness), согласованность (compliance), функциональная полнота (functional completeness), способность к самообучению (ability to learn).

8.2.2 Метрики функциональной полноты (functional completeness) используются для оценки степени покрытия совокупностью функций СИИ всех определенных задач и целей пользователя в условиях отсутствия предвзятости (необъективности) СИИ (см. таблицу 4).

Таблица 4

Примеры метрик оценки функциональной полноты

Наименование метрики

Формула

Измеряемый диапазон

Полнота реализации функций

, (9)

где A - количество недостающих или неправильно реализованных функций, обнаруженных при оценивании;

B - количество функций, описанных в технической и эксплуатационной документации

8.2.3 Метрики функциональной корректности (правильности) (functional correctness) используются для оценки обеспечения СИИ степени точности результатов, а также частоты встречаемости ошибок и недопустимых отклонений (см. таблицу 5).

Таблица 5

Примеры метрик оценки функциональной корректности

Наименование метрики	Формула	Измеряемый диапазон
Результативность	, (10) где A - количество результатов с отличным от требуемого уровнем точности; B - общее количество результатов
В задачах регрессии
Средняя квадратичная ошибка	, (11) где y - выходные данные СИИ; - эталонные (референсные) выходные данные; N - количество результатов работы СИИ	MSE >= 0
Средняя абсолютная ошибка	, (12) где y - выходные данные СИИ; - эталонные (референсные) выходные данные; N - количество результатов работы СИИ	MAE >= 0
В задачах классификации и обнаружения
Доля правильных исходов (accuracy)	, (13) где TP - количество истинно положительных исходов; TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов
Точность (precision, relevance)	, (14) где TP - количество истинно положительных исходов; FP - количество ложно положительных исходов
Чувствительность, полнота (sensitivity, recall)	, (15) где TP - количество истинно положительных исходов; FN - количество ложно отрицательных исходов
Избирательность (specificity)	, (16) где TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов
F-мера	, (17) , , где TP - количество истинно положительных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов
Площадь под кривой ROC	, , (18) , где ROC-кривая - график зависимости чувствительности от избирательности; Se - чувствительность; Sp - избирательность; TP - количество истинно положительных исходов; TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов
Площадь под кривой PRC	, , (19) , где PRC-кривая - график зависимости точности от чувствительности (полноты); Pr - точность; Se - чувствительность (полнота); TP - количество истинно положительных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов
В задачах ранжирования
Приведенная суммарная эффективность	, , (20) , где N - количество ранжированных элементов; rel_i - оценка релевантности i-го элемента в ранжированном списке; REL_N - список релевантных элементов, упорядоченных по степени релевантности
В задачах восстановления (синтеза и реконструкции) изображений
Пиковое отношение сигнал/шум	, , (21) E_max = 2^B - 1, где B - разрядность (глубина квантования); E_max - максимальное значение яркости (интенсивности сигнала); I - выходные данные СИИ; - эталонные (референсные) выходные данные; K - количество каналов (например, для монохромных изображений K = 1, в модели RGB K = 3)	-
Индекс структурного сходства	, , (22) где I - выходные данные СИИ; - эталонные (референсные) выходные данные; , , - весовые коэффициенты для каждого показателя, по умолчанию принимаются равными 1; C₁, C₂, C₃ - константы, которые следует вводить для предотвращения деления на ноль; и - среднее и среднеквадратическое отклонение выходных данных СИИ соответственно; и - среднее и среднеквадратическое отклонение эталонных выходных данных соответственно

8.2.4 Метрики функциональной пригодности (functional appropriateness) используются для оценки степени функционального упрощения выполнения определенных задач и достижения целей. Например, для решения задачи пользователю предоставляется возможность выполнять только необходимые шаги, исключая любые ненужные (см. таблицу 6).

Таблица 6

Примеры метрик оценки функциональной целесообразности

Наименование метрики

Формула

Измеряемый диапазон

Степень автоматизации

, (23)

где A - количество шагов, выполняемых СИИ без привлечения пользователя, при реализации конкретной процедуры;

B - общее количество шагов при выполнении заданной процедуры

8.2.5 Метрики способности к самообучению (ability to learn) используются для оценки уровня владения СИИ умением автоматически извлекать знания из накопленного опыта и применять их для улучшения качества решения поставленных задач.