ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения
8.2 Функциональные возможности (functionality) СИИ. Метрики
8.2.1 Для оценки функциональных возможностей СИИ рекомендуется применять следующий набор субхарактеристик: функциональная пригодность (functional appropriateness), функциональная корректность (правильность) (functional correctness), согласованность (compliance), функциональная полнота (functional completeness), способность к самообучению (ability to learn).
8.2.2 Метрики функциональной полноты (functional completeness) используются для оценки степени покрытия совокупностью функций СИИ всех определенных задач и целей пользователя в условиях отсутствия предвзятости (необъективности) СИИ (см. таблицу 4).
Таблица 4
Примеры метрик оценки функциональной полноты
Наименование метрики | Формула | Измеряемый диапазон |
Полнота реализации функций |
где A - количество недостающих или неправильно реализованных функций, обнаруженных при оценивании; B - количество функций, описанных в технической и эксплуатационной документации |
8.2.3 Метрики функциональной корректности (правильности) (functional correctness) используются для оценки обеспечения СИИ степени точности результатов, а также частоты встречаемости ошибок и недопустимых отклонений (см. таблицу 5).
Таблица 5
Примеры метрик оценки функциональной корректности
Наименование метрики | Формула | Измеряемый диапазон |
Результативность |
где A - количество результатов с отличным от требуемого уровнем точности; B - общее количество результатов | |
В задачах регрессии | ||
Средняя квадратичная ошибка |
где y - выходные данные СИИ;
N - количество результатов работы СИИ | MSE >= 0 |
Средняя абсолютная ошибка |
где y - выходные данные СИИ;
N - количество результатов работы СИИ | MAE >= 0 |
В задачах классификации и обнаружения | ||
Доля правильных исходов (accuracy) |
где TP - количество истинно положительных исходов; TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов | |
Точность (precision, relevance) |
где TP - количество истинно положительных исходов; FP - количество ложно положительных исходов | |
Чувствительность, полнота (sensitivity, recall) |
где TP - количество истинно положительных исходов; FN - количество ложно отрицательных исходов | |
Избирательность (specificity) |
где TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов | |
F-мера |
где TP - количество истинно положительных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов | |
Площадь под кривой ROC |
где ROC-кривая - график зависимости чувствительности от избирательности; Se - чувствительность; Sp - избирательность; TP - количество истинно положительных исходов; TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов | |
Площадь под кривой PRC |
где PRC-кривая - график зависимости точности от чувствительности (полноты); Pr - точность; Se - чувствительность (полнота); TP - количество истинно положительных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов | |
В задачах ранжирования | ||
Приведенная суммарная эффективность |
где N - количество ранжированных элементов; reli - оценка релевантности i-го элемента в ранжированном списке; RELN - список релевантных элементов, упорядоченных по степени релевантности | |
В задачах восстановления (синтеза и реконструкции) изображений | ||
Пиковое отношение сигнал/шум |
Emax = 2B - 1,
где B - разрядность (глубина квантования); Emax - максимальное значение яркости (интенсивности сигнала); I - выходные данные СИИ;
K - количество каналов (например, для монохромных изображений K = 1, в модели RGB K = 3) | - |
Индекс структурного сходства |
где I - выходные данные СИИ;
C1, C2, C3 - константы, которые следует вводить для предотвращения деления на ноль;
|
8.2.4 Метрики функциональной пригодности (functional appropriateness) используются для оценки степени функционального упрощения выполнения определенных задач и достижения целей. Например, для решения задачи пользователю предоставляется возможность выполнять только необходимые шаги, исключая любые ненужные (см. таблицу 6).
Таблица 6
Примеры метрик оценки функциональной целесообразности
Наименование метрики | Формула | Измеряемый диапазон |
Степень автоматизации |
где A - количество шагов, выполняемых СИИ без привлечения пользователя, при реализации конкретной процедуры; B - общее количество шагов при выполнении заданной процедуры |
8.2.5 Метрики способности к самообучению (ability to learn) используются для оценки уровня владения СИИ умением автоматически извлекать знания из накопленного опыта и применять их для улучшения качества решения поставленных задач.