ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения
7.2 Алгоритм оценки качества СИИ
Процедура оценки качества СИИ должна включать три основных этапа: подготовительные работы, тестирование и оценка показателей качества, анализ и интерпретация результатов тестирования.
7.2.1 Подготовительные работы
7.2.1.1 Подготовительные работы включают:
- установление целей и задач тестирования (испытаний);
- выбор (создание) испытательного стенда и оценка условий проведения тестирования;
- определение набора данных для тестирования и критерия выявления выбросов в данных;
- выбор и обоснование набора существенных характеристик и метрик их оценки;
- выявление и определение диапазона изменений значимых, наиболее существенных факторов (внешних воздействий), оказывающих влияние на работу СИИ;
- составление методики проведения тестирования (испытаний) и подготовка программы тестирования (испытаний) с указанием состава экспертной группы.
7.2.1.2 Перед проведением оценки качества СИИ необходимо удостовериться в отсутствии существенных различий между средой проведения тестирования и средой эксплуатации, т.е. убедиться, что потенциальные различия не влияют на надежность, валидность и репрезентативность результатов тестирования. Примеры представлены в таблице 3.
Таблица 3
Примеры различий между условиями тестирования и эксплуатации
N п/п | Потенциальные различия | Примеры |
1 | Различия между средой проведения тестирования и средой эксплуатации | Характеристики работы СИИ в тестовой среде выше/сопоставимы/ниже соответствующих характеристик в среде эксплуатации; производительность интерфейса пользователя тестовой среды выше/сопоставима/ниже производительности интерфейса среды эксплуатации; производительность ЦПУ тестового компьютера выше/сопоставима/ниже производительности ЦПУ эксплуатационного компьютера; климатические условия, условия освещенности, различные помеховые факторы, которые оказывают влияние на эффективность работы систем, использующих датчики, основанные на различных физических принципах; и т.п. |
2 | Различия между доступным функционалом при тестировании и эксплуатации | Охват функциональных возможностей; количество и репрезентативность наборов данных; уровень стрессовых нагрузок; длительность пребывания в рабочем режиме; степень использования ресурса; и т.п. |
3 | Различия между профилями пользователя при тестировании и эксплуатационными профилями пользователя | Уровни навыков пользователей; уровень подготовки пользователей (пользователи-специалисты или средние пользователи); квалификация пользователей |
7.2.1.3 При создании требуемых условий тестирования необходимо выделить значимые, наиболее существенные факторы (внешние воздействия), оказывающие влияние на работу СИИ. Для каждого существенного фактора требуется установить диапазон возможных изменений (закон распределения) с целью воспроизведения во время тестирования СИИ.
7.2.1.4 Задача выявления значимых, наиболее существенных факторов является одной из важных при классификации условий эксплуатации и решается путем:
- сбора априорной информации и проведения анализа имеющихся теоретических и экспериментальных данных о внешних воздействиях и режимах функционирования СИИ в реальных условиях применения;
- определения функциональной связи между воздействующими факторами (в том числе параметрами нагруженности) и характеристиками (субхарактеристиками).
7.2.2 Тестирование и оценка показателей качества
7.2.2.1 Для каждой характеристики из набора существенных характеристик СИИ определяют метрики, позволяющие количественно оценить качество СИИ на определенной стадии жизненного цикла. Интегральный(ые) показатель(и) качества, используемый в процессе разработки, должен быть соотнесен с соответствующими показателями качества пользователя.
7.2.2.2 Для каждой пары "показатель качества и метрика" должна быть установлена шкала и критерии оценки (например, базовое значение и предельно допустимое отклонение).
7.2.2.3 После проведения тестирования полученное значение метрики (показателя качества) нормируется (в случае, если используются не все метрики) таким образом, чтобы диапазон возможных значений лежал на интервале от 0 до 1, причем, чем ближе к 1, тем ближе полученное значение к базовому значению показателя качества, и равно 1 при их совпадении.
7.2.2.4 Вычисление интегрального показателя качества выполняют в следующем порядке:
Для каждой j-й метрики mj задается весовой коэффициент . Сумма весовых коэффициентов всех метрик, относящихся к одной и той же субхарактеристике, должна быть равна 1
, (3)
где L - количество метрик для конкретной субхарактеристики.
Далее проводят оценку каждой i-й субхарактеристики ci k-й характеристики. Для этого используется следующая формула
, (4)
где L1 - количество метрик, использованных при оценке конкретной субхарактеристики (L1 <= L).
Для каждой i-й субхарактеристики ci определяется весовой коэффициент . Сумма весовых коэффициентов всех подхарактеристик, относящихся к одной и той же характеристике, постоянна и равна 1
, (5)
где N - количество субхарактеристик конкретной k-й характеристики.
Далее проводят оценку каждой k-й характеристики
, (6)
где N1 - количество субхарактеристик, использованных при оценке конкретной k-й характеристики (N1 <= N).
Для каждой k-й характеристики (функциональность, безопасность, надежность) определяют соответствующий коэффициент . Сумма весовых характеристик постоянна и равна 1
, (7)
где O - количество характеристик, используемых для оценки качества СИИ.
Интегральную оценку качества Q СИИ рассчитывают по формуле
. (8)
Интегральная оценка качества СИИ Q принимает значения на интервале от 0 до 1, причем чем ближе к 1, тем выше качество СИИ.
7.2.2.5 При проведении сравнительных оценок нескольких СИИ при тестировании должны быть использованы единые перечни субхарактеристик и соответствующих им метрик, унифицированные шкалы по каждому показателю качества, а также применены единые правила нормирования по 7.2.2.3.