ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения

7.2 Алгоритм оценки качества СИИ

Процедура оценки качества СИИ должна включать три основных этапа: подготовительные работы, тестирование и оценка показателей качества, анализ и интерпретация результатов тестирования.

7.2.1 Подготовительные работы

7.2.1.1 Подготовительные работы включают:

- установление целей и задач тестирования (испытаний);

- выбор (создание) испытательного стенда и оценка условий проведения тестирования;

- определение набора данных для тестирования и критерия выявления выбросов в данных;

- выбор и обоснование набора существенных характеристик и метрик их оценки;

- выявление и определение диапазона изменений значимых, наиболее существенных факторов (внешних воздействий), оказывающих влияние на работу СИИ;

- составление методики проведения тестирования (испытаний) и подготовка программы тестирования (испытаний) с указанием состава экспертной группы.

7.2.1.2 Перед проведением оценки качества СИИ необходимо удостовериться в отсутствии существенных различий между средой проведения тестирования и средой эксплуатации, т.е. убедиться, что потенциальные различия не влияют на надежность, валидность и репрезентативность результатов тестирования. Примеры представлены в таблице 3.

Таблица 3

Примеры различий между условиями тестирования и эксплуатации

N п/п	Потенциальные различия	Примеры
1	Различия между средой проведения тестирования и средой эксплуатации	Характеристики работы СИИ в тестовой среде выше/сопоставимы/ниже соответствующих характеристик в среде эксплуатации; производительность интерфейса пользователя тестовой среды выше/сопоставима/ниже производительности интерфейса среды эксплуатации; производительность ЦПУ тестового компьютера выше/сопоставима/ниже производительности ЦПУ эксплуатационного компьютера; климатические условия, условия освещенности, различные помеховые факторы, которые оказывают влияние на эффективность работы систем, использующих датчики, основанные на различных физических принципах; и т.п.
2	Различия между доступным функционалом при тестировании и эксплуатации	Охват функциональных возможностей; количество и репрезентативность наборов данных; уровень стрессовых нагрузок; длительность пребывания в рабочем режиме; степень использования ресурса; и т.п.
3	Различия между профилями пользователя при тестировании и эксплуатационными профилями пользователя	Уровни навыков пользователей; уровень подготовки пользователей (пользователи-специалисты или средние пользователи); квалификация пользователей

7.2.1.3 При создании требуемых условий тестирования необходимо выделить значимые, наиболее существенные факторы (внешние воздействия), оказывающие влияние на работу СИИ. Для каждого существенного фактора требуется установить диапазон возможных изменений (закон распределения) с целью воспроизведения во время тестирования СИИ.

7.2.1.4 Задача выявления значимых, наиболее существенных факторов является одной из важных при классификации условий эксплуатации и решается путем:

- сбора априорной информации и проведения анализа имеющихся теоретических и экспериментальных данных о внешних воздействиях и режимах функционирования СИИ в реальных условиях применения;

- определения функциональной связи между воздействующими факторами (в том числе параметрами нагруженности) и характеристиками (субхарактеристиками).

7.2.2 Тестирование и оценка показателей качества

7.2.2.1 Для каждой характеристики из набора существенных характеристик СИИ определяют метрики, позволяющие количественно оценить качество СИИ на определенной стадии жизненного цикла. Интегральный(ые) показатель(и) качества, используемый в процессе разработки, должен быть соотнесен с соответствующими показателями качества пользователя.

7.2.2.2 Для каждой пары "показатель качества и метрика" должна быть установлена шкала и критерии оценки (например, базовое значение и предельно допустимое отклонение).

7.2.2.3 После проведения тестирования полученное значение метрики (показателя качества) нормируется (в случае, если используются не все метрики) таким образом, чтобы диапазон возможных значений лежал на интервале от 0 до 1, причем, чем ближе к 1, тем ближе полученное значение к базовому значению показателя качества, и равно 1 при их совпадении.

7.2.2.4 Вычисление интегрального показателя качества выполняют в следующем порядке:

Для каждой j-й метрики m_j задается весовой коэффициент . Сумма весовых коэффициентов всех метрик, относящихся к одной и той же субхарактеристике, должна быть равна 1

, (3)

где L - количество метрик для конкретной субхарактеристики.

Далее проводят оценку каждой i-й субхарактеристики c_i k-й характеристики. Для этого используется следующая формула

ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения , (4)

где L1 - количество метрик, использованных при оценке конкретной субхарактеристики (L1 <= L).

Для каждой i-й субхарактеристики c_i определяется весовой коэффициент . Сумма весовых коэффициентов всех подхарактеристик, относящихся к одной и той же характеристике, постоянна и равна 1

, (5)

где N - количество субхарактеристик конкретной k-й характеристики.

Далее проводят оценку каждой k-й характеристики

ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения , (6)

где N1 - количество субхарактеристик, использованных при оценке конкретной k-й характеристики (N1 <= N).

Для каждой k-й характеристики (функциональность, безопасность, надежность) определяют соответствующий коэффициент . Сумма весовых характеристик постоянна и равна 1

, (7)

где O - количество характеристик, используемых для оценки качества СИИ.

Интегральную оценку качества Q СИИ рассчитывают по формуле

. (8)

Интегральная оценка качества СИИ Q принимает значения на интервале от 0 до 1, причем чем ближе к 1, тем выше качество СИИ.

7.2.2.5 При проведении сравнительных оценок нескольких СИИ при тестировании должны быть использованы единые перечни субхарактеристик и соответствующих им метрик, унифицированные шкалы по каждому показателю качества, а также применены единые правила нормирования по 7.2.2.3.