ГОСТ Р 59898-2021. Национальный стандарт Российской Федерации. Оценка качества систем искусственного интеллекта. Общие положения
8.3 Уровень производительности (performance efficiency) СИИ. Метрики
8.3.1 При тестировании рекомендуется проводить оценки более длительных по времени операций или рассматривать распределение времени для нескольких случаев, так как значения метрик производительности подвержены сильному влиянию условий применения, как например загрузка обрабатываемых данных.
8.3.2 В протокол тестирования следует включить параметры, влияющие на показатели качества: параметры ЦПУ, объем памяти, включая объем хранения (общий объем для хранения моделей ИИ), сетевой трафик и прочее.
8.3.3 Для оценки уровня производительности СИИ рекомендуется применять следующий набор субхарактеристик: характер изменения во времени (time behaviour), характер изменения (использования) ресурсов (resource utilization) и производительные возможности (capacity).
8.3.4 Метрики характер изменения во времени (time behaviour) используют для оценки степени соответствия требованиям временных ресурсов, затрачиваемых пользователем в целях обеспечения точной и полной реализации конкретных задач (см. таблицу 7).
Таблица 7
Примеры метрик оценки временной эффективности
Наименование метрики | Формула | Измеряемый диапазон |
Отклонение времени отклика |
где Ti - время отклика i-о измерения; N - количество измерений; Tн - допустимое время отклика, представленного в технической документации | M5 > 0 |
Производительность |
где A - количество однотипных задач, выполненных СИИ за время T; T - время | M6 > 0 |
8.3.5 Метрики характера изменения (использования) ресурсов (resource utilization) используют для оценки степени удовлетворения требований по потреблению объемов и продолжительности использования ресурсов СИИ при выполнении ее функций.
8.3.6 Метрики производительных возможностей (capacity) используют для оценки степени соответствия требованиям предельных значений таких параметров СИИ, как например количество параллельно обрабатываемых наборов данных, количество параллельно работающих пользователей, емкость канала, пропускная способность по транзакциям и прочее.