БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

7.4 Эталонное тестирование нейронных сетей

Эталонное тестирование (бенчмаркинг, benchmarking) системы, основанной на нейронных сетях, может способствовать определению степени робастности системы. Часто первоначальное доверие к решению ИИ, основанному на нейронных сетях, устанавливается с помощью эталонного тестирования. Например, продолжительное время в распознавании образов и аналогичных применениях методов ИИ эталонное тестирование было наиболее оптимальным решением для установления доверия к определенному методу [49]. Вместе с тем, проведение эталонного тестирования может иметь элементы субъективности, например при маркировке или аннотировании тестовых наборов данных экспертами-практиками.

Эталонное тестирование измеряет производительность системы на основе тщательно разработанных наборов данных, которые в большинстве случаев являются общедоступными. Часто их используют для тестирования различных систем. Наиболее приемлемыми примерами эталонного тестирования являются тесты поставщиков по распознаванию лиц (face recognition vendor tests, FRVT), проведенные Министерством торговли США [50]. Другие примеры приведены в работе "Большие вызовы в биомедицинском анализе изображений" [51].

В отличие от 7.2, эталонное тестирование необязательно требует наличия действующей системы в реальных условиях применения. Для целей сопоставления создают такие наборы данных, использование которых вызывает существенные вопросы при применении современных методов классификации или регрессии. Наборы контрольных данных должны быть дополнены набором правил эталонного тестирования, которые описывают и стандартизируют способы настройки тестирования, документирования этих настроек, измерения и документирования результатов [52].

Эталонное тестирование имеет существенное значение при проведении исследований в области распознавания образов и вносит решающий вклад в развитие этой области. Однако эталонного тестирования обычно недостаточно для определения целей робастности. Результаты сравнительного анализа следует интерпретировать с предельной внимательностью [53].