БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

4 Обзор существующих методов оценки робастности нейронных сетей

 

4.1 Общие положения

4.1.1 Концепция робастности

Цели обеспечения робастности направлены на то, чтобы ответить на вопросы "Какая степень робастности требуется системе?" или "Какие свойства робастности представляют интерес?". Свойства робастности показывают, насколько четко система обрабатывает новые данные по сравнению с результатами обработки данных, ожидаемых в типовых операциях.

4.1.2 Типичный рабочий процесс для оценки робастности

В настоящем пункте рассмотрено проведение оценки робастности нейронных сетей в различных задачах ИИ, таких как классификация, интерполяция и другие сложные задачи.

Существуют различные способы оценки робастности нейронных сетей с использованием объективной информации. Типичный рабочий процесс для определения робастности нейронной сети (или другого метода) представлен на рисунке 1.

 

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

 

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор - начало/конец; ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор - шаг;

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор - вход/выход; ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор - решение;

Н.Н.Н. - неполное, некорректное, недостаточное

 

Рисунок 1 - Типичный рабочий процесс для определения

робастности нейронной сети

 

Шаг 1 Формулировка целей робастности

Процесс начинается с формулирования целей обеспечения робастности. На начальном этапе должны быть идентифицированы объекты тестирования, подлежащие верификации на робастность. С их учетом впоследствии определяют количественные метрики оценки тех элементов, которые показывают достижение робастности. Все это образует набор критериев для принятия решений о свойствах робастности, которые могут быть предметом дальнейшего утверждения соответствующими заинтересованными сторонами (см. ISO/IEC/IEEE 16085:2021, 7.4.2, [3]).

Шаг 2 Планирование тестирования

Этот шаг заключается в планировании проверок, которые демонстрируют робастность. Эти проверки опираются на различные методы, например статистические, формальные или эмпирические. На практике используется комбинация методов. Статистические подходы обычно опираются на процесс математического тестирования и способны проиллюстрировать определенный уровень достоверности результатов. Формальные методы полагаются на формальные доказательства для демонстрации математических свойств в области определения модели. Эмпирические методы основаны на экспериментировании, наблюдении и экспертной оценке. При планировании проверки необходимо определение настроек среды, планирование сбора данных и определение характеристик данных (какие типы данных в каких диапазонах будут использованы, какие граничные условия будут нарушены для проверки робастности и т.д.). Результатом шага 2 является протокол тестирования, который представляет собой документ, выражающий смысл, цели, дизайн и предлагаемый анализ, методологию, мониторинг, проведение тестирования, а также хранение его результатов (более детально содержание протокола тестирования доступно в определении плана клинического исследования, изложенного в ИСО 14155:2020, 3.9, [4]).

Шаг 3 Проведение тестирования

Далее проводят тестирование согласно составленному протоколу тестирования и сбор результатов. Допускается выполнение тестов с использованием реальной среды или моделирования (симуляции) реальной среды, а также потенциально путем комбинации этих двух подходов.

Шаг 4 Анализ результатов

После завершения тестирования результаты тестов анализируют с использованием метрик, выбранных на шаге 1.

Шаг 5 Интерпретация результата

Результаты анализа интерпретируют для принятия обоснованного решения.

Шаг 6 Цель тестирования достигнута?

Решение по робастности системы формулируют по определенным ранее критериям и полученной интерпретации результатов анализа.

Если цели тестирования не достигнуты, проводят анализ процесса, и процесс возвращается к соответствующему предшествующему шагу с целью устранить недостатки, например: путем добавления целей робастности, модификации или добавления метрик, учета различных аспектов для измерения, перепланирования тестов и т.д.

Системы ИИ, которые в значительной степени полагаются на нейронные сети, особенно глубокие нейронные сети (deep neural networks, DNN), имеют недостатки, которые проявляются в виде сбоев поведения системы, напоминающих аналогичные эффекты в программном обеспечении. Типичные ситуации продемонстрированы путем подачи "неблагоприятных примеров" в системы распознавания объектов, например [5]. Эти встроенные ошибки DNN "исправить" непросто. Исследования по этой проблеме показывают, что существуют меры для повышения устойчивости DNN к неблагоприятным примерам, но это работает до определенной степени [6], [7]. Однако, если дефект обнаружен во время процедуры тестирования, система ИИ может сигнализировать о проблеме при обнаружении соответствующего шаблона ввода.

Сбор данных

Сбор данных представляет собой процесс выбора, создания и/или генерации тестовых данных и объектов, необходимых для проведения тестирования.

Иногда этот процесс включает в себя рассмотрение юридических или других нормативных требований, а также различных практических или технических вопросов.

Протокол тестирования содержит требования и критерии, необходимые для сбора данных. Проблемы и методы сбора данных не рассматриваются детально в настоящем стандарте.

Значительное влияние на робастность могут оказывать следующие факторы:

- масштаб значений отдельных измерений;

- разнообразие, репрезентативность и диапазон выбросов;

- выбор реальных или синтетических данных;

- наборы данных, специально используемые для тестирования робастности;

- состязательные и другие примеры, которые исследуют гипотетические крайности предметной области;

- состав наборов данных для обучения, тестирования и валидации.