БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

7.2 Эксплуатационные испытания

Хотя существует несколько аспектов, которые необходимо изучить при дальнейшем использовании систем ИИ, количество возможных способов анализа поведения и эффективности системы ограничено. Системы ИИ обычно в значительной степени состоят из программного обеспечения, поэтому необходимы стандарты для его тестирования, такие как ISO/IEC/IEEE 29119 [33].

Основные цели тестирования программного обеспечения сформулированы в ISO/IEC/IEEE 29119-3:2013: "Следует предоставить информацию о качестве элемента тестирования и любом остаточном риске в отношении того, насколько элемент тестирования протестирован для обнаружения дефектов в элементе тестирования до его введения в эксплуатацию и для снижения рисков низкого качества продукции для заинтересованных сторон".

Рабочий процесс оценки робастности нейронной сети, изображенный на рисунке 1, состоит из трех следующих шагов, которые имеют решающее значение для каждого эксплуатационного испытания:

1) подготовка плана тестирования (plan testing);

2) сбор данных (data sourcing);

3) проведение испытания в реальных условиях эксплуатации (conduct testing).

В отличие от других методов тестирования, при эксплуатационных испытаниях нейронная сеть интегрируется в систему, которая работает в реалистичной среде для соответствующего приложения. Система также должна реализовывать сбор данных, поэтому поиск и сбор данных являются неотъемлемой частью проектирования и проведения экспериментов.

Дефекты и низкое качество продукции также вызывают беспокойство при тестировании систем ИИ. Однако отказ системы ИИ в функциональном тесте не обязательно связан с ошибкой ("software bug") программного обеспечения или с ошибочным дизайном. При этом системы ИИ, демонстрирующие случайные сбои, иногда используют, поскольку их по-прежнему считают полезными для достижения предполагаемой цели, в частности в тех случаях, когда отсутствуют реальные альтернативы. Системы ИИ эффективны в основном во время эксплуатационных испытаний или при внедрении, например в случае с такими системами, как виртуальные помощники, что относится ко многим системам ИИ, функционирующим во взаимодействии с природной средой и пользователями или зависящим от них.

Вопросы разрешения неопределенности в отношении эффективности продукта и рисков, связанных с его внедрением, - предмет многих нормативных актов в области медицины. Например, в Европе медицинские устройства, в том числе с использованием ИИ, должны соответствовать ИСО 14155. Порядок прохождения клинической оценки или клинических испытаний программного обеспечения с применением ИИ, являющегося медицинским изделием, определяется национальным или региональным законодательством [34], [35], [36].

Для немедицинских устройств, использующих ИИ, эксплуатационные испытания в течение продолжительного времени являются признанным средством сравнения и оценки робастности решений. Вот несколько примеров:

- испытания на распознавание лиц [37], [38], [39];

- тестирование систем поддержки принятия решений для сельскохозяйственных приложений [40];

- практика испытаний беспилотных автомобилей [41];

- тестирование систем распознавания речи и голоса [42], [43];

- сетевой робот на вокзале [44].

Эксплуатационные испытания систем ИИ различаются по методологии, количеству пользователей или использованных образцов, статусу ответственной организации/лиц и документации результатов.