БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 70462.1-2022/ISO/IEC TR 24029-1-2021. Национальный стандарт Российской Федерации. Информационные технологии. Интеллект искусственный. Оценка робастности нейронных сетей. Часть 1. Обзор

7.3 Апостериорное тестирование

В некоторых случаях можно формально подтвердить робастность интеллектуальной системы. Когда это невозможно, что часто бывает с нейронными сетями [45], выполняют валидацию путем эмпирического тестирования робастности системы, и оценка на основе ввода/вывода востребована в данном контексте. В таком виде оценки существуют методы априорного тестирования и апостериорного тестирования. В то время как при априорном тестировании ожидаемый результат известен, и поэтому применимы статистические показатели, при апостериорном тестировании результат заранее неизвестен. В этом случае возможно предпринять автоматизированные действия, чтобы по-прежнему проводить статистические измерения косвенными средствами. В противном случае единственным доступным методом является эмпирический, основанный на суждении людей.

При апостериорном тестировании шаги 4 и 5 процесса, изображенного на рисунке 1, слегка изменены. Шаг 4, вероятно, будет более сложным, потому что правильный ответ заранее неизвестен. Интерпретация результатов на шаге 5 - это, скорее всего, предмет консенсуса, а не однозначной истины.

Как правило, для проверки робастности системы определяют данные или тестовые среды, представляющие широкий спектр тестовых сценариев для нормальных условий эксплуатации и критических случаев (шаг 2 процесса). Эти входные данные передаются в систему для оценки, а выходные данные системы (называемые гипотезами) сравниваются с эталонами, то есть с достоверной информацией (шаг 3). Входные данные предназначены для того, чтобы внести возмущение в систему для проверки ее робастности, например, используя неблагоприятные примеры. Такие эталоны обычно предоставляются экспертами, выполняющими такую же задачу, как и оцениваемая система, или являются результатом физических измерений.

В случае априорного тестирования эталоны ссылки предоставляются экспертами, выполняющими аннотации, и обычно они договариваются друг с другом в отношении правильного ответа, который должен быть получен (высокая степень согласия между экспертами). В таком случае эталон (ground truth) определяется однозначно. Напротив, при апостериорном тестировании эталоны, создаваемые экспертами, варьируются, поэтому эталон эксплуатационных испытаний неоднозначен, так как у задачи есть несколько правильных ответов [46].

Поскольку невозможно определить решение априори все возможные правильные ответы, поэтому выполняют апостериорные оценки. То есть при рассмотрении входных данных систем эксперты, предоставляющие аннотации (автоматизированные измерители), могут установить, являются ли они правильными или неправильными.

Машинный перевод - классический пример той задачи, для которой апостериорная оценка служит полезным дополнением к априорному тестированию. Обычно существуют различные способы перевода одного и того же предложения с одного языка на другой. Хотя в данном случае часто применяют статистические методы путем установления произвольного набора правильных или приемлемых ответов для сравнения результатов [47], это не является полностью надежным показателем эффективности, и субъективное апостериорное тестирование часто бывает более точным. Также применительно к навигационной задаче можно использовать несколько траекторий для перемещения из одного места в другое. В зависимости от способности определить объективный критерий оптимальных траекторий, апостериорное тестирование может быть выполнено либо статистическими, либо эмпирическими средствами.

Также возможно использовать апостериорную оценку для валидации новой робастной метрики (новый метод или формула для измерения). Когда качество задачи является субъективным, метрикам необходимо присвоить баллы качества, которые коррелируют с пользовательским мнением о качестве. Суждение пользователей - это эталон для оценки автоматических метрик [48].

Однако концепции апостериорной оценки и оценки после развертывания системы пересекаются в некоторых случаях, особенно при тестировании с конечными пользователями. Например, в случае оценки качества взаимодействия человека с машиной оценку выполняют апостериорно, поскольку невозможно установить, каким образом это взаимодействие будет оказывать влияние на все слои населения до того, как оно получит широкое распространение. Для проведения такой оценки можно варьировать профиль пользователя, иметь пул пользователей, адекватно отражающий фактические условия работы системы, и получать с его помощью эмпирический анализ робастности этой интерактивной интеллектуальной системы.