ГОСТ Р 59921.5-2022. Национальный стандарт Российской Федерации. Системы искусственного интеллекта в клинической медицине. Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов
3 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1 аналитическая валидация (analytical validation): Подтверждение способности системы искусственного интеллекта точно, воспроизводимо и надежно генерировать предполагаемые технические результаты вычислений из входных данных.
Примечания
1 См. [1].
2 Аналитическая валидация является частным случаем валидации в соответствии с ГОСТ Р ИСО/МЭК 12207-2010, пункт 4.54.
3.2 верифицированный набор данных (ground truth): Набор данных с верифицированной медицинской информацией.
3.3
верификация (verification): Подтверждение (на основе представления объективных свидетельств) того, что заданные требования полностью выполнены. [ГОСТ Р ИСО/МЭК 12207-2010, пункт 4.55] |
3.4 воспроизводимость (reproducibility): Свойство процесса получать одинаковые результаты испытаний в разных средах испытаний.
Примечание - Разные среды означают разные компьютеры, жесткие диски, операторы и т.д.
3.5
де-идентификация (de-identification): Общее название любого процесса удаления связи между совокупностью идентифицирующих данных и субъектом данных. [ГОСТ Р 55036-2012, пункт 3.18] |
3.6
искусственный интеллект (artificial intelligence): Комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение, поиск решений без заранее заданного алгоритма и достижение инсайта) и получать при выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Примечание - Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе, в котором используются методы машинного обучения), процессы и сервисы по обработке данных, анализу и синтезу решений.
[ГОСТ Р 59277-2020, пункт 3.18] |
3.7
классификация (classification): Способ и результат упорядочения, структуризации некоторого множества объектов, разделения его на определенные подмножества путем артикуляции, выделения некоторого признака объектов исходного множества как основания их структуризации по данному признаку. Такого рода признак называется основанием классификации. [ГОСТ Р 59277-2020, пункт 3.26] |
3.8 кластеризация (claster analysis): Группировка экземпляров данных в кластеры со сходными характеристиками.
3.9 клиническая валидация (clinical validation): Подтверждение способности системы искусственного интеллекта выдавать клинически значимые выходные данные, связанные с целевым использованием системы искусственного интеллекта в рамках установленного изготовителем функционального назначения.
Примечание - См. [1], пункт 7.0.
3.10 контроль доступа (access control): Средства, с помощью которых ресурсы системы обработки данных предоставляются только авторизованным субъектам в соответствии с установленными правилами.
3.11
метаданные (metadata): Информация о ресурсе. Примечание - Метаданные бывают трех типов: - описательные (служат для обнаружения, сбора или группирования данных по общим для них характеристикам); - структурные (определяют состав или организацию набора данных); - административные (используются для управления базой данных).
[ГОСТ Р 57668-2017, пункт 4.10] |
3.12 набор данных (data set): Совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и необходимости для разработки программного обеспечения на основе искусственного интеллекта.
Примечание - См. [2].
3.13
обеспечение качества (quality assurance, QA): Совокупность систематических и планомерных действий, которые имеют целью обеспечить соответствие проведения исследования, сбора, регистрации и представления данных надлежащей клинической практике и нормативным требованиям. [ГОСТ Р 52379-2005, пункт 1.34] |
3.14 обнаружение (детекция аномалий) (detection): Идентификация редких экземпляров данных, существенно отличающихся от остальных.
3.15 обучающая выборка (training sample): Выборка, по которой производится настройка (оптимизация) параметров системы искусственного интеллекта.
3.16 повторяемость (repeatability): Свойство процесса, проводимого для получения одинаковых результатов тестирования в одной и той же среде тестирования.
Примечание - Одна и та же среда тестирования означает одинаковый компьютер, жесткий диск, режим работы и т.д.
3.17 проверочная выборка (validation sample): Выборка, на которой проводят проверку применимости параметров системы искусственного интеллекта для отличных от обучающей выборки наборов данных.
3.18 размерность набора данных (арность) (arity): Число атрибутов, которые имеют объекты в наборе данных (например, значение артериального давления, масса тела пациента, уровень холестерина и др.).
3.19 разметка [аннотация] данных (data labeling): Этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием систем искусственного интеллекта.
Примечание - См. [2].
3.20 разреженность набора данных (data sparsity): Доля атрибутов в наборе данных, содержащих недостающие, неизвестные либо пустые значения.
3.21 регрессия (regression): Аппроксимация и предсказание значения непрерывных параметров какого-либо объекта.
3.22 ретроспективная разметка (retrospective annotation): Сбор данных в соответствии с указанными метаданными, перечень которых выбирают в соответствии с поставленной целью формирования набора данных.
Примечание - Ретроспективная разметка не предполагает дополнительных манипуляций с элементами данных (например, постановка метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.)
3.23 проспективная разметка (prospective annotation): Сбор данных в соответствии с поставленной целью формирования набора данных, а также проведение дополнительных манипуляций с элементами.
Примечание - Проспективную разметку выполняют путем постановки метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.
3.24
сбор данных (data collection): Процесс объединения данных, поступающих из одного или более источников, в целях их использования при обучении и тестировании систем искусственного интеллекта. [Адаптировано из ГОСТ 33707-2016, пункт 4.1218] |
3.25
система искусственного интеллекта (artificial intelligence system): Программное обеспечение, в котором используются технологические решения искусственного интеллекта. [Адаптировано из ГОСТ Р 59276-2020, пункт 3.16] |
3.26 система менеджмента качества систем искусственного интеллекта (quality management system for artificial intelligence systems): Организационная структура, функции, процедуры, процессы и ресурсы, необходимые для скоординированной деятельности по руководству и управлению производителем системы искусственного интеллекта применительно к качеству.
3.27 тестовая [контрольная] выборка (test sample): Уникальная (отличная от обучающей и валидационной) выборка, на которой проводят объективную оценку качества параметров обученной системы искусственного интеллекта.