ГОСТ Р 59921.5-2022. Национальный стандарт Российской Федерации. Системы искусственного интеллекта в клинической медицине. Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов

5 Рекомендуемые этапы подготовки набора данных

5.1 Введение

Подготовка набора данных должна состоять из набора процедур, выполнение которых позволяет достигнуть цели обучения и тестирования системы искусственного интеллекта (СИИ) с обеспечением качества набора данных (см. [3], [4], [6]).

В настоящем стандарте рассматривается процесс подготовки набора данных, который может быть изменен в условиях конкретных задач (рисунок 3).

Рисунок 3 - Процесс подготовки набора данных для обучения

и тестирования СИИ

5.2 Определение целей

Должна быть определена цель формирования набора данных, только тогда можно оценить, является ли доступ к данным или другая деятельность по их обработке допустимыми:

- какие данные допустимо собирать;

- как их следует использовать (применительно к каким задачам);

- кому их следует раскрывать (доступ третьими лицами);

- в течение какого времени они должны быть доступны.

Цели формирования набора данных могут быть разными, включая следующие:

- разработка СИИ, включающая этап обучения алгоритма искусственного интеллекта и выполнение внутреннего тестирования;

- выполнение аналитической или клинической валидации СИИ.

5.3 Постановка задачи

Постановка задачи подготовки набора данных должна включать определение предметной области и выбор методов обработки. Задача подготовки набора данных должна быть определена проблемой, на решение которой направлено создание СИИ, классом СИИ или целью проведения тестирования, классификацией СИИ, а также задачей для СИИ (кластеризация, регрессия, рейтинг и др.).

Примечание - В клинической медицине используют два основных подхода машинного обучения, каждый из которых ассоциирован с определенным типом задач:

- при контролируемом машинном обучении (обучение с учителем или supervised machine learning) алгоритм наблюдает набор размеченных данных и обучается функции, позволяющей предсказывать аннотацию для новых входных данных. Возможными типами задач контролируемого машинного обучения являются классификация (см. 3.7) и регрессия. При регрессии аннотация может принимать любое действительное значение, а не ограничиваться конечным набором категорий, как при классификации;

- при неконтролируемом машинном обучении (обучение без учителя или unsupervised machine learning) алгоритм распознает паттерны (структуру) в неразмеченных данных. Возможными типами задач неконтролируемого машинного обучения являются кластеризация (группировка экземпляров данных в кластеры со сходными характеристиками) и детекция аномалий (идентификация редких экземпляров данных, существенно отличающихся от остальных).

5.4 Получение одобрения комитета по этике

Рекомендуется получить одобрение комитета по этике медицинской организации (МО) (при наличии такого органа в структуре МО) для сбора данных или использования де-идентифицированных данных с целью подготовки набора данных для разработки СИИ (включая этапы обучения алгоритма искусственного интеллекта и внутреннее тестирование на этапе разработки СИИ) и аналитической или клинической валидации СИИ.

5.5 Организация доступа к набору данных

МО, выполняющая подготовку набора данных, должна обеспечить доступ к требуемым данным, находящимся в медицинской информационной системе с возможностью выполнений операций поиска, чтения и сбора данных, а также выполнения де-идентификации (см. 5.7). Процесс организации доступа должен быть задокументирован, должны быть обеспечены процессы защиты данных, в том числе персональной информации согласно действующим нормативным правовым актам (НПА). Организация доступа должна обеспечивать скорость передачи данных, соответствующую целям и задачам такого доступа.

5.6 Сбор данных

Возможны два подхода к формированию наборов данных, в зависимости от поставленной цели:

а) представление медицинских данных (феноменов, синдромов, заболеваний, исходов), отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Данный подход должен быть применен в ходе формирования набора данных для аналитической валидации СИИ;

б) представление медицинских данных (феноменов, синдромов, заболеваний, исходов) согласно их частоте встречаемости, предтестовой вероятности, заболеваемости, распространенности в популяции. Данный подход должен быть применен в ходе формирования набора данных для клинической валидации СИИ.

5.6.1 Принцип сбора данных для аналитической валидации

- Набор данных для аналитической валидации должен быть подготовлен для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку СИИ медицинского исследования при наличии функции автоматического расчета времени и т.д.), точность интерпретации исследований с учетом функциональных возможностей СИИ, повторяемость, воспроизводимость;

- Возможно включать в набор данных для аналитической валидации исследований с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента и т.п.). При этом такие исследования должны быть помечены должным образом. Метки возможно размещать в метаданных;

- При формировании набора данных следует использовать данные из разных МО и разных моделей/производителей оборудования, обработку данных с которых изготовитель СИИ включает в функциональное назначение. Это необходимо для снижения систематической ошибки, так как невключение в набор данных элементов, получаемых, например на какой-либо модели оборудования, может привести к ограничениям в процессе использования набора данных.

5.6.2 Принцип сбора данных для клинической валидации

При проведении клинической валидации необходимо использовать верифицированный набор данных. В случае невозможности проведения данного вида валидации на верифицированном наборе данных необходимо представить соответствующее разъяснение причин и выбирать данные с иными методами разметки с учетом их ценности.

Принцип сбора данных для клинической валидации заключается в следующем:

а) соотношение "норма"/"патология" или разные заболевания в наборе данных определяют областью применения СИИ;

б) при формировании набора данных используют данные из разных МО и разных моделей/производителя оборудования. Это необходимо для снижения систематической ошибки, так как невключение в набор данных элементов, получаемых, например на какой-либо модели оборудования, может привести к ограничениям в процессе использования набора данных. Допустимо использовать данные из разных МО, обладающие одинаковой структурой, полученные в результате применения оборудования с одинаковым процессом работы (одинаковая модель/производитель), в случае указания этого в разделе области применения документации СИИ;

в) демографические, социально-экономические характеристики и основные показатели здоровья пациентов (репрезентативная выборка), чьи данные включают в набор данных, должны соответствовать усредненным характеристикам популяции территории, на которой планируется использование СИИ;

г) планируемый размер набора данных должен быть обоснован в документации испытаний, исходя из статистических соображений и желаемой точности оценки основных метрик:

- для алгоритмов бинарной классификации, включая данные с асимметричным распределением, а также в случае многомерных данных рекомендуемой метрикой является площадь под ROC-кривой (либо, в зависимости от типа данных, объем под поверхностью ROC-кривой или площадь ложно-положительных результатов под ROC-кривой, false discovery rate-controlled AUROC) со значением не менее 0,8;

- для алгоритмов бинарной классификации данных медицинской визуализации рекомендуется использовать метод ROC со свободным откликом (free-response ROC, FROC). СИИ с допустимой точностью соответствуют выпуклые FROC-кривые с углом наклона более 45°; графики FROC, представляющие собой прямую с углом наклона 45°, свидетельствуют о недостаточном качестве СИИ;

- для наборов данных с плохим балансом между классами (например, незначительное количество примеров патологии при существенно превосходящем числе экземпляров данных без отклонений) рекомендуется строить зависимость положительного предсказательного значения (positive predictive value) от чувствительности. Предпочтительным значением площади под кривой является 0,5;

- для алгоритмов, выполняющих функцию регрессии, рекомендуется использовать метрики средней абсолютной ошибки (mean absolute error), среднеквадратичной ошибки (mean squared error) и стандартного отклонения всех ошибок (root mean squared error). Во всех случаях значения должны стремиться к нулю для СИИ с высокой точностью. Другой допустимой метрикой является коэффициент детерминации R²: если он равен 0, то предсказание аннотации невозможно, R² равно 1 означает полностью точное предсказание без изменчивости. Рекомендуемое значение R² для СИИ должно быть не менее 0,6;

д) МО должна иметь возможность самостоятельного формирования наборов данных для независимой клинической валидации СИИ без применения наборов данных, которые были использованы на этапе разработки СИИ, включая обучение алгоритма искусственного интеллекта и его внутреннее тестирование на этапе разработки СИИ.

5.7 Де-идентификация (обезличивание)

С целью применения набора данных для обучения и тестирования СИИ элементы набора данных не должны содержать какую-либо персональную информацию согласно действующим нормативно-правовым актам (НПА). Любая персональная информация должна быть удалена как из метаданных, так и из исходных данных. Согласно действующим НПА субъект персональных данных должен предоставить согласие на их использование для целей разработки СИИ.

Необходимо проводить также удаление из данных номера полиса обязательного медицинского страхования застрахованного лица, наименования МО, фамилии, имени, отчества пациента, места проживания, сведений о дате исследования и дате рождения. Дату рождения рекомендуется заменить на возраст (годы, месяцы) на момент исследования, чтобы была возможность сбора данных по возрасту пациента. Также должны быть удалены любые иные идентификаторы, с помощью которых потенциально возможно установить личность пациента (см. [3]).

Де-идентификация данных должна быть произведена в МО, в которой было проведено медицинское исследование, при условии наличия согласия пациента на обработку его персональных данных, включая де-идентификацию (обезличивание).

Пример - Де-идентификация метаданных изображений в формате DICOM проводится в соответствии с ГОСТ Р ИСО 17432-2009.

5.8 Структурирование набора данных

Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.

5.9 Фильтрация набора данных

Качество СИИ зависит от качества данных, используемых для разработки СИИ. Этап фильтрации набора данных позволяет снизить затраты на разметку данных за счет исключения данных, не соответствующих заданным параметрам.

Процедура контроля качества (см. 7.4.1) включает нахождение, предотвращение и устранение проблем, связанных с качеством наборов данных.

Примеры проблем, связанных с наборами данных в клинической медицине

- Проблемы с метаинформацией о выполненном исследовании и пациенте (пропущенные значения, некорректные идентификаторы, некорректные значения тегов DICOM и т.д.);

- Проблемы с качеством исходных данных (смазанные изображения, неверные настройки оборудования, нерелевантные данные).

Фильтрацию и контроль качества наборов данных возможно осуществлять с помощью визуального контроля, специальных инструментов (например, DICOM-валидаторов), а также с использованием СИИ (например, для автоматической оценки качества изображения).

5.10 Разметка [аннотация] данных

5.10.1 Общие требования

Существующая классификация выполняемых разметок (аннотации) данных приведена в 5.1, решение о выборе вида разметки выполняется на этапе постановки цели и задачи формирования набора данных.

Существует ряд подходов к аннотации медицинских данных:

а) полуструктурированное текстовое описание визуальных наблюдений с указанием содержащих их анатомических объектов и типов нарушений.

Пример - Легочная паренхима: увеличивающееся образование размером 2,3 x 2,7 см, прилегающее к малой трещине в правой средней доле.

По причине возможных вариаций в используемой терминологии и структуре описаний, а также ориентировочной локализации наблюдений, автоматический поиск по таким аннотациям, а также использование их СИИ осложнены и малоэффективны;

б) структурированная аннотация, которая должна использовать согласованный набор терминов, для снижения вариабельности интерпретаций визуальных наблюдений.

Структурированная аннотация может быть сопровождена конкретизированной информацией о локализации наблюдений, которую могут выполнять с разным уровнем точности и детализации:

- с грубой локализацией - приблизительное обозначение координат объектов интереса, посредством задания ограничивающего параллелепипеда или эллипсоида;

- с полной сегментацией на основе маски минимальных элементов, обозначающей положение объекта интереса на фоне остальной части данных.

Стандартизированные методы аннотации приведены в приложении В.

5.10.2 Первичная разметка

В рамках проведения первичной разметки необходимо отметить и охарактеризовать все целевые структуры в подготовленном наборе данных.

Первичная разметка должна включать структурированные аннотации и быть выполнена в соответствии с установленными регламентами, характеризующими доступ к данным, используемые программные средства и методы разметки (см. [7]), а также шаблон выполнения аннотации элементов набора данных.

5.10.3 Экспертная валидация

Экспертную валидацию следует выполнять с привлечением экспертной группы в целях проверки и корректировки результатов первичной разметки.

Существуют две группы экспертных оценок:

- индивидуальные оценки основаны на использовании мнения отдельных экспертов, независимых друг от друга;

- коллективные оценки основаны на использовании коллективного мнения экспертов.

Основные этапы обработки экспертных оценок:

- определение компетенции экспертов;

- определение обобщенной оценки;

- построение обобщенной ранжировки объектов в случае нескольких оцениваемых объектов или альтернатив;

- определение зависимостей между ранжировками;

- оценка согласованности мнений экспертов. При отсутствии значимой согласованности экспертов необходимо выявить причины несогласованности (наличие групп) и признать отсутствие согласованного мнения (ничтожные результаты);

- оценка ошибки исследования;

- построение модели свойств объекта (объектов) на основе ответов экспертов (для аналитической экспертизы);

- подготовка отчета (с указанием цели исследования, состава экспертов, полученной оценки и анализа результатов).

5.11 Организация хранения и доступа к верифицированному набору данных

5.11.1 Метаданные

Метаданные применяют для классификации, упорядочения и описания данных. Метаданные должны быть составлены согласно принципам, содержащим базовые принципы улучшения возможностей поиска, обеспечения доступа к данным, их совместимости и повторного использования данных (см. [8]).

При аннотировании медицинских данных необходимо использовать библиотеки типовых формулировок (тезаурусы).

Список рекомендуемых метаданных для хранения медицинских изображений приведен в приложениях А, Б.

5.11.2 Организация хранения набора данных

Данные необходимо передавать в локальное хранилище (одноцентровое исследование) либо во внешнее хранилище данных (многоцентровое исследование). Хранение данных может быть организовано на локальном сервере или с использованием облачного хранения (ГОСТ Р ИСО/МЭК 17826). При этом доступность и безопасность обеспечивают на лучшем уровне при использовании локального сервера; совместное использование данных и резервное копирование возможно при использовании облачного хранения.

5.11.3 Доступ к верифицированному набору данных

Согласно ГОСТ Р ИСО 27799 статистические и научные данные, включая де-идентифицированные (обезличенные) данные, полученные посредством удаления идентифицирующих данных из персональной медицинской информации, должны быть защищены.

Должны быть установлены стандартные процедуры доступа к набору данных для третьих лиц, закрепленные в документе о политике по защите информации. При организации доступа к набору данных необходимо подписывать соглашение с МО, формирующей наборы данных.