БИБЛИОТЕКА НОРМАТИВНЫХ ДОКУМЕНТОВ

ГОСТ Р 59921.5-2022. Национальный стандарт Российской Федерации. Системы искусственного интеллекта в клинической медицине. Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов

4 Общие положения

 

4.1 Введение

С целью повышения доступности и качества данных, необходимых для развития технологий искусственного интеллекта в сфере здравоохранения, в данном стандарте представлена унифицированная методология подготовки и использования набора данных, общая схема которого отображена на рисунке 1.

 

1 Подготовка набора данных

 

(раздел 5)

ГОСТ Р 59921.5-2022. Национальный стандарт Российской Федерации. Системы искусственного интеллекта в клинической медицине. Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов

2 Применение набора данных

 

(раздел 6)

 

Рисунок 1 - Основные этапы жизненного цикла набора данных

 

4.2 Классификация наборов данных по виду разметки

Выделяют три вида набора данных, определяемых процессом выполнения разметки (рисунок 2):

- набор данных по ретроспективной разметке;

- набор данных по проспективной разметке;

- верифицированный набор данных.

 

ГОСТ Р 59921.5-2022. Национальный стандарт Российской Федерации. Системы искусственного интеллекта в клинической медицине. Часть 5. Требования к структуре и порядку применения набора данных для обучения и тестирования алгоритмов

 

Рисунок 2 - Классификация видов разметки по степени ценности

 

Примечание - См. [3].

 

4.2.1 Набор данных по ретроспективной разметке

Ретроспективная разметка представляет собой сбор элементов в соответствии с указанными метаданными, перечень которых выбирают в соответствии с поставленной целью. Такую разметку проводят путем выгрузки данных из медицинской информационной системы. Ретроспективная разметка не предполагает выполнение манипуляций или какой-либо обработки элементов. Для каждого элемента набора данных устанавливают соответствие с медицинской информацией (диагноз, результаты лабораторного тестирования и т.п.). Такая разметка не требует участия врача, а может быть выполнена техническим специалистом, который имеет опыт работы с наборами данных.

Пример - Ретроспективная разметка пациентов с подтвержденной коронавирусной болезнью. Перечень метаданных: идентификационный номер, дата рождения, дата выполнения лучевого исследования, результаты теста на полимеразную цепную реакцию и т.п.

4.2.2 Набор данных по проспективной разметке

Проспективная разметка представляет собой сбор элементов в соответствии с поставленной целью, а также проведение дополнительных манипуляций с элементами (например, постановка метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.). Такую разметку проводят с участием обученного медицинского персонала путем ручного аннотирования содержания данных или их частей, которое может быть выполнено в графической или текстовой форме, либо в их комбинации.

4.2.3 Верифицированный набор данных

Верифицированный набор данных получают при дополнении набора данных, подготовленных при проспективной разметке, данными из медицинских записей, в том числе об окончательном и/или патологоанатомическом диагнозе. В качестве метода для верификации набора данных можно применять метод "золотого стандарта" (ground truth) для целевой патологии (см. [3], [4], [5]), повторное исследование пациента через определенное время, результаты патогистологических, иммунологических исследований и др. (см. [6]).

Верификация набора данных может быть также обеспечена путем слепого анализа набора данных экспертами с достижением заданного уровня согласованности их решений.

Выделяют следующие критерии отнесения набора данных к верифицированному набору данных:

- данные получены из реальной практики (не допускается получение синтезированных данных, например ЭКГ от генератора физиологических сигналов);

- данные получены в "сыром виде" - без применения фильтров и математических средств постобработки;

- структура набора данных соответствует поставленной цели его формирования (обучение, аналитическая, клиническая валидация (см. [6] и др.);

- количество наблюдений (исследований) достаточно для достижения статистической значимости результата;

- разметка и/или аннотирование проведены экспертной группой, соответствующей критериям 5.8.3;

- разметка и/или аннотирование проведены с использованием тезауруса (кодированной библиотеки типовых формулировок, соответствующих рекомендации ассоциации специалистов в данной области по ГОСТ 7.24, ГОСТ 7.25).