ГОСТ Р 70889-2023 (ИСО/МЭК 8183:2023). Национальный стандарт Российской Федерации. Информационные технологии. Искусственный интеллект. Структура жизненного цикла данных
6 Структура жизненного цикла данных
6.1 Общие положения
Структура жизненного цикла данных на рисунке 1 идентифицирует множество концептуально различных стадий оперирования данными в системе ИИ - от планирования работы с данными до вывода данных из эксплуатации. Рисунок 1 также включает замысел, формирование деловых требований и вывод системы ИИ из эксплуатации, которые относятся к стадиям жизненного цикла системы.
Рисунок 1 - Структура жизненного цикла данных
Примечания
1 Однонаправленные стрелки на рисунке 1 изображают прямой путь по стадиям жизненного цикла, а двунаправленные стрелки показывают путь с обратной связью между стадиями жизненного цикла.
2 Верификация и валидация модели ИИ относятся к внутреннему процессу разработки, результатом которого является модель. Верификация и валидация системы ИИ относятся к системе в целом в ходе ее эксплуатации.
Сведения о наборах данных приведены в [3] (пункт 6.5). С каждой стадией жизненного цикла соотносятся процессы, соответствующие определенной задаче. Процессы жизненного цикла описывают действия с данными на конкретной стадии.
Стадия 9 (вывод данных из эксплуатации) и стадия 10 (вывод системы ИИ из эксплуатации) относятся к выводу из эксплуатации, но стадия 9 конкретно описывает, что происходит с данными (например, безопасное удаление, архивирование, перепрофилирование), а стадия 10 описывает, что происходит с системой независимо от того, что происходит с обрабатываемыми данными.
6.2 Стадия 1. Замысел
Замысел включает в себя процесс осознания потребности или требований к новой или модернизируемой системе ИИ. Система ИИ может использоваться как частичное или полное решение существующей или предполагаемой задачи или проблемы, с которой сталкивается организация.
Замысел также может быть обусловлен более широкими потребностями организации (например, экономическими, техническими, стратегическими, рыночными или нормативными правовыми требованиями). В конечном счете замысел может быть зафиксирован в виде одного или нескольких вопросов, на которые может дать ответ система ИИ. Решаемые системой ИИ вопросы целесообразно сопоставлять и согласовывать с деловыми целями и показателями.
6.3 Стадия 2. Формирование деловых требований
На стадии формирования деловых требований могут участвовать представители одной или нескольких заинтересованных сторон, обладающих соответствующими полномочиями или влиянием, и решающих выяснить, можно ли превратить замысел в функционирующую систему ИИ и следует ли вкладывать в него дополнительные средства. Эта стадия включает:
- определение намерений проекта (например, формулирование видения, целей и стратегии);
- определение имеющихся и подлежащих приобретению активов;
- спецификацию требований к данным, ключевому элементу системы ИИ, исходя из целей и потребностей конечных пользователей;
- идентификацию факторов, влияющих на реализацию проекта, включая внутренние компетенции и знания, организационную структуру, технологии и внешние ресурсы;
- обеспечение возможности реализации проекта в соответствии с политикой и процедурами (или процессами) организации, включая такие, как:
- соответствие (например, требования к защите ПДн),
- этика (например, справедливость результатов),
- культура,
- лидерство,
- процессы управления.
Стадия формирования деловых требований может завершаться подготовкой заключения об осуществимости проекта.
Примечание - На стадии формирования деловых требований никакие данные не обрабатываются.
6.4 Стадия 3. Планирование работы с данными
Стадия планирования работы с данными включает решение о составе наборов данных, которые нужны для ответов на вопросы, сформулированные на стадии формирования деловых требований. Основные аспекты, которые рассматриваются на этой стадии, включают:
- сведения о том, существуют ли необходимые данные, доступны ли они для повторного использования, нужно ли их приобретать, собирать, преобразовывать, создавать, курировать или сочетать некоторые из перечисленных выше действий;
- требуемый объем данных;
- источник данных;
- сведения о том, можно ли создать синтетические, т.е. искусственные, данные для дополнения имеющихся;
- сведения о том, какие выходные данные будут созданы и как система ИИ будет оперировать ими;
- формат данных;
- сведения о том, что данные представляют;
- свойства данных, которые могут повлиять на выбор алгоритма для построения модели ИИ;
- требования к лицензированию данных;
- требования к безопасности, защите персональных данных и жизнестойкости данных;
- требования к комплектованию данных, в том числе к сбору данных;
- требования к защите данных;
- достоверность данных и наличие в них систематических ошибок;
- дискретность записи данных (в основном для временных рядов);
- тип данных (структурированные/частично структурированные/неструктурированные);
- требования к срокам и способам хранения данных (например, тип, стоимость, емкость, производительность, встроенные возможности, сроки удаления).
Целью этой стадии является обеспечение того, чтобы цели, требования и потребности, установленные на стадиях замысла и формирования деловых требований, могли быть выполнены. Потенциально необходимые наборы данных могут быть идентифицированы, получены и проверены. Наборы данных могут быть внутренними или получены из общедоступных источников, государственных органов, поставщиков или сторонних организаций.
6.5 Стадия 4. Комплектование наборов данных
Стадия комплектования наборов данных включает создание или обеспечение доступа к данным, определенным на стадии планирования работы с данными. Приобретенные данные могут поступать из внутренних источников, от третьих лиц или сообществ (например, открытые данные, общедоступные данные).
Получение данных от третьих лиц может основываться на согласиях, договорах или лицензиях, как описано в 6.4.
Данные могут быть в разных формах (например, статические данные, потоковые данные, данные интернета вещей в реальном времени) и в разных форматах (таких, как XML, JSON, текст с разделителями, бинарный формат). Данные могут быть структурированными, полуструктурированными или неструктурированными.
В процессах комплектования наборов данных должны использоваться передовые практики управления данными, обеспечивающие безопасность, защиту ПДн и качество.
6.6 Стадия 5. Подготовка наборов данных
Стадия подготовки наборов данных включает в себя обработку данных, собранных на стадии комплектования. Стадия подготовки наборов данных может включать выполнение следующих операций.
- Расшифровка: преобразование зашифрованных данных в состояние, при котором их можно использовать в системе ИИ, когда это необходимо и возможно.
- Очистка: включает в себя преобразования и операции, такие как валидация релевантности, дедупликация, удаление выбросов, устранение систематических ошибок, дополнение недостающих значений, корректировка записей и исправление форматов данных.
- Инженерия признаков: чтобы повысить параметры производительности МО, для использования и возможных преобразований можно отобрать подходящие признаки. Имеющиеся признаки можно комбинировать и обрабатывать с целью выработки новых признаков, которые способны улучшить процессы обучения и вывода.
- Нормализация и масштабирование: может возникнуть необходимость преобразования данных из сильно различающихся диапазонов в определенный диапазон безразмерных величин (например, между 0 и 1). Также может быть необходимо масштабировать выборки данных, чтобы они соответствовали стандартному распределению или другому заданному распределению.
- Организация данных: данные могут быть реорганизованы без изменения их значения или смысла. Для получения полного набора данных может понадобиться еще добавить наборы данных или объединить таблицы. Может потребоваться объединить или разделить столбцы или поля для достижения необходимой структуры набора данных.
- Разметка (маркировка): значения целевых переменных должны быть установлены с помощью подходящего ручного или автоматического процесса. Например, при обучении с учителем значения можно определять вручную, при полуконтролируемом обучении значения могут быть определены с помощью автоматизированных методов. Примером ручной разметки данных для программы распознавания изображений является привлечение к анализу людей при определении видов животных в множестве цифровых изображений.
- Обогащение: запуск инструментов для связывания различных источников данных и добавления дополнительного контекста к данным. Например, неструктурированные данные могут быть обогащены средствами обработки естественного языка для извлечения именованных сущностей. Названия местностей и адреса могут быть идентифицированы и геокодированы с помощью географического справочника, чтобы впоследствии можно было проводить анализ на основе местоположения.
- Обезличивание: может возникнуть необходимость для удаления персональных данных из наборов данных для защиты неприкосновенности частной жизни субъектов данных.
- Повторная выборка и балансировка: например, может быть полезно использовать частичную выборку из больших наборов данных, чтобы улучшить согласованность статистической значимости различных классов данных или сократить время, необходимое для построения и тестирования модели ИИ, при этом получая полезные результаты. Точно так же можно пополнить выборку (т.е. расширить с заменой данных), чтобы повысить согласованность статистической значимости различных классов данных.
- Кодирование: может потребоваться кодирование данных, используемых для построения модели ИИ. Например, может потребоваться кодирование текстовых значений для категориальных переменных (такое как преобразование текстовых признаков в числовые или оцифровка аналоговых сигналов).
- Верификация целостности: применение процесса, специфичного для конкретного типа данных с целью проверки общей целостности набора данных. Скорее всего, это применимо к структурированным и частично структурированным данным, для которых уже может существовать структурная модель (например, схема базы данных, формальная онтология).
- Происхождение данных: обновление записи происхождения каждого набора данных для записи изменений и предпринятых операций.
- Анонимизация данных или псевдонимизация.
Примечание - Дополнительную информацию о подготовке наборов данных для МО см. в [3].
6.7 Стадия 6. Построение модели ИИ
Построение модели ИИ включает принятие решения об организации, хранении и доступе к данным таким образом, чтобы их можно было обработать для построения модели, выполняющей отдельные функции для достижения целей. Процесс построения модели ИИ может либо завершиться созданием фиксированной модели, либо непрерывно продолжаться с постоянным пересмотром модели (непрерывное обучение). В любом случае модель ИИ может возникнуть как:
a) результат обучения алгоритма МО с использованием обучающих данных. Построение модели ИИ может происходить централизованно или через сеть ресурсов (например, федеративное обучение, раздельное обучение). Примеры обученных моделей ИИ включают деревья решений, индуктивное логическое программирование и различные типы нейронных сетей;
b) результат объединения инженерно-технических знаний (например, декларативных или процедурных) с процессом логического вывода. Примеры форм инженерных знаний человека включают предложения Хорна (например, используемые в языке программирования Prolog), разновидности логики описания (например, используемые в языке веб-онтологий OWL и OWL2) и программирование набора ответов.
Примечания
1 Индуктивное логическое программирование - это форма МО символьных структур, в которой логическая программа автоматически модифицируется для удовлетворения заданным целевым условиям.
2 Программирование набора ответов - это форма логического программирования, в которой используется алгоритм решения набора ответов для построения символической модели ИИ, в которой все переменные заменены литералами.
Данные используются для обучения и калибровки модели ИИ наряду с человеческим опытом, а также для верификации того, что результаты функционирования и производительность системы ИИ соответствуют ожиданиям заинтересованных сторон. Оценка воздействия обработки ПДн на права и свободы субъекта данных (Data Processing Impact Assessment, DPIA) может быть выполнена для решения таких вопросов, как соблюдение требований к защите персональных данных в полученных результатах. Модель ИИ также может быть оценена на наличие других потенциальных проблем (таких как предвзятость, справедливость, другие этические проблемы) и предпринятых корректирующих действий.
На стадии построения следует оценить модель ИИ и убедиться, что она соответствует требованиям, установленным на предыдущих стадиях (таких, как формирование деловых требований, планирование работы с данными, комплектование наборов данных). Аналогичным образом результаты и эффективность модели ИИ следует оценивать в сравнении с ожиданиями соответствующих заинтересованных сторон, включая их способность использовать модель на практике. В некоторых случаях для систем ИИ, связанных с общественной безопасностью, может потребоваться независимая оценка безопасности (Independent Safety Assessment, ISA).
6.8 Стадия 7. Развертывание системы ИИ
Развертывание системы ИИ включает в себя "запуск" системы в целевой среде. Данная стадия не обязательно представляет собой простое включение системы ИИ; вместо этого она может включать ряд процессов, гарантирующих, что система работает должным образом. На этой стадии необходимо проверить потоки данных, чтобы убедиться, что они работают так, как предполагалось, особенно если целевая среда включает новые системы ИИ или соединения.
6.9 Стадия 8. Эксплуатация системы ИИ
Эксплуатация системы ИИ включает использование модели ИИ, генерирующей выходные данные из входных (или произведенных) данных, с возможностью дополнительного обучения на обогащенных данных (при необходимости).
Входные данные для дополнительного обучения моделей ИИ, находящихся в составе эксплуатируемой системы, должны:
- соответствовать всем требованиям к данным, согласованным на стадиях 4 и 5;
- иметь возможность быть использованными при дополнительном обогащении набора данных, который использовался для обучения модели на стадии 6, без возможности изменения структурной модели данных этого набора.
Дополнительные обогащенные данные для обучения моделей ИИ должны иметь возможность использования при дополнительном обучении моделей на стадии эксплуатации системы ИИ.
Выходные данные также могут быть обработаны несколькими способами, такими как:
- прием или извлечение данных;
- псевдонимизация или анонимизация данных;
- манипулирование данными или комбинирование данных;
- анализ данных;
- визуализация данных;
- передача данных;
- хранение данных.
Эта стадия может включать авторизацию доступа к данным, аутентификацию и предполагаемое использование.
Произведенные в ходе эксплуатации данные должны постоянно контролироваться, чтобы гарантировать, что качество данных поддерживается, а система ИИ не используется для целей, которые изначально не предполагались.
Проведение непрерывной верификации и валидации системы ИИ может снизить риски, но не всегда является возможным или целесообразным. В случае, когда это возможно и целесообразно, рекомендуется постоянно верифицировать и валидировать систему ИИ, чтобы удовлетворить требования бизнеса и ожидания заинтересованных сторон. Система ИИ может улучшаться по мере необходимости и использовать новые обучающие данные для смягчения снижения производительности. Управление новыми обучающими данными должно осуществляться на стадии 4 (комплектование наборов данных) и стадии 5 (подготовка наборов данных).
6.10 Стадия 9. Вывод данных из эксплуатации
Вывод данных из эксплуатации предусматривает решение судьбы данных, которые больше не используются системой ИИ (например, их безопасное удаление, архивирование, перепрофилирование). Категории данных должны быть определены, а некоторые категории данных должны быть сохранены для целей аудита (например, данные журналирования для подтверждения соответствия).
Эксплуатация модели ИИ может быть также прекращена, если в ней остались элементы обучающих данных, или из-за других требований (например, безопасности, приватности и конфиденциальности). Требования лицензирования данных могут предполагать удаление данных определенного уровня. Кроме того, может потребоваться удаление ПДн, например, в соответствии с требованиями законодательства или условиями договора.
6.11 Стадия 10. Вывод системы ИИ из эксплуатации
Вывод системы ИИ из эксплуатации включает в себя прекращение обработки данных и утилизацию компонентов системы, на которые не распространяется вывод данных из эксплуатации, таких как компоненты целевой среды. Данные, не относящиеся к модели ИИ, такие как системные журналы, можно сохранить для дальнейшего изучения или безопасно удалить.